Работал над visual-language saliency и получил неожиданные результаты 😂