Работал над visual-language saliency и получил неожиданные результаты 😂



P.S. основано на CLIP