CLIP: соединяя изображения и текст

#paper



Нейронные сети отлично показывают себя в задачах компьютерного зрения (CV) и обработки естественного языка (NLP). При этом для обработки изображений и текста исторически используются разные архитектуры сетей, заточенные именно под текст или именно под картинки.



Но есть огромный класс задач, где требуется одновременное понимание и изображений, и текстов. Это, например, video captioning (генерация описаний к видео) или OCR (распознавание текста на фото). Здесь возникает потребность изобретать новые архитектуры сетей, способные комбинировать понимание и текста, и видео.



Такие системы называются мультимодальными: способными работать сразу с несколькими модальностями. Модельности — текст, звук, изорбражение, видео и т.д.



Одна из лучших мультимодальных нейросистем на данный момент — CLIP от OpenAI.



Идея ее простая:

Есть датасет картинок и текстовых описаний к ним. CLIP обучает две нейросети обрабатывать картинки и описания отдельно. Далее мы учим сеть так, чтобы вектор (эмбеддинг), выданный сетью на картинку, был похож на вектор, выданный сетью на описание этой картинки, и далек от векторов, выданных сетью на описания других картинок (см. левую часть картинки выше).

Другими словами, сеть обучается по картинке понимать, какое из множества текстовых описаний соответствует именно этой картинке.



Такое вот простое обучение сети позволяет применять CLIP к множеству задач, связанных с картинками и текстом. К примеру, CLIP легко дообучить на решение задачи классификации ImageNet. Для этого нужно превратить классы картинок из слов "птица", "корабль" в текст: "это фотография птицы", "это фотография корабля". Тогда задача классификации решается так: подаем на вход CLIP картинку из ImageNet и все тексты, полученные из классов ImageNet. Текст, вектор которого будет больше всего похож на вектор картинки, и содержит в себе правильный класс (см. правую часть картинки выше).



CLIP показывает отличные результаты на многих задачах CV и NLP. Более того, векторы картинок и текстов у CLIP действительно хорошо выучивают "смысл" картинок и текстов. Лучше, чем другие мультимодальные модели.



Подробнее про этот "смысл" мы расскажем в следующем посте