👉 BLIP



Тут недавно вышло видео Яника про эдакий шустрый CLIP с 14М и 129М параметрами (VIT-B/VIT-L), который может:



1️⃣ Подписывать изображения



2️⃣ Отвечать что на картинке



3️⃣ Вытаскивать мультимодальную инфу



4️⃣ Сопоставлять и давать оценку парам текст-картинка



Попробовать сея чудо можно в онлайне на Replicate, в Hugging Face Spaces или Colab Notebook



GitHub

Видео Яника