
👉 BLIP
Тут недавно вышло видео Яника про эдакий шустрый CLIP с 14М и 129М параметрами (VIT-B/VIT-L), который может:
1️⃣ Подписывать изображения
2️⃣ Отвечать что на картинке
3️⃣ Вытаскивать мультимодальную инфу
4️⃣ Сопоставлять и давать оценку парам текст-картинка
Попробовать сея чудо можно в онлайне на Replicate, в Hugging Face Spaces или Colab Notebook
GitHub
Видео Яника
Тут недавно вышло видео Яника про эдакий шустрый CLIP с 14М и 129М параметрами (VIT-B/VIT-L), который может:
1️⃣ Подписывать изображения
2️⃣ Отвечать что на картинке
3️⃣ Вытаскивать мультимодальную инфу
4️⃣ Сопоставлять и давать оценку парам текст-картинка
Попробовать сея чудо можно в онлайне на Replicate, в Hugging Face Spaces или Colab Notebook
GitHub
Видео Яника