🔥 SimVLM: Simple Visual Language Model Pre-training with Weak Supervision (by Google Brain)



Гугл продолжает радовать меня статьями на стыке CV и NLP. На этот раз они придумали ОДНУ МОДЕЛЬ ДЛЯ ВСЕГО (а заодно получили 6 SOTA результатов).



SimVLM умеет:

- Image Captioning

- Image Classification

- Question Answering

- Multimodal Translation

- Visual Reasoning



Если коротко, то это авторегрессионная модель наподобие GPT, которая обучалась дописывать текстовые описания картинок на основе визуальных токенов.



Например, если загрузить в модель картинку панды и попросить дополнить текст «это животное обитает …», то SimVLM допишет «в центральном Китае».



В следующем посте расскажу об этой модели более подробно 🧐



Статья