DLStories

🔥 SimVLM: Simple Visual Language Model Pre-training with Weak Supervision (by Google Brain)

Гугл продолжает радовать меня статьями на стыке CV и NLP. На этот раз они придумали ОДНУ МОДЕЛЬ ДЛЯ ВСЕГО (а заодно получили 6 SOTA результатов).

SimVLM умеет:

- Image Captioning

- Image Classification

- Question Answering

- Multimodal Translation

- Visual Reasoning

Если коротко, то это авторегрессионная модель наподобие GPT, которая обучалась дописывать текстовые описания картинок на основе визуальных токенов.

Например, если загрузить в модель картинку панды и попросить дополнить текст «это животное обитает …», то SimVLM допишет «в центральном Китае».

В следующем посте расскажу об этой модели более подробно 🧐

Статья