
🔥 SimVLM: Simple Visual Language Model Pre-training with Weak Supervision (by Google Brain)
Гугл продолжает радовать меня статьями на стыке CV и NLP. На этот раз они придумали ОДНУ МОДЕЛЬ ДЛЯ ВСЕГО (а заодно получили 6 SOTA результатов).
SimVLM умеет:
- Image Captioning
- Image Classification
- Question Answering
- Multimodal Translation
- Visual Reasoning
Если коротко, то это авторегрессионная модель наподобие GPT, которая обучалась дописывать текстовые описания картинок на основе визуальных токенов.
Например, если загрузить в модель картинку панды и попросить дополнить текст «это животное обитает …», то SimVLM допишет «в центральном Китае».
В следующем посте расскажу об этой модели более подробно 🧐
Статья
Гугл продолжает радовать меня статьями на стыке CV и NLP. На этот раз они придумали ОДНУ МОДЕЛЬ ДЛЯ ВСЕГО (а заодно получили 6 SOTA результатов).
SimVLM умеет:
- Image Captioning
- Image Classification
- Question Answering
- Multimodal Translation
- Visual Reasoning
Если коротко, то это авторегрессионная модель наподобие GPT, которая обучалась дописывать текстовые описания картинок на основе визуальных токенов.
Например, если загрузить в модель картинку панды и попросить дополнить текст «это животное обитает …», то SimVLM допишет «в центральном Китае».
В следующем посте расскажу об этой модели более подробно 🧐
Статья