Qwen-VL: вероятно лучшая мультимодальная языковая модель (by Alibaba)
Мало того, что по текстовым метрикам Qwen-7b превосходит LlaMa2-13b, так ещё и картинки теперь понимает!
Правда архитектурно ничего нового тут нет:
По точности она бьёт всё, что было до неё, причём с запасом (см. картинку). Модель обучается в 3 этапа: сначала размораживаются ViT и адаптер, затем размораживается LLM, а в конце тюнится одна только LLM (уже на самых чистых диалогах). Модель получилась мультиязычной, поэтому русский язык она тоже понимает.
Статья, GitHub
Мало того, что по текстовым метрикам Qwen-7b превосходит LlaMa2-13b, так ещё и картинки теперь понимает!
Правда архитектурно ничего нового тут нет:
ViT-G + однослойный Q-former + LLM
Изображения сжимаются в 256 эмбеддингов, которые идут прямо в контекст языковой модели (как во FROMAGe). Дополнительно Qwen-VL умеет в object detection — bbox'ы подаются и генерируются как обычный текст.По точности она бьёт всё, что было до неё, причём с запасом (см. картинку). Модель обучается в 3 этапа: сначала размораживаются ViT и адаптер, затем размораживается LLM, а в конце тюнится одна только LLM (уже на самых чистых диалогах). Модель получилась мультиязычной, поэтому русский язык она тоже понимает.
Статья, GitHub