AbstractDL

Visual Instruction Tuning: как нагенерить визуальные диалоги не обладая зрением (by Microsoft)

Это какое-то читерство! Совсем не обязательно видеть картинки, чтобы генерировать по ним сложные инструктивные диалоги — достаточно подать в ChatGPT их кэпшны и попросить позадавать вопросы в формате чатбота.

«Сделай вид, что ты видишь картинку и можешь ответить на все вопросы»

Потом обучаем на этих синтетических диалогах FROMAGe и готово! SOTA на нескольких бенчмарках!

Статья, GitHub, датасет, демо