Visual Instruction Tuning: как нагенерить визуальные диалоги не обладая зрением (by Microsoft)



Это какое-то читерство! Совсем не обязательно видеть картинки, чтобы генерировать по ним сложные инструктивные диалоги — достаточно подать в ChatGPT их кэпшны и попросить позадавать вопросы в формате чатбота.



«Сделай вид, что ты видишь картинку и можешь ответить на все вопросы»



Потом обучаем на этих синтетических диалогах FROMAGe и готово! SOTA на нескольких бенчмарках!



Статья, GitHub, датасет, демо