
Visual Instruction Tuning: как нагенерить визуальные диалоги не обладая зрением (by Microsoft)
Это какое-то читерство! Совсем не обязательно видеть картинки, чтобы генерировать по ним сложные инструктивные диалоги — достаточно подать в ChatGPT их кэпшны и попросить позадавать вопросы в формате чатбота.
«Сделай вид, что ты видишь картинку и можешь ответить на все вопросы»
Потом обучаем на этих синтетических диалогах FROMAGe и готово! SOTA на нескольких бенчмарках!
Статья, GitHub, датасет, демо
Это какое-то читерство! Совсем не обязательно видеть картинки, чтобы генерировать по ним сложные инструктивные диалоги — достаточно подать в ChatGPT их кэпшны и попросить позадавать вопросы в формате чатбота.
«Сделай вид, что ты видишь картинку и можешь ответить на все вопросы»
Потом обучаем на этих синтетических диалогах FROMAGe и готово! SOTA на нескольких бенчмарках!
Статья, GitHub, датасет, демо