Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models



Работа от команды исследователей Microsoft, предлагающая объединить ChatGPT и множество моделей, работающих с другой модальностью - изображениями.



Под капотом доступно более 15 разных моделей и задач ("тулов", tools), которые позволяют пользователю взаимодействовать с ChatGPT путем:

1) отправки и получения не только текстовых сообщений, но и изображений

2) предоставления сложных визуальных вопросов или инструкции по редактированию, которые требуют совместной работы нескольких моделей ИИ с несколькими шагами. Фотошоп на максималках!

3) предоставление обратной связи и запрос исправлений.



Никакого дообучения не производится, всё делается исключительно промптами, то есть текстовыми командами, которые либо были созданы людьми и подаются в ChatGPT, либо были созданы ChatGPT и подаются в другие модели (то есть она ими как бы управляет).



Все картиночные модели качаются и запускаются локально (те же StableDiffusion или ControlNet), а ChatGPT дёргается по API. Таким образом, можно развернуть чатбота на своем компьютере, и получать команды от текстовой нейронки (но вскоре, с первым публичным релизом конкурента ChatGPT, можно будет делать локально всё от начала и до конца).



Самый понятный юзкейс - это заменить дизайнера на правках от заказчика 🙂, хех, когда говорят "ну давайте поиграем со шрифтами и цветами" или "поменяем объект А на Б?"



GitHub проекта: https://github.com/microsoft/visual-chatgpt