Сиолошная

Вы наверняка подозревали, что у моделей есть свой свой hub. Ну в смысле место, куда люди загружают обученные нейронки, а другие могут их оттуда скачивать и использовать. Вы же об этом подумали, да? 😑

Так вот, сейчас индустриальный стандарт для опенсорсных моделей - это HuggingFace 🤗 Hub.

В статье HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace предлагается дать ChatGPT возможность обращаться к этим моделям (а их тысячи, и они решают сотни разных задач). То есть саму языковую модель на основе GPT мы не учим рисовать изображения или переводить текст в речь, но мы даём ей возможность использовать внешние инструменты. Похожая по смыслу работа уже упоминалась в канале, но та была куда менее масштабируемой, и требовала ресурсов для запуска нейронок локально.

Итого получаем примерно следующее:

1) ChatGPT получает команду на человеческом языке

2) переводит команду в набор "Задач", которые надо выполнить

3) для каждой задачи среди тысяч доступных моделей выбирается нужная (по предоставленному описанию)

4) ChatGPT читает описание аргументов, которые нужно дать модели, и готовит их

5) после исполнения задачи ChatGPT смотрит на результат и движется по плану дальше, повторяя пункты 3-5

Для лучшего понимания можно рассмотреть скриншот из статьи со следующим запросом: "создай изображение, на котором девочка читает книгу, а ее поза такая же, как у мальчика на изображении <такое то>. А после опиши новое изображение своим голосом".

Модель для такого запроса выделяет целых 6 задач (см. в красных рамках на изображении), и успешно справляется с их последовательным выполнением.

Код в репозитории с очень занятным названием "Джарвис": https://github.com/microsoft/JARVIS. Наверное, это отсылка к ИИ-ассистенту из фильма "Железный Человек" :) (я бы точно так же назвал, 💯)