Вышел материал на 164 страницы от сотрудников Microsoft, который объясняет, как работает GPT-4v и приводит конкретные кейсы.



GPT-4v это всё такая же генеративная модель, но которую научили распознавать изображения — перекладывать их в векторное поле и работать с ними точно также, как с текстом.

Вышло достаточно забавно. Задачи, которые раньше традиционно решались компьютерным зрением — вообще другое направление ИИ, которое никак не связано с генеративными моделями, теперь смогут делать GPT.



Мы разобрали весь документ с моим другом на кейсы и небольшую часть теории, что произошло на самом деле и опубликовали на Хабре: https://habr.com/ru/companies/orbita/articles/765156/



Рекомендую к прочтению в двух случаях:

- вам интересно все, что происходит с ИИ;

- вы в поиске хороших идей, как запустить стартап на генеративках. GPT-4v только на бумаге, но сани готовят летом.



Оригинальный большой материал на английском языке по ссылке: https://arxiv.org/pdf/2309.17421.pdf