Видели новую презентацию от OpenAI? Оказывается, там показали далеко не все.



Так как новая модель мультимодальная, она может не просто понимать интонацию, отвечать разными голосами или петь, как показали в презентации. Но она еще может генерировать звуки, картинки и даже 3D-модели по запросу.



И вроде бы, генерация картинок была и раньше, но вот, как она была устроена: есть модель dalle, которая по текстовому запросу генерирует картинку, и есть модель gpt, которая общается текстом. Если мы просим gpt что-то нарисовать, то она формирует запрос для dalle, которая уже по этому запросу создает изображение.



Если мы общаемся с gpt голосом, то звук сначала идет в модель whisper, которая преобразует его в текст, а уже текст передается в gpt. На выходе ответ gpt тоже нужно преобразовать обратно в речь. И того, тут задействованы 3 разные модели.



Теперь это все может делать одна только gpt. А это значит, что она будет быстрее отвечать и гораздо лучше понимать изображения.

Например, она сможет рисовать одного и того же персонажа в разных ситуациях (что очень сложно для других нейросетей)



А еще, она сможет редактировать изображения или даже изображать на них полноценный текст и сложные узоры. (картинки приложил к посту)