
Видели новую презентацию от OpenAI? Оказывается, там показали далеко не все.
Так как новая модель мультимодальная, она может не просто понимать интонацию, отвечать разными голосами или петь, как показали в презентации. Но она еще может генерировать звуки, картинки и даже 3D-модели по запросу.
И вроде бы, генерация картинок была и раньше, но вот, как она была устроена: есть модель dalle, которая по текстовому запросу генерирует картинку, и есть модель gpt, которая общается текстом. Если мы просим gpt что-то нарисовать, то она формирует запрос для dalle, которая уже по этому запросу создает изображение.
Если мы общаемся с gpt голосом, то звук сначала идет в модель whisper, которая преобразует его в текст, а уже текст передается в gpt. На выходе ответ gpt тоже нужно преобразовать обратно в речь. И того, тут задействованы 3 разные модели.
Теперь это все может делать одна только gpt. А это значит, что она будет быстрее отвечать и гораздо лучше понимать изображения.
Например, она сможет рисовать одного и того же персонажа в разных ситуациях (что очень сложно для других нейросетей)
А еще, она сможет редактировать изображения или даже изображать на них полноценный текст и сложные узоры. (картинки приложил к посту)
Так как новая модель мультимодальная, она может не просто понимать интонацию, отвечать разными голосами или петь, как показали в презентации. Но она еще может генерировать звуки, картинки и даже 3D-модели по запросу.
И вроде бы, генерация картинок была и раньше, но вот, как она была устроена: есть модель dalle, которая по текстовому запросу генерирует картинку, и есть модель gpt, которая общается текстом. Если мы просим gpt что-то нарисовать, то она формирует запрос для dalle, которая уже по этому запросу создает изображение.
Если мы общаемся с gpt голосом, то звук сначала идет в модель whisper, которая преобразует его в текст, а уже текст передается в gpt. На выходе ответ gpt тоже нужно преобразовать обратно в речь. И того, тут задействованы 3 разные модели.
Теперь это все может делать одна только gpt. А это значит, что она будет быстрее отвечать и гораздо лучше понимать изображения.
Например, она сможет рисовать одного и того же персонажа в разных ситуациях (что очень сложно для других нейросетей)
А еще, она сможет редактировать изображения или даже изображать на них полноценный текст и сложные узоры. (картинки приложил к посту)