🚀 OpenAI представила GPT-4o - новую версию c поддержкой голоса и видео



GPT-4o теперь доступен всем пользователям, включая бесплатных. При этом модель работает быстрее и эффективнее предыдущей версии. Отличия платной версии заключаются преимущественно в более высоких лимитах.



📌 GPT-4o получил новые возможности работы с речью, текстом и изображениями

• Модель понимает и генерирует речь в реальном времени, улавливая эмоции и интонации

• Может анализировать изображения, схемы, графики, помогая решать разные задачи

• Доступен через API для создания приложений разработчиками



📌 Команда OpenAI провела несколько впечатляющих демо:

• GPT-4o в реальном времени успокаивал ведущего и рассказывал сказку разными голосами

• Помог решить математическую задачу, анализируя рукописные уравнения

• Проанализировал код, график и объяснил их работу

• Распознал эмоцию человека по фотографии



🔧 Технические подробности о GPT-4o:

• Единая end-to-end модель, обученная на тексте, речи и изображениях

• Отвечает на аудио-запросы за 232-320 мс, сравнимо со скоростью человека

• По производительности на английском и коде не уступает GPT-4, но в 2 раза быстрее и на 50% дешевле

• Значительно улучшена работа с неанглийскими языками и пониманием речи

• Новый токенизатор уменьшает количество токенов до 4.4 раз для некоторых языков



В ближайшие недели OpenAI будет постепенно открывать доступ к новым возможностям GPT-4o для всех желающих.