Что известно о Sora — модели OpenAI для генерации реалистичных видео



В феврале OpenAI впервые продемонстрировала Sora для генерации гиперреалистичных видео на основе текста. Компания показала короткие и качественные видеоролики, которые (по словам OpenAI) Sora создала за минуты. В них дрон летает над улицами Токио, мамонты ходят по заснеженному лугу, а пушистый монстр смотрит на тающую свечу.



OpenAI пока сделала инструмент доступным только для «избранных» художников, дизайнеров и режиссеров. Но видео из него уже разлетелись по всей сети и произвели фурор.



Sora может сгенерировать ролик длительностью до минуты. Это необязательно абсолютно новое видео — можно дополнить уже существующую запись или анимировать статическое изображение. Модель может создавать несколько связанных кадров и выдерживать общий стиль для всех, «снимать» сцены с разными персонажами, отображать эмоции, создавать детализированный бэкграунд. Разработчики утверждают, что Sora понимает не только саму текстовую подсказку, но и как объекты существуют в физическом мире.



В основе лежит диффузионная модель. Она начинает генерацию с пиксельного паттерна (как белый шум в телевизоре) и постепенно его преобразует. Sora также использует пространственно-временные патчи, которые позволяют одновременно анализировать изображение на каждом кадре (пространственную информацию) и изменения в нем со временем (временную информацию). Патчи — это, по сути, аналог токенов в LLM. Подробности можно почитать здесь.



На каких именно данных обучалась Sora, неизвестно, но OpenAI точно использовала контент с Shutterstock.



Технологию бурно обсуждали в сети. Одни пользователи считают, что модель знает законы физики и приближает нас к AGI, другие в этом сомневаются. А третьи — переживают за свою работу в креативной индустрии. В Китае выход Sora и вовсе вызвал «приступ тревоги». Местные эксперты увидели, насколько велик разрыв между китайскими и американскими ИИ-технологиями.



В любом случае, с причинно-следственными связями и изменениями физических свойств объектов у Sora пока проблемы. Например, откушенное яблоко может остаться в руке человека нетронутым, а баскетбольный мяч иногда пролетает сквозь кольцо. А еще нейросеть может перепутать право и лево, не всегда справляется со сложными движениями и в целом допускает ошибки, как и любой ИИ.



Однако пользователи пишут, что уже сейчас Sora может делать то, что не под силу ни одной из других крупных видеомоделей ИИ — Runway's Gen-2, Pika Labs Pika 1.0 или StabilityAI's Stable Video Diffusion 1.1. А недавний опрос показал: пользователи в США с трудом отличают видео, записанные людьми, от тех, что созданы инструментом преобразования текста в видео Sora

В недавнем интервью главный технический директор OpenAI Мира Мурати сказала, что компания откроет Sora для всех уже в этом году, в течение нескольких месяцев. К этому моменту OpenAI хочет сделать инструмент таким же доступным по цене, как DALL-E. В планах — добавить в Sora звук, чтобы сцены получались еще более реалистичными. Компания также хочет дать пользователям возможность редактировать контент.



После официального выпуска Sora, скорее всего, не сможет создавать видео с общественными деятелями. Плюс, ролики снабдят водяными знаками. Но от новой эры дезинформации это нас вряд ли спасет.