Паша AI AI AI

«Киношная» нейросеть от Meta может не только генерировать видео, но и озвучивать их

Модель MovieGen способна по текстовой подсказке генерировать реалистичные и детализированные клипы в разрешении 1080p продолжительностью до 16 секунд.

MovieGen может создавать не только видеоконтент, но и аудиоряд к нему, а также позволяет редактировать готовое видео — также по промпту. У пользователя также есть возможность редактировать и лишь небольшие детали в клипе, а не всю картинку целиком.

Еще одна фишка MovieGen в том, что при создании видео она может работать с пользовательским фото в качестве референса. То есть нейросеть способна интегрировать в видео персонажа, созданного на основе фотографии.

Разработчики называют модель своей самой большой моделью для генерации видео. Модель-трансформер обладает 30 млрд параметров.

За генерацию звукового сопровождения отвечает отдельная нейросеть (MovieGen Audio) на 13 млрд параметров, которая генерирует аудиоконтент в высоком качестве продолжительностью до 45 секунд. Сгенерированная аудиодорожка автоматически синхронизируется с видео. Голос для персонажей сгенерировать нельзя.

Разработчики утверждают, что MovieGen превосходит по качеству видеогенераций таких конкурентов, как Runway Gen-3, LumaLabs и даже еще не вышедшую Sora от OpenAI.

При этом разработчики слегка лукавят, когда говорят о генерации видео в разрешении 1080p. На самом деле MovieGen генерирует клип в меньшем разрешении, а затем апскейлит его. Еще одна хитрость — клипы с максимальной продолжительностью 16 секунд будут обладать достаточно низкой частотой смены кадров, всего 16 fps. Чтобы получать более качественные 24 fps придется ограничиться 10-секундным клипом.

Как это часто бывает с моделями Meta, MovieGen не будет доступен для широкой публики.

*Организация, запрещенная на территории РФ