«Киношная» нейросеть от Meta может не только генерировать видео, но и озвучивать их



Модель MovieGen способна по текстовой подсказке генерировать реалистичные и детализированные клипы в разрешении 1080p продолжительностью до 16 секунд.



MovieGen может создавать не только видеоконтент, но и аудиоряд к нему, а также позволяет редактировать готовое видео — также по промпту. У пользователя также есть возможность редактировать и лишь небольшие детали в клипе, а не всю картинку целиком. 



Еще одна фишка MovieGen в том, что при создании видео она может работать с пользовательским фото в качестве референса. То есть нейросеть способна интегрировать в видео персонажа, созданного на основе фотографии. 



Разработчики называют модель своей самой большой моделью для генерации видео. Модель-трансформер обладает 30 млрд параметров. 



За генерацию звукового сопровождения отвечает отдельная нейросеть (MovieGen Audio) на 13 млрд параметров, которая генерирует аудиоконтент в высоком качестве продолжительностью до 45 секунд. Сгенерированная аудиодорожка автоматически синхронизируется с видео. Голос для персонажей сгенерировать нельзя.



Разработчики утверждают, что MovieGen превосходит по качеству видеогенераций таких конкурентов, как Runway Gen-3, LumaLabs и даже еще не вышедшую Sora от OpenAI.



При этом разработчики слегка лукавят, когда говорят о генерации видео в разрешении 1080p. На самом деле MovieGen генерирует клип в меньшем разрешении, а затем апскейлит его. Еще одна хитрость — клипы с максимальной продолжительностью 16 секунд будут обладать достаточно низкой частотой смены кадров, всего 16 fps. Чтобы получать более качественные 24 fps придется ограничиться 10-секундным клипом.



Как это часто бывает с моделями Meta, MovieGen не будет доступен для широкой публики.



*Организация, запрещенная на территории РФ