Google Brain представили программу, которая может создавать реалистично выглядящие видео из текста



Imagen Video берет текстовое описание, генерирует 16-кадровое видео с частотой 3 кадра в секунду. Затем система «предсказывает» дополнительные кадры, создавая окончательное видео из 128 кадров с частотой 24 кадра в секунду с разрешением 720p.



🤖Система была обучена на 14 млн пар видео-текст и 60 млн пар изображение-текст, а также на общедоступном наборе данных LAION-400M🤖



🔥Особенностью этой программы является способность к анимации титров, которую другие системы еще не освоили. Пока что это больше похоже на гифки - зацикленные ролики в пару секунд, но у этого есть потенциал как в искусстве, так и, например, в телевидении.



#СверхРазум