Моделей, которые на основании текста генерят картинки, сейчас много.

А что по поводу видео?



Nvidia рассказала несколько дней назад о новой ИИ-модели для превращения текста в видео под названием VideoLDM. Эту модель производитель видеокарт разработал вместе с Корнельским университетом. Модель способна генерировать видео в разрешении до 2048 × 1280 пикселей с частотой 24 FPS и длительностью 4,7 секунд на основе текстового описания. В основе VideoLDM заложены наработки нейросети Stable Diffusion.



Видео выше сгенерировано по запросу: "A teddy bear is playing the electric guitar, high definition, 4k." ("Плюшевый мишка играет на электрогитаре, высокое разрешение, 4k")