Особенности модели



1. Масштаб и мощь:

Hunyuan Video — крупнейшая модель с открытым исходным кодом с 13 миллиардами параметров, что позволяет создавать реалистичные, плавные и слаженные видео.



2. Инновационная архитектура:

Вместо популярных решений вроде T5 или CLIP-L, модель базируется на предварительно обученной мультимодальной языковой модели (MLLM), использующей каузальное внимание. Это ключевое отличие обеспечивает более гибкую работу с текстовыми запросами.



3. Режимы работы:

✔️ Text-to-Video: Генерация видео на основе текстового описания.

✔️ Video-to-Video: Преобразование существующего видео в новый стиль.

✔️ Image-to-Video (в разработке): Возможность создания видео на основе одного изображения.



4. Гибкая настройка:

Модель адаптируется под разные разрешения и длину видео, что делает её доступной даже для систем с 8Гб VRAM.



📌 Технические параметры и производительность:



Скорость:

За счёт большого числа параметров генерация 85 кадров (размером 640x480, 30 шагов) занимает около 6 минут на RTX 4090.



Рекомендуемые настройки:

Для видео в качестве 1280x720 пикселей (129 кадров, 50 шагов) потребуется не менее 60 Гб VRAM и поддержка CUDA. Возможно подключение нескольких видеокарт одновременно.