
⚡️⚡️⚡️VideoFusion
Вышла первая open source диффузионная модель для синтеза видео по текстовому описанию на 1.7B параметров (CVPR 2023).
Авторы предлагают рассматривать диффузионный процесс как некоторый декомпозируемый процесс: базовый шум (base), общий для всех кадров, и шум остаточный (residual), который изменяется во времени. Две модели учатся совместно и приводят к результату, по качеству превосходящему существующие GAN-based и диффузионные модели синтеза видео.
Статья
HuggingFace
Вышла первая open source диффузионная модель для синтеза видео по текстовому описанию на 1.7B параметров (CVPR 2023).
Авторы предлагают рассматривать диффузионный процесс как некоторый декомпозируемый процесс: базовый шум (base), общий для всех кадров, и шум остаточный (residual), который изменяется во времени. Две модели учатся совместно и приводят к результату, по качеству превосходящему существующие GAN-based и диффузионные модели синтеза видео.
Статья
HuggingFace