Imagen Video



У гугла получилось адаптировать Imagen для генерации видео!



Авторам пришлось немного переделать UNet и подмешать 14М пар text-video к датасету LAION, причём картинки воспринимаются моделью тоже как видео, но длиной в 1 кадр. В качестве энкодера используется замороженный T5-XXL.



В отличие от предыдущих работ, здесь даже получилось сгенерировать анимированный текст.



Статья, блог