Imagen Video
У гугла получилось адаптировать Imagen для генерации видео!
Авторам пришлось немного переделать UNet и подмешать 14М пар text-video к датасету LAION, причём картинки воспринимаются моделью тоже как видео, но длиной в 1 кадр. В качестве энкодера используется замороженный T5-XXL.
В отличие от предыдущих работ, здесь даже получилось сгенерировать анимированный текст.
Статья, блог
У гугла получилось адаптировать Imagen для генерации видео!
Авторам пришлось немного переделать UNet и подмешать 14М пар text-video к датасету LAION, причём картинки воспринимаются моделью тоже как видео, но длиной в 1 кадр. В качестве энкодера используется замороженный T5-XXL.
В отличие от предыдущих работ, здесь даже получилось сгенерировать анимированный текст.
Статья, блог