VideoPoet: языковая модель для генерации и редактирования видео БЕЗ диффузий (by Google)



Да, это возможно! Рано выкинули Dall·E-1 на помойку истории, авторегрессионная генерация всё ещё на коне! Гугл представил модель, которая умеет создавать картинки, видео и аудио + редактировать всё это по тексту.



VideoPoet — это префиксная языковая модель (8B) с общим словарём для всех модальностей, при этом видео-ролики кодируются всего лишь в 1280 токенов. А промпт энкодится при помощи T5-XL и добавляется через линейную проекцию в префикс (просто безумие!). Дополнительно тут есть модуль super-resolution, ведь изначально видео генерируется в разрешении 128x128.



Статья, блог