#news #video #models



CogVideo — генерируем видео по тексту



🇨🇳 Китайские коллеги из Tsinghua University выложили веса модели CogVideo.



〰️ Что это?



Это модель, которая позволяет сгенерировать уже не одну статическую картинку, а последовательность кадров, из которых можно сделать видео.



〰️ Что внутри?



Внутри трансформерная модель, размером в 9B параметров. Генерация происходит их предыдущей разработкой — моделью CogView2, которая рисует картинки по тексту. При обучении придумали добавлять к входной последовательности частотный frame-rate токен. Картинки для обучения сэмплирутся из видео с этой же частотой.



👉 Как и остальные исследователи, авторы беспокоятся о генерации фейков, но модель в открытый доступ все же выложили. Какие молодцы.



GitHub, Статья, Демо