Градиент обреченный

#news #video #models

CogVideo — генерируем видео по тексту

🇨🇳 Китайские коллеги из Tsinghua University выложили веса модели CogVideo.

〰️ Что это?

Это модель, которая позволяет сгенерировать уже не одну статическую картинку, а последовательность кадров, из которых можно сделать видео.

〰️ Что внутри?

Внутри трансформерная модель, размером в 9B параметров. Генерация происходит их предыдущей разработкой — моделью CogView2, которая рисует картинки по тексту. При обучении придумали добавлять к входной последовательности частотный frame-rate токен. Картинки для обучения сэмплирутся из видео с этой же частотой.

👉 Как и остальные исследователи, авторы беспокоятся о генерации фейков, но модель в открытый доступ все же выложили. Какие молодцы.

GitHub, Статья, Демо