Юрий Курилов | Нейросети

В интернете появилась первая OpenSource модель, работающая по принципу text2video. Я имею ввиду настоящий text2video, а не попытка сделать какое-то абстрактное видео их генераций картинки. Или когда она реальное видео преобразовывает в видео в другом стиле.

Пока результаты выдает на уровне модели mini dalle, с которой я впервые столкнулся в июне в прошлом году. Т.е. выдает результат похожий на запрос, но с качеством пока далеким до настоящего видео.

Потестировать можно попытаться по ссылке ниже:

https://huggingface.co/spaces/damo-vilab/modelscope-text-to-video-synthesis?ref=futuretools.io

Но так как сервер перегружен, то может уйти много времени, прежде чем вы получите видео на свой запрос.

Я сделал копию пространства и подключил платную видеокарту, чтобы не ждать очереди и нагенерил серию видео со своими запросами.

На видеокарте A10G видео на 2 секунды создается в течение 25 секунд. Что довольно быстро. Но, как видите, качество оставлять пока желать лучшего. Плюс постоянно вылазит водяной знак Shutterstock, на видеороликах которого тренировалась модель.

Однако, если проводить пареллели с картинками, есть шансы увидеть значительно улучшения в ближайшие полгода. Есть лишь первые шаги и для первых шагов очень даже неплохо! 😊👍