Нейросеть создает разнообразные и реалистичные видеоролики на основе естественных аудиосэмплов из самых разных семантических классов. По времени каждый сегмент входного аудио семантически связан с соответствующим сегментом видео.



Разработчики используют существующую модель генерации видео по тексту и предварительно обученную модель аудиокодировщика. Предлагаемый метод основан на облегченной сети адаптеров, которая учится сопоставлять аудиопредставление с входным представлением, ожидаемым моделью преобразования текста в видео. Таким образом, он также позволяет генерировать видео на основе не только текста, но и аудио.



Код нейросети на GitHub.