Нейроскептик

Появилось интересное open-source приложение Wunjo AI v1.5 от российского разработчика по синтезированию речи, клонированию голоса, замене лица по фото, удаление объектов в видео.

Можно клонировать голоса из предоставленных аудиофайлов или записывать свой голос непосредственно в приложении в реальном времени.

Есть функция по замене лица на видео на основе одной фотографии.

Для удаления объектов с видео или ретуши лица, необходимо нарисовать маску, и создать отдельные маски для нужных кадров. Так как объекты чаще всего двигаются в кадре, маску нужно смещать.

Модели нейронок используемые в приложение обучены на популярных и открытых датасетах, таких, как RusLan.

Возможность оживления фотографий и изображений, которая позволяет брать фрагменты видео с людьми и анимировать движение их губ в соответствии с аудиозаписью создана с помощью нейросети Stable Diffusion. Для создания эмоций была взята библиотека wav2lip.

Проект можно найти на GitHub, больше информации в документации.