Neurogen

Voicebox — генеративная модель от Meta, которая может помочь с редактированием аудио, сэмплированием и переноса стиля.

Voicebox может выполнять различные задачи по генерации речи, такие как редактирование, выборка и стилизация, не требуя специального обучения. Voicebox может создавать высококачественные аудиоклипы и редактировать предварительно записанный звук, удаляя шумы и исправляя ошибки. Voicebox также многоязычен и может воспроизводить речь на шести языках, сохраняя стиль и эмоцию оригинального голоса.

Voicebox основан на технологии генеративного ИИ, которая позволяет анализировать и синтезировать речь с помощью нейронных сетей. Сервис может решать множество задач, в том числе:

Синтез текста в речь в контексте: Voicebox может преобразовывать текст в речь, используя стиль звука из образца длиной всего две секунды.

Редактирование речи и шумоподавление: Voicebox может воссоздавать часть речи, прерванную шумом, или заменять опечатки без необходимости перезаписывать всю речь.

Межъязыковая передача стиля: Voicebox может воспроизводить текст на любом из шести языков, даже если образец речи и текст на разных языках. Эта возможность может быть использована для естественного и аутентичного общения между людьми, которые не говорят на одном языке.

Разнообразная выборка речи: Voicebox может генерировать речь, которая более репрезентативна для того, как люди говорят в реальном мире.

Модель поддерживает 6 языков. Русского нет. Кода тоже нет. Увы.