DLStories

Автоматическая генерация речи стала популярным топиком в мире ИИ. Появились много стартапов, старающихся сделать искусственную речь более "естественной". Среди них — WellSaid Labs, Resemble.ai, VocaliD и другие.

#ai_inside

В этом посте мы расскажем, каких успехов добились эти компании, где используются их наработки и какие проблемы и препятствия остаются на пути развития автоматической генерации речи.

Примеры звучания

Для начала: только послушайте эти 🎧🎧 записи! Они полностью сгенерированы с помощью нейросетей, при этом звучат как реальные люди. Это вам не "бездушные голоса" Сири или Алексы. На них правильно расставлены паузы, интонация, правильное произношение и даже "натуральные эффекты" в виде дыхания и кашля. Это — новая эра в автоматической генерации речи.

Как это работает

Раньше (когда создавались Сири и Алекса) автоматическая речь формировалась из фрагментов записей голосов реальных людей. Предложение получалось путем слепления отдельных слов, и речь звучала неуклюже, было понятно, что с вами говорит робот.

Современные технологии основаны на нейронных сетях. У разных компаний архитектуры сетей отличаются. Например, у WellSaid Labs для генерации аудио используются две нейронки: одна по входящему тексту конструирует "личность" спикера: его тембр голоса, интонацию и акцент; вторая добавляет к аудио эффекты: дыхание, кашель и т.д.

Для чего это используют:

Недавно дипфейки с видео и голосом использовали в основном мошенники, чтобы вымогать деньги. Вот и вот примеры таких афер.

Но эту технологию можно использовать и во благо, и очень по-разному:

- корпоративные объявления и тренинги. Крупные компании проводят много тренингов и распространяют новости в виде видео. Аудио к ним записывают живые люди, ведь важно, чтобы голос звучал естественно. Тренинги и новости постоянно обновляются, на такие записи уходит много денег и времени. Автоматическая генерация естественно звучащих аудиодорожек решает эту проблему.

Кроме того, ИИ для генерации аудио обладает шикарным свойством: он позволяет легко менять любую характеристику аудио: акцент, тембр, эмоцию и т.д. Это позволяет адаптировать аудио под того, кто это аудио слушает. Компания может сгенерировать несколько разных аудио с разными акцентами для разных подразделений из разных стран.

- реклама и колл-центры. Тут очень помогает еще один плюс автоматической генерации аудио: возможность легко изменять элементы текста. Сеть кафе может сделать аудиорекламу в разных частях города и приглашать посетителей в разные кафе в зависимости от того, где реклама проигрывается. Колл-центры могут сделать персональные обращения к каждому человеку. Возможность адаптировать аудио под разные акценты тоже является плюсом: кафе могут рекламироваться в разных странах и реклама будет звучать на местном диалекте.

- аудио для компьютерных игр и фильмов. Здесь, как нигде боле, важна эмоциональность голоса. ИИ это тоже умеет! Посмотрите это видео: аудио в нем сгенерировано ИИ.

Проблемы и препятствия

Как и у любой другой новой технологии, у генерации речи с помощью ИИ есть недостатки. Один из них — не очень качественная генерация длинных предложений. Сейчас на уровне "не отличишь от человека" нейросети умеют выдавать только короткие фразы (которых, в принципе, достаточно для целей, описанных выше). Это стандартная проблема нейросетей: им легче улавливать короткие зависимости.

Вторая проблема имеет социальный характер. Это права на записи голосов живых людей и угроза потери работы для актеров, которые занимаются озвучкой. Последняя проблема не нова для мира (всопмните промышленную революцию ). А вот права на голоса — важный нюанс. Для обучения нейросетей требуется множество голосов реальных людей, на которые распространяются авторские права. Кроме того, когда нейросеть генерирует аудио, нельзя с 100% уверенностью сказать, что голос — новый, и не похож на чей-то из обучающей выборки. Это порождает юридические вопросы, на которые пока нет однозначных ответов.

Вот такие дела. Как вы относитесь к этой технологии? Какие чувства, мысли вызывает? 🙃

Материал основан на этой статье.