Системный Блокъ

Кто это сказал? Разбирается Google AI

В последние годы речевые и языковые технологии коренным образом меняют наше повседневное взаимодействие с девайсами: мы можем одним голосом включить любимую музыку на умных колонках, узнать погоду на завтра или просто поболтать с голосовым помощником, всегда готовым тебя выслушать. Но несмотря на заметный прогресс в этой сфере, компьютеры до сих пор плохо справляются с задачей понимания естественной речи в случаях разговоров нескольких человек: интервью, конференции, телефонные звонки или записи медицинского приёма пациентов. Для понимания естественной речи необходимо не только распознавать слова, но и определять говорящего их человека.

Недавняя разработка инженеров Google AI использует для решения этой проблемы рекуррентную нейронную сеть, что позволяет обойти ограничения традиционно используемой системы диаризации (Speech Diarization, SD).

Разрабтка Google AI состоит их трех сетей:

1) сеть транскрипции, которая устанавливает соответствие между последовательностями звуков и фонемами;

2) сеть прогнозирования, которая предсказывает следующий тег говорящего с учетом уже определенных ранее тегов;

3) объединенная сеть, которая соединяет выводы двух предыдущих сетей и задает распределение вероятностей в наборе тегов на каждом отрезке времени. Также в архитектуре модели предусмотрен цикл обратной связи, где слова, распознанные ранее, снова отправляются на ввод, что позволяет модели учитывать такие данные как, например, конец вопроса.

https://sysblok.ru/linguistics/kto-jeto-skazal-razbiraetsja-google-ai/