Системный Блокъ

Помедленнее, я записываю!

Научить машину распознаванию речи можно либо с помощью сравнения с эталоном, либо методом контекстно-зависимой классификации («узнавания» отдельных мелких элементов, которые складываются в полноценные слова).

В первом случае в память устройства закладывается некоторый объем исходных примеров. Во втором на помощь приходят методы дискриминантного анализа и марковские модели (оба метода основаны на статистике), а также нейронные сети.

Вариант 1: действуем по шаблону

Вопрос системы: «На какой месяц вы планируете поездку?»

Ответ человека: «Август».

В этом случае анализируется ответ, соотносящийся с ключевым словом («месяц»). База соответствий этому слову включает двенадцать наименований; система ожидает, что человек выберет нужное и произнесет его в именительном падеже. Если вместо «Август» пользователь ответит «В августе», могут возникнуть затруднения.

Вопрос системы: «В какое время вы хотите записаться к терапевту?»

Ответ человека: «14:25».

В систему, работающую со встроенными грамматиками, уже заложено большинство необходимых значений, поэтому она работает с семантикой и темой ответа. Обратите внимание, что в этом примере пользователь не называет «ровное» время — и, следовательно, ожидает, что устройство не запишет его на два или половину третьего.

Вариант 2: ищем ключевые слова и взаимосвязи

Вопрос системы: «Что вас интересует?»

Ответ человека: «Как подать документы на химический факультет МГУ?»

В подобном запросе будут важны «как» (а не «когда»), «подать» (а не «забрать»), «химический» (а не «физический») и «МГУ» (а не «МГИМО»). Система должна будет оценить все слова запроса или команды и учесть их взаимосвязь.

Находка для шпиона

Для распознавания устной речи необязательно говорить что-то вслух: одна из новых разработок — интерфейсы безмолвного доступа (SSI, silent speech interfaces), системы, распознающие речевые сигналы на самой ранней стадии артикулирования. Движения лицевых мышц несут информацию о том, что именно мы произносим.

Весной 2018 года модель под названием AlterEgo представили в Массачусетском технологическом институте (MIT). В серии экспериментов с десятью добровольцами удалось добиться 92% распознаваемости. Ученые обещают, что скоро этот показатель вырастет еще на несколько пунктов.

Говорить о том, что машина сможет заменить человека в создании и понимании действительно сложных текстов, еще очень рано — но она уже совершенно точно готова выслушать тех, кто в этом нуждается.

Наталия Крякина