Представьте, что вы голосовой помощник. И пытаетесь обработать входящие запросы. А там целая толпа кожанных ублюдков и каждый что-то требует.



Это известная проблема: как понять кто именно что говорит в общем гуле? Мы, люди, например, в таких случаях сосредотачиваем взгляд на конкретном человеке и начинаем буквально читать по губам. А дальше уже мозг синхронизирует нужный аудиопоток с картинкой.



И, естественно, хорошая идея снабдить той же механикой ИИ.

В Гугл с помощью глубокого обучения создали систему, способную четко разделять речь группы на отдельные дорожки и сопостовлять говорящего со сказанным.

Сначала систему обучали на чистых голосах, затем стали подмешивать к ним белый шум, чтобы система научилась его игнорировать. И результат потрясающий. Ниже приложу видео с демонстрацией.



Область применения очень широкая:

- голосовые помощники поймут от кого пришла команда и выполнят ее в соответствующем контексте: например, включит ЕГО музыку и вызовет ЕЙ такси к подруге;

- улучшится качество связи при голосовых звонках из публичных мест;

- улучшится распознавание речи в аппаратах для слабослышащих;

- и, конечно же, станет еще проще следить за всеми нами.



В кратце:

https://www.engadget.com/2018/04/12/google-ai-looking-to-listen-voice-separation/



А это инфа непосредственно из блога гугла:

https://research.googleblog.com/2018/04/looking-to-listen-audio-visual-speech.html