Представьте, что вы голосовой помощник. И пытаетесь обработать входящие запросы. А там целая толпа кожанных ублюдков и каждый что-то требует.
Это известная проблема: как понять кто именно что говорит в общем гуле? Мы, люди, например, в таких случаях сосредотачиваем взгляд на конкретном человеке и начинаем буквально читать по губам. А дальше уже мозг синхронизирует нужный аудиопоток с картинкой.
И, естественно, хорошая идея снабдить той же механикой ИИ.
В Гугл с помощью глубокого обучения создали систему, способную четко разделять речь группы на отдельные дорожки и сопостовлять говорящего со сказанным.
Сначала систему обучали на чистых голосах, затем стали подмешивать к ним белый шум, чтобы система научилась его игнорировать. И результат потрясающий. Ниже приложу видео с демонстрацией.
Область применения очень широкая:
- голосовые помощники поймут от кого пришла команда и выполнят ее в соответствующем контексте: например, включит ЕГО музыку и вызовет ЕЙ такси к подруге;
- улучшится качество связи при голосовых звонках из публичных мест;
- улучшится распознавание речи в аппаратах для слабослышащих;
- и, конечно же, станет еще проще следить за всеми нами.
В кратце:
https://www.engadget.com/2018/04/12/google-ai-looking-to-listen-voice-separation/
А это инфа непосредственно из блога гугла:
https://research.googleblog.com/2018/04/looking-to-listen-audio-visual-speech.html
Это известная проблема: как понять кто именно что говорит в общем гуле? Мы, люди, например, в таких случаях сосредотачиваем взгляд на конкретном человеке и начинаем буквально читать по губам. А дальше уже мозг синхронизирует нужный аудиопоток с картинкой.
И, естественно, хорошая идея снабдить той же механикой ИИ.
В Гугл с помощью глубокого обучения создали систему, способную четко разделять речь группы на отдельные дорожки и сопостовлять говорящего со сказанным.
Сначала систему обучали на чистых голосах, затем стали подмешивать к ним белый шум, чтобы система научилась его игнорировать. И результат потрясающий. Ниже приложу видео с демонстрацией.
Область применения очень широкая:
- голосовые помощники поймут от кого пришла команда и выполнят ее в соответствующем контексте: например, включит ЕГО музыку и вызовет ЕЙ такси к подруге;
- улучшится качество связи при голосовых звонках из публичных мест;
- улучшится распознавание речи в аппаратах для слабослышащих;
- и, конечно же, станет еще проще следить за всеми нами.
В кратце:
https://www.engadget.com/2018/04/12/google-ai-looking-to-listen-voice-separation/
А это инфа непосредственно из блога гугла:
https://research.googleblog.com/2018/04/looking-to-listen-audio-visual-speech.html