От просмотра к прослушиванию: аудиовизуальное разделение речи
Известно, что люди даже в шумной обстановке умеют сосредотачивать свое внимание на конкретном человеке, мысленно «заглушая» все остальные голоса и звуки. Однако та же задача до сих пор представляет челлендж для машинного обучения. В посте описывается аудиовизуальная модель, позволяющая, в частности, выбирать на видео лица, на чьей речи мы хотим сосредоточиться, чтобы выделить их голоса из общего шума.
#видеодня
https://ai.googleblog.com/2018/04/looking-to-listen-audio-visual-speech.html?utm_source=mybridge&utm_medium=blog&utm_campaign=read_more
Известно, что люди даже в шумной обстановке умеют сосредотачивать свое внимание на конкретном человеке, мысленно «заглушая» все остальные голоса и звуки. Однако та же задача до сих пор представляет челлендж для машинного обучения. В посте описывается аудиовизуальная модель, позволяющая, в частности, выбирать на видео лица, на чьей речи мы хотим сосредоточиться, чтобы выделить их голоса из общего шума.
#видеодня
https://ai.googleblog.com/2018/04/looking-to-listen-audio-visual-speech.html?utm_source=mybridge&utm_medium=blog&utm_campaign=read_more