Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

От просмотра к прослушиванию: аудиовизуальное разделение речи

Известно, что люди даже в шумной обстановке умеют сосредотачивать свое внимание на конкретном человеке, мысленно «заглушая» все остальные голоса и звуки. Однако та же задача до сих пор представляет челлендж для машинного обучения. В посте описывается аудиовизуальная модель, позволяющая, в частности, выбирать на видео лица, на чьей речи мы хотим сосредоточиться, чтобы выделить их голоса из общего шума.

#видеодня

https://ai.googleblog.com/2018/04/looking-to-listen-audio-visual-speech.html?utm_source=mybridge&utm_medium=blog&utm_campaign=read_more