Разработчики проекта Looking To Listen научили нейросеть выделять голос отдельного человека на видео и заглушать остальные звуки.
Алгоритм тренировали, используя примерно 2000 часов видео с лицами спикеров, их выделенной речью и добавленными фоновыми шумами. Нейросеть распознаёт лица на видео, сопоставляет их со спектрограммой, обрабатывает данные с использованием двунаправленной LSTM и трех слоев глубокой сверточной нейросети. В результате получается изолированный аудиосигнал для каждого спикера.
Технология может использоваться для распознавания речи, усовершенствования слуховых аппаратов, создания автоматических субтитров.
👉🏻 http://telegra.ph/Nejroset-nauchilas-vydelyat-golosa-otdelnyh-lyudej-na-video-04-13-2
Алгоритм тренировали, используя примерно 2000 часов видео с лицами спикеров, их выделенной речью и добавленными фоновыми шумами. Нейросеть распознаёт лица на видео, сопоставляет их со спектрограммой, обрабатывает данные с использованием двунаправленной LSTM и трех слоев глубокой сверточной нейросети. В результате получается изолированный аудиосигнал для каждого спикера.
Технология может использоваться для распознавания речи, усовершенствования слуховых аппаратов, создания автоматических субтитров.
👉🏻 http://telegra.ph/Nejroset-nauchilas-vydelyat-golosa-otdelnyh-lyudej-na-video-04-13-2