Neurohive - Нейронные сети, AI, ML, DL

Разработчики проекта Looking To Listen научили нейросеть выделять голос отдельного человека на видео и заглушать остальные звуки.

Алгоритм тренировали, используя примерно 2000 часов видео с лицами спикеров, их выделенной речью и добавленными фоновыми шумами. Нейросеть распознаёт лица на видео, сопоставляет их со спектрограммой, обрабатывает данные с использованием двунаправленной LSTM и трех слоев глубокой сверточной нейросети. В результате получается изолированный аудиосигнал для каждого спикера.

Технология может использоваться для распознавания речи, усовершенствования слуховых аппаратов, создания автоматических субтитров.

👉🏻 http://telegra.ph/Nejroset-nauchilas-vydelyat-golosa-otdelnyh-lyudej-na-video-04-13-2