Нейросеть выделяет звук музыкального инструмента на видео в реальном времени



Исследователи из MIT разработали алгоритм PixelPlayer, который поможет музыкантам выделять партии отдельных музыкальных инструментов и изменять их громкость. Модель состоит из трёх нейросетей: первая анализирует видео, вторая — звук, а третья сопоставляет каждый пиксель видео с определённой звуковой волной, разделяя мелодии. PixelPlayer тренировали, используя 60 часов видео, и сейчас алгоритм может определять 20 разных музыкальных инструментов. Примеры работы нейросети на видео.



https://youtu.be/2eVDLEQlKD0