Браузер Яндекса научился переводить прямые трансляции на YouTube. Под капотом у новой фичи –- целых пять нейросетей: они получают на вход речь из прямых трансляций на YouTube, обрабатывают ее, переводят и сразу озвучивают на русском.
Процесс довольно трудоемкий с инженерной точки зрения и подробно описан в блоге компании на хабре. Если вкратце, то для команды разработки это был настоящий челлендж, ребята провели большую работу над созданием архитектуры потокового перевода. Тут задействованы сразу несколько нейросеток, каждая из которых решает отдельную задачу: распознавание речи (ASR, Automated Speech Recognition), распознавание пола спикера по биометрии, нарезка речи на смысловые фрагменты, перевод и, наконец, синтез голоса для озвучки на русском языке.
Интересно, что технологию сейчас обкатывают в открытой бете и можно приобщиться к чуду на стриме NASA, например. Если открыть его через пк версию Яндекс браузера, прямо в плеере YouTube появится возможность запустить перевод трансляции. Пока технология доступна не на всех каналах вайт-листа (например, Apple, Google, Google Developers и др.) — трансляции на них браузер яндекса будет переводить по умолчанию: кажется, осенью наконец можно будет посмотреть конференцию Apple сразу на русском.
Задержка озвучки составляет от 30 до 50 секунд. Пока великовата, и синхронным переводом это назвать нельзя, но на то она и бета.
Процесс довольно трудоемкий с инженерной точки зрения и подробно описан в блоге компании на хабре. Если вкратце, то для команды разработки это был настоящий челлендж, ребята провели большую работу над созданием архитектуры потокового перевода. Тут задействованы сразу несколько нейросеток, каждая из которых решает отдельную задачу: распознавание речи (ASR, Automated Speech Recognition), распознавание пола спикера по биометрии, нарезка речи на смысловые фрагменты, перевод и, наконец, синтез голоса для озвучки на русском языке.
Интересно, что технологию сейчас обкатывают в открытой бете и можно приобщиться к чуду на стриме NASA, например. Если открыть его через пк версию Яндекс браузера, прямо в плеере YouTube появится возможность запустить перевод трансляции. Пока технология доступна не на всех каналах вайт-листа (например, Apple, Google, Google Developers и др.) — трансляции на них браузер яндекса будет переводить по умолчанию: кажется, осенью наконец можно будет посмотреть конференцию Apple сразу на русском.
Задержка озвучки составляет от 30 до 50 секунд. Пока великовата, и синхронным переводом это назвать нельзя, но на то она и бета.