Мультиязычные модели машинного перевода превзошли двуязычные.



С появлением архитектуры Трансформеров в 2017 году машинный перевод на основе нейросетей стал прекрасен. Сейчас у всех онлайн-переводчиков вроде Google Translate и Yandex Translate в продакшене для всех более-менее распространенных языков работают нейросети.



Стандартная нейросеть для машинного перевода — двуязычная, т.е. может работать только с одной парой языков. Она переводит текст с языка А на язык B. Любые попытки сделать мультиязычную модель для машинного перевода — такую, которая бы могла переводить текст с нескольких разных языков на несколько других языков — были провальны: они работали хуже, чем двуязычные модели. Единственно, в чем мультиязычные модели превосходили двуязычные — перевод с- и на- малораспространенные языки. Дело в том, что данных для малораспространенных языков недостаточно, чтобы хорошо натренировать на их перевод двуязычную модель; а вот мультиязычная модель может использовать свои знания нескольких языков, чтобы лучше переводить текст на языки, для которых есть мало данных.



Однако исследователи из Meta (бывший Facebook) недавно смогли обучить мультиязычную модель машинного перевода, которая показала лучшие результаты на 10 из 14 языках, чем двуязычные аналоги (результаты на бенчмарке WMT 2021, см. график к посту). Причем эта модель хорошо работает как на широко распространенных, так и на малораспространенных языках.



Мультиязычные модели имеют несколько преимуществ в использовании над двуязычными:

- они содержат меньше параметров, чем набор соответствующих двуязычных моделей;

- позволяют эффективно обрабатывать тексты, которые содержат много языков сразу: например, чаты в международных соцсетях, как Facebook;

- позволяют еще лучше осуществлять перевод с- и на- малораспространенные языки, так как модель хорошо использует для этого "знания" из других языков.



Технические подробности читайте по ссылкам:

Блогпост

Статья