
Активно вирусится новость про то, что Meta* выпустила переводчик на 200 языков. Но мы хотим рассказать про недавнюю работу Google, которая осталась незамеченной. Они работают над созданием практических систем машинного перевода (MT), способных переводить тексты более чем на 1000 языков 🥁
Иллюстрация – из статьи.
Точки – это языки: по Х – количество данных для языка, по Y – качество переводов с этим языком (чем выше, тем лучше). Заметно – чем больше данных, тем лучше. Для использования ресурсных языков (синие на картинке) помогают внушительные коллекции параллельных текстов (когда одно и то же написано на двух языках сразу).
Есть и забавные факты, например, английский, набранный кириллицей: данных на нём сравнительно мало, а качество перевода очень высокое. Некоторые языки исследователи уже добавили в свой переводчик, пока писали статью. Они отмечены звёздочкой.
👅 Ссылка на статью про 1000 языков
👅 Ссылка на статью про 200 языков
*Признана запрещённой на территории Российской Федерации
Иллюстрация – из статьи.
Точки – это языки: по Х – количество данных для языка, по Y – качество переводов с этим языком (чем выше, тем лучше). Заметно – чем больше данных, тем лучше. Для использования ресурсных языков (синие на картинке) помогают внушительные коллекции параллельных текстов (когда одно и то же написано на двух языках сразу).
Есть и забавные факты, например, английский, набранный кириллицей: данных на нём сравнительно мало, а качество перевода очень высокое. Некоторые языки исследователи уже добавили в свой переводчик, пока писали статью. Они отмечены звёздочкой.
👅 Ссылка на статью про 1000 языков
👅 Ссылка на статью про 200 языков
*Признана запрещённой на территории Российской Федерации