Поговорили с кандидатом филологических наук и руководителем группы NLP AIRI Татьяной Шавриной на тему последнего поста. Делимся интересным 🍿



"Обе работы транслируют очень важный тезис: "No language left behind".

В этом году начинается десятилетие языков коренных народов, и в рамках этой инициативы малоресурсные языки и многоязычность в Natural Language Processing становятся центральной темой. Технически, сюда входят такие области, как transfer learning, zero-shot anf few-shot learning, active learning, а данные — это тексты и речь на всем многообразии языков мира.



Наша группа в AIRI считает, что разнообразие языков в NLP невероятно важно по 2 причинам:



▫️ Влияние NLP-технологий оказывает эффект на социоэкономическое состояние малых языков, создавая новые возможности.

▫️ Моделирование всего многообразия способов передачи человеческой мысли необходимо для AGI. Это касается как "минималистичных" языков (где ничего нет, но всего достаточно, например, pirahã), так и жадных до различных категорий языков, например, санскрита или насиой.



В этом смысле 200 языков Meta* и "следующая тысяча языков" у Google — отличное продолжение инициативы и новые горизонты для всего ИИ".



🖇 Кстати, группа NLP в Институте AIRI проводит международный воркшоп по языкам коренных народов в октябре 2022: COLING: Field Matters

Присоединяйтесь!



*организация признана экстремистской, и ее деятельность запрещена на территории РФ