Что такое кросс-языковая морфология и зачем она нужна?
Основная идея кросс-языковой морфологии в том, что если языки — родственные (из одной семьи), то их структурные сходства прослеживаются на разных уровнях. Лингвистам, и особенно компьютерным, это свойство межъязыковой схожести очень интересно: оно позволяет моделировать и переносить процессы одного языка на другой.
Естественные человеческие языки различаются степенью изученности и доступным объемом данных. Например, английский и турецкий хорошо описаны и изучены. А вот каталанский, фарерский или крымскотатарский уступают им в ресурсах. Такие языки называются малоресурсными (МРЯ, low-resourced, under-resourced) и с ними сложнее работать: например, мы не можем построить хорошую векторную модель для работы с семантикой слов — она требует наличия большого корпуса текстов. Еще сложнее будет с машинным переводом, ведь там нужен уже двуязычный параллельный корпус. Что же делать, когда данных для классических алгоритмов и методов типа «обучить на корпусе Х » недостаточно?
Одним из решений является перенос на малоресурсный язык статистических моделей, построенных на данных большого родственного языка. Например, чтобы создать морфологический анализатор (инструмент, представляющий начальную форму или парадигму изменения слова) для крымскотатарского, можно создать модель и обучить ее на данных для турецкого, казахского и др. Такие методы применяются как при создании морфоанализатора как конечного продукта, так и на подготовительных этапах, в любом NLP-инструменте.
Мы с моими коллегами из НИУ ВШЭ Владиславом Михайловым, Олегом Сериковым и Лоренцо Този использовали свойства кросс-языковой морфологии при создании универсального морфоанализатора для малоресурсных языков, где написание классического анализатора под каждый язык не представляется возможным из-за малого количества данных. И даже написали статью о результатах.
На данный момент алгоритм умеет лемматизировать (приводить начальную форму слова) и проводить морфологический анализ для слов малоресурсных языков. Пока он работает на языках агглютинатинативного типа (как турецкий и крымскотатарский) и романского (как испанский и сардинский), в дальнейшем можно будет добавить славянские языки!
Таким образом, кросс-языковая морфология позволяет решать многие прикладные задачи компьютерной лингвистики для языков, на которых нет большого объема данных для машинного обучения. Эта возможность сильно облегчает жизнь исследователям, ведь теперь у них есть инструменты автоматического анализа не только для крупных языков, но и для их младших братьев.
Анастасия Хорошева
Основная идея кросс-языковой морфологии в том, что если языки — родственные (из одной семьи), то их структурные сходства прослеживаются на разных уровнях. Лингвистам, и особенно компьютерным, это свойство межъязыковой схожести очень интересно: оно позволяет моделировать и переносить процессы одного языка на другой.
Естественные человеческие языки различаются степенью изученности и доступным объемом данных. Например, английский и турецкий хорошо описаны и изучены. А вот каталанский, фарерский или крымскотатарский уступают им в ресурсах. Такие языки называются малоресурсными (МРЯ, low-resourced, under-resourced) и с ними сложнее работать: например, мы не можем построить хорошую векторную модель для работы с семантикой слов — она требует наличия большого корпуса текстов. Еще сложнее будет с машинным переводом, ведь там нужен уже двуязычный параллельный корпус. Что же делать, когда данных для классических алгоритмов и методов типа «обучить на корпусе Х » недостаточно?
Одним из решений является перенос на малоресурсный язык статистических моделей, построенных на данных большого родственного языка. Например, чтобы создать морфологический анализатор (инструмент, представляющий начальную форму или парадигму изменения слова) для крымскотатарского, можно создать модель и обучить ее на данных для турецкого, казахского и др. Такие методы применяются как при создании морфоанализатора как конечного продукта, так и на подготовительных этапах, в любом NLP-инструменте.
Мы с моими коллегами из НИУ ВШЭ Владиславом Михайловым, Олегом Сериковым и Лоренцо Този использовали свойства кросс-языковой морфологии при создании универсального морфоанализатора для малоресурсных языков, где написание классического анализатора под каждый язык не представляется возможным из-за малого количества данных. И даже написали статью о результатах.
На данный момент алгоритм умеет лемматизировать (приводить начальную форму слова) и проводить морфологический анализ для слов малоресурсных языков. Пока он работает на языках агглютинатинативного типа (как турецкий и крымскотатарский) и романского (как испанский и сардинский), в дальнейшем можно будет добавить славянские языки!
Таким образом, кросс-языковая морфология позволяет решать многие прикладные задачи компьютерной лингвистики для языков, на которых нет большого объема данных для машинного обучения. Эта возможность сильно облегчает жизнь исследователям, ведь теперь у них есть инструменты автоматического анализа не только для крупных языков, но и для их младших братьев.
Анастасия Хорошева