​​Индивидуальный стиль переводчика: как определить автора перевода

#philology



В задаче определения авторства хорошие результаты показывает метод Дельта, опубликованный в 2002 году. Теперь мы точно знаем, что Роберт Гэлбрейт — псевдоним Джоан Роулинг, а уверенность в том, что «Тихий Дон» написал Шолохов, а не Федор Крюков, сильно возросла. Вы и сами можете в этом убедиться: Дельту интегрировали в функции Stylo — библиотеку для языка R.



Сейчас ученые ищут способ точно определять автора перевода. В этой статье разбираемся:

1. Можно ли использовать метод Дельта для определения переводчика?

2. Какие еще инструменты могут помочь для решения этой задачи?



Метод Дельта



Возможности применения этого метода изучает филолог и стилометрист Дэвид Хувер в своем исследовании The Invisible Translator Revisited.



Он использует функцию classify — инструмент, который при помощи машинного обучения определяет, насколько точно он может угадать «класс» документа на основе стилометрических признаков. Классом может быть автор, переводчик, жанр, временной период, и т. д. Также классификатор нужно обучать — на тренировочной и тестовой выборках.



Ученый выяснил, что авторский сигнал сильнее сигнала переводчика, который «пробивается» из-под стиля автора только в определенных ситуациях.



Чтобы уловить именно отпечаток переводчика, нужно ослабить значимость автора. Для этого Дэвид Хувер создал выборки так, чтобы в тренировочной и тестовой выборках авторы произведений были разные, а переводчики — одинаковые.



В итоге две разные модели машинного обучения угадали переводчика в 81.2% и 93.9% случаев.



Метод Зета



У переводных текстов есть одна особенность: многие слова, которые часто встречаются у одного переводчика, избегаются другими, и то же верно наоборот. Такие слова называются отличительными словами.



Зета-анализ для нашей задачи работает так: он сравнивает, насколько постоянны включение и исключение набора отличительных слов в равных по размеру сегментах текста, на которые разделены произведения.



Если изобразить результат работы этого метода на графике (прикреплен ниже), то даже два перевода одного и того же текста разными переводчиками не будут находится рядом. Чем больше частотность отличительных слов, тем дальше их «разведет» по разным сторонам.



Полный рассказ с примерами и скриншотами по ссылке: https://sysblok.ru/philology/est-li-stil-u-perevodchika-a-esli-najdem/