#notes #data #nlp #lingtrain



Делаем корпус парафраз



Если выровнять два текста на разных языках, то получится параллельный корпус. Если выравнивать тексты на одном языке, — то корпус парафраз (предложений, имеющих один смысл, но написанных по разному).



💡 Пришла в голову идея по использованию lingtrain'а для выравнивания переводов книг на одном языке.



〰️ Зачем?



Обычно такие корпуса используют для обучения генеративных моделей переписывать тексты с сохранением смысла, переноса стиля или аугментирования.



Кроме того, так как это не просто тексты, а профессиональные художественные переводы, то и сам корпус будет представлять из себя интерес (можно будет, например, проанализировать разницу между переводами Норы Галь и современными переводчиками).



Если к нему добавить еще и оригинальный текст, то получится референсный словарь для переводчиков с несколькими вариантами.



Из плюсов видится то, что книг для выравнивания много — классика и популярные произведения часто переводятся по нескольку раз разными переводчиками. Предложения получаются очень разнообразными (иногда даже слишком), так как каждый переводчик имеет свой неповторимый стиль.



Последний пункт может являться и минусом, так как некоторые переводчики склонны чересчур обогащать текст. На это надо обратить внимание перед выравниванием.



👉 P.S. Попробовал на русских переводах Агаты Кристи, получается довольно неплохо.



GitHub c выравнивателем | agata.tmx