
#notes #data #nlp #lingtrain
Делаем корпус парафраз
Если выровнять два текста на разных языках, то получится параллельный корпус. Если выравнивать тексты на одном языке, — то корпус парафраз (предложений, имеющих один смысл, но написанных по разному).
💡 Пришла в голову идея по использованию lingtrain'а для выравнивания переводов книг на одном языке.
〰️ Зачем?
Обычно такие корпуса используют для обучения генеративных моделей переписывать тексты с сохранением смысла, переноса стиля или аугментирования.
Кроме того, так как это не просто тексты, а профессиональные художественные переводы, то и сам корпус будет представлять из себя интерес (можно будет, например, проанализировать разницу между переводами Норы Галь и современными переводчиками).
Если к нему добавить еще и оригинальный текст, то получится референсный словарь для переводчиков с несколькими вариантами.
➕ Из плюсов видится то, что книг для выравнивания много — классика и популярные произведения часто переводятся по нескольку раз разными переводчиками. Предложения получаются очень разнообразными (иногда даже слишком), так как каждый переводчик имеет свой неповторимый стиль.
➖Последний пункт может являться и минусом, так как некоторые переводчики склонны чересчур обогащать текст. На это надо обратить внимание перед выравниванием.
👉 P.S. Попробовал на русских переводах Агаты Кристи, получается довольно неплохо.
GitHub c выравнивателем | agata.tmx
Делаем корпус парафраз
Если выровнять два текста на разных языках, то получится параллельный корпус. Если выравнивать тексты на одном языке, — то корпус парафраз (предложений, имеющих один смысл, но написанных по разному).
💡 Пришла в голову идея по использованию lingtrain'а для выравнивания переводов книг на одном языке.
〰️ Зачем?
Обычно такие корпуса используют для обучения генеративных моделей переписывать тексты с сохранением смысла, переноса стиля или аугментирования.
Кроме того, так как это не просто тексты, а профессиональные художественные переводы, то и сам корпус будет представлять из себя интерес (можно будет, например, проанализировать разницу между переводами Норы Галь и современными переводчиками).
Если к нему добавить еще и оригинальный текст, то получится референсный словарь для переводчиков с несколькими вариантами.
➕ Из плюсов видится то, что книг для выравнивания много — классика и популярные произведения часто переводятся по нескольку раз разными переводчиками. Предложения получаются очень разнообразными (иногда даже слишком), так как каждый переводчик имеет свой неповторимый стиль.
➖Последний пункт может являться и минусом, так как некоторые переводчики склонны чересчур обогащать текст. На это надо обратить внимание перед выравниванием.
👉 P.S. Попробовал на русских переводах Агаты Кристи, получается довольно неплохо.
GitHub c выравнивателем | agata.tmx