#pet #lingtrain



📚 Про пет-проект



На выходных дошли руки позаниматься Lingtrain'ом (пет-проектом для создания параллельных книжек), а заодно сделать русско-английскую версию романа Стругацких, обложку к которому я недавно выкладывал в канале.



〰️ Что это?



Параллельные книжки полезны при изучении иностранных языков. Бывают разные варианты: с чередованием абзацев на разных языках, разбиение на две колонки или текст с подстрочником.



〰️ Зачем?



Найти такие книжки себе по вкусу не так просто, особенно, если язык не английский. Гораздо проще найти тексты на разных языках по отдельности и выровнять их по предложениям. Сложность лишь в том, что люди-переводчики могут какие-то предложения разбивать на несколько, какие-то склеивать, а что-то выкидывать 🤷‍♂️.



Хотелось, чтобы любой желающий смог сделать себе такую книжку на любых языках.



👉 Lingtrain



С этим-то и может помочь мой скромный пет-проект.



• На основе эмбеддингов (векторных представлений) рассчитывается близость по смыслу и происходит выравнивание.

• Их исходных текстов сохраняется структура абзацев.

• При помощи разметки можно добавить различную метадату (заголовки, цитаты, картинки).

• В результате можно сверстать все это в pdf, либо скачать html, либо как параллельный корпус.

• Под капотом ряд мультиязыковых моделей (LABSE, sentence-transformers USE, rubert-tiny2), так что количество языков для выравнивания 100+.

• Можно дообучать на свой язык. Писал про это здесь.

• Все это собрано в docker, можно быстро запустить локально.

• Проект открытый и у него есть сообщество. Предложения и идеи приветствуются.



GitHub | Как пользоваться | Сообщество