
#nlp #colab
⭐️ Сделал простой colab с визуализацией мультиязычного пословного выравнивания.
Выравнивание происходит при помощи mBERT эмбеддингов. Авторы статьи дообучили его на дополнительных задачах (objectives), чтобы улучшить качество (parallel sentence identification, consistency optimization, etc.).
В GitHub'е есть скрипты для дообучения на своем параллельном корпусе, так что можно расширить под ваш язык (в изначальном mBERT'е было 100+ языков).
Визуализацию сделал на graphviz.
👉 Colab | GitHub | Huggingface
⭐️ Сделал простой colab с визуализацией мультиязычного пословного выравнивания.
Выравнивание происходит при помощи mBERT эмбеддингов. Авторы статьи дообучили его на дополнительных задачах (objectives), чтобы улучшить качество (parallel sentence identification, consistency optimization, etc.).
В GitHub'е есть скрипты для дообучения на своем параллельном корпусе, так что можно расширить под ваш язык (в изначальном mBERT'е было 100+ языков).
Визуализацию сделал на graphviz.
👉 Colab | GitHub | Huggingface