#nlp #colab



⭐️ Сделал простой colab с визуализацией мультиязычного пословного выравнивания.



Выравнивание происходит при помощи mBERT эмбеддингов. Авторы статьи дообучили его на дополнительных задачах (objectives), чтобы улучшить качество (parallel sentence identification, consistency optimization, etc.).



В GitHub'е есть скрипты для дообучения на своем параллельном корпусе, так что можно расширить под ваш язык (в изначальном mBERT'е было 100+ языков).



Визуализацию сделал на graphviz.



👉 Colab | GitHub | Huggingface