Тред неочевидных ресурсов для NLP стартует здесь

#про_nlp #nlp



Давайте делиться ресурсами, где можно собрать/скачать тексты на редких и малоресурсные языках, языках народов России и стран СНГ?



Собрали твиты на татарском?

Знаете локальный сайт-библиотеку для калмыцкого? Делитесь в комментариях!



Пример классных ресурсов:

🔹Корпуса Школы лингвистики ВШЭ, очищенные тексты корпусов народов России

🔹Archive.org - можно сортировать книги по языкам, находит редкие языки

🔹Universal Dependencies - можно очистить от разметки, в среднем мало текстов