Лингвистические датасеты



Открытая семантика русского языка



Тональный словарь русского языка КартаСловСент — слова и выражения русского языка, снабжённые тональной меткой («положительное», «отрицательное», «нейтральное») и скалярным значением силы эмоционально-оценочного заряда из непрерывного диапазона [-1, 1].



Автоматическая обработка текстов на естественном языке и анализ данных



Орфографические ошибки и опечатки — слова русского языка и варианты их неправильного написания. Включает в себя как орфографические ошибки, так и опечатки. Все ошибочные написания снабжены весами, позволяющими оценить относительную частоту встречаемости тех или иных ошибок.



Открытая семантика русского языка — разметка слов и выражений русского языка по семантическим срезам («люди», «животные», «сооружения», «вещи», «действия» и т.д.).



Ассоциации к словам и выражениям русского языка — ассоциации к словам и выражениям русского языка, придуманные реальными людьми. Кроме общего набора публикуются данные срезов по гендеру, т.е. включающие частоты ассоциаций, подсчитанные отдельно для мужчин и для женщин.



Датасет состоящий из русских предложений.



Event2Mind для русского языка

Данные: github.com/Alenush/russian_event2mind



Отслеживание семантических сдвигов для русского языка

Прилагательные
вручную аннотированные для временных семантических сдвигов в промежутке времени от 2000 до 2014 года.



RULEC-GEC - это набор предложений, написанных изучающими русский язык и помеченных на ошибки.



Определение композиционности существительных с использованием распределительной семантики для русского языка



Математический набор данных переведен на русский язык



The Knowledge Base Question Answering



Рукописные символы русских берестяных грамот



Национальный корпус русского языка



@bigdatai