Лингвистические датасеты
Открытая семантика русского языка
Тональный словарь русского языка КартаСловСент — слова и выражения русского языка, снабжённые тональной меткой («положительное», «отрицательное», «нейтральное») и скалярным значением силы эмоционально-оценочного заряда из непрерывного диапазона [-1, 1].
Автоматическая обработка текстов на естественном языке и анализ данных
Орфографические ошибки и опечатки — слова русского языка и варианты их неправильного написания. Включает в себя как орфографические ошибки, так и опечатки. Все ошибочные написания снабжены весами, позволяющими оценить относительную частоту встречаемости тех или иных ошибок.
Открытая семантика русского языка — разметка слов и выражений русского языка по семантическим срезам («люди», «животные», «сооружения», «вещи», «действия» и т.д.).
Ассоциации к словам и выражениям русского языка — ассоциации к словам и выражениям русского языка, придуманные реальными людьми. Кроме общего набора публикуются данные срезов по гендеру, т.е. включающие частоты ассоциаций, подсчитанные отдельно для мужчин и для женщин.
Датасет состоящий из русских предложений.
Event2Mind для русского языка
Данные: github.com/Alenush/russian_event2mind
Отслеживание семантических сдвигов для русского языка
Прилагательные вручную аннотированные для временных семантических сдвигов в промежутке времени от 2000 до 2014 года.
RULEC-GEC - это набор предложений, написанных изучающими русский язык и помеченных на ошибки.
Определение композиционности существительных с использованием распределительной семантики для русского языка
Математический набор данных переведен на русский язык
The Knowledge Base Question Answering
Рукописные символы русских берестяных грамот
Национальный корпус русского языка
@bigdatai
Открытая семантика русского языка
Тональный словарь русского языка КартаСловСент — слова и выражения русского языка, снабжённые тональной меткой («положительное», «отрицательное», «нейтральное») и скалярным значением силы эмоционально-оценочного заряда из непрерывного диапазона [-1, 1].
Автоматическая обработка текстов на естественном языке и анализ данных
Орфографические ошибки и опечатки — слова русского языка и варианты их неправильного написания. Включает в себя как орфографические ошибки, так и опечатки. Все ошибочные написания снабжены весами, позволяющими оценить относительную частоту встречаемости тех или иных ошибок.
Открытая семантика русского языка — разметка слов и выражений русского языка по семантическим срезам («люди», «животные», «сооружения», «вещи», «действия» и т.д.).
Ассоциации к словам и выражениям русского языка — ассоциации к словам и выражениям русского языка, придуманные реальными людьми. Кроме общего набора публикуются данные срезов по гендеру, т.е. включающие частоты ассоциаций, подсчитанные отдельно для мужчин и для женщин.
Датасет состоящий из русских предложений.
Event2Mind для русского языка
Данные: github.com/Alenush/russian_event2mind
Отслеживание семантических сдвигов для русского языка
Прилагательные вручную аннотированные для временных семантических сдвигов в промежутке времени от 2000 до 2014 года.
RULEC-GEC - это набор предложений, написанных изучающими русский язык и помеченных на ошибки.
Определение композиционности существительных с использованием распределительной семантики для русского языка
Математический набор данных переведен на русский язык
The Knowledge Base Question Answering
Рукописные символы русских берестяных грамот
Национальный корпус русского языка
@bigdatai