#nlp #meetup



📅 Сходил на ML тренировку (трансляция тут) послушать доклад про RuCoLa.



〰️ Что это?



Это первый датасет для проверки адекватности генеративных языковых моделей (для русского), аналог CoLa. Состоит из ~13k предложений, размеченных как приемлемое/неприемлемое.



По степени приемлемости делить не стали, сказали, что сложно. Зато над датасетом поработали в том числе и лингвисты, так что включены разные категории (грамматическая, смысловая и т.д.). Вещь полезная, многим пригодится.



👉 GitHub | Проект