Пост для всех, кто интересуется NLP-технологиями.



Разработчики SberDevices вместе с коллегами из ABBYY, Yandex Research, Huawei Noah’s Ark Lab и Высшей школы экономики придумали, как научить нейросети отличать понятный сгенерированный текст от бессмыслицы.



Встречайте RuCoLA (Russian Corpus of Linguistic Acceptability) — датасет русскоязычных предложений, размеченных по бинарной шкале приемлемости. Приемлемым лингвисты считают высказывание, которое мог бы выдать носитель языка, а другой носитель мог бы его понять.



Датасет RuCoLA можно использовать для дообучения уже готовых моделей, чтобы повысить качество генерации текста — сделать его более «приемлемым», то есть естественным.



Также объединённая команда выложила в открытый доступ лидерборд на данных RuCoLA. С его помощью разработчики могут протестировать свои модели и поучаствовать в развитии методов для оценки приемлемости.



Подробнее о проекте мы рассказали на Хабре — читайте и обсуждайте.



#новости