Салют, это SberDevices

Пост для всех, кто интересуется NLP-технологиями.

Разработчики SberDevices вместе с коллегами из ABBYY, Yandex Research, Huawei Noah’s Ark Lab и Высшей школы экономики придумали, как научить нейросети отличать понятный сгенерированный текст от бессмыслицы.

Встречайте RuCoLA (Russian Corpus of Linguistic Acceptability) — датасет русскоязычных предложений, размеченных по бинарной шкале приемлемости. Приемлемым лингвисты считают высказывание, которое мог бы выдать носитель языка, а другой носитель мог бы его понять.

Датасет RuCoLA можно использовать для дообучения уже готовых моделей, чтобы повысить качество генерации текста — сделать его более «приемлемым», то есть естественным.

Также объединённая команда выложила в открытый доступ лидерборд на данных RuCoLA. С его помощью разработчики могут протестировать свои модели и поучаствовать в развитии методов для оценки приемлемости.

Подробнее о проекте мы рассказали на Хабре — читайте и обсуждайте.

#новости