Пост для всех, кто интересуется NLP-технологиями.
Разработчики SberDevices вместе с коллегами из ABBYY, Yandex Research, Huawei Noah’s Ark Lab и Высшей школы экономики придумали, как научить нейросети отличать понятный сгенерированный текст от бессмыслицы.
Встречайте RuCoLA (Russian Corpus of Linguistic Acceptability) — датасет русскоязычных предложений, размеченных по бинарной шкале приемлемости. Приемлемым лингвисты считают высказывание, которое мог бы выдать носитель языка, а другой носитель мог бы его понять.
Датасет RuCoLA можно использовать для дообучения уже готовых моделей, чтобы повысить качество генерации текста — сделать его более «приемлемым», то есть естественным.
Также объединённая команда выложила в открытый доступ лидерборд на данных RuCoLA. С его помощью разработчики могут протестировать свои модели и поучаствовать в развитии методов для оценки приемлемости.
Подробнее о проекте мы рассказали на Хабре — читайте и обсуждайте.
#новости
Разработчики SberDevices вместе с коллегами из ABBYY, Yandex Research, Huawei Noah’s Ark Lab и Высшей школы экономики придумали, как научить нейросети отличать понятный сгенерированный текст от бессмыслицы.
Встречайте RuCoLA (Russian Corpus of Linguistic Acceptability) — датасет русскоязычных предложений, размеченных по бинарной шкале приемлемости. Приемлемым лингвисты считают высказывание, которое мог бы выдать носитель языка, а другой носитель мог бы его понять.
Датасет RuCoLA можно использовать для дообучения уже готовых моделей, чтобы повысить качество генерации текста — сделать его более «приемлемым», то есть естественным.
Также объединённая команда выложила в открытый доступ лидерборд на данных RuCoLA. С его помощью разработчики могут протестировать свои модели и поучаствовать в развитии методов для оценки приемлемости.
Подробнее о проекте мы рассказали на Хабре — читайте и обсуждайте.
#новости