Душа Питона

Как сделать токсичный текст нейтральным с помощью нейросетей?

Урвала минутку и написала для вас про вчерашнюю тему с AIJ, по ней выступил доцент центра технологий искусственного интеллекта Сколтеха Александр Панченко. Эксперт рассказал, как его команде удалось быстро, дёшево и эффективно обучить ИИ-модели «фильтровать» б̶а̶з̶а̶р̶ текст. Попробую кратко передать суть.

В чём проблема?

В интернете слишком много негатива, а существующие методы борьбы с ним не особо эффективны. Например, некоторые инструменты замазывают отдельные слова из списка запрещённых или целиком удаляют токсичные фразы и предложения. В худшем случае авторов такого послания ещё и блокирует — а это цензура, которой можно было бы избежать.

Технология детоксификации — хорошая альтернатива. Например, алгоритм может предложить пользователю переформулировать его высказывание, причём без потери начального смысла и стиля.

Какой подход предложили разработчики?

Предобученный парафразер текстов и специальные дообученные языковые модели, заточенные под определённый стиль. Этот подход не делает точечные замены — наоборот, он переписывает всё предложение, при этом переранжирует результаты своей работы в зависимости от токсичности или нетоксичности полученного результата.

Раньше такую работу сложно было провернуть, потому что не было подходящих параллельных корпусов (этим термином обозначают набор текстов — например, на языке оригинала и его перевод).

Из похожего был только корпус GIAFK, который позволял переводить неформальное высказывание в более официальное. А ещё были непараллельные корпуса, хоть и размеченные по тональности и по токсичности. А технология Сколтеха — ParaDetox — позволила быстро и дёшево создавать параллельные корпуса.

Панченко рассказал, что у его рабочей группы была гипотеза: не следует создавать модели, которые не основаны на параллельном корпусе, но следует создать технологию, которая позволила бы добыть такой корпус.

Критерии для сбора корпуса

— На каждую токсичную фразу должны приходится 1-3 перефразирований

— Стиль и посыл сообщения должны оставаться нетронутыми

— Тексты должны быть грамматически корректными

С какими проблемами столкнулись?

Из датасета пришлось удалять выражения, которые невозможно заменить эквивалентами. Например, расистские и националистические высказывания.

Как определяли токсичность текстов для датасета?

С помощью краудсорсинга:

— На первом этапе пользователям предлагали перефразировать токсичные фразы в тексте.

— На втором другие юзеры проверяли, является ли парафраз эквивалентным по смыслу.

— На третьем проверяли, не остался ли финальный вариант токсичным.

— Процедуру повторяли несколько раз для русского и английского языков, чтобы в обучающую выборку попали только идеальные примеры.

Все данные доступны бесплатно на GitHub. Их может использовать любой желающий.

Сколько стоили эти корпуса?

Очень дёшево. На английский датасет ушло $811 а на русский ещё меньше — потратили всего $680.

Какие ИИ-модели использовали?

Основой экспериментов стали глубокие предобученные модели на базе архитектуре трансформер — это GPT-2, T5 и BART.

Какие итоги?

Подходы на основании глубоких предобученных моделей на базе корпуса ParaDetox значительно превосходят все альтернативные подходы к решению проблемы, считают разработчики.

Панченко рассказал, что данным экспериментом на базе как автоматических, так и прочих метрик его рабочая группа показала преимущество их подхода над всеми прочими существующими.