Как сделать токсичный текст нейтральным с помощью нейросетей?



Урвала минутку и написала для вас про вчерашнюю тему с AIJ, по ней выступил доцент центра технологий искусственного интеллекта Сколтеха Александр Панченко. Эксперт рассказал, как его команде удалось быстро, дёшево и эффективно обучить ИИ-модели «фильтровать» б̶а̶з̶а̶р̶ текст. Попробую кратко передать суть.



В чём проблема?



В интернете слишком много негатива, а существующие методы борьбы с ним не особо эффективны. Например, некоторые инструменты замазывают отдельные слова из списка запрещённых или целиком удаляют токсичные фразы и предложения. В худшем случае авторов такого послания ещё и блокирует — а это цензура, которой можно было бы избежать.



Технология детоксификации — хорошая альтернатива. Например, алгоритм может предложить пользователю переформулировать его высказывание, причём без потери начального смысла и стиля.



Какой подход предложили разработчики?



Предобученный парафразер текстов и специальные дообученные языковые модели, заточенные под определённый стиль. Этот подход не делает точечные замены — наоборот, он переписывает всё предложение, при этом переранжирует результаты своей работы в зависимости от токсичности или нетоксичности полученного результата.



Раньше такую работу сложно было провернуть, потому что не было подходящих параллельных корпусов (этим термином обозначают набор текстов — например, на языке оригинала и его перевод).



Из похожего был только корпус GIAFK, который позволял переводить неформальное высказывание в более официальное. А ещё были непараллельные корпуса, хоть и размеченные по тональности и по токсичности. А технология Сколтеха — ParaDetox — позволила быстро и дёшево создавать параллельные корпуса.



Панченко рассказал, что у его рабочей группы была гипотеза: не следует создавать модели, которые не основаны на параллельном корпусе, но следует создать технологию, которая позволила бы добыть такой корпус.



Критерии для сбора корпуса



— На каждую токсичную фразу должны приходится 1-3 перефразирований

— Стиль и посыл сообщения должны оставаться нетронутыми

— Тексты должны быть грамматически корректными



С какими проблемами столкнулись?



Из датасета пришлось удалять выражения, которые невозможно заменить эквивалентами. Например, расистские и националистические высказывания.



Как определяли токсичность текстов для датасета?



С помощью краудсорсинга:



— На первом этапе пользователям предлагали перефразировать токсичные фразы в тексте.



— На втором другие юзеры проверяли, является ли парафраз эквивалентным по смыслу.



— На третьем проверяли, не остался ли финальный вариант токсичным.



— Процедуру повторяли несколько раз для русского и английского языков, чтобы в обучающую выборку попали только идеальные примеры.



Все данные доступны бесплатно на GitHub. Их может использовать любой желающий.



Сколько стоили эти корпуса?



Очень дёшево. На английский датасет ушло $811 а на русский ещё меньше — потратили всего $680.



Какие ИИ-модели использовали?



Основой экспериментов стали глубокие предобученные модели на базе архитектуре трансформер — это GPT-2, T5 и BART.



Какие итоги?



Подходы на основании глубоких предобученных моделей на базе корпуса ParaDetox значительно превосходят все альтернативные подходы к решению проблемы, считают разработчики.



Панченко рассказал, что данным экспериментом на базе как автоматических, так и прочих метрик его рабочая группа показала преимущество их подхода над всеми прочими существующими.