gonzo-обзоры ML статей

On Evaluation of Adversarial Perturbations for Sequence-to-Sequence Models

Paul Michel, Xian Li, Graham Neubig, Juan Miguel Pino

Language Technologies Institute, Carnegie Mellon University, Facebook AI

#NLP #NMT #adversarial #seq2seq #NAACL 2019

Статья: https://arxiv.org/abs/1903.06620

Код фреймворка: https://github.com/pmichel31415/teapot-nlp

Стандартный подход обучения на adversarial examples заключается в добавлении небольшого шума ко входу таким образом, чтобы вызвать неадекватные изменения выхода. Далее можно использовать такие примеры для более обучения более робастных моделей. Другими словами, можно учить сеть не слишком менять выход при небольших изменениях входа. Достаточно хорошо проработанный для изображений, этот подход в настоящее время активно переносят и на тексты. Здесь ключевым отличием является то, что для изображений можно легко генерировать слабый шум, не меняющий семантику, а для текстов как дискретных последовательностей это сложнее. Например, случайные замены букв выводят за пределы словаря, а случайные замены слов могут легко менять семантику.

Авторы статьи указывают на то, что в предшествующих работах по этой проблематике необходимость сохранения семантики при зашумлении входа в основном игнорировалась. Поэтому понятие adversarial examples они доопределяют (в контексте конкретной модели) как примеры изменения входа, сохраняющие семантику входа, но приводящие к изменению семантики выхода модели. В работе предлагается использовать поход к изменению входа с контролем сохранения семантики (на примере машинного перевода), авторы публикуют фреймворк для таких модификаций. Атака, т.е. поиск adversarial examples, проводится градиентным спуском с заменой одного слова входа на каждом шаге с сохранением семантики. Оптимизируется вероятность того, что модель ошибётся после замены.

Допустимые с точки зрения сохранения семантики замены описываются двумя стратегиями:

* kNN -- разрешается замена слова только на ближайшее из 10 в пространстве эмбеддингов,

* CharSwap -- разрешается перестановка букв, но только такая, которая гарантированно выводит из словаря (чтобы не попасть в слово с другой семантикой) -- для word-based моделей это приводит к замене слова на <unk>, если что.

Оценка успешности сохранения семантики осуществляется так:

* есть человеческая разметка (по шкале 0-5), она точнее, но дорогая и медленная, поэтому используется как способ контроля за автоматизированными метриками.

* в качестве автоматизированных метрик рассматривались BLEU, METEOR и chrF (based on character n-gram F-score)

Автоматизированные метрики оцениваются корреляцией с человеческой разметкой и, неожиданно, chrF вырывается вперёд, дальнейшие оценки приводятся в ней.

Сравниваются результаты для adversarial атак на разные NMT модели с/без ограничений на сохранение семантики. Понятно, что по chrF стратегия CharSwap будет давать наименьшую разницу входов по построению. Понятно также, что обе стратегии с ограничениями будут давать меньшую просадку в качестве выходов. Тем не менее, на основании этого выбирают CharSwap как лучшую стратегию, дальше работают с ней.

Затем показывают, что если доучивать NMT на примерах из CharSwap, то на стандартном тест-сете NMT-метрики (BLEU/charF) меняются незначительно, но на adversarial примерах из той же CharSwap, сюрприз, всё становится лучше.