Artificial Text Detection via Examining the Topology of Attention Maps ( https://aclanthology.org/2021.emnlp-main.50/ ) - наша с коллегами статья на EMNLP 2021. К статье прилагается видео доклада (зеленая кнопка на сайте).

Здесь уже появились новые соавторы, которые предложили новые идеи и поставили существенно больше экспериментов, чем получалось у меня. Особенно отмечу, что мне было очень интересно обсуждать с https://scholar.google.com/citations?user=G0lCb3wAAAAJ&hl=en&oi=ao то, как выстраивается логика статей для прикладных core A* конференций. Эта логика была для меня непривычной, т.к. после мехмата хочется писать статьи совсем в другом стиле.



В этой статье рассматривается задача детекции текста, сгенерированного моделями машинного обучения GPT-2 и GROVER. Далее для извлечения топологических признаков снова бралась модель BERT, только на этот раз предобученная лишь на угадывании пропущенных слов (Masked LM), без дообучения на данной задаче. Через модель прогонялись примеры текстов (сгенерированных и человеческих), и каждому примеру сопоставлялись графы внимания, извлеченные из модели. В этот раз признаки у графов считались более сложные и разнообразные. Во-первых, кроме чисел Бетти "отфильтрованных" по порогам графов, считались и другие графовые признаки, такие, как количество ориентированых циклов и средняя степень вершины. Во-вторых, считалась степень "похожести" матриц внимания на матрицы-шаблоны из статьи https://aclanthology.org/D19-1445/ (см. Figure 1). В-третьих, бралась такая версия графов внимания, где убиралась ориентация, но не убирались веса, и по ним считались довольно сложные TDA-объекты, называемые баркодами. Очень короткое введение в то, как строятся эти объекты, можно посмотреть здесь: https://www.youtube.com/watch?v=2PSqWBIrn90&t=0s&ab_channel=MatthewWright . От баркодов, в свою очередь, считались признаки, такие, как сумма "баров" и другие. Далее все посчитанные признаки всех трех видов объединялись, и по ним производилась классификация.

Оказалось, что классификация на этих признаках (извлеченных из BERT с предобученными замороженными весами) с помощью логистической регрессии давала результат +- наравне с полностью дообученной BERT. Если же дообучать один слой-классификатор над выходом предобученного, но замороженного BERT, результат оказывается и вовсе хуже, чем обучение на наших признаках.

Особенно же интересно оказалось то, что классификатор над нашими признаками имеет бОльшую робастность по отношению к увеличению размера генерирующей модели, чем сам BERT. Другими словами, если мы, например, обучили классификатор на наших признаках и сам BERT (отдельно, нормальным способом) детектить тексты, сгенерированные моделью GPT-2-small, а затем пробуем детектировать генерацию GPT-2-medium, наши признаки дают меньшее падение качества на этой новой задаче, чем классификация по выходу самой модели BERT, даже полностью обученной. Это можно видеть на Figure 2. В наше время, когда появилось много скрытых генеративных моделей, к которым у нас нет доступа, такая робастность - очень актуальное свойство.

Другой интересный аспект - на некоторых головах модели BERT графы внимания имеют явное отличие в своей форме на "естественных" и сгенерированных текстах. Говоря упрощенно, в среднем веса матриц внимания BERT, "смотрящей" на искуcственно сгенерированный текст, более "размазаны", а веса матриц внимания модели, "смотрящей" на естественный текст, более "сконцентрированы" на структуре предложения. Впрочем, этот эффект наблюдается не на всех головах.



Один из исследователей, который прочитал данную работу, сделал замечание о том, что нужно попробовать извлекать признаки из модели RoBERTa и сравнивать результат тоже с ней, так как на тот момент она была SoTA в задаче детекции сгенерированных текстов, но мы к тому времени уже занялись новой статьей. Впрочем, если верить туториалу https://artificial-text-detection.github.io/ от бывших коллег и их новых соавторов, RoBERTa все еще популярна для решения данной задачи.



#объяснения_статей #детекция_искусственных_текстов