New Yorko Times

Generative AI & Research Integrity. Часть 3. Детекторы (продолжение)

#science #ml #chatgpt #fake_text_detection #research_integrity

Наконец есть методы, обозванные в обзоре статистическим (а то как будто стилометрия и дип лернинг – не статистика). Они смотрят на вероятности появления слов, перплексию, KL-дивергенцию между распределениями слов у людей и моделей и т.п. Работали, может, и неплохо, но только до GPT-3. DetectGPT здесь же. Он предполагает, что синтетические тексты обитают на неком многообразии, которое можно выделить с помощью простой формулы (”The hypothesis of this statistics-based detector is that neural texts tend to lie in areas of negative curvature of the log probability function”, статья). Вроде zero-shot, интересно, но в упомянутом выше свежем бенчмарке IDMGSP DetectGPT очень плох. Наконец, сюда же попадает статья с участием Лаиды Кушнаревой, Сергея Николенко и Евгения Бурнаева (обзор Лаиды тут). Я даже не буду пытаться пересказать, какой матаппарат там накрутили, но нашли магическую функцию, отделяющую синтетические тексты от человеческих. Но, как и сами авторы писали, есть проблемы (например, в случае высокой температуры GPT), да и у меня на бенчмарке IDMGSP метод как-то не очень завелся.

Есть еще всякие fingerprints/watermarks, которые могут быть как чисто статистическими, так и гибридными, если в какой-то части используют эмбеддинги берта. Одна из идей – искусственно завышать вероятность появления некоторых слов из белого списка (был пост про это и в сиолошной). Но опять же, прям надежно это не работает, умельцы смогут хакнуть. Так что мечта о том, что OpenAI & Co. сами будут помечать синтетические тексты ватермарками, пока не очень работает.

В-общем, детекторов разных куча. Кажется, по точности побеждают берты. Но не хватает обширных бенчмарков (у меня даже была идея о GLUE-подобного лидерборда для этой задачи). Ну а с качеством in the wild совсем беда.

Напоследок порассуждаю, как такие детекторы могут применяться в реальности, на площадках типа реддита и StackOverflow, или в интересах научных издателей, желающих распознать chatGPT-генерированные статьи. Ответ прост: да почти никак. Детекторы все плохи. Кто это уже понял, не запрещает chatGPT . Кто не понял, выступает клоуном и пытается запретить chatGPT. Пхахах, берем попкорн и смотрим, как StackOverflow будет банит GPT-ботов.

Научный издатель Эльсивир не запрещает chatGPT при написании текстов, правда, только для пруфридинга и коррекции грамматики. То есть на совести автора признаться, что chatGPT использовался, но типа как Grammarly. На самом деле если провести небольшой мыслительный эксперимент, можно понять, что научным издателям не поможет даже оракул со 100% точностью детекции. Вот перед тобой 2 статьи, одна с нуля написана chatGPT и не имеет смысла, вторая – осмысленная, нормальная статья, у которой каждый абзац переписан с помощью chatGPT, чтоб улучшить язык и формулировки. Оракул скажет, что обе статьи синтетические и будет прав. Не очень полезно.

Все это весело. Пока задача плохо решается. Уже живем в мире, в котором нельзя дать гарантии, что какой-либо текст написан человеком. Делать надежные детекторы тем не менее надо. Как минимум для того, чтоб в GPT-N подсовывать тексты, реально написанные людьми (как известно, обучать LLM на текстах, написанных LLM, не очень продуктивно). Интересно понаблюдать, как chad компании будут исчерпывать интернет в поисках данных для новых LLM и как они будут отфильтровывать синтетику.