Электрорецензенты
Последнее время довольно часто обсуждаются научные статьи, сгененированные языковыми моделями, см. хотя бы этот пост. Самих статей на эту тему тоже хватает. Но это можно рассмотреть и с другой стороны — насколько часто люди пишут рецензии на статьи с помощью языковых моделей? И не где-то там, а на топовых ML конференциях: ICLR, NeurIPS, EMNLP🔥
Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews
Статья: https://arxiv.org/abs/2403.07183
Прежде всего, для данного конкретного текста зачастую невозможно определить, сгенерирован он языковой моделью или человеком. Это задача глобально неразрешимая. Если кто-то предлагает 90%+ точности определения таких текстов — это обман. Всё ещё и усложняется тем, что языковых моделей вообще-то довольно много, и если для какой-то конкретной ещё можно попытаться построить классификатор, то объять необъятное точно не получится😳
Однако! На уровне больших наборов текстов использование языковых моделей вполне можно отследить. У языковых моделей есть специфические предвзятости, будь то этические ограничения или определенные выборы слов. Эта статья ровно это и делает на корпусе рецензий топовых конференций.
Сам метод прост: берем словарь из всех прилагательных и считаем два распределения: одно для "чистых" текстов, второе для сгенерированных текстов. "Чистые" тексты берём из эпохи до ChatGPT, сгенерированные... генерируем. Для каждого прилагательного считаем, в какой доле документов из корпуса оно встретилось (df из tf-idf), и потом считаем вероятность каждого документа исходя из этого. Теперь у нас есть два распределения (одно для человеческих текстов и одно для машинных), и мы предполагаем, что новый корпус — это смесь этих двух распределений. Вес распределений в смеси оцениваем через метод максимального правдоподобия. Это всё тренируется и валидируется на 4 годах до ChatGPT, там доля машинных текстов получается меньше 2%.
Но вот в 2023 оценка вырастает до 6-16% для разных площадок😱
Особенно резкий скачок у EMNLP, и это как раз не удивительно, потому что рецензенты оттуда первыми и узнают о прогрессе в языковых моделях. Авторы честно предположили: а может люди просто вычитывают отзывы и исправляют опечатки языковыми моделями? Но нет, такие изменения слабо влияют на оценку.
А вот что могло повлиять на оценку — это написание краткого черновика отзыва с последующим запросом к языковой модели о расширении этого черновика до полноценной рецензии. Такой сценарий просимулировали, и действительно: детектор на такое агрится. Так что всё может не так уж и плохо. Есть ещё исследования разных эффектов, типа даты дедлайна, которые тоже вполне ожидаемы.
Выводы? Когда в следующий раз вам напишут странную рецензию на статью, помните: рецензент тоже (не) человек.
Последнее время довольно часто обсуждаются научные статьи, сгененированные языковыми моделями, см. хотя бы этот пост. Самих статей на эту тему тоже хватает. Но это можно рассмотреть и с другой стороны — насколько часто люди пишут рецензии на статьи с помощью языковых моделей? И не где-то там, а на топовых ML конференциях: ICLR, NeurIPS, EMNLP
Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews
Статья: https://arxiv.org/abs/2403.07183
Прежде всего, для данного конкретного текста зачастую невозможно определить, сгенерирован он языковой моделью или человеком. Это задача глобально неразрешимая. Если кто-то предлагает 90%+ точности определения таких текстов — это обман. Всё ещё и усложняется тем, что языковых моделей вообще-то довольно много, и если для какой-то конкретной ещё можно попытаться построить классификатор, то объять необъятное точно не получится
Однако! На уровне больших наборов текстов использование языковых моделей вполне можно отследить. У языковых моделей есть специфические предвзятости, будь то этические ограничения или определенные выборы слов. Эта статья ровно это и делает на корпусе рецензий топовых конференций.
Сам метод прост: берем словарь из всех прилагательных и считаем два распределения: одно для "чистых" текстов, второе для сгенерированных текстов. "Чистые" тексты берём из эпохи до ChatGPT, сгенерированные... генерируем. Для каждого прилагательного считаем, в какой доле документов из корпуса оно встретилось (df из tf-idf), и потом считаем вероятность каждого документа исходя из этого. Теперь у нас есть два распределения (одно для человеческих текстов и одно для машинных), и мы предполагаем, что новый корпус — это смесь этих двух распределений. Вес распределений в смеси оцениваем через метод максимального правдоподобия. Это всё тренируется и валидируется на 4 годах до ChatGPT, там доля машинных текстов получается меньше 2%.
Но вот в 2023 оценка вырастает до 6-16% для разных площадок
Особенно резкий скачок у EMNLP, и это как раз не удивительно, потому что рецензенты оттуда первыми и узнают о прогрессе в языковых моделях. Авторы честно предположили: а может люди просто вычитывают отзывы и исправляют опечатки языковыми моделями? Но нет, такие изменения слабо влияют на оценку.
А вот что могло повлиять на оценку — это написание краткого черновика отзыва с последующим запросом к языковой модели о расширении этого черновика до полноценной рецензии. Такой сценарий просимулировали, и действительно: детектор на такое агрится. Так что всё может не так уж и плохо. Есть ещё исследования разных эффектов, типа даты дедлайна, которые тоже вполне ожидаемы.
Выводы? Когда в следующий раз вам напишут странную рецензию на статью, помните: рецензент тоже (не) человек.