Generative AI & Research Integrity. Часть 3. Детекторы
#science #ml #chatgpt #fake_text_detection #research_integrity
Наконец третья часть расширенной версии моего доклада на DataFest 2023 (первая часть была про Paper Mills и некоторые истории из области Research Integrity, связанные с Generative AI; вторая часть – про соревнование при COLING 2022, которое я организовывал, и подвохи про 99% в детекции ML-генерированного текста).
С детекторами текста, написанного chatGPT, все плохо. Лучшая тому иллюстрация – то как OpenAI тихо прикрыл демку с их классификатором. Конечно, бонус им в карму за то, что често описали, что задача сложная и детекторы плохо обобщаются на новые LM и домены (OpenAI репортит 26% полноты, и 58.5% верных ответов в задаче бинарной классификации). Но все же эта честность, видимо, стала вредить репутации. Да и кеки про сонеты Шекспира с метками “likely AI-generated” вряд ли вдохновляли. Но все же можно было не тихо закрывать сервис, а описать в блоге/статье, что задача сложная, надежных решений пока нет. В итоге приходится предполагать, что самим OpenAI такой детектор не нужен.
В посте про undetectable.ai я также рассказывал про борьбу брони и пушки. Вроде как сервис помогает обмануть детекторы, но его тоже можно обмануть, если попросить chatGPT написать текст, похожий на человеческий. В итоге undetectable.ai обманывает еще и вас (не запутались?). Классификатор OpenAI прикрылся, а они все еще рисуют зеленые галочки с подписью “OpenAI”, хорошая работа фронтендеров. Ну а что, хайп, куй пока горячо.
Да в целом и большинство детекторов, обещающих 99% качества - туда же, куют пока горячо. ZeroGPT, GPTZero и иже с ними, как правило, не раскрывают know-how, пишут только что-то в стиле “we use sophisticated algorithms to analyze statistical properties of the text”. 99%, есть апи, давай сюда кредитку.
Из подходов к построению детекторов самый очевидный – натренировать классификатор на большой выборке человеческих текстов и машинно-генерированных. Про проблемы такого подхода я писал во 2-ой части, в целом детекторы очень плохо обобщаются. Если в трейне были тексты, написанные GPT3, то обобщение на тексты, сгенерированные BLOOM, будет очень плохим. И наоборот. Если про научные статьи, это показал победитель моего соревнования Domenic Rosati. Также есть свежая статья “Distinguishing Fact from Fiction: A Benchmark Dataset for Identifying Machine-Generated Scientific Papers in the LLM Era” с неплохим открытый бенчмарком IDMGSP, результаты там весьма печальные, много ablation studies, и никакой метод в итоге не обобщается надежно на все датасеты. И в целом кажется, что практика это подтверждает, судя по участившимся скандалам, что некий детектор обвинил студента в том, что работа написана chatGPT.
Есть папирус с обзором существующих методов детекции (спасибо Лаиде за ссылку). Помимо бинарных классификаторов на базе нейронок, есть еще классические методы стилометрии (stylometric attribution), по которым определяют авторство текста. Впрочем, там как правило тоже ML, с признаками от общих энграм и частей речи до более специфичных (Linguistic Inquiry & Word Count), Readability score и т.д.). Впрочем, на бенчмарке TuringBench олдскульные стилометрические методы проигрывают бертам.
Продолжение ⬇️
#science #ml #chatgpt #fake_text_detection #research_integrity
Наконец третья часть расширенной версии моего доклада на DataFest 2023 (первая часть была про Paper Mills и некоторые истории из области Research Integrity, связанные с Generative AI; вторая часть – про соревнование при COLING 2022, которое я организовывал, и подвохи про 99% в детекции ML-генерированного текста).
С детекторами текста, написанного chatGPT, все плохо. Лучшая тому иллюстрация – то как OpenAI тихо прикрыл демку с их классификатором. Конечно, бонус им в карму за то, что често описали, что задача сложная и детекторы плохо обобщаются на новые LM и домены (OpenAI репортит 26% полноты, и 58.5% верных ответов в задаче бинарной классификации). Но все же эта честность, видимо, стала вредить репутации. Да и кеки про сонеты Шекспира с метками “likely AI-generated” вряд ли вдохновляли. Но все же можно было не тихо закрывать сервис, а описать в блоге/статье, что задача сложная, надежных решений пока нет. В итоге приходится предполагать, что самим OpenAI такой детектор не нужен.
В посте про undetectable.ai я также рассказывал про борьбу брони и пушки. Вроде как сервис помогает обмануть детекторы, но его тоже можно обмануть, если попросить chatGPT написать текст, похожий на человеческий. В итоге undetectable.ai обманывает еще и вас (не запутались?). Классификатор OpenAI прикрылся, а они все еще рисуют зеленые галочки с подписью “OpenAI”, хорошая работа фронтендеров. Ну а что, хайп, куй пока горячо.
Да в целом и большинство детекторов, обещающих 99% качества - туда же, куют пока горячо. ZeroGPT, GPTZero и иже с ними, как правило, не раскрывают know-how, пишут только что-то в стиле “we use sophisticated algorithms to analyze statistical properties of the text”. 99%, есть апи, давай сюда кредитку.
Из подходов к построению детекторов самый очевидный – натренировать классификатор на большой выборке человеческих текстов и машинно-генерированных. Про проблемы такого подхода я писал во 2-ой части, в целом детекторы очень плохо обобщаются. Если в трейне были тексты, написанные GPT3, то обобщение на тексты, сгенерированные BLOOM, будет очень плохим. И наоборот. Если про научные статьи, это показал победитель моего соревнования Domenic Rosati. Также есть свежая статья “Distinguishing Fact from Fiction: A Benchmark Dataset for Identifying Machine-Generated Scientific Papers in the LLM Era” с неплохим открытый бенчмарком IDMGSP, результаты там весьма печальные, много ablation studies, и никакой метод в итоге не обобщается надежно на все датасеты. И в целом кажется, что практика это подтверждает, судя по участившимся скандалам, что некий детектор обвинил студента в том, что работа написана chatGPT.
Есть папирус с обзором существующих методов детекции (спасибо Лаиде за ссылку). Помимо бинарных классификаторов на базе нейронок, есть еще классические методы стилометрии (stylometric attribution), по которым определяют авторство текста. Впрочем, там как правило тоже ML, с признаками от общих энграм и частей речи до более специфичных (Linguistic Inquiry & Word Count), Readability score и т.д.). Впрочем, на бенчмарке TuringBench олдскульные стилометрические методы проигрывают бертам.
Продолжение ⬇️