ACL 2024 Shared Task про детекцию генерированного научного контента
#fake_text_detection #kaggle #ml #chatgpt
Я уже рассказывал, как мы делали не самое удачное соревнование при COLING 2022. Теперь вторая итерация, при ACL 2024 – CodaBench (+ страница воркшопа + GitHub с бейзлайном).
Вместо бинарной классификации аннотаций на человеческие и синтетические (пересказанные/LLM-генерированные/суммаризованные/etc), теперь мы взяли полные тексты статей и делаем token-level классификацию на 4 класса: “написано человеком”, ”заменено синонимами”, “сумаризовано”, “пересказано chatGPT”. Гипотеза, что авторы не полностью пишут статью LLM-ками, а частями (верна гипотеза или нет, мы не знаем, не имея детектора, а мы его не имеем). Задача слегка похожа на недавнюю в semEval 2024 task 8 subtask 3, где часть текста написана человеком, часть – элэлэм, и надо было предсказать номер токена, где происходит переход.
Детали (также подробно описано на CodaBench):
1. Данные. Игрушечный пример для нашего соревнования:
- tokens: [’this’, ‘is’, ‘a’, ‘paper’, ‘this’, ‘part’, ‘is’, ‘gpt’]
- target: [0, 0, 0, 0, 3, 3, 3, 3] – первые 4 токена написаны человеком (класс 0), вторые четыре – GPT (класс 3); классов 0 и 1 в этом примере нет.
2. Метрика – average row-wise macro-F1, то есть по строке считаем macro-F1 (в примере выше с прогнозом из всех нулей, например, это 1/3), затем усредняем по строкам, поясняется на странице Evaluation соревнования, тоже с игрушечным примером.
3. Бейзлайн. В качестве бейзлайна делимся DistilBERT-ом, обученным в token classiifcation режиме. GitHub
4. Дополнительные данные можно использовать, надо только до тестовой фазы (29 апреля) описать источник на Форуме соревнования.
5. Призы. В отличие от многих академических соревнований, в том числе от нашего же прошлого, тут предлагается Деньга! 3k за 1 место, 1200 – за второе, 800 – за третье.
6. Участие в ACL 2024. Также есть возможность обубликоваться на ACL 2024, топовой NLP-конфе, и даже съездить в Тайланд в августе, рассказать про свое решение (уже, правда, за свой счет либо из призовых). Соревнование – это Shared Task воркшопа Scholarly Document Processing при ACL (мы-то знаем, что публикации на воркшопах – не то же самое, что main track A* конференций, но эйчары не всегда знают, а ключевые слова можно сунуть в сиви. Только тссс…).
Сам же скажу про минус соревнования: уже бейзлайн выбивает 0.84 на лб, задача опять получается “вещью в себе”, реальная детекция LLM-текстов куда сложнее. То же самое, впрочем, и у нас в прошлой сореве было, и в той антверпенской c 4-мя командами, что мы выиграли (пост), и даже в SemEval 2024.
Налетайте!
пс. для самых подкованных кэгглеров, мотивированных жизнеописаниями грандмастеров: теоретически можно покраулить-пошкряпать, т.к. полные тексты статей нам дали только из открытых статей. Так только время потеряете, залететь в топ лб можно, но призов не будет. Слегка серой зоной остается скраппинг для получения доп данных, тут оговорка в правилах (подсказанная chatGPT, конечно): “Data scraping with the intention of restoring any aspect of competition data is strictly forbidden. The specific objective of scraping is subject to the discretion of the organizers.”
#fake_text_detection #kaggle #ml #chatgpt
Я уже рассказывал, как мы делали не самое удачное соревнование при COLING 2022. Теперь вторая итерация, при ACL 2024 – CodaBench (+ страница воркшопа + GitHub с бейзлайном).
Вместо бинарной классификации аннотаций на человеческие и синтетические (пересказанные/LLM-генерированные/суммаризованные/etc), теперь мы взяли полные тексты статей и делаем token-level классификацию на 4 класса: “написано человеком”, ”заменено синонимами”, “сумаризовано”, “пересказано chatGPT”. Гипотеза, что авторы не полностью пишут статью LLM-ками, а частями (верна гипотеза или нет, мы не знаем, не имея детектора, а мы его не имеем). Задача слегка похожа на недавнюю в semEval 2024 task 8 subtask 3, где часть текста написана человеком, часть – элэлэм, и надо было предсказать номер токена, где происходит переход.
Детали (также подробно описано на CodaBench):
1. Данные. Игрушечный пример для нашего соревнования:
- tokens: [’this’, ‘is’, ‘a’, ‘paper’, ‘this’, ‘part’, ‘is’, ‘gpt’]
- target: [0, 0, 0, 0, 3, 3, 3, 3] – первые 4 токена написаны человеком (класс 0), вторые четыре – GPT (класс 3); классов 0 и 1 в этом примере нет.
2. Метрика – average row-wise macro-F1, то есть по строке считаем macro-F1 (в примере выше с прогнозом из всех нулей, например, это 1/3), затем усредняем по строкам, поясняется на странице Evaluation соревнования, тоже с игрушечным примером.
3. Бейзлайн. В качестве бейзлайна делимся DistilBERT-ом, обученным в token classiifcation режиме. GitHub
4. Дополнительные данные можно использовать, надо только до тестовой фазы (29 апреля) описать источник на Форуме соревнования.
5. Призы. В отличие от многих академических соревнований, в том числе от нашего же прошлого, тут предлагается Деньга! 3k за 1 место, 1200 – за второе, 800 – за третье.
6. Участие в ACL 2024. Также есть возможность обубликоваться на ACL 2024, топовой NLP-конфе, и даже съездить в Тайланд в августе, рассказать про свое решение (уже, правда, за свой счет либо из призовых). Соревнование – это Shared Task воркшопа Scholarly Document Processing при ACL (мы-то знаем, что публикации на воркшопах – не то же самое, что main track A* конференций, но эйчары не всегда знают, а ключевые слова можно сунуть в сиви. Только тссс…).
Сам же скажу про минус соревнования: уже бейзлайн выбивает 0.84 на лб, задача опять получается “вещью в себе”, реальная детекция LLM-текстов куда сложнее. То же самое, впрочем, и у нас в прошлой сореве было, и в той антверпенской c 4-мя командами, что мы выиграли (пост), и даже в SemEval 2024.
Налетайте!
пс. для самых подкованных кэгглеров, мотивированных жизнеописаниями грандмастеров: теоретически можно покраулить-пошкряпать, т.к. полные тексты статей нам дали только из открытых статей. Так только время потеряете, залететь в топ лб можно, но призов не будет. Слегка серой зоной остается скраппинг для получения доп данных, тут оговорка в правилах (подсказанная chatGPT, конечно): “Data scraping with the intention of restoring any aspect of competition data is strictly forbidden. The specific objective of scraping is subject to the discretion of the organizers.”