Победа в голландском треке по детекции chatGPT-контента
#fake_text_detection #ml #chatgpt #competition
Хех, победа. Понятно, как я это буду в резюме подавать, в реальности же мы с коллегой победили среди 4 команд (sic! ох уж эти академ-соревы) в одном треке (голландском), причем в другом (англоязычном) с тем же решением заняли всего 3 место. Лидерборд. Бонусом – получили $500 на команду (мелочь, а приятно, не ожидали от академиков) и скатался в Антверпен на invited talk, где рассказал, что как с Generative AI в науке и research integrity (тут то же самое – по тегу #fake_text_detection).
Соревнование – в рамках локальной бельгийско-голландской конференции CLIN (Computational Linguistics in The Netherlands). Надо распознавать GPT-генерированный текст на английском и голландском, жанров 5: новости, твиты, рецензии, поэзия и некий мистический жанр прозы. Обучающих данных не дали, дали только 1200 примеров в дев сете (без поэзии и мистики), большинство участников собственно кроме этого дев сета других данных и не собирали. Я ожидал прям ядреный шейкап, но в целом его не произошло – тест был очень похож на дев сет. Ну только с поэзией все провалились.
У меня решение в-общем, в лоб: XLMRoberta – и в путь! Из более-менее интересного, помогло дополнительно предсказывать жанр (если обобщить до практического применения: будущий chatGPT-детектор может быть не универсальным, а смесью разных детекторов, один для твитов, второй – для научных статей и т.д.). Также мы обнаружили, что детекторы, обученные не научных статьях, более-менее работают и на данных соревнования, что странно.
Но у победителя английского трека Hans van Halteren решение интересней – чистый фича инжениринг и простые модельки. Из признаков - насколько распределение слов отличается от диктуемого законов Зипфа (у людей ближе к Зипфу), дисперсия длины предложений (у людей выше), то же самое с разбивкой на начала/середину и конец текста. Дальше рассказывать не могу, Ханс скоро опубликует свои находки.
Все участники соревнования также будут вместе писать статью, смотреть, как модели, обученные в рамках этого соревнования, обобщаются на другие похожие данные (а их немало уже насобирали). Есть ощущение, что обобщаться это все должно не очень здорово, и от нормального детектора мы все так же далеки. Но будет интересно поглядеть.
А если вдруг кто хочет прыгнуть в такую же задачу – 8-ая задача SemEval 2024 ровно про это. SemEval – авторитетные в NLP-кругах соревнования и задача, как я тут в канале уже неоднократно писал, очень сложная. Так что челлендж. Но, с другой стороны, если что-то осмысленное получится накопать, можнопрославиться опубликовать статью.
Вообще порой глазами получается распознать текст, написаный chatGPT – если он длинный, душный, похож на документацию и грамотно написан – бинго! Осталось это только формализовать, упаковать в ML-фичи и продавать свой очередной chatGPT-детектор с 99% accuracy.
#fake_text_detection #ml #chatgpt #competition
Хех, победа. Понятно, как я это буду в резюме подавать, в реальности же мы с коллегой победили среди 4 команд (sic! ох уж эти академ-соревы) в одном треке (голландском), причем в другом (англоязычном) с тем же решением заняли всего 3 место. Лидерборд. Бонусом – получили $500 на команду (мелочь, а приятно, не ожидали от академиков) и скатался в Антверпен на invited talk, где рассказал, что как с Generative AI в науке и research integrity (тут то же самое – по тегу #fake_text_detection).
Соревнование – в рамках локальной бельгийско-голландской конференции CLIN (Computational Linguistics in The Netherlands). Надо распознавать GPT-генерированный текст на английском и голландском, жанров 5: новости, твиты, рецензии, поэзия и некий мистический жанр прозы. Обучающих данных не дали, дали только 1200 примеров в дев сете (без поэзии и мистики), большинство участников собственно кроме этого дев сета других данных и не собирали. Я ожидал прям ядреный шейкап, но в целом его не произошло – тест был очень похож на дев сет. Ну только с поэзией все провалились.
У меня решение в-общем, в лоб: XLMRoberta – и в путь! Из более-менее интересного, помогло дополнительно предсказывать жанр (если обобщить до практического применения: будущий chatGPT-детектор может быть не универсальным, а смесью разных детекторов, один для твитов, второй – для научных статей и т.д.). Также мы обнаружили, что детекторы, обученные не научных статьях, более-менее работают и на данных соревнования, что странно.
Но у победителя английского трека Hans van Halteren решение интересней – чистый фича инжениринг и простые модельки. Из признаков - насколько распределение слов отличается от диктуемого законов Зипфа (у людей ближе к Зипфу), дисперсия длины предложений (у людей выше), то же самое с разбивкой на начала/середину и конец текста. Дальше рассказывать не могу, Ханс скоро опубликует свои находки.
Все участники соревнования также будут вместе писать статью, смотреть, как модели, обученные в рамках этого соревнования, обобщаются на другие похожие данные (а их немало уже насобирали). Есть ощущение, что обобщаться это все должно не очень здорово, и от нормального детектора мы все так же далеки. Но будет интересно поглядеть.
А если вдруг кто хочет прыгнуть в такую же задачу – 8-ая задача SemEval 2024 ровно про это. SemEval – авторитетные в NLP-кругах соревнования и задача, как я тут в канале уже неоднократно писал, очень сложная. Так что челлендж. Но, с другой стороны, если что-то осмысленное получится накопать, можно
Вообще порой глазами получается распознать текст, написаный chatGPT – если он длинный, душный, похож на документацию и грамотно написан – бинго! Осталось это только формализовать, упаковать в ML-фичи и продавать свой очередной chatGPT-детектор с 99% accuracy.