Внезапная скромность OpenAI про 26% полноты

#ml #chatgpt #fake_text_detection



Кто-то из Эффективных Менеджеров паснул в мою сторону статью Forbes про yet another (для меня) и революционный (для менеджера) детектор текста, сгенерированного chatGPT, у которого 99% accuracy. Мол цени, че свяжемся, потестируем?



Читаю статью. Ну, датасет из 128 статей это уже и не смешно. Интересно подбить списочек по метрикам:



- TurnitIn: 98% accuracy

- Copyleaks: 99% accuracy

- Winston AI: 99% accuracy

- AI Writing check: 80-90% accuracy

- OpenAI classifier: 26% recall, 91% specificity, 58.5% accuracy (если я тут все верно посчитал)



Кекьх. Отчего это вдруг у OpenAI такая скромность? Они создали chatGPT, нанимают лучшие умы, которые потом пашут по 60-90 часов в неделю. И что, они проигрывают универу Канзаса в задаче детекции chatGPT-контента?



Конечно, нет. Задача, в общем-то не так проста. Или, как говорят спецы по мемам, есть нюанс. Описал в новом посте, почему это так. Подкрепляется моим опытом организации COLING 2022 трека с примерно той же задачей. Вот полный пост, а выжимка такова:



- модели участников соревнования выбили по 99%, явно переобучившись на фичи датасета (например, что модель-пересказчик, всегда начинает с какой-то одной фразы-открытия)

- один из победителей соревнования Domenic Rosati опубликовал папирус, где показал, что модели, обученные на данных моего соревнования, не обобщаются на новую похожую выборку, полученную немного другими DL-моделями



Задача пока вообще не решена. И чем дальше, тем сложнее будет сказать, где человеческий текст, а где машинный.



А пока… можно заявлять 95% и толкать свой продукт. Как Дороничев c новым стартапом в смежной задаче распознавания фейк-изображений. Если вы где-то слышите про "99% точности» в этой задаче, перешлите людям этот пост или английский вариант.



Ps. я все же разобью текст своего выступления на DataFest на несколько постов. Stay tuned.