#fake_text_detection #chatgpt #кунсткамера



This screams to turn into a meme. «Всего по 10 статей из журнала - это, конечно, необычно мало, но мы считаем это фичей, а не багом».



Менеджмент продолжает тыкать в меня статьями с 99% точности отличия человеческих текстов от chatGPT. Эта опубликованная в Cell достойна места в кунсткамере.



Аннотация в виде картинки - хорошая идея, правда, я так и не понял, почему они в бинарной классификации репортят accuracy в 10%. Заврались немного, бывает. Описание Dataset development вызывает снобскую улыбку - химики явно переизобрели bag of words.



20 фичей уровня «вхождение слова because» или скобки да xgboost сверху – и выводы, что у нас сота, проблема детекции chatGPT решена.



Ну и на закуску можно почитать их R-код фича инжиниринга из предыдущей статьи. Думаю, у меня из-за этого сосуды в левом глазу лопнули.



ps. И что это я в Cell не публикуюсь? Остается только у себя в телеге гундеть.