Новый NLP сорев на kaggle.



В век LLM встаёт вопрос детекции синтетики/сгенерированных текстов. И вот наконец-то докатилось и до моей любимой платформы соревнований.



Кстати советую почитать каналы:

1. Юрия Кашницкого

2. И Техножрицы



Всё на тему детекции сгенерированных текстов. Особенно пленяет подход на основе определения размерности вложения и по нему детекции синтетики. Читаем в канале п2.



Соревнование тут:



https://www.kaggle.com/competitions/llm-detect-ai-generated-text/



Всем успехов!





UPD. Дополнение от @inkoziev



1) статья "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts" https://arxiv.org/pdf/2306.04723.pdf



2) реп https://github.com/ArGintum/GPTID к пред. статье



3) либа scikit-dimention https://scikit-dimension.readthedocs.io/en/latest/quick_start.html