Dealer.AI

Новый NLP сорев на kaggle.

В век LLM встаёт вопрос детекции синтетики/сгенерированных текстов. И вот наконец-то докатилось и до моей любимой платформы соревнований.

Кстати советую почитать каналы:

1. Юрия Кашницкого

2. И Техножрицы

Всё на тему детекции сгенерированных текстов. Особенно пленяет подход на основе определения размерности вложения и по нему детекции синтетики. Читаем в канале п2.

Соревнование тут:

https://www.kaggle.com/competitions/llm-detect-ai-generated-text/

Всем успехов!

UPD. Дополнение от @inkoziev

1) статья "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts" https://arxiv.org/pdf/2306.04723.pdf

2) реп https://github.com/ArGintum/GPTID к пред. статье

3) либа scikit-dimention https://scikit-dimension.readthedocs.io/en/latest/quick_start.html