Новый NLP сорев на kaggle.
В век LLM встаёт вопрос детекции синтетики/сгенерированных текстов. И вот наконец-то докатилось и до моей любимой платформы соревнований.
Кстати советую почитать каналы:
1. Юрия Кашницкого
2. И Техножрицы
Всё на тему детекции сгенерированных текстов. Особенно пленяет подход на основе определения размерности вложения и по нему детекции синтетики. Читаем в канале п2.
Соревнование тут:
https://www.kaggle.com/competitions/llm-detect-ai-generated-text/
Всем успехов!
UPD. Дополнение от @inkoziev
1) статья "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts" https://arxiv.org/pdf/2306.04723.pdf
2) реп https://github.com/ArGintum/GPTID к пред. статье
3) либа scikit-dimention https://scikit-dimension.readthedocs.io/en/latest/quick_start.html
В век LLM встаёт вопрос детекции синтетики/сгенерированных текстов. И вот наконец-то докатилось и до моей любимой платформы соревнований.
Кстати советую почитать каналы:
1. Юрия Кашницкого
2. И Техножрицы
Всё на тему детекции сгенерированных текстов. Особенно пленяет подход на основе определения размерности вложения и по нему детекции синтетики. Читаем в канале п2.
Соревнование тут:
https://www.kaggle.com/competitions/llm-detect-ai-generated-text/
Всем успехов!
UPD. Дополнение от @inkoziev
1) статья "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts" https://arxiv.org/pdf/2306.04723.pdf
2) реп https://github.com/ArGintum/GPTID к пред. статье
3) либа scikit-dimention https://scikit-dimension.readthedocs.io/en/latest/quick_start.html