LLM-словечки да фразочки в комментариях рецензентов и статьях
#work #research_integrity
Может, видели, что chatGPT предпочитает словечко delve, возможно потому, что RLHF делали африканцы. В научных статьях и комментариях рецензентов свои приколы.
Использование chatGPT косвенно можно заподозрить по частотам таких слов как meticulous, commendable или intricate. Сначала это обнаружили в комментариях рецензентов статей на ICLR и NeurIPS (см. картинки ниже), потом уже – по корпусу полных текстов статей из Dimensions. С комментариями рецензентов любопытно, что чем ближе к дедлайну, тем скорее они написаны с использованием chatGPT. В 2023 году вообще всплеск использования “meticulous” и “commendable” и их комбинаций, и в целом Andrew Grey (которого, кстати, наша Research Integrity команда хвалит как крутого ученого и теперь вот сыщика) оценивает долю статей, написанных с chatGPT в 1%. Безусловно, будет расти.
Дальше в статье философские рассуждение, насколько оно хорошо или плохо. В целом GPT и для отшлифовки статьи может использоваться, и в плохих целях а-ля фабриковать данные. Оценить масштаб фрода с chatGPT и прочими LLM пока не получится, сложно.
Далее, если доля генерированного научного контента будет расти, последующие LLM скорее всего будут ухудшаться (есть пара статей про то, что синтетика пока вредит, также как и дубликаты). Также будет меняться сама лексика исследователей. Если повсюду “meticulous” и “commendable”, а токсичных негативных фраз меньше, это скорее всего повлияет и на подбор слов людьми.
Отдельная история – с шаблонами типа “As an AI language model” или введения статьи, начинающегося с “Certainly, here is an introduction for you”. Про это подробней расскажу чуть позже #todo, когда наш внутренний анализ закончится. Но в целом таких фраз – единицы-десятки в курируемом контенте, прошедшем через издателей и рецензентов. Google Scholar, да, много такого показывает, но сколар индексирует “все что похоже на рисеч”, и качество этих документов не сравнить с базами опубликованных статей Scopus или Web of Science. Тут скорее интересно будет порассуждать про задачу поиска “черного лебедя”, когда False Negative (например, статья с введением “Certainly, here is an introduction for you”) в 1000x раз опаснее False Positive (то есть, редактору пришлось отвлечься на безобидное применение фразы типа “certainly, here”). Какие-то ручные проверки у нас уже наладили, пока ни одного оповещения за 2 недели не было.
С этим черным лебедем “Certainly, here is a possible introduction for your topic:” (статья все еще висит) история кек. В принятой версии драфта все было норм, автор не виноват. GPT-фраза появилась уже в продакшн-процессе, ее оставил кто-то из контрактников, вычитывающих принятые статьи. Что, безусловно, не снимает ответственности с паблишера, хейт-волна на линкедине и в твитере вполне оправдана.
#work #research_integrity
Может, видели, что chatGPT предпочитает словечко delve, возможно потому, что RLHF делали африканцы. В научных статьях и комментариях рецензентов свои приколы.
Использование chatGPT косвенно можно заподозрить по частотам таких слов как meticulous, commendable или intricate. Сначала это обнаружили в комментариях рецензентов статей на ICLR и NeurIPS (см. картинки ниже), потом уже – по корпусу полных текстов статей из Dimensions. С комментариями рецензентов любопытно, что чем ближе к дедлайну, тем скорее они написаны с использованием chatGPT. В 2023 году вообще всплеск использования “meticulous” и “commendable” и их комбинаций, и в целом Andrew Grey (которого, кстати, наша Research Integrity команда хвалит как крутого ученого и теперь вот сыщика) оценивает долю статей, написанных с chatGPT в 1%. Безусловно, будет расти.
Дальше в статье философские рассуждение, насколько оно хорошо или плохо. В целом GPT и для отшлифовки статьи может использоваться, и в плохих целях а-ля фабриковать данные. Оценить масштаб фрода с chatGPT и прочими LLM пока не получится, сложно.
Далее, если доля генерированного научного контента будет расти, последующие LLM скорее всего будут ухудшаться (есть пара статей про то, что синтетика пока вредит, также как и дубликаты). Также будет меняться сама лексика исследователей. Если повсюду “meticulous” и “commendable”, а токсичных негативных фраз меньше, это скорее всего повлияет и на подбор слов людьми.
Отдельная история – с шаблонами типа “As an AI language model” или введения статьи, начинающегося с “Certainly, here is an introduction for you”. Про это подробней расскажу чуть позже #todo, когда наш внутренний анализ закончится. Но в целом таких фраз – единицы-десятки в курируемом контенте, прошедшем через издателей и рецензентов. Google Scholar, да, много такого показывает, но сколар индексирует “все что похоже на рисеч”, и качество этих документов не сравнить с базами опубликованных статей Scopus или Web of Science. Тут скорее интересно будет порассуждать про задачу поиска “черного лебедя”, когда False Negative (например, статья с введением “Certainly, here is an introduction for you”) в 1000x раз опаснее False Positive (то есть, редактору пришлось отвлечься на безобидное применение фразы типа “certainly, here”). Какие-то ручные проверки у нас уже наладили, пока ни одного оповещения за 2 недели не было.
С этим черным лебедем “Certainly, here is a possible introduction for your topic:” (статья все еще висит) история кек. В принятой версии драфта все было норм, автор не виноват. GPT-фраза появилась уже в продакшн-процессе, ее оставил кто-то из контрактников, вычитывающих принятые статьи. Что, безусловно, не снимает ответственности с паблишера, хейт-волна на линкедине и в твитере вполне оправдана.