New Yorko Times

Теория графов в проекте про дубликаты статей

#math #projects #research_integrity

Вдогонку к предыдущему посту: математическая формулировка задачи + эксперименты в подтверждение.

https://yorko.github.io/2023/scaling-laws-near-dups/

Формулы все еще не идеальны, но хотя бы не ASCII, не придется полоскать глаза йодом.

Пересказ без математики:

- почти-дубликаты обнаруживают кучу всякого интересного научного фрода

- замерял, что в Эльсивире примерно у 4% статей есть почти-дубликат (иначе – 96% статей оригинальны)

- перед тем как раскатывать решение на всех основных издателей, надо было понять, а что будет с процентом оригинальных статей в датасете из всех статей всех основных издателей

- предложил модель случайного графа для отношения "быть почти-дубликатом"

- модель предсказывает, что с увеличением выборки процент оригинальных статей падает экспоненциально

- в экспериментах модель неплохо подтвердилась

- то есть действительно, во "всей науке" можно обнаружить намного больше фрода, связанного с дубликатами статей, чем в рамках одного издателя, пусть и большого