Про Эльсивир на конфе по Research Integrity
#research_integrity
Я тут в Афинах,сувлаки точил вещал про #research_integrity, бывалые читатели канала знают уже больше, чем можно было осветить за 10 мин. на топовой конференции по теме - World Conferences on Research Integrity. Выступал я сразу после Анны Абалкиной, «сыщика», постоянно находящего новый фрод в науке. В этот раз было про «угнанные» журналы, которые Scopus все еще индексирует. Было неловко, шутил.
Вообще я напоследок готовлю препринт про все эти истории, как мы масштабировали научный антифрод, принеся туда Data Science. Статья еще будет проверяться лигалами и comms (тема щекотливая, а некоторые из публикуемых цифр могут даже влиять на стоки RELX), так что пока тут, в уютном кругу, краткий пересказ (как написал, понял, что сильно пересекается с этим постом, но пусть будет).
Осенью 2022-го издатель Hindawi пострадал от массированной атаки от paper mills - организаций, с удовольствием опубликующих любой ваш вшивый рисеч за деньгу. Своего рода академ-дудос. Hindawi тогда отозвал 500 статей (впоследствии - 8к) и как раз тогда же я пришел в проект. Мы пообщались с Hindawi, поняли, куда примерно копать, и прогнали quick&dirty анализ нескольких тысяч статей. Смотрели всего на несколько признаков: слишком продуктивные ревьюеры, слишком быстрые рецензии на статьи, странные имейлы ревьюеров, tortured phrases (а-ля picture acknowledgment вместо image recognition) и т.д. Типичная мешанина из жупитер ноутбуков для одноразового ETL и анализа, но оказалось полезно - мы пометили также около 500 подозрительных статей и команда Research Integrity отозвала десятки из них.
Был обнаружен Потенциал! Посмотрев на наш отчетик, я понял, что тут куда ни копни, найдешь тот или иной фрод. Начал общаться с экспертами, плодить идеи, писать более-менее нормальный код, думая про масштабирование, и привлекать коллег, топя за Research Integrity среди DS.
Хорошо сработало брейнстормить с экспертами и делить с ними бэклог, благо, я сразу распознал главного «технаря среди этиков» (команда publication ethics) и уцепился за него. Часть фич была чисто на реализациюсего-то простого, а часть - прям исследования (где-то анализ соцсетей, где-то поиск LLM-фраз в статьях).
Сейчас либа, хоть все еще прототип, но поднимает ~ 20 сигналов научного форда и анализирует до 1 млн. статей за раз. Киллер-фичей в сравнении с OS аналогами стали доп данные для дальнейшего ручного анализа. А то одно дело сказать «тут у статьи проблемы с пир-ревью», другое, показать все нужные данные по пир-ревью, имена-даты-объем и т.д.
Подозрительных статей - примерно 1%, но представьте, вывалить «этикам» даже пару десятков тысяч и сказать «надо отозвать» - ну прям оверкил. Research Integrity по классике - это знания предметной области, анализ одной статьи за другой, и даже процесс отзыва статьи (retraction) очень медленный (как минимум, надо дать автору 2 недели на шанс оправдаться, даже когда по имейлу очевидно, что автор не ответит). В-общем, назревает революция в этой области.
Далее я полез в политоту - рассказывал в компании всем, кто слушал бы, что репутация - это на длинной дистанции про деньги. Так что нужны инвестиции в Research Integrity (а заодно пссс, мне дайте разрабов, мы же дс, у нас лапки). Пошла типичная возня, у всех свои OKR… И так бы я и боролся еще месяцами, но тут издатели Wiley и MDPI теряют большие деньги из-за фрода, и менеджеры начинают постепенно чесаться. Суть проста: Clarivate, аналитическая команда Web Of Science, стала делать примерно то же, что и мы, но также помечать подозрительные журналы и, если те не смогли оправдаться, - выкидывать их из индекса WoS с обнулением импакт-фактора журнала. Wiley приобрели ранее того самого Hindawi (о чем точно пожалели), а MDPI давно славился своей подозрительно высокой скоростью рецензирования и толерантным отношением к низкому качеству статей.
В-общем, к концу 2023-го Wiley и MDPI потеряли по 30-40 млн. Мы тем временем достучались до CEO и получили много денег на проект. Команда research integrity выросла в 3 раза, и это только начало, DS тоже будет больше.
#research_integrity
Я тут в Афинах,
Вообще я напоследок готовлю препринт про все эти истории, как мы масштабировали научный антифрод, принеся туда Data Science. Статья еще будет проверяться лигалами и comms (тема щекотливая, а некоторые из публикуемых цифр могут даже влиять на стоки RELX), так что пока тут, в уютном кругу, краткий пересказ (как написал, понял, что сильно пересекается с этим постом, но пусть будет).
Осенью 2022-го издатель Hindawi пострадал от массированной атаки от paper mills - организаций, с удовольствием опубликующих любой ваш вшивый рисеч за деньгу. Своего рода академ-дудос. Hindawi тогда отозвал 500 статей (впоследствии - 8к) и как раз тогда же я пришел в проект. Мы пообщались с Hindawi, поняли, куда примерно копать, и прогнали quick&dirty анализ нескольких тысяч статей. Смотрели всего на несколько признаков: слишком продуктивные ревьюеры, слишком быстрые рецензии на статьи, странные имейлы ревьюеров, tortured phrases (а-ля picture acknowledgment вместо image recognition) и т.д. Типичная мешанина из жупитер ноутбуков для одноразового ETL и анализа, но оказалось полезно - мы пометили также около 500 подозрительных статей и команда Research Integrity отозвала десятки из них.
Был обнаружен Потенциал! Посмотрев на наш отчетик, я понял, что тут куда ни копни, найдешь тот или иной фрод. Начал общаться с экспертами, плодить идеи, писать более-менее нормальный код, думая про масштабирование, и привлекать коллег, топя за Research Integrity среди DS.
Хорошо сработало брейнстормить с экспертами и делить с ними бэклог, благо, я сразу распознал главного «технаря среди этиков» (команда publication ethics) и уцепился за него. Часть фич была чисто на реализациюсего-то простого, а часть - прям исследования (где-то анализ соцсетей, где-то поиск LLM-фраз в статьях).
Сейчас либа, хоть все еще прототип, но поднимает ~ 20 сигналов научного форда и анализирует до 1 млн. статей за раз. Киллер-фичей в сравнении с OS аналогами стали доп данные для дальнейшего ручного анализа. А то одно дело сказать «тут у статьи проблемы с пир-ревью», другое, показать все нужные данные по пир-ревью, имена-даты-объем и т.д.
Подозрительных статей - примерно 1%, но представьте, вывалить «этикам» даже пару десятков тысяч и сказать «надо отозвать» - ну прям оверкил. Research Integrity по классике - это знания предметной области, анализ одной статьи за другой, и даже процесс отзыва статьи (retraction) очень медленный (как минимум, надо дать автору 2 недели на шанс оправдаться, даже когда по имейлу очевидно, что автор не ответит). В-общем, назревает революция в этой области.
Далее я полез в политоту - рассказывал в компании всем, кто слушал бы, что репутация - это на длинной дистанции про деньги. Так что нужны инвестиции в Research Integrity (а заодно пссс, мне дайте разрабов, мы же дс, у нас лапки). Пошла типичная возня, у всех свои OKR… И так бы я и боролся еще месяцами, но тут издатели Wiley и MDPI теряют большие деньги из-за фрода, и менеджеры начинают постепенно чесаться. Суть проста: Clarivate, аналитическая команда Web Of Science, стала делать примерно то же, что и мы, но также помечать подозрительные журналы и, если те не смогли оправдаться, - выкидывать их из индекса WoS с обнулением импакт-фактора журнала. Wiley приобрели ранее того самого Hindawi (о чем точно пожалели), а MDPI давно славился своей подозрительно высокой скоростью рецензирования и толерантным отношением к низкому качеству статей.
В-общем, к концу 2023-го Wiley и MDPI потеряли по 30-40 млн. Мы тем временем достучались до CEO и получили много денег на проект. Команда research integrity выросла в 3 раза, и это только начало, DS тоже будет больше.