Мои проекты в Elsevier. Часть 2.
#work #projects
Вставка. Кто разглядит это в середине длинного поста, тому скорее актуально: тут скоро появится вакансия на Principal Machine Learning Scientist в Эльсивир в Амстердаме (тут был я), можно готовиться, искать у себя комбинацию индустриального и академического ML опыта.
Regretted Rejects (неуспех). Паблишеры отвергают кучу статей. Некоторые статьи потом вполне могут уйти к другим паблишерам и даже попасть в крутые журналы. Кривая оценка, основанная на матчинге статей только по названиям, намекала, что компания теряет восьмизначную сумму на таких regretted rejects. Мы попробовали применить frequent itemset mining и прочий data mining, но что-то блестящих инсайтов не накопали. Менеджеры как-то тем временем друг на друга смотрели и думали, с какой стороны подойти к слону. Ждали инсайтов от DS, мы ждали конкретики от менеджеров. В-общем, затухло.
LLM-детектор. Проект с карт-бланшем на чистый рисеч: я сразу сказал, что такое никто не умеет, значит, будем рисечить. Много писал на эту тему #fake_text_detection. В целом мало что выходит, кроме соревнований: запустили одно с COLING в 22-ом (так себе), потом мелкое мы выиграли как участники, сейчас еще делаем сореву с ACL 2024. Воз и ныне там, орешек не колется. Но скоро хотя бы запустят валидацию сторонних решений, уже это совсем не тривиально – представьте даже, как сложно составить инструкции разметчикам: вот это текст человека, а это – GPT или другой LLM. Попутно тут возимся с LLM-фразами, проникшими в статьи, что заслуженно прорвало твиттер (охота на черного лебедя, скоро расскажу, что там накопали).
AnalyticsGPT. Тут пока просто идея – конвертировать запросы пользователя про науку на естественном языке в запросы API и отвечать. Условно, “кто самые известные нидерландские ученые, вносящие вклад в SDG 7 Affordable and clean energy?”. Вот тут бы дернуть апи скопуса/SciVal, достать нужные метрики и ответить пользователю. Пока все на стадии PoC, из реального вклада – только мелкие фичи для чем-то похожего ScopusAI (про наши LLM-прототипы писал тут).
Research Integrity. Про это тоже много писал по тегу #research_integrity. Я долго объяснял всем higher-ups, кто слушал, что репутация – это деньги, в долгосрочной перспективе. И вот деньги подкатили раньше, чем я сам ожидал. С нашим прототипом (либа пока даже не в проде) отдел Research Integrity сумел отстоять 4 журнала от деиндексирования из WebOfScience. Это спасло пару млн. Контекст: ребята из Clarivate, WebOfScience делают примерно то же, что и мы, находят манипуляции с цитированиями, признаки paper mills, прочий фрод и выкидывают такие журналы. Impact factor падает до нуля, трафик тоже. Издатель Wiley так потерял около 30 млн. из-за покупки Hindawi. MDPI, всегда известный фривольным отношением к качеству статей, тоже потерял несколько журналов и млн. Clarivate говорит, что эльсивир лучше всех других издателей помогает с данными для поддержки исследований по обнаружению фрода.
По комбинации интересных проектов, work-life balance и дохода, возможно, эльсивир надолго останется на парето-горбе моих мест работы, в том числе будущих.
#work #projects
Вставка. Кто разглядит это в середине длинного поста, тому скорее актуально: тут скоро появится вакансия на Principal Machine Learning Scientist в Эльсивир в Амстердаме (тут был я), можно готовиться, искать у себя комбинацию индустриального и академического ML опыта.
Regretted Rejects (неуспех). Паблишеры отвергают кучу статей. Некоторые статьи потом вполне могут уйти к другим паблишерам и даже попасть в крутые журналы. Кривая оценка, основанная на матчинге статей только по названиям, намекала, что компания теряет восьмизначную сумму на таких regretted rejects. Мы попробовали применить frequent itemset mining и прочий data mining, но что-то блестящих инсайтов не накопали. Менеджеры как-то тем временем друг на друга смотрели и думали, с какой стороны подойти к слону. Ждали инсайтов от DS, мы ждали конкретики от менеджеров. В-общем, затухло.
LLM-детектор. Проект с карт-бланшем на чистый рисеч: я сразу сказал, что такое никто не умеет, значит, будем рисечить. Много писал на эту тему #fake_text_detection. В целом мало что выходит, кроме соревнований: запустили одно с COLING в 22-ом (так себе), потом мелкое мы выиграли как участники, сейчас еще делаем сореву с ACL 2024. Воз и ныне там, орешек не колется. Но скоро хотя бы запустят валидацию сторонних решений, уже это совсем не тривиально – представьте даже, как сложно составить инструкции разметчикам: вот это текст человека, а это – GPT или другой LLM. Попутно тут возимся с LLM-фразами, проникшими в статьи, что заслуженно прорвало твиттер (охота на черного лебедя, скоро расскажу, что там накопали).
AnalyticsGPT. Тут пока просто идея – конвертировать запросы пользователя про науку на естественном языке в запросы API и отвечать. Условно, “кто самые известные нидерландские ученые, вносящие вклад в SDG 7 Affordable and clean energy?”. Вот тут бы дернуть апи скопуса/SciVal, достать нужные метрики и ответить пользователю. Пока все на стадии PoC, из реального вклада – только мелкие фичи для чем-то похожего ScopusAI (про наши LLM-прототипы писал тут).
Research Integrity. Про это тоже много писал по тегу #research_integrity. Я долго объяснял всем higher-ups, кто слушал, что репутация – это деньги, в долгосрочной перспективе. И вот деньги подкатили раньше, чем я сам ожидал. С нашим прототипом (либа пока даже не в проде) отдел Research Integrity сумел отстоять 4 журнала от деиндексирования из WebOfScience. Это спасло пару млн. Контекст: ребята из Clarivate, WebOfScience делают примерно то же, что и мы, находят манипуляции с цитированиями, признаки paper mills, прочий фрод и выкидывают такие журналы. Impact factor падает до нуля, трафик тоже. Издатель Wiley так потерял около 30 млн. из-за покупки Hindawi. MDPI, всегда известный фривольным отношением к качеству статей, тоже потерял несколько журналов и млн. Clarivate говорит, что эльсивир лучше всех других издателей помогает с данными для поддержки исследований по обнаружению фрода.
По комбинации интересных проектов, work-life balance и дохода, возможно, эльсивир надолго останется на парето-горбе моих мест работы, в том числе будущих.