Мои проекты в Elsevier. Часть 1.

#work #projects



Пришел я в апреле 2020, когда ковид только набрал силу, ноут не приходил месяца три, моей дочери еще не стукнуло и полугода, кошка заболела раком (все хорошо), а девушка, передававшая мне проекты, работала над mental health, так скажем. Благо, жопа по всем фронтам была недолго, вскоре все наладилось.



Simultaneous submissions. Идея применить LSH (масштабируемый алгоритм поиска текстовых почти-дубликатов) к статьям пришла сразу. На выходе – и инструмент, и куча идей по research integrity, и даже математическая задачка. Тут писал. Побочный плюс – описывал проект в формате research presentation на двух собесах: с Амазоном и Snorkel AI. Даже too much leadership проявил.



Scientific language editing. Проект а-ля научный Grammarly надо было сразу убить (пост). Но в эпоху Gen AI проект воскрес, и сейчас мы активно и свои мистрали-гпт дообучаем, и сторонние решения смотрим. Потенциальный импакт – уменьшить часть из неск. миллионов, которые издатель трат на редактирование языка в принятых статьях. Побочный эффект – сигнализировать об очень плохо написанных статьях.



SDGs. Проект по классификации научных статей по вкладу в Sustainable Development Goals. Тут с первых дней было понятно, что импакт огромен, прогнозы выкатятся и во все основные продукты, и в Times Higher Education Impact Ranking. Тут я провел пару бессонных ночей, ничего не получалось. Потом пообщался с челом из другой команды (всегда полезно) и он подсказал поиграться с порогами (этот универсальный трюк я тут описывал). В итоге комбинированное решение из класики и ML всем зашло, и недавно мы даже статью в q1 журнале опубликовали (пост). По версии младшего брата, все еще "очень слабо", но сплю я спокойно (то есть начал спать спокойно как забег по собесам кончился).



Научный классификатор. Таких много, конечно, но этот был легаси стартапа, который Эльсивир приобрел несколько лет назад. char-RNN c довольно кучерявым feature engineering раскидывал статьи по 3-уровневой иерархии научных областей и использовался в отчетах для всяких жирных клиентов от Unesco до Еврокомиссии. Мне надо было перенять Tensorflow-модель 😳 и по-нормальному катнуть в прод, навесить mlops. Решив, что модель четкая (по ней и статейка научная была опубликована, а первый автор – тот самый чел, который сдвинул меня с мертвой точки в проекте с SDG), я около трех недель возился с hf accelerate, чтоб обучить уже PyTorch-модель на новых данных. В конце проверил tf-idf с логрегом, и оказалось гуд инаф. Вот так сам наступил на грабли, хотя золотое правило: первым делом бейзлайн. И еще вывод: доверяй крутым ребятам, но проверяй. Правда, модель там простая, а вот из фич осталось несколько любопытных – помимо текста самой статьи (название, ключевые слова, аннотация), добавили все то же из процитированных статей. То есть своего рода уже графовая классификация (вершины – статьи, ребра – ссылки/references), хоть и без графов.



Классификация статей в графе цитирований. Предыдущий проект навел на мысль порисечить графы и как мы можем ими улучшить все классификации, а их у Эльсивира и даже одной нашей команды полно (большие ребята типа китайской или австралийской академии наук любят приходить и просить раскидать рисеч по их таксономиям, чаще всего чтоб понять, в какой именно рисеч инвестировать). Я решил уже больше руководить, чем копаться с hf accelerate и матюгать легаси на тензорфлоу, и взял студента на программу masters универа Амстердама. Он оказался хорош, наняли его DS-ом, на следующий год он помогал тащить уже второго студента, причем по той же теме. Второго парня тоже наняли. Более того, второй парень дотащил идею до основного трека COLING (препринт), так что в мае поедут тусить в Турин. Вот только в прод ничего из этого не пошло, +3-4 пп. к метрикам того не стоят. Зато наняли двух шикарных ребят, отличный выхлоп рисеч-проекта.



Продолжение ⬇️