
RecSys R&D Tеam Lead @ Wildberries - моя новая роль с февраля
Прошло уже 2 месяца, как я вышел на новую работу - пора рассказать, почему решил идти именно сюда
🚀 Масштаб
WB входит в топ-10 маркетплейсов мира... и растет ежегодно почти х2
Тут безумно много данных: 100М+ пользователей и еще больше товаров. И до кучи почти все модальности: ивенты пользователей (~таблички), текст, картинки, категории. Идеально, чтобы поработать с ними всеми:)
🦾 DL-емжечь сердца людей улучшать уже довольно хорошие модели
Можно смеяться над бейзлайном из топ-популярных товаров ровно до 10 провала его побить. Ну а если серьезно, то в WB конечно же есть двухуровневый пайплайн из ALS/BERT4Rec/Другие кандидаты + Catboost. Кстати, про BERT4Rec в wb недавно вышла статья
В общем, настало время более хитрых нейронок, beyond accuracy метрик, дебаясинга и прочих ml-радостей!
И даже уже получается добиваться занятных результатов на оффлайне 🤫
🧠 Катить в прод без страданий на C++ / разработки прод инфры
Development в R&D не случайное слово: мы целимся в проверку рискованных гипотез, чтобы в итоге выкатить их в прод, и заработать доп деньги компании. Целимся не только в доп деньги в моменте, но и удовлетворенность пользователей (читай, ретеншен и частотность). Написание статей - не приоритет, но если очень уж захочется, то можно!
Пока большинство моделей работают offline раз в ночь - можно ставить почти любую по сложности модель на airflow job и предгенерить рекомендации для всех пользователей. Безрегистрации и смс стремления попасть в 100мс -ный инференс. Идеально подходит для концепции SOTA ML4Value!)
🙌 С нуля собирать команду
Круто, что можно будет самому собрать команду. С другой стороны, если получится, то я молодец, а если нет.. 😅
Нас уже 4 человека, но еще пара вакансий скоро появится - думаю, напишу об этом в канале)
#personal
Прошло уже 2 месяца, как я вышел на новую работу - пора рассказать, почему решил идти именно сюда
🚀 Масштаб
WB входит в топ-10 маркетплейсов мира... и растет ежегодно почти х2
Тут безумно много данных: 100М+ пользователей и еще больше товаров. И до кучи почти все модальности: ивенты пользователей (~таблички), текст, картинки, категории. Идеально, чтобы поработать с ними всеми:)
🦾 DL-ем
Можно смеяться над бейзлайном из топ-популярных товаров ровно до 10 провала его побить. Ну а если серьезно, то в WB конечно же есть двухуровневый пайплайн из ALS/BERT4Rec/Другие кандидаты + Catboost. Кстати, про BERT4Rec в wb недавно вышла статья
В общем, настало время более хитрых нейронок, beyond accuracy метрик, дебаясинга и прочих ml-радостей!
И даже уже получается добиваться занятных результатов на оффлайне 🤫
🧠 Катить в прод без страданий на C++ / разработки прод инфры
Development в R&D не случайное слово: мы целимся в проверку рискованных гипотез, чтобы в итоге выкатить их в прод, и заработать доп деньги компании. Целимся не только в доп деньги в моменте, но и удовлетворенность пользователей (читай, ретеншен и частотность). Написание статей - не приоритет, но если очень уж захочется, то можно!
Пока большинство моделей работают offline раз в ночь - можно ставить почти любую по сложности модель на airflow job и предгенерить рекомендации для всех пользователей. Без
🙌 С нуля собирать команду
Круто, что можно будет самому собрать команду. С другой стороны, если получится, то я молодец, а если нет.. 😅
Нас уже 4 человека, но еще пара вакансий скоро появится - думаю, напишу об этом в канале)
#personal