Курс по Data Science, которого нет

#ml #courses



Помнится, пару лет назад, до этого канала и блога я начинал постить в Fb/Vk, и первый пост был об ML-курсах, которых на тот момент не хватало: про бизнес-применения DS и про MLOps. И если курсов по MLOps развелось куча (прямо в этот понедельник начался хороший курс на русском https://t.me/new_yorko_times/96), то вот тема реальных сценариев применения как-то еще не особо покрыта. Так что все еще можно хватать идею, я сейчас на разработку нового курса вряд ли подпишусь, упоротости хватило только на mlcourse.ai.



К слову, https://mlcourse.ai хорош, но скорее как «академический» курс (да, даже несмотря на домашки и Kaggle), все же таких по формату курсов уже много, где пусть и хорошо, но материал объясняется в Jupyter, в отрыве от того, какая бизнес-проблема решается и как именно техническое решение будет работать (это все как бы трейлер обещанного поста про минусы млкурса #todo).



В рамках OpenDataScience какое-то время, очень недолго проводились встречи формата «true story», где люди делились реальными историями проектов, где в каком-то виде использовался ML. На таких встречах можно было узнать то, о чем вряд ли пишут в книгах и статьях. Я тоже в таком формате рассказывал https://www.youtube.com/watch?v=uK4hPD12YmI об одном из проектов на минском DataFest 2018 (про рекомендации контента, мощь бейзлайн-решений и суровые будни нагруженных систем). В канале/блоге тоже есть посты про фэйлы в реальных проектах https://yorko.github.io/2021/ds-failures-part1, https://yorko.github.io/2021/ds-failures-part2. Вот недавний https://t.me/new_yorko_times/71 (stay tuned, фэйлов еще будет немало). Есть некоторое смещение в сторону фэйлов, поскольку они красочны, но вообще «true story» не обязательно про фэйлы, скорее даже наоборот.



Хотелось бы взять и структурировать ± все области, в которых ML сейчас работает и может приносить деньги. Я это вижу прямо как огромное дерево – таксономию различных проектов в Data Science. Хочешь предиктивную аналитику – вот типичные задачи, вот демка, скажем, для прогноза LTV. Хочешь про сегментацию пользователей – вот целое поддерево с описанием различных задач.



Бонус для того, кто возьмется это сделать: такой курс был бы шикарным промо для занятий консалтингом. Лучшее, что я пока видел в таком роде – это Datarobot PathFinder https://pathfinder.datarobot.com — как раз use cases, группированные по областям применения.



Если у кого-то получится побороть проблемы с NDA, собрать 40-50-60 примеров реальных проектов, структурировать их и создать курс, в идеале — с данными (сложно) и кодом – это было бы очень-очень ценно. По крайней мере, мне такое еще не попадалось (конечно, пишите в коментах, если вам что-то попадалось).