🌐 Как выйти за пределы юпитер ноутбука?
Большинство начинающих дата-саентистов разрабатывают модельки в юпитер ноутбуках. Но на практике, как правило, используют модели не в ноутбуках, а запускают скрипты из различных систем. Что же нужно для для этого делать?
Во-первых, для выхода из ноутбука нужно научиться создавать такой код, который запускается одним нажатием Run All. Впоследствии это уже можно сохранить в виде скрипта с расширением .py и работать с ним.
Далее есть два уровня выхода из ноутбука:
1. Запуск скриптов по расписанию
a) В unix-системах есть команда cron, которая позволяет регулярно запускать скрипты. В своём скрипте вы, соответственно, можете собирать актуальные данные, прогонять их через модель и отправлять эти данные туда, куда вам нужно.
Можно настроить cron как на локалхосте, так и на каком-нибудь удаленном сервере. Подробнее про cron можно почитать здесь
b) Можно делать регулярные операции с данными в скрипте с помощью библиотеки scheduler, закинув скрипт на Амверу/ Render/ какие-то подобные сервисы, где он будет крутиться
2. Запуск пайплайнов по расписанию
1) Apache Airflow - система, с помощью которой можно запускать пайплайны по расписанию: автоматически собирать данные, передавать в модель и что-то делать с выходными данными модели
2) MLFlow - запуск пайплайнов по расписанию + мониторинг (на смещение скора, на входные фичи и т. д.)
Про него и другие опенсорсные решения для MLOps на Хабре есть классная статья
Еще про продуктивизацию ml моделей есть классный плейлист, стоит посмотреть, если хотите разобраться в этой теме 🙂
Ставьте огоньки, если было полезно (наберем 70 🔥?) и пишите в комментариях, про что бы вам еще хотелось увидеть посты
Большинство начинающих дата-саентистов разрабатывают модельки в юпитер ноутбуках. Но на практике, как правило, используют модели не в ноутбуках, а запускают скрипты из различных систем. Что же нужно для для этого делать?
Во-первых, для выхода из ноутбука нужно научиться создавать такой код, который запускается одним нажатием Run All. Впоследствии это уже можно сохранить в виде скрипта с расширением .py и работать с ним.
Далее есть два уровня выхода из ноутбука:
1. Запуск скриптов по расписанию
a) В unix-системах есть команда cron, которая позволяет регулярно запускать скрипты. В своём скрипте вы, соответственно, можете собирать актуальные данные, прогонять их через модель и отправлять эти данные туда, куда вам нужно.
Можно настроить cron как на локалхосте, так и на каком-нибудь удаленном сервере. Подробнее про cron можно почитать здесь
b) Можно делать регулярные операции с данными в скрипте с помощью библиотеки scheduler, закинув скрипт на Амверу/ Render/ какие-то подобные сервисы, где он будет крутиться
2. Запуск пайплайнов по расписанию
1) Apache Airflow - система, с помощью которой можно запускать пайплайны по расписанию: автоматически собирать данные, передавать в модель и что-то делать с выходными данными модели
2) MLFlow - запуск пайплайнов по расписанию + мониторинг (на смещение скора, на входные фичи и т. д.)
Про него и другие опенсорсные решения для MLOps на Хабре есть классная статья
Еще про продуктивизацию ml моделей есть классный плейлист, стоит посмотреть, если хотите разобраться в этой теме 🙂
Ставьте огоньки, если было полезно (наберем 70 🔥?) и пишите в комментариях, про что бы вам еще хотелось увидеть посты