Data Portal | Data Science & Машиннное обучение

Как выглядит эффективная среда для экспериментов в машинном обучении?

Практики MLOps направлены на повышение скорости разработки продуктов машинного обучения, однако серьезные узкие места возникают, когда среда для экспериментов и другие инфраструктурные элементы интегрированы плохо.

Давайте разберем ключевые свойства, которыми должна обладать эффективная среда для экспериментов. Как инженер MLOps, вы должны предоставлять их пользователям, а как Data Scientist – понимать, что именно вам необходимо.

🔸

Доступ к сырым данным

Хотя обработка сырых данных – зона ответственности Data Engineering, Data Scientist'ам важно иметь возможность исследовать и анализировать их, чтобы решать, какие данные необходимо продвигать по Data Value Chain (цепочке ценности данных).

🔸

Доступ к подготовленным (curated) данным

Подготовленные данные могут находиться в Data Warehouse, но при этом не быть доступны через Feature Store. Такие данные не должны использоваться для обучения моделей в продакшн-среде. Data Scientist'ы должны иметь возможность исследовать подготовленные данные и решать, что стоит продвигать дальше.

🔸

Источник данных для обучения моделей

Данные для обучения моделей должны поступать из Feature Store, если ML-тренировочный конвейер готов к переходу в продакшн.

🔸

Гибкость в развертывании вычислительных кластеров

Data Scientist'ы должны легко запускать различные типы вычислительных кластеров (Spark, Dask или другие технологии) для эффективного исследования сырых и подготовленных данных.

🔸

Возможность запуска продакшн-подобного ML-конвейера из ноутбука

Data Scientist'ы должны иметь возможность ад-хок развернуть тренировочный ML-конвейер в среде разработки прямо из Jupyter Notebook. Это значительно ускоряет итерации экспериментов.

🔸

Автоматизированное тестирование и продвижение кода

Должен быть автоматизированный процесс тестирования и деплоя в следующую среду при создании Pull Request в определенные ветки. Например, PR из feature/* в release/* может запускать CI/CD, который протестирует и развернет ML-конвейер в pre-prod.

🔸

Интеграция с Git

Ноутбуки и другой код, связанный с CI/CD, должны быть частью Git-репозитория. Важно четко определить, где должен храниться тот или иной тип кода. Хорошая практика – использование шаблонов репозиториев с понятной документацией.

🔸

Система отслеживания экспериментов и моделей

Она должна быть доступна как для локальных, так и для удаленных ML-конвейеров.

🔸

Соответствие окружения ноутбуков и продакшн-среды

Ноутбуки должны запускаться в том же окружении, что и продакшн-код, чтобы избежать проблем с несовместимыми зависимостями. Это можно реализовать с помощью контейнеризации

👉

@DataSciencegx