
Что лучше: Spark Structured Streaming или полное прекращение работы прода?
А если серьезно, то ежедневно в Ozon добавляются сотни тысяч новых товаров и меняются те, что уже на сайте. Это могут быть изменения картинок, описаний, названий или цен.
Для наших процессов критически важно поддерживать все данные в актуальном виде, так как их используют последующие ML алгоритмы. Поэтому большое внимание мы уделяем ETL процессам — извлечению необходимых признаков из данных и их преобразованию.
Про интеграцию Kafka и Spark Structured Streaming, а также применение моделей машинного обучения в данной архитектуре рассказал Алексей Мохов, наш ML Инженер.
📌Читайте его статью на Хабре.
А если серьезно, то ежедневно в Ozon добавляются сотни тысяч новых товаров и меняются те, что уже на сайте. Это могут быть изменения картинок, описаний, названий или цен.
Для наших процессов критически важно поддерживать все данные в актуальном виде, так как их используют последующие ML алгоритмы. Поэтому большое внимание мы уделяем ETL процессам — извлечению необходимых признаков из данных и их преобразованию.
Про интеграцию Kafka и Spark Structured Streaming, а также применение моделей машинного обучения в данной архитектуре рассказал Алексей Мохов, наш ML Инженер.
📌Читайте его статью на Хабре.