Инжиниринг Данных

#bigdata

Ниже ссылка на запись AWS re:invent Big Data Analytics Architectural Patterns and Best Practices. (Примеры архитектуры для кейсов Big Data и лучшие практики).

https://www.youtube.com/watch?v=ovPheIbY7U8

Любая система аналитики представляет собой следующую систему: Сырые данные -> Запись в область хранения -> Обработка-> Запись в область хранения -> Аналитика -> Инсайты

Согласно презентации, современные технологии, в частности AWS и его аналоги, позволяют нам для каждого элемента системы выбрать наиболее подходящую технологию. Выделяют следующие архитектурные принципы:

🙈Разделение системы – отдельно область хранения, отдельно вычислительные мощности

🙊Каждой задаче свой инструмент

🙉Максимально использовать managed или serverless сервисы, то есть сервисы, где нужна минимальная поддержка

🙊Храним все историю изменений и данных (озеро данных)

🙈Экономность – мы платим только за использование ресурса

🙉Машинное обучение – используем по возможности

В презентации хорошо видно можно подобрать подходящий инструмент в зависимости от задачи, типа данных, объема, частоты использования и других вводных.

Например, у меня сейчас есть задача, предоставить логи веб сервера маркетингу для аналитики. Вроде бы все просто, вот логи, и я могу взять один лог файл (access combined) и загрузить в Redshift. Время загрузки одного файла 1 минута. Но мне нужно загрузить 3 года данных, при этом за один день, у меня несколько тысяч файлов, то есть я только один день буду грузить несколько тысяч минут.

Поэтому мне необходимо воспользоваться системой класса Big Data, которая сможет быстро сделать эту работу. В данном случае это EMR (Hadoop)+Spark. Spark – задает логику для вычислительных мощностей Hadoop (EMR), а данные хранятся в S3 (файловое хранилище), то есть моя система разделена (хранение данных и вычислительные мощности). Это всего лишь один из вариантов решения задачи. Так же я могу использовать Redshift Spectrum и создать внешние таблицы поверх S3, или использовать serverless ETL AWS Glue, и загрузить и обработать файлы.

Выводов 3

1)Технологии так быстро развиваются, что мы не поспеваем за ними

2)Если у нас не получается решить задачу обычным способом с классическим ETL/DW, тогда мы можем смотреть в сторону Big Data решений

3)Cloud serverless and managed services are future for analytics.