Инжиниринг Данных

#dataengineering Пример современной Big Data архитектуры с использованием решений AWS. Ключевой элемент здесь serverless ETL - AWS Glue, который управляет потоками данных, забирая их из источника, складируя в озеро данных S3, при это делает очень важную вещь - собирает метаданные и создает схему данных. Без этого шага, ваше озеро данных=помойка данных. Так же AWS Glue использует Spark для работы с данными или EMR (Hadoop) для вычислительной мощности. Результат отправляется в Redshift для BI или используется для ML. Такую архитектуро можно воспроизвести +/- 1 в 1 в Google/Azure.