4 степени готовности данных – архитектура слоев



Существует множество различных подходов к организации хранения данных. Один из наиболее эффективных и масштабируемых способов - это архитектура, которая подразумевает разделение данных на определенные слои по степени их «готовности» к использованию бизнесом. Вот наиболее распространенные из них:



1️⃣ RAW



RAW-данные – зеркала источников. Здесь хранится информация в ее первозданном виде, не подвергнутая никаким преобразованиям. Они нужны на случай, если мы допустим ошибку в витринах и их необходимо будет пересчитать. А также если мы поймем, что потеряли ценную информацию в процессе трансформации и агрегации информации.



2️⃣ ODS – Operational Data Store



На следующем этапе RAW-данные превращаются в единый формат хранения, учитывая различные источники и форматы данных. Это помогает сохранить целостность информации, сделать ее более удобной для обработки и избавить ее от изъянов, которые были в сыром представления. Условно, это предобработанные сырые источники.



3️⃣ DDS – Detail Data Storage



Это слой данных, в котором данные распределены по бизнес-сущностям, которые необходимы конечному потребителю. Продуктовым аналитикам удобнее всего пользоваться именно этим слоем, так как в нем отражена бизнес-модель.



4️⃣ CDM – Common Data Marts



В этом слое данные уже агрегированы и содержат метрики, которые необходимы конечным потребителям для принятия решений. Этот слой зачастую используются для создания и поддержания дашбордов в BI-системах.



А какую архитектуру слоев данных используете вы? Поделитесь своим опытом в комментариях!