4 степени готовности данных – архитектура слоев
Существует множество различных подходов к организации хранения данных. Один из наиболее эффективных и масштабируемых способов - это архитектура, которая подразумевает разделение данных на определенные слои по степени их «готовности» к использованию бизнесом. Вот наиболее распространенные из них:
1️⃣ RAW
RAW-данные – зеркала источников. Здесь хранится информация в ее первозданном виде, не подвергнутая никаким преобразованиям. Они нужны на случай, если мы допустим ошибку в витринах и их необходимо будет пересчитать. А также если мы поймем, что потеряли ценную информацию в процессе трансформации и агрегации информации.
2️⃣ ODS – Operational Data Store
На следующем этапе RAW-данные превращаются в единый формат хранения, учитывая различные источники и форматы данных. Это помогает сохранить целостность информации, сделать ее более удобной для обработки и избавить ее от изъянов, которые были в сыром представления. Условно, это предобработанные сырые источники.
3️⃣ DDS – Detail Data Storage
Это слой данных, в котором данные распределены по бизнес-сущностям, которые необходимы конечному потребителю. Продуктовым аналитикам удобнее всего пользоваться именно этим слоем, так как в нем отражена бизнес-модель.
4️⃣ CDM – Common Data Marts
В этом слое данные уже агрегированы и содержат метрики, которые необходимы конечным потребителям для принятия решений. Этот слой зачастую используются для создания и поддержания дашбордов в BI-системах.
А какую архитектуру слоев данных используете вы? Поделитесь своим опытом в комментариях!
Существует множество различных подходов к организации хранения данных. Один из наиболее эффективных и масштабируемых способов - это архитектура, которая подразумевает разделение данных на определенные слои по степени их «готовности» к использованию бизнесом. Вот наиболее распространенные из них:
RAW-данные – зеркала источников. Здесь хранится информация в ее первозданном виде, не подвергнутая никаким преобразованиям. Они нужны на случай, если мы допустим ошибку в витринах и их необходимо будет пересчитать. А также если мы поймем, что потеряли ценную информацию в процессе трансформации и агрегации информации.
На следующем этапе RAW-данные превращаются в единый формат хранения, учитывая различные источники и форматы данных. Это помогает сохранить целостность информации, сделать ее более удобной для обработки и избавить ее от изъянов, которые были в сыром представления. Условно, это предобработанные сырые источники.
Это слой данных, в котором данные распределены по бизнес-сущностям, которые необходимы конечному потребителю. Продуктовым аналитикам удобнее всего пользоваться именно этим слоем, так как в нем отражена бизнес-модель.
В этом слое данные уже агрегированы и содержат метрики, которые необходимы конечным потребителям для принятия решений. Этот слой зачастую используются для создания и поддержания дашбордов в BI-системах.
А какую архитектуру слоев данных используете вы? Поделитесь своим опытом в комментариях!