No Data No Growth | Pavel Bukhtik

4 степени готовности данных – архитектура слоев

Существует множество различных подходов к организации хранения данных. Один из наиболее эффективных и масштабируемых способов - это архитектура, которая подразумевает разделение данных на определенные слои по степени их «готовности» к использованию бизнесом. Вот наиболее распространенные из них:

1️⃣ RAW

RAW-данные – зеркала источников. Здесь хранится информация в ее первозданном виде, не подвергнутая никаким преобразованиям. Они нужны на случай, если мы допустим ошибку в витринах и их необходимо будет пересчитать. А также если мы поймем, что потеряли ценную информацию в процессе трансформации и агрегации информации.

2️⃣ ODS – Operational Data Store

На следующем этапе RAW-данные превращаются в единый формат хранения, учитывая различные источники и форматы данных. Это помогает сохранить целостность информации, сделать ее более удобной для обработки и избавить ее от изъянов, которые были в сыром представления. Условно, это предобработанные сырые источники.

3️⃣ DDS – Detail Data Storage

Это слой данных, в котором данные распределены по бизнес-сущностям, которые необходимы конечному потребителю. Продуктовым аналитикам удобнее всего пользоваться именно этим слоем, так как в нем отражена бизнес-модель.

4️⃣ CDM – Common Data Marts

В этом слое данные уже агрегированы и содержат метрики, которые необходимы конечным потребителям для принятия решений. Этот слой зачастую используются для создания и поддержания дашбордов в BI-системах.

А какую архитектуру слоев данных используете вы? Поделитесь своим опытом в комментариях!