https://motherduck.com/blog/big-data-is-dead/



За последнюю неделю эту статью обсудили везде где только можно: во всех чатах, линкединах и пабликах. Если что, автор - один из founding engineers BigQuery, поэтому его слова, как минимум, не стоит игнорировать. Решил перечитать ее пару раз, вот на какие мысли наткнулся в своей головушке, в целом соглашаясь с автором:



Бигдата на самом деле не такая большая

Тут я с автором согласен. Подавляющее большинство компаний и команд, с которыми я общался, считают, что у них очень много данных и они обрабатывают петагигамегабайты, но на деле все сильно меньше. В погоне за хайпом и “у нас хранилище 400 Террабайт!” мы потеряли главный смысл - данные должны приносить пользу, а не лежать в json-гробах.



Compute нужно сильно меньше, даже когда растет Storage

Тут все тоже довольно просто: с легкой барской руки мы накидываем ворверов и экзекьюторов, потому что у нас хранилище увеличилось в 2 раза, но на деле нет прямой пропорциональной зависимости compute (вычислительные мощности) от storage (наших объемов хранилищ).



Данных много, а анализируем всего лишь небольшую часть

Тут можно разделить на две части:

- Базы данных умеют в оптимизацию достаточно хорошо, поэтому даже при плохом запросе умудряются уменьшать объем обрабатываемых данных

- Большинство данных очень важны за вчера, меньше за неделю, за месяц еще реже, за год данные нам нужны чаще всего только для больших корпоративных презентаций. Ну и сезонность / праздники иногда посчитать.



Очень порадовало определение “Big Data is when the cost of keeping data around is less than the cost of figuring out what to throw away”, проще хранить, чем тратить время и выяснять, а что можно удалить, а что по закону надо хранить 7 лет.

Ну и еще из классического: “if the date is older than 2019 use the revenue field, between 2019 and 2021 use the revenue_usd field, and after 2022 use the revenue_usd_audited field”.



В конце статьи есть прекрасный список вопросов, очень рациональный, по поводу внедрения бигдаты и всего этого красивого.



@ohmydataengineer