Принципы Site Reliability Engineering (SRE) в последнее время очень популярны, отчасти благодаря знаменитой книге о SRE в Google, где говорится о золотых сигналах, за которыми нужно следить, чтобы наши системы работали быстро и безотказно в любых масштабах.



Все понимают, что это важные сигналы, но не все знают, как их отслеживать. Об этом мало где пишут.

А между тем собирать эти сигналы гораздо сложнее, чем традиционные данные по ЦП и ОЗУ. У каждого сервиса и ресурса свои метрики, определения и, особенно, инструменты.



В этом всем мы рассказали в новой статье ➡️