Вопрос от анонима (мопед не мой), нужен совет, бест практис:



"Я иногда собеседую людей и меня всегда удивлял тот факт, что никто еще не сделал идеального мониторинга.

Мы для себя придумали правила, по которым пытаемся настраивать мониторинг, чтобы он отвечал на главный вопрос - надо ли отрывать жопу и бежать фиксить.



- все алерты рассматриваются под призмой - "Алерт пришел мне ночью". Если алерт пришел мне ночью, а я его отложил до утра - удаляем.

- если алерт пришел мне не один раз и я так ничего с этим не сделал - удаляем.

- если алерт пришел и сразу отресторился и никто ничего с этим не сделал более двух раз - удаляем.



Тут надо отметить, что не все нотификации приводят к алерту (не отсылаются в on-call), а только те, что мы определили как Critical. Warning и Info просто насыпают в Slack.



Казалось бы при таком подходе, после нескольких итераций геноцида алертов, каналы мониторинга должны прийти в норму и показывать только актуальные проблемы, но нет. Все просто завалено спамом и мотивации это все разгребать все меньше и меньше.



Как побороть это говно? Как сделать мониторинг, в котором будут только реальные проблемы?"