На Медиуме есть автор Стив Мушеро (Steve Mushero), который много пишет о SRE и о подходах к мониторингу по этой методологии. Здесь он пишет про золотые сигналы SRE (Latency, Traffic, Errors, and Saturation), методики USE и RED, но есть и статьи о метриках, которые он рекомендует собирать в контексте SRE по конкретным элементам систем. Ниже подборка таких статей.
Метрики балансировщика (AWS ALB/ELB, HAProxy)
Метрики веб-серверов (Apache & Nginx)
Метрики серверов приложений (PHP, FPM, Java, Ruby, Node, Go, Python)
Метрики серверов баз данных (MySQL & AWS RDS и AWS Aurora)
Метрики Линукс-серверов (Linux)
Метрики балансировщика (AWS ALB/ELB, HAProxy)
Метрики веб-серверов (Apache & Nginx)
Метрики серверов приложений (PHP, FPM, Java, Ruby, Node, Go, Python)
Метрики серверов баз данных (MySQL & AWS RDS и AWS Aurora)
Метрики Линукс-серверов (Linux)