Пост-мортем (разбор причин аварии, действий по ее устранению, а также обсуждение того, что можно улучшить в системе для того, чтобы проблема не повторилась) недавнего получасового отключения Stack Overflow.
Вкратце: неоптимальный регексп вызвал высокую нагрузку на CPU (ReDoS - Regular expression Denial of Service), из-за чего главная страница сайта, на которой и срабатывал этот регексп, оказалась недоступна, а load balancer, проверяющий доступность бэкенда только через доступность главной страницы отключил весь бэкенд целиком.
http://amp.gs/8BVs
Вкратце: неоптимальный регексп вызвал высокую нагрузку на CPU (ReDoS - Regular expression Denial of Service), из-за чего главная страница сайта, на которой и срабатывал этот регексп, оказалась недоступна, а load balancer, проверяющий доступность бэкенда только через доступность главной страницы отключил весь бэкенд целиком.
http://amp.gs/8BVs