Гитхаб позавчера выкатил пост мортем об инциденте прошлой недели.



Вкратце — из-за короткого (43 секунды) раъединения связи между датацентрами в разных концах США, механизм выбора мастера сломался, и сделал так, что приложения стали жить в одном ДЦ, а данные — в другом.



Из-за пинга в 60ms между серверами и БД собственно и начались проблемы, которые они восстанавливали больше суток.



Интересное:

— Количество данных они измеряют во времени, которое ушло на их генерацию (a few seconds of data, 30 minutes of data).

— Можно было потерять 30 минут данных, но не вырубать систему на сутки. Понимая сроки в самом начале, они все равно решили вырубаться. Сильное решение.

— Полный бекап БД гитхаба занимает несколько терабайт, снимается раз в 4 часа и восстанавливается для проверки раз в день.

— Они очень быстро реагируют — через 11 минут после начала проблем гитхаб перевел индикатор работоспособности в желтый режим, а еще через 2 минуты пришел некий Incident Coordinator (интересно, сколько человек у них on-call?) и перевел индикатор в красный.



#гитхаб