Гитхаб позавчера выкатил пост мортем об инциденте прошлой недели.
Вкратце — из-за короткого (43 секунды) раъединения связи между датацентрами в разных концах США, механизм выбора мастера сломался, и сделал так, что приложения стали жить в одном ДЦ, а данные — в другом.
Из-за пинга в 60ms между серверами и БД собственно и начались проблемы, которые они восстанавливали больше суток.
Интересное:
— Количество данных они измеряют во времени, которое ушло на их генерацию (a few seconds of data, 30 minutes of data).
— Можно было потерять 30 минут данных, но не вырубать систему на сутки. Понимая сроки в самом начале, они все равно решили вырубаться. Сильное решение.
— Полный бекап БД гитхаба занимает несколько терабайт, снимается раз в 4 часа и восстанавливается для проверки раз в день.
— Они очень быстро реагируют — через 11 минут после начала проблем гитхаб перевел индикатор работоспособности в желтый режим, а еще через 2 минуты пришел некий Incident Coordinator (интересно, сколько человек у них on-call?) и перевел индикатор в красный.
#гитхаб
Вкратце — из-за короткого (43 секунды) раъединения связи между датацентрами в разных концах США, механизм выбора мастера сломался, и сделал так, что приложения стали жить в одном ДЦ, а данные — в другом.
Из-за пинга в 60ms между серверами и БД собственно и начались проблемы, которые они восстанавливали больше суток.
Интересное:
— Количество данных они измеряют во времени, которое ушло на их генерацию (a few seconds of data, 30 minutes of data).
— Можно было потерять 30 минут данных, но не вырубать систему на сутки. Понимая сроки в самом начале, они все равно решили вырубаться. Сильное решение.
— Полный бекап БД гитхаба занимает несколько терабайт, снимается раз в 4 часа и восстанавливается для проверки раз в день.
— Они очень быстро реагируют — через 11 минут после начала проблем гитхаб перевел индикатор работоспособности в желтый режим, а еще через 2 минуты пришел некий Incident Coordinator (интересно, сколько человек у них on-call?) и перевел индикатор в красный.
#гитхаб