Думаю про то, как работать в авариайных ситуациях.
В моем опыте в таких вещах основные проблемы в том, что все бегают с воплями "Аааа!" как на той картинке с планом эвакуации. Несколько людей пытаются решить проблемы, никто не понимает, что происходит, прибегает начальство...
В гугле для таких ситуаций используют расширенный подход "из под машины должны торчать только две ноги". Все участники инцидента должно четко понимать свои роли: командование инцидентом, оперативная работа, коммуникации и планирование.
Мне отдельно нравится, что есть понятный человек-коммуникатор, который оповещает о ситуации всех заинтересованных лиц. А планировщик занимается разными долгосрочными задачами, в том числе и заказом пиццы)
Важная практика, что по результатам инцидента создается документ, где есть и хронология событий, и принятые решения в процессе инцидента, и выводы.
Спасибо коллегам из отдела эксплуатации Туту.ру, которые про это рассказали. Подобнее про это все в книге Site Reliability Engineering: How Google Runs Production Systems.
Книга есть онлайн доступе, глава про управление инцидентами - https://landing.google.com/sre/book/chapters/managing-incidents.html
#книги
#менеджерское
В моем опыте в таких вещах основные проблемы в том, что все бегают с воплями "Аааа!" как на той картинке с планом эвакуации. Несколько людей пытаются решить проблемы, никто не понимает, что происходит, прибегает начальство...
В гугле для таких ситуаций используют расширенный подход "из под машины должны торчать только две ноги". Все участники инцидента должно четко понимать свои роли: командование инцидентом, оперативная работа, коммуникации и планирование.
Мне отдельно нравится, что есть понятный человек-коммуникатор, который оповещает о ситуации всех заинтересованных лиц. А планировщик занимается разными долгосрочными задачами, в том числе и заказом пиццы)
Важная практика, что по результатам инцидента создается документ, где есть и хронология событий, и принятые решения в процессе инцидента, и выводы.
Спасибо коллегам из отдела эксплуатации Туту.ру, которые про это рассказали. Подобнее про это все в книге Site Reliability Engineering: How Google Runs Production Systems.
Книга есть онлайн доступе, глава про управление инцидентами - https://landing.google.com/sre/book/chapters/managing-incidents.html
#книги
#менеджерское