Небольшое чтиво перед сном, в продолжение предыдущей истории. В Авито у нас тоже есть практика написания Postmortem’ов на инциденты. Но, очевидно, что сами себя они не заполнят, не оценят убытки и не определят конкретные action items. А ещё нужно их как-то классифицировать и понимать, какой инцидент нужно разбирать, а какой нет. Для этого нужен определенный процесс.
За основу мы взяли процесс LiveSite Review, родившийся в недрах компании Microsoft. Это часть большой культуры LiveSite. Про неё мы поговорим чуть позже. Вернёмся к инцидентам. На LSR мы выносим инциденты, которые соответствуют хотя бы одному из следующих критериев: привели к потере денег, деградации сервиса или потере данных. Заводится тикет в Jira, который назначается на техлида определенного юнита (обычно на того, в чьей зоне ответственности произошёл инцидент). Он либо сам заполняет postmortem, либо делегирует кому-то из команды.
В раз в неделю, овнер процесса LiveSite Review, составляет список инцидентов на разбор и собирает на встречу людей, которые так или иначе связаны с ними. На эту встречу приходят с уже заполненными Postmotem’ами и совместно челленджат action items - действительно ли они помогут избежать проблем в будущем. После встречи action items берутся в работу.
Это если очень кратко. Там на самом деле много нюансов и полный рассказ про процесс тянет на отдельный доклад. Возможно, @etolstoy, как один из тех, кто внедрял его, расскажет на близжайших конференциях :)
За основу мы взяли процесс LiveSite Review, родившийся в недрах компании Microsoft. Это часть большой культуры LiveSite. Про неё мы поговорим чуть позже. Вернёмся к инцидентам. На LSR мы выносим инциденты, которые соответствуют хотя бы одному из следующих критериев: привели к потере денег, деградации сервиса или потере данных. Заводится тикет в Jira, который назначается на техлида определенного юнита (обычно на того, в чьей зоне ответственности произошёл инцидент). Он либо сам заполняет postmortem, либо делегирует кому-то из команды.
В раз в неделю, овнер процесса LiveSite Review, составляет список инцидентов на разбор и собирает на встречу людей, которые так или иначе связаны с ними. На эту встречу приходят с уже заполненными Postmotem’ами и совместно челленджат action items - действительно ли они помогут избежать проблем в будущем. После встречи action items берутся в работу.
Это если очень кратко. Там на самом деле много нюансов и полный рассказ про процесс тянет на отдельный доклад. Возможно, @etolstoy, как один из тех, кто внедрял его, расскажет на близжайших конференциях :)