🖍 Как ломаются большие системы и как их траблшутить



Недавно прошёл SRE Week — открытый интенсив Школы анализа данных по работе с большими нагруженными системами. Руководитель службы разработки динамических таблиц в Yandex Infrastructure и преподаватель ШАД Руслан Савченко сделал обзорную статью по мотивам курса.



Это большой обзор распределённых систем — он будет интересен студентам и разработчикам, которые хотят вкатиться в Site Reliability Engineering.



Из статьи вы узнаете:



🟢 Из чего состоят распределённые системы: компоненты и схемы, о которых нужно знать



🟢 Как и почему они ломаются: за какими моментами нужно следить и кто виноват в том, что сервис не запускается



🟢 Как их чинить: что делать, когда всё горит



🔶 Больше SRE-магии и ссылку на плейлист с курсом лекций ищите в статье на Хабре.



Подписывайтесь:

💬 @Yandex4Backend

📹 @YandexforBackend