5 млн долларов за строчку кода: подробный разбор сбоя сервисов Datadog 🤨



Мартовский инцидент стал первым глобальным сбоем в работе Datadog: одновременно пострадали все регионы, в которых работает компания, а с простоем столкнулись все клиенты. Прошло более 2 месяцев, но Datadog до сих пор не опубликовала постмортем, что нетипично для столь резонансных инцидентов.



Что будет в статье:

- Рассмотрим хронологию событий, концепции TTD, TTM, TTR, оценим работу Datadog по этим метрикам.

- Совершим глубокое погружение в обновление ОС, вызвавшее сбой. Обсудим CVEs, переполнение буфера, поговорим о системном процессе и системных дампах. А еще о том, почему необходимо проверять changelog'и операционных систем. Возможно, компания Datadog упустила нечто критическое перед обновлением?

- Попытаемся понять, что на самом деле вызвало перебои в работе. Разберем тонкости работы systemd-networkd и попробуем представить, что происходит при одновременном создании десятков тысяч виртуальных машин.



Подробнее: https://habr.com/ru/companies/flant/articles/737750/