99% не мереяет P99, а зря.
Астрологи объявили неделю перфоманса и обзервабилити на этом канале. Monster Scale Summit (начинается сегодня) звучит конечно понтовее, чем P99 (тоже конференция). Потому что ну кто ж в массе знает, что такое P99, и почему это лучше P50? Gil Tene в свое время сделал многое, чтобы объяснить народу важность “высоких” перцентилей, это было ещё в домикросервисную эпоху. А с микросервисами это ещё более актульно. Но об этом – в конце поста.
А пока для всех, кто интересуется производительностью. У кого, бывает, тормозит, но сходу непонятно, где. Или логи/трейсы есть, но в них можно утонуть. Или подняли Sentry, а он не тянет (а он не тянет, его ж фронтендеры придумали). Мы хотим стать самым крутым провайдером обучения по перфомансу для бекендеров, и стартуем новый трек, “Производительность и наблюдаемость бэкенда”. Про телеметрию в частности и измерения в широком смысле, про “как” и “что” мерять, и, главное, “чем”. Автор программы – Михаил Курмаев, Т-Банк.
Больше десяти лет мы проработали с Михаилом в Badoo/Bumble, с первого дня основания компании. Всё это время Михаил занимался “платформенными” задачами. За это время проект вырос с нуля до 15млн DAU, сотен миллионов зарегистрированных пользователей (сейчас называется цифра в миллиард) и ~200K RPS на бэкенд-приложения в 5 датацентрах по всему миру. Сейчас Михаил развивает data-платформу в Т-Банке. Работать с такими чуваками для любого образовательного центра – большая радость. Очень рекомендую трек Михаила всем, кто развивается как эксперт или руководитель в командах, где бэкенд-технологии играют центральную роль. Мы сделаем открытую встречу с Мишей в ближайшее время, об этом я объявлю отдельно.
Вернемся к P99. Итак, причем тут вообще P99 и микросервисы? P99 - это 99й перцентиль. Самые медленные запросы, не попавшие в остальные 99% запросов. Обычно считается, что там мусор, какие-то случайности, которые портят нам всю статистику. Это большая ошибка. Чем больше в системе движущихся частей, тем больше актов взаимодействия между юзерами и сервисами. Тем выше вероятность “напороться” на тормоза. Если у вас тормозит 1% запросов, но за одну сессию пользователя его действия порождают 100 запросов к микросервисам, то вероятность того, что пользователь не будет замечать тормозов - (1 - 0.01)^100 = 0.37. 63% юзеров вашей системы на самом деле могут постоянно страдать от тормозов, хотя ваши приборы будут показывать, что всё в системе идеально. Меряйте, друзья, P99.
Астрологи объявили неделю перфоманса и обзервабилити на этом канале. Monster Scale Summit (начинается сегодня) звучит конечно понтовее, чем P99 (тоже конференция). Потому что ну кто ж в массе знает, что такое P99, и почему это лучше P50? Gil Tene в свое время сделал многое, чтобы объяснить народу важность “высоких” перцентилей, это было ещё в домикросервисную эпоху. А с микросервисами это ещё более актульно. Но об этом – в конце поста.
А пока для всех, кто интересуется производительностью. У кого, бывает, тормозит, но сходу непонятно, где. Или логи/трейсы есть, но в них можно утонуть. Или подняли Sentry, а он не тянет (а он не тянет, его ж фронтендеры придумали). Мы хотим стать самым крутым провайдером обучения по перфомансу для бекендеров, и стартуем новый трек, “Производительность и наблюдаемость бэкенда”. Про телеметрию в частности и измерения в широком смысле, про “как” и “что” мерять, и, главное, “чем”. Автор программы – Михаил Курмаев, Т-Банк.
Больше десяти лет мы проработали с Михаилом в Badoo/Bumble, с первого дня основания компании. Всё это время Михаил занимался “платформенными” задачами. За это время проект вырос с нуля до 15млн DAU, сотен миллионов зарегистрированных пользователей (сейчас называется цифра в миллиард) и ~200K RPS на бэкенд-приложения в 5 датацентрах по всему миру. Сейчас Михаил развивает data-платформу в Т-Банке. Работать с такими чуваками для любого образовательного центра – большая радость. Очень рекомендую трек Михаила всем, кто развивается как эксперт или руководитель в командах, где бэкенд-технологии играют центральную роль. Мы сделаем открытую встречу с Мишей в ближайшее время, об этом я объявлю отдельно.
Вернемся к P99. Итак, причем тут вообще P99 и микросервисы? P99 - это 99й перцентиль. Самые медленные запросы, не попавшие в остальные 99% запросов. Обычно считается, что там мусор, какие-то случайности, которые портят нам всю статистику. Это большая ошибка. Чем больше в системе движущихся частей, тем больше актов взаимодействия между юзерами и сервисами. Тем выше вероятность “напороться” на тормоза. Если у вас тормозит 1% запросов, но за одну сессию пользователя его действия порождают 100 запросов к микросервисам, то вероятность того, что пользователь не будет замечать тормозов - (1 - 0.01)^100 = 0.37. 63% юзеров вашей системы на самом деле могут постоянно страдать от тормозов, хотя ваши приборы будут показывать, что всё в системе идеально. Меряйте, друзья, P99.