Почему штормило интернет
24 июня примерно в 14 часов по Москве произошел эксцесс, нарушивший доступ к таким крупным сервисам, как Amazon, Reddit, Twitch, а также сервису по обзорам сбоев Downdetector и мессенджеру Discord.
Сначала причиной назвали сбои у Cloudflare, однако она сама потеряла 15% от объема своего трафика. По словам представителей, все системы функционировали в штатном режиме, а трафик был потерян из-за ошибок на стороне. Причиной сбоя назвали ошибки маршрутизации трафика.
Как это вышло?
По сути весь интернет — глобальная сеть, которая состоит из других сетей, или автономных систем (АС). Каждой автономной сети присвоен уникальный идентификатор, а связаны они с помощью BGP — основного протокола динамической маршрутизации на сегодняшний день. Он объединяет сети, образуя единую структуру интернета, и выстраивает «карту» движения трафика. Через этот же протокол АС обмениваются данными о маршрутах, например, как добраться от вашего провайдера до Amazon.
Небольшой пенсильванский провайдер DQE Communications для оптимизации скорости и стоимости доставки использовал в своей сети BGP Optimizer — инструмент, который разделяет один маршрут на несколько более конкретных (читай: оптимальных) и приоритизирует их для трафика.
Сбои начались, когда маршруты DQE попали во вне. Обычно автономные сети делятся идентификаторами исключительно собственных маршрутов. 24 июня DQE передал оптимизированные маршруты своему клиенту Allegheny Technologies, оттуда — к транзитному провайдеру Verizon. От него «оптимизация» настигла весь интернет. При подключении к сетям, которых коснулся сбой, пользователи попадали в сети Verizon, DQE Communications и Allegheny, совершенно не рассчитанные на такие нагрузки.
Cloudflare обвиняет в ситуации Verizon, считая, что утечку маршрутов можно было предотвратить. Также, по словам представителей Cloudflare, Verizon не отвечала на письма и звонки минимум 8 часов, а проблема была решена благодаря обратной связи и сотрудничеству со стороны инженеров DQE Communications. В Verizon же отвечают, что устранили проблему самостоятельно.
Однако штормы могут настигать не только такие глобальные решения. Бизнес любого масштаба периодически сталкивается с «волнениями» IT-инфраструктуры — недоступность сервисов, сбои, связанные с ростом нагрузки на вычислительные ресурсы.
Чтобы защитить свой бизнес, выбирайте надежного провайдера, который не только исключит вероятность возникновения проблем на 99,99%, но и всегда пойдет вам на встречу.
24 июня примерно в 14 часов по Москве произошел эксцесс, нарушивший доступ к таким крупным сервисам, как Amazon, Reddit, Twitch, а также сервису по обзорам сбоев Downdetector и мессенджеру Discord.
Сначала причиной назвали сбои у Cloudflare, однако она сама потеряла 15% от объема своего трафика. По словам представителей, все системы функционировали в штатном режиме, а трафик был потерян из-за ошибок на стороне. Причиной сбоя назвали ошибки маршрутизации трафика.
Как это вышло?
По сути весь интернет — глобальная сеть, которая состоит из других сетей, или автономных систем (АС). Каждой автономной сети присвоен уникальный идентификатор, а связаны они с помощью BGP — основного протокола динамической маршрутизации на сегодняшний день. Он объединяет сети, образуя единую структуру интернета, и выстраивает «карту» движения трафика. Через этот же протокол АС обмениваются данными о маршрутах, например, как добраться от вашего провайдера до Amazon.
Небольшой пенсильванский провайдер DQE Communications для оптимизации скорости и стоимости доставки использовал в своей сети BGP Optimizer — инструмент, который разделяет один маршрут на несколько более конкретных (читай: оптимальных) и приоритизирует их для трафика.
Сбои начались, когда маршруты DQE попали во вне. Обычно автономные сети делятся идентификаторами исключительно собственных маршрутов. 24 июня DQE передал оптимизированные маршруты своему клиенту Allegheny Technologies, оттуда — к транзитному провайдеру Verizon. От него «оптимизация» настигла весь интернет. При подключении к сетям, которых коснулся сбой, пользователи попадали в сети Verizon, DQE Communications и Allegheny, совершенно не рассчитанные на такие нагрузки.
Cloudflare обвиняет в ситуации Verizon, считая, что утечку маршрутов можно было предотвратить. Также, по словам представителей Cloudflare, Verizon не отвечала на письма и звонки минимум 8 часов, а проблема была решена благодаря обратной связи и сотрудничеству со стороны инженеров DQE Communications. В Verizon же отвечают, что устранили проблему самостоятельно.
Однако штормы могут настигать не только такие глобальные решения. Бизнес любого масштаба периодически сталкивается с «волнениями» IT-инфраструктуры — недоступность сервисов, сбои, связанные с ростом нагрузки на вычислительные ресурсы.
Чтобы защитить свой бизнес, выбирайте надежного провайдера, который не только исключит вероятность возникновения проблем на 99,99%, но и всегда пойдет вам на встречу.