Сегодня поговорим о reliability (надежности) в Kubernetes. Ведь когда случается какой-то сбой нельзя мгновенно, однозначно сказать из-за чего он произошёл. Это может быть как внешний нарушитель (DoS решил устроить), так проблемы ПО внутри самого кластера.



Все, кто стараются максимально использовать возможности Kubernetes пытаются как можно больше задач возложить на ПО - они и есть не просят, и работают 24/7. Вот тут и приходят операторы и CRD.



В рамках доклада "Тестирование Kubernetes оператора" докладчик выделяет 3 основных последствия неправильной работы оператора:

- The Infinite Pod Loop Creation

- The Split Brain Situation

- The Double Rolling Upgrade Reaction



Об этих ситуациях соответствующий момент по timecode.



В общем к чему это я?

Во-первых, при написании операторов вопрос их тестирования супер важный.

Во-вторых, при выборе оператора обращайте внимание как он вообще развивается и тестируется.

В-третьих, при исследовании сбоев стоит смотреть что и как делали операторы.