​​A/B эксперименты – не точный инструмент, а вероятностный. Каждый раз когда мы проводим эксперимент с confidence level = 90%, вероятность ложно положительного исхода 10%. Ложно положительный – это когда на самом деле вариант не лучше, но тест его признает таковым.



Если запускать один и тот же тест много раз, то один раз из десяти он скорее всего покажет то, что вы хотите. Поэтому протоколы экспериментирования запрещают множественное тестирование одной гипотезы.



У этого же свойства теста есть еще два следствия:

- из 10 А/А тестов один скорее всего даст значимый результат,

- если вы отслеживаете 100 метрик в своем эксперименте с одинаковым уровнем значимости, то 10 из них покажут ложно-положительное изменение.



А теперь вопрос знатокам: как называется параметр эксперимента, который характеризует вероятность ложно-отрицательного результата: вариант на самом деле лучше, но тест этого не показал?

И какое самое часто используемое значение этого параметра?