Ошибки в проведении A/B-тестов: Sample Ratio Mismatch
Sample Ratio Mismatch (SRM) – это проблема несоответствия между ожидаемыми и фактическими пропорциями пользователей в группах при проведении A/Б-тестирования.
Например, в рамках задуманного дизайна А/Б теста, мы делим 20000 пользователей в пропорции 50 / 50 на контроль и тест соответственно. Но фактически видим, что размеры групп соотносятся как 49 к 51 (9800 и 10200 пользователей). На вид безобидная погрешность.
Но наличие SRM говорит о некорректной работе системы распределения пользователей по веткам. Таким результатам эксперимента доверять нельзя. А игнорирование этой проблемы приведет к искаженным результатам и неверным выводам.
Определить Sample Ratio Mismatch можно при помощи специального калькулятора. В качестве входных данных требуются только ожидаемые пропорции и фактические размеры выборок. В основе работы калькулятора лежит критерий согласия Пирсона. Если вы вобьете в калькулятор значения из примера выше, то он сообщит вам о потенциальном наличии проблемы.
Приходилось ли вам сталкиваться с SRM? Как вы ее отлаживали, и в чем заключалась проблема? Поделитесь своими историями в комментариях.
#абтесты
Sample Ratio Mismatch (SRM) – это проблема несоответствия между ожидаемыми и фактическими пропорциями пользователей в группах при проведении A/Б-тестирования.
Например, в рамках задуманного дизайна А/Б теста, мы делим 20000 пользователей в пропорции 50 / 50 на контроль и тест соответственно. Но фактически видим, что размеры групп соотносятся как 49 к 51 (9800 и 10200 пользователей). На вид безобидная погрешность.
Но наличие SRM говорит о некорректной работе системы распределения пользователей по веткам. Таким результатам эксперимента доверять нельзя. А игнорирование этой проблемы приведет к искаженным результатам и неверным выводам.
Определить Sample Ratio Mismatch можно при помощи специального калькулятора. В качестве входных данных требуются только ожидаемые пропорции и фактические размеры выборок. В основе работы калькулятора лежит критерий согласия Пирсона. Если вы вобьете в калькулятор значения из примера выше, то он сообщит вам о потенциальном наличии проблемы.
Приходилось ли вам сталкиваться с SRM? Как вы ее отлаживали, и в чем заключалась проблема? Поделитесь своими историями в комментариях.
#абтесты