АБ-тесты. Экстраполяция результатов пилота
Цикл постов про АБ-тестирование. Пост 8
За предыдущие 7 постов мы закрыли почти все ключевые риски бизнес-процесса АБ-тестирования. Но остался один важный риск, с которым мы еще не разобрались. Это отсутствие единой методики/правил экстраполяции результатов пилота для расчета финансового эффекта на все объекты.
Даже если у нас отлажены процессы дизайна и пилотирования, создана база пилотов и выработана супер корректная статистическая методика расчетов на основе последних практик, финальное решение об инвестициях в проект может оказаться некорректным, если нет правил его масштабирования на всю сеть.
Например, вы получили +1% к выручке на 5 объектах. Можем ли сказать, что при ролл-ауте проекта, для всей сети будет +1% к выручке? Была ли выборка репрезентативна для всей сети? Можем ли назвать результаты пилота робастными? Например, 5 объектов пилота могли быть расположены в Сибири, а основные объекты компании расположены в Центральных регионах.
В идеальном мире вопросы репрезентативности результатов для финальной экстраполяции результатов пилота и методика этого этапа определяются бизнесом совместно с финансовой службой еще на этапе планирования пилота. Именно эти участники процесса АБ обладают наибольшей экспертизой, чтобы определить репрезентативные параметры пилота:
- даты проведения пилота. Период пилота должен иметь длительность, рекомендованную статистическими расчетами, но при этом учитывать последующее применение пилотируемого эксперимента. Например, оптимизацию промо-акции вида Х планируется применять только на сезонные летние товары, следовательно, пилотировать тоже лучше всего в этот период, а не зимой.
- характеристики объектов в пилот и контроль. Стоит учитывать планируемую экстраполяцию результата:
(1) территориально. Если при успехе пилота, его сразу планируется “раскатать” на все объекты, тогда можно математически подобрать репрезентативную группу для всего распределения объектов. Если же планируется поэтапное внедрение (например, сначала все объекты одного региона/города, потом группы регионов), значит для первого пилота подойдут объекты, отражающие специфику конкретного города или региона.
(2) по внутренним показателям объектов (фин. и опер. индикаторы, и др.). Проект может быть направлен на убыточные объекты компании. Значит, и пилотировать его надо на них, и контроли смотреть уж точно не прибыльные.
целевые метрики пилота. Аналогично, если успехом при внедрении проекта для нас будет положительное влияние на маржу при отсутствии отрицательного влияния на совокупные продажи, значит, обе эти метрики должны присутствовать в гипотезах пилота именно в такой постановке. А если планируем эффект на пару категорий продаж, то проверять стоит на них, а не на тотал продажах.
- содержание и механика пилота. Соответствуют ли они планам по внедрению проекта, в случае успеха? Например, если управленчески работа с ценообразованием в магазинах возможна только на уровне целых городов, то, вероятно, не стоит делать выводы об успешности проекта в этой области, проведенного на гранулярности пары отдельных объектов.
Некоторые из вопросов выше могут показаться очевидными. Но на этапах дизайна пилота и финальной экстраполяции результатов пилота иметь это ввиду нужно, и задавать об этом вопросы тоже - если есть сомнения в соответствии пилота и его планируемой применимости в бизнес-процессах компании. Поверьте большому опыту практического АБ за плечами. Очевидное и невероятное всегда где-то рядом 🙂
Если все моменты выше были учтены на этапе дизайна эксперимента, то вопросы робастности результата и возможности его экстраполяции на объекты ролл-аута перестают быть актуальными. Статистически корректная методика (которую мы уже рассмотрели в предыдущих постах) гарантирует нам робастность и корректность экстраполяции результата, если пилот продуман с точки зрения содержательной постановки (бизнес-применения).
#tech #ab_testing
Цикл постов про АБ-тестирование. Пост 8
За предыдущие 7 постов мы закрыли почти все ключевые риски бизнес-процесса АБ-тестирования. Но остался один важный риск, с которым мы еще не разобрались. Это отсутствие единой методики/правил экстраполяции результатов пилота для расчета финансового эффекта на все объекты.
Даже если у нас отлажены процессы дизайна и пилотирования, создана база пилотов и выработана супер корректная статистическая методика расчетов на основе последних практик, финальное решение об инвестициях в проект может оказаться некорректным, если нет правил его масштабирования на всю сеть.
Например, вы получили +1% к выручке на 5 объектах. Можем ли сказать, что при ролл-ауте проекта, для всей сети будет +1% к выручке? Была ли выборка репрезентативна для всей сети? Можем ли назвать результаты пилота робастными? Например, 5 объектов пилота могли быть расположены в Сибири, а основные объекты компании расположены в Центральных регионах.
В идеальном мире вопросы репрезентативности результатов для финальной экстраполяции результатов пилота и методика этого этапа определяются бизнесом совместно с финансовой службой еще на этапе планирования пилота. Именно эти участники процесса АБ обладают наибольшей экспертизой, чтобы определить репрезентативные параметры пилота:
- даты проведения пилота. Период пилота должен иметь длительность, рекомендованную статистическими расчетами, но при этом учитывать последующее применение пилотируемого эксперимента. Например, оптимизацию промо-акции вида Х планируется применять только на сезонные летние товары, следовательно, пилотировать тоже лучше всего в этот период, а не зимой.
- характеристики объектов в пилот и контроль. Стоит учитывать планируемую экстраполяцию результата:
(1) территориально. Если при успехе пилота, его сразу планируется “раскатать” на все объекты, тогда можно математически подобрать репрезентативную группу для всего распределения объектов. Если же планируется поэтапное внедрение (например, сначала все объекты одного региона/города, потом группы регионов), значит для первого пилота подойдут объекты, отражающие специфику конкретного города или региона.
(2) по внутренним показателям объектов (фин. и опер. индикаторы, и др.). Проект может быть направлен на убыточные объекты компании. Значит, и пилотировать его надо на них, и контроли смотреть уж точно не прибыльные.
целевые метрики пилота. Аналогично, если успехом при внедрении проекта для нас будет положительное влияние на маржу при отсутствии отрицательного влияния на совокупные продажи, значит, обе эти метрики должны присутствовать в гипотезах пилота именно в такой постановке. А если планируем эффект на пару категорий продаж, то проверять стоит на них, а не на тотал продажах.
- содержание и механика пилота. Соответствуют ли они планам по внедрению проекта, в случае успеха? Например, если управленчески работа с ценообразованием в магазинах возможна только на уровне целых городов, то, вероятно, не стоит делать выводы об успешности проекта в этой области, проведенного на гранулярности пары отдельных объектов.
Некоторые из вопросов выше могут показаться очевидными. Но на этапах дизайна пилота и финальной экстраполяции результатов пилота иметь это ввиду нужно, и задавать об этом вопросы тоже - если есть сомнения в соответствии пилота и его планируемой применимости в бизнес-процессах компании. Поверьте большому опыту практического АБ за плечами. Очевидное и невероятное всегда где-то рядом 🙂
Если все моменты выше были учтены на этапе дизайна эксперимента, то вопросы робастности результата и возможности его экстраполяции на объекты ролл-аута перестают быть актуальными. Статистически корректная методика (которую мы уже рассмотрели в предыдущих постах) гарантирует нам робастность и корректность экстраполяции результата, если пилот продуман с точки зрения содержательной постановки (бизнес-применения).
#tech #ab_testing