АБ-тесты. Дополнительное об экстраполяции результатов пилота

Цикл постов про АБ-тестирование. Пост 9



Рассмотрим в дополнение к предыдущему посту пару важных краевых сценариев:



- Нужно оценить эффект сразу от внедрения проекта на все объекты - при отсутствии контрольной группы. Проведение пилота было невозможно.



Это вопрос уже не экстраполяции результата, а методики оценки для подобных случаев. Тут вспоминаем доказательную лестницу методов причинно-следственного анализа и понимаем, что наш путь лежит от классических АБ-тестов к ступеньке ниже - методам контрфактического анализа. Самым популярным из которых является causal impact. Про него мы с вами 17 декабря на митапе Reliable ML как раз послушали отличный доклад (видео будет в январе, а презентацию можно смотреть уже сейчас).



- Не хотим мучиться с методикой экстраполяции и продумывать параметры пилота. Внедряем как получилось, а потом бахаем causal impact и вуаля, у нас есть оценка и пилота, и ролл-аута.



Не надо так. Оценки по двум методам будут не согласованы между собой, что неудивительно, поскольку: (1) мы не заморачивались содержательной постановкой пилота, (2) оценка контрфактическими методами при прочих равных будет менее корректна, чем оценка с помощью АБ-тестирования.



- А что если моя модель хорошо отработала на пилоте, а потом - при работе на всех объектах - начнет деградировать? Результат же изменится и финансовый эффект тоже!



Модель обязательно начнет деградировать, а финансовый эффект - начнет снижаться. Только это уже тема за рамками цикла постов про процессы в АБ-тестировании. Это про оценку и мониторинг модельного риска, который можно и нужно отслеживать при внедрении модели, чтобы вовремя с ним бороться и сохранять максимально возможную выгоду от работы модели в продуктиве. Про это мы с Димой еще напишем.



В рамках пилотирования и экстраполяции результата нас интересует первичный финансовый эффект от внедрения модели в продуктив. Окупит ли модель затраты на ее создание, если мы запустим ее в боевые условия? Это и показывает пилот. Предполагаем, что в случае успеха при внедрении модели мы научимся мониторить модельный риск и будем держать его на минимуме.



Ну чтож, получается, теперь мы не только можем правильно посчитать эффект от пилота, но и можем сделать адекватное предположение о его суммарном финансовом эффекте в случае ролл-аута.



Поздравляем вас с завершением цикла постов про АБ-тестирование!



#tech #ab_testing