Reliable ML

АБ-тесты. Дополнительное об экстраполяции результатов пилота

Цикл постов про АБ-тестирование. Пост 9

Рассмотрим в дополнение к предыдущему посту пару важных краевых сценариев:

- Нужно оценить эффект сразу от внедрения проекта на все объекты - при отсутствии контрольной группы. Проведение пилота было невозможно.

Это вопрос уже не экстраполяции результата, а методики оценки для подобных случаев. Тут вспоминаем доказательную лестницу методов причинно-следственного анализа и понимаем, что наш путь лежит от классических АБ-тестов к ступеньке ниже - методам контрфактического анализа. Самым популярным из которых является causal impact. Про него мы с вами 17 декабря на митапе Reliable ML как раз послушали отличный доклад (видео будет в январе, а презентацию можно смотреть уже сейчас).

- Не хотим мучиться с методикой экстраполяции и продумывать параметры пилота. Внедряем как получилось, а потом бахаем causal impact и вуаля, у нас есть оценка и пилота, и ролл-аута.

Не надо так. Оценки по двум методам будут не согласованы между собой, что неудивительно, поскольку: (1) мы не заморачивались содержательной постановкой пилота, (2) оценка контрфактическими методами при прочих равных будет менее корректна, чем оценка с помощью АБ-тестирования.

- А что если моя модель хорошо отработала на пилоте, а потом - при работе на всех объектах - начнет деградировать? Результат же изменится и финансовый эффект тоже!

Модель обязательно начнет деградировать, а финансовый эффект - начнет снижаться. Только это уже тема за рамками цикла постов про процессы в АБ-тестировании. Это про оценку и мониторинг модельного риска, который можно и нужно отслеживать при внедрении модели, чтобы вовремя с ним бороться и сохранять максимально возможную выгоду от работы модели в продуктиве. Про это мы с Димой еще напишем.

В рамках пилотирования и экстраполяции результата нас интересует первичный финансовый эффект от внедрения модели в продуктив. Окупит ли модель затраты на ее создание, если мы запустим ее в боевые условия? Это и показывает пилот. Предполагаем, что в случае успеха при внедрении модели мы научимся мониторить модельный риск и будем держать его на минимуме.

Ну чтож, получается, теперь мы не только можем правильно посчитать эффект от пилота, но и можем сделать адекватное предположение о его суммарном финансовом эффекте в случае ролл-аута.

Поздравляем вас с завершением цикла постов про АБ-тестирование!

#tech #ab_testing