
SUKI в А/В тестах
Сразу оговорюсь - это не то, о чем вы подумали))
в АВ есть фундаментальное предположение SUTVA - Stable Unit Treatment Value Assumption. И обычно обьяснение SUTVA никому не заходит. Поэтому все его успешно игнорируют 😀
У меня есть альтернатива:
SUKI assumption:
S - Student’ t-test
U - Units
K - Key metrics
I - Independence
“Student t-test for Units over Key metrics under Independence assumption”
Это покрывает все необходимые советы для успешного АВ:
S - Student’ t-test
Имхо, если вы не провели сотни АВ или не имеете Masters по статистике, даже не пытайтесь использовать что-то кроме теста Стьюдента. Без стратификации, cuped и прочего - обычный тест Стьюдента. Если его (и другие предположения SUKI) выполнить, то вы получите сильно более корректные выводы, чем с модными методами
U - units
Один Unit (юзер, магазин) может генерировать кучу событий (кликов, покупок). Мы проводим тесты на Unit-ами. То есть в поюзерном тесте метрика должна быть по юзерам (1 юзер = 1 число), а не по сессиям, заказам или юзеро-дням. Иначе наблюдения становятся зависимыми = вся логика АВ ломается
K - Key metrics
Не стоит выбирать 20 метрик и смотерть, какая прокрасится! Ни в одном из тысяч (когда я руководил разработкой АВ платформы, через меня прошло больше 2к тестов) не понадобилось более 2ух целевых метрик. Бывают еще барьерные и контрольные метрики, но это уже совсем другая история:)
I - independence
Ваши наблюдения в тесте должны быть независимы. Как я уже писал, 1 наблюдение = юзер, а не юзер-день или юзер-сессия. В соц сетях и юзеры могут быть зависимыми - стоит подумать, как обьединить их в кластеры, и проводить тесты по кластерам юзеров
В общем, когда в следующий раз вы крикните “какие SUKI сломали мой А/В ?!” - вы знаете ответ 😅
Сразу оговорюсь - это не то, о чем вы подумали))
в АВ есть фундаментальное предположение SUTVA - Stable Unit Treatment Value Assumption. И обычно обьяснение SUTVA никому не заходит. Поэтому все его успешно игнорируют 😀
У меня есть альтернатива:
SUKI assumption:
S - Student’ t-test
U - Units
K - Key metrics
I - Independence
“Student t-test for Units over Key metrics under Independence assumption”
Это покрывает все необходимые советы для успешного АВ:
S - Student’ t-test
Имхо, если вы не провели сотни АВ или не имеете Masters по статистике, даже не пытайтесь использовать что-то кроме теста Стьюдента. Без стратификации, cuped и прочего - обычный тест Стьюдента. Если его (и другие предположения SUKI) выполнить, то вы получите сильно более корректные выводы, чем с модными методами
U - units
Один Unit (юзер, магазин) может генерировать кучу событий (кликов, покупок). Мы проводим тесты на Unit-ами. То есть в поюзерном тесте метрика должна быть по юзерам (1 юзер = 1 число), а не по сессиям, заказам или юзеро-дням. Иначе наблюдения становятся зависимыми = вся логика АВ ломается
K - Key metrics
Не стоит выбирать 20 метрик и смотерть, какая прокрасится! Ни в одном из тысяч (когда я руководил разработкой АВ платформы, через меня прошло больше 2к тестов) не понадобилось более 2ух целевых метрик. Бывают еще барьерные и контрольные метрики, но это уже совсем другая история:)
I - independence
Ваши наблюдения в тесте должны быть независимы. Как я уже писал, 1 наблюдение = юзер, а не юзер-день или юзер-сессия. В соц сетях и юзеры могут быть зависимыми - стоит подумать, как обьединить их в кластеры, и проводить тесты по кластерам юзеров
В общем, когда в следующий раз вы крикните “какие SUKI сломали мой А/В ?!” - вы знаете ответ 😅