
Выводы про А/В-тестирование от Optimizely
Довольно известная плафторма АВ Optimizely выпустила репорт с анализом 127к экспов за последние 5 лет. И вот что они обнаружили
1. 88% экспериментов проваливаются
Да-да, лишь 1 из 10 ваших самых гениальных и продуманных идей в итоге растит метрики)
Эта цифра довольно хорошо согласуется и с репортами от крупнейших компаний (гугл, ютуб, амазон, airbnb)
2. Половина компаний проводит менее 34 экспериментов в год
Это очень МАЛО ~3 эксперимента в месяц. На моей практике в Delivery Club мы видели хороший суммарный эффект от АВ плафтормы на 10+ экспериментах в месяц. Ну и в конце концов разогнались до ~40-50 экспериментов в месяц (по данным optimizely это как у топ-3% компаний)
3. ~30% экспериментов используют метрику "Выручка". Но красится она в <1% случаев
В общем, думайте тщательно над выбором метрик - не берите просто самую верхнеуровневую! Как правило, почти всегда можно выбрать более узкую и специфичную для вашей фичи метрику (конверсию из действия Х в У, например). Для этого вам помогут деревья метрик и декомпозиция метрик
4. 10% экспов используют 4+ тестовые группы.. и несут х2 импакта - Тут есть вопросики 🤡
Среди 4+ вариантов без хороших поправок на множественное тестирование легко найти победителя, даже если его нет. Тогда конечно такие экспы будут *случайно* нести больше импакта. В общем, я бы покопался под капотом Optimizely - проверил, как они делают (и делают ли) поправку на множественное тестирование
Мое мнение - в 95% кейсов можно использовать 2 группы, в оставшихся 5% - 3 группы
5. Топ 5% АВ-тестов (всего 2 экспа из 34) приносят 50% импакта
Кажется, эпоха low-hanging fruits прошла. Нужно не бояться делать большие изменения и смотреть, что получится
Плюс, делать больше качественных экспериментов конечно!) Optimizely посчитали, что оптимально 1 разраб = не более 1 экспа в месяц
А какие выводы про АВ есть из вашего опыта?)
Довольно известная плафторма АВ Optimizely выпустила репорт с анализом 127к экспов за последние 5 лет. И вот что они обнаружили
1. 88% экспериментов проваливаются
Да-да, лишь 1 из 10 ваших самых гениальных и продуманных идей в итоге растит метрики)
Эта цифра довольно хорошо согласуется и с репортами от крупнейших компаний (гугл, ютуб, амазон, airbnb)
2. Половина компаний проводит менее 34 экспериментов в год
Это очень МАЛО ~3 эксперимента в месяц. На моей практике в Delivery Club мы видели хороший суммарный эффект от АВ плафтормы на 10+ экспериментах в месяц. Ну и в конце концов разогнались до ~40-50 экспериментов в месяц (по данным optimizely это как у топ-3% компаний)
3. ~30% экспериментов используют метрику "Выручка". Но красится она в <1% случаев
В общем, думайте тщательно над выбором метрик - не берите просто самую верхнеуровневую! Как правило, почти всегда можно выбрать более узкую и специфичную для вашей фичи метрику (конверсию из действия Х в У, например). Для этого вам помогут деревья метрик и декомпозиция метрик
4. 10% экспов используют 4+ тестовые группы.. и несут х2 импакта - Тут есть вопросики 🤡
Среди 4+ вариантов без хороших поправок на множественное тестирование легко найти победителя, даже если его нет. Тогда конечно такие экспы будут *случайно* нести больше импакта. В общем, я бы покопался под капотом Optimizely - проверил, как они делают (и делают ли) поправку на множественное тестирование
Мое мнение - в 95% кейсов можно использовать 2 группы, в оставшихся 5% - 3 группы
5. Топ 5% АВ-тестов (всего 2 экспа из 34) приносят 50% импакта
Кажется, эпоха low-hanging fruits прошла. Нужно не бояться делать большие изменения и смотреть, что получится
Плюс, делать больше качественных экспериментов конечно!) Optimizely посчитали, что оптимально 1 разраб = не более 1 экспа в месяц
А какие выводы про АВ есть из вашего опыта?)