ML for Value / Ваня Максимов

Выводы про А/В-тестирование от Optimizely

Довольно известная плафторма АВ Optimizely выпустила репорт с анализом 127к экспов за последние 5 лет. И вот что они обнаружили

1. 88% экспериментов проваливаются

Да-да, лишь 1 из 10 ваших самых гениальных и продуманных идей в итоге растит метрики)

Эта цифра довольно хорошо согласуется и с репортами от крупнейших компаний (гугл, ютуб, амазон, airbnb)

2. Половина компаний проводит менее 34 экспериментов в год

Это очень МАЛО ~3 эксперимента в месяц. На моей практике в Delivery Club мы видели хороший суммарный эффект от АВ плафтормы на 10+ экспериментах в месяц. Ну и в конце концов разогнались до ~40-50 экспериментов в месяц (по данным optimizely это как у топ-3% компаний)

3. ~30% экспериментов используют метрику "Выручка". Но красится она в <1% случаев

В общем, думайте тщательно над выбором метрик - не берите просто самую верхнеуровневую! Как правило, почти всегда можно выбрать более узкую и специфичную для вашей фичи метрику (конверсию из действия Х в У, например). Для этого вам помогут деревья метрик и декомпозиция метрик

4. 10% экспов используют 4+ тестовые группы.. и несут х2 импакта - Тут есть вопросики 🤡

Среди 4+ вариантов без хороших поправок на множественное тестирование легко найти победителя, даже если его нет. Тогда конечно такие экспы будут *случайно* нести больше импакта. В общем, я бы покопался под капотом Optimizely - проверил, как они делают (и делают ли) поправку на множественное тестирование

Мое мнение - в 95% кейсов можно использовать 2 группы, в оставшихся 5% - 3 группы

5. Топ 5% АВ-тестов (всего 2 экспа из 34) приносят 50% импакта

Кажется, эпоха low-hanging fruits прошла. Нужно не бояться делать большие изменения и смотреть, что получится

Плюс, делать больше качественных экспериментов конечно!) Optimizely посчитали, что оптимально 1 разраб = не более 1 экспа в месяц

А какие выводы про АВ есть из вашего опыта?)