💻 Валидация результатов в АБ тестировании
Добрый день, друзья! Сегодня я хочу порассуждать вместе с вами, думаю, наш разговор будет полезным. Затронем тему АБ тестирования и немного рекомендательные системы. Как обычно, делитесь комментариями, историями из личного опыта, возможно кто-то сталкивался с такой проблемой на практике.
🔮 И так представим, что вы разрабатываете рекомендательную систему, которая подбирает релевантные видео для каждого пользователя. Каждый раз вы добавляете в модель некоторые признаки, которые по вашему мнению должны положительно повлиять на рекомендации.
Что мы здесь понимаем под «положительным влиянием»? Давайте остановимся на том, что наша главная задача с каждым разом увеличивать «длительность просмотра» контента. То есть мы хотим, чтобы контент, который подобрала наша система, настолько устраивал пользователя, чтобы он досматривал его до конца. Согласитесь, очень неприятно, когда вы включаете первое видео из ленты рекомендаций, и через 3 минуты смотрения понимаете, что оно вам абсолютно не интересно.
🧐 Вернемся к разработке. Представим, что вы очень торопливый датасаентист. Вы только что создали новую версию рекомендательной системы и хотите скорее внедрить ее на всех пользователей. Однако, сначала нужно провести АБ тест, пусть аналитики из вашей команды оценили его длительность в месяц.
Допустим, в первые три дня эксперимента целевая метрика растет 🔥. Вы довольны и хотите скорее его завершить, убеждая всех, что весь месяц будет только прирост…
Конечно же, если мы остановим эксперимент через 3 дня, его результаты будут не совсем корректными 👎
А вдруг повлияла сезонность: простой пример, были дождливые летние выходные, и большое количество пользователей вашей платформы остались дома и смотрели различный контент. ⛈
Вдруг внезапно, через неделю метрики эксперимента начинают падать, затем снова подниматься и снова падать 🎢
И это вполне реальная ситуация. В итоге, АБ тест завершается не в вашу пользу. Вы в это, конечно, не верите, и спустя месяц запускаете новый эксперимент на неделю, фиксируете положительный прирост и закрываете тест, получая положительный эффект…
🤔 Можно ли считать последний результат корректным? Какие проблемы вы видите здесь? Давайте порассуждаем в комментариях.
Добрый день, друзья! Сегодня я хочу порассуждать вместе с вами, думаю, наш разговор будет полезным. Затронем тему АБ тестирования и немного рекомендательные системы. Как обычно, делитесь комментариями, историями из личного опыта, возможно кто-то сталкивался с такой проблемой на практике.
🔮 И так представим, что вы разрабатываете рекомендательную систему, которая подбирает релевантные видео для каждого пользователя. Каждый раз вы добавляете в модель некоторые признаки, которые по вашему мнению должны положительно повлиять на рекомендации.
Что мы здесь понимаем под «положительным влиянием»? Давайте остановимся на том, что наша главная задача с каждым разом увеличивать «длительность просмотра» контента. То есть мы хотим, чтобы контент, который подобрала наша система, настолько устраивал пользователя, чтобы он досматривал его до конца. Согласитесь, очень неприятно, когда вы включаете первое видео из ленты рекомендаций, и через 3 минуты смотрения понимаете, что оно вам абсолютно не интересно.
🧐 Вернемся к разработке. Представим, что вы очень торопливый датасаентист. Вы только что создали новую версию рекомендательной системы и хотите скорее внедрить ее на всех пользователей. Однако, сначала нужно провести АБ тест, пусть аналитики из вашей команды оценили его длительность в месяц.
Допустим, в первые три дня эксперимента целевая метрика растет 🔥. Вы довольны и хотите скорее его завершить, убеждая всех, что весь месяц будет только прирост…
Конечно же, если мы остановим эксперимент через 3 дня, его результаты будут не совсем корректными 👎
А вдруг повлияла сезонность: простой пример, были дождливые летние выходные, и большое количество пользователей вашей платформы остались дома и смотрели различный контент. ⛈
Вдруг внезапно, через неделю метрики эксперимента начинают падать, затем снова подниматься и снова падать 🎢
И это вполне реальная ситуация. В итоге, АБ тест завершается не в вашу пользу. Вы в это, конечно, не верите, и спустя месяц запускаете новый эксперимент на неделю, фиксируете положительный прирост и закрываете тест, получая положительный эффект…
🤔 Можно ли считать последний результат корректным? Какие проблемы вы видите здесь? Давайте порассуждаем в комментариях.