Про гипотезу о равенстве средних.
Давайте развенчаем ещё один миф. На это раз про равенство средних. Если мы тестируем гипотезу по-честному, надо выписывать z-статистику и сравнивать её с критическим значением.
Видимо, из-за того, что это сложно, на практике иногда встречается процедура с доверительными интервалами. Строим доверительный интервал для первого среднего. Строим для второго среднего. Если они не пересекаются, значит гипотеза о равенстве средних отвергается. Периодически встречаю людей, которые так делают. Не делайте так.
Дело в том, что для одинаковых ошибок первого рода, ошибка второго рода для процедуры, основанной на доверительных интервалах, окажется выше. Соотвественно мощность такого теста будет ниже. То есть, мы часто будем не замечать верность альтернативы и оставаться с нулевой гипотезой.
В АБ мы всегда формулируем свои предположения в терминах, что вообще ничего не поменялось. Эффекта нет. Средние в контрольной группе и в тестовой совпадают. Ошибка второго рода здесь --- не найти эффекта, когда он есть. Если мы пользуемся техникой с доверительными интервалами, часть изменений, от которых мог бы быть профит будет закопана.
Понятное дело, что при очень большом числе наблюдений эта разница будет небольшой. Однако это не мешает нам устроить священную войну за статистическую корректность. Не верите? Попробуйте провести симуляции, либо держите pdf-ку с решением этой задачки. Если преподаёте матстат, включите что-то похожее студентам в домашку :3
На картинке видно, что первая процедура (z-статистика) стабильно выигрывает у второй (интервалы). При бесконечном числе наблюдений разницы не будет, так как мы всегда сможем идеально отделить две альтернативы друг от друга.
Почему так происходит?
Мне кажется, что причина в нашей извращённой логике. Когда речь идёт об одном среднем, мы можем посчитать z-статистику, а можем посмотреть попал ли в доверительный интервал ноль. Эти два способа будут эквивалентны. Наше сознание хочет обобщить этот опыт на более сложные ситуации и делает это неверно.
Давайте развенчаем ещё один миф. На это раз про равенство средних. Если мы тестируем гипотезу по-честному, надо выписывать z-статистику и сравнивать её с критическим значением.
Видимо, из-за того, что это сложно, на практике иногда встречается процедура с доверительными интервалами. Строим доверительный интервал для первого среднего. Строим для второго среднего. Если они не пересекаются, значит гипотеза о равенстве средних отвергается. Периодически встречаю людей, которые так делают. Не делайте так.
Дело в том, что для одинаковых ошибок первого рода, ошибка второго рода для процедуры, основанной на доверительных интервалах, окажется выше. Соотвественно мощность такого теста будет ниже. То есть, мы часто будем не замечать верность альтернативы и оставаться с нулевой гипотезой.
В АБ мы всегда формулируем свои предположения в терминах, что вообще ничего не поменялось. Эффекта нет. Средние в контрольной группе и в тестовой совпадают. Ошибка второго рода здесь --- не найти эффекта, когда он есть. Если мы пользуемся техникой с доверительными интервалами, часть изменений, от которых мог бы быть профит будет закопана.
Понятное дело, что при очень большом числе наблюдений эта разница будет небольшой. Однако это не мешает нам устроить священную войну за статистическую корректность. Не верите? Попробуйте провести симуляции, либо держите pdf-ку с решением этой задачки. Если преподаёте матстат, включите что-то похожее студентам в домашку :3
На картинке видно, что первая процедура (z-статистика) стабильно выигрывает у второй (интервалы). При бесконечном числе наблюдений разницы не будет, так как мы всегда сможем идеально отделить две альтернативы друг от друга.
Почему так происходит?
Мне кажется, что причина в нашей извращённой логике. Когда речь идёт об одном среднем, мы можем посчитать z-статистику, а можем посмотреть попал ли в доверительный интервал ноль. Эти два способа будут эквивалентны. Наше сознание хочет обобщить этот опыт на более сложные ситуации и делает это неверно.