Ошибки в работе с данными
Одна из ошибок - приравнивать корреляцию к причинно-следственной связи.
Когда две переменные X и Y коррелируют (при изменении одной переменной происходит изменение другой) есть четыре возможных объяснения:
- X влияет на Y
- Y влияет на X
- Есть 3я переменная, которая влияет на X и Y
- X и Y совершенно не связаны.
Пример - потребление кофе и продолжительность жизни. Некоторые исследования говорят о корреляции между потреблением кофе и продолжительностью жизни: любители кофе, как правило, живут дольше. Однако это не обязательно означает, что кофе заставляет людей жить дольше. Могут быть и другие факторы, такие как более здоровый образ жизни, которые коррелируют с потреблением кофе и увеличением продолжительности жизни.
Авторы блога Spurious Correlations находят бессмысленные связи между различными статистическими данными, чтобы показать, что наличие корреляции нельзя приравнивать к наличию причинно-следственной связи.
Например на графике выше, уровень разводов в штате Мен коррелирует с потреблением маргарина на душу населения. Корреляция - 99.26 процентов. Однако эти 2 переменные не имеют ничего общего друг с другом.
Есть хорошая книга “Как лгать при помощи статистики” (Дарелл Хафф), в которой рассматривается ряд манипуляций со статистикой. Книга к прочтению, чтобы с одной стороны не обмануть себя, допустив ошибку со статистикой, а с другой стороны - не дать обмануть себя другим.
Бесплатные курсы по статистике в этом посте https://t.me/analyticsgrowthmindset/131.
Одна из ошибок - приравнивать корреляцию к причинно-следственной связи.
Когда две переменные X и Y коррелируют (при изменении одной переменной происходит изменение другой) есть четыре возможных объяснения:
- X влияет на Y
- Y влияет на X
- Есть 3я переменная, которая влияет на X и Y
- X и Y совершенно не связаны.
Пример - потребление кофе и продолжительность жизни. Некоторые исследования говорят о корреляции между потреблением кофе и продолжительностью жизни: любители кофе, как правило, живут дольше. Однако это не обязательно означает, что кофе заставляет людей жить дольше. Могут быть и другие факторы, такие как более здоровый образ жизни, которые коррелируют с потреблением кофе и увеличением продолжительности жизни.
Авторы блога Spurious Correlations находят бессмысленные связи между различными статистическими данными, чтобы показать, что наличие корреляции нельзя приравнивать к наличию причинно-следственной связи.
Например на графике выше, уровень разводов в штате Мен коррелирует с потреблением маргарина на душу населения. Корреляция - 99.26 процентов. Однако эти 2 переменные не имеют ничего общего друг с другом.
Есть хорошая книга “Как лгать при помощи статистики” (Дарелл Хафф), в которой рассматривается ряд манипуляций со статистикой. Книга к прочтению, чтобы с одной стороны не обмануть себя, допустив ошибку со статистикой, а с другой стороны - не дать обмануть себя другим.
Бесплатные курсы по статистике в этом посте https://t.me/analyticsgrowthmindset/131.