Ошибки в работе с данными



Одна из ошибок - приравнивать корреляцию к причинно-следственной связи.



Когда две переменные X и Y коррелируют (при изменении одной переменной происходит изменение другой) есть четыре возможных объяснения:



- X влияет на Y

- Y влияет на X

- Есть 3я переменная, которая влияет на X и Y

- X и Y совершенно не связаны.



Пример - потребление кофе и продолжительность жизни. Некоторые исследования говорят о корреляции между потреблением кофе и продолжительностью жизни: любители кофе, как правило, живут дольше. Однако это не обязательно означает, что кофе заставляет людей жить дольше. Могут быть и другие факторы, такие как более здоровый образ жизни, которые коррелируют с потреблением кофе и увеличением продолжительности жизни.



Авторы блога Spurious Correlations находят бессмысленные связи между различными статистическими данными, чтобы показать, что наличие корреляции нельзя приравнивать к наличию причинно-следственной связи.



Например на графике выше, уровень разводов в штате Мен коррелирует с потреблением маргарина на душу населения. Корреляция - 99.26 процентов. Однако эти 2 переменные не имеют ничего общего друг с другом.



Есть хорошая книга “Как лгать при помощи статистики” (Дарелл Хафф), в которой рассматривается ряд манипуляций со статистикой. Книга к прочтению, чтобы с одной стороны не обмануть себя, допустив ошибку со статистикой, а с другой стороны - не дать обмануть себя другим.



Бесплатные курсы по статистике в этом посте https://t.me/analyticsgrowthmindset/131.