
В статистике мы часто сталкиваемся с понятием корреляции, когда одно значение зависит от другого. Однако насколько объективна такая зависимость? Статистически она может быть достоверна, но абсолютно бессмысленна. Сегодня мы прикоснемся к миру прикладной статистики и аналитики и поговорим о ложных корреляциях — это когда независимые переменные ведут себя так, будто между ними есть причинно-следственная связь.
Например, если визуализировать колебания возраста победительниц «Мисс Америка» и количества смертей от горячего пара в США, можно заметить, что между 1999 и 2007 годами пики и спады двух графиков буквально повторяют друг друга. Вроде очевидно, что связи никакой, но разве бывают такие совпадения?
На самом деле — бывают. На маленьких выборках вероятность значительной корреляции двух абсолютно случайных величин на удивление высока. К счастью, такие бессмысленные закономерности обычно видно невооружённым глазом.
Например, если визуализировать колебания возраста победительниц «Мисс Америка» и количества смертей от горячего пара в США, можно заметить, что между 1999 и 2007 годами пики и спады двух графиков буквально повторяют друг друга. Вроде очевидно, что связи никакой, но разве бывают такие совпадения?
На самом деле — бывают. На маленьких выборках вероятность значительной корреляции двух абсолютно случайных величин на удивление высока. К счастью, такие бессмысленные закономерности обычно видно невооружённым глазом.