PyMagic

Визуализация. Часть 2

Продолжаем разговор про визуализацию данных, почему это не просто графики и картинки и в каких случаях их применять

1. Boxplot 📦

Boxplot – применяется для анализа медиан, может наглядно показать разброс данных, есть ли выбросы. Также отлично подойдет, если вы хотите сделать предварительный визуальный анализ на разницу между признаками в разных группах.

Например, средний возраст для людей с высшим образованием и без него в разрезе пола.

• Средняя линия – медиана, закрашенный квадрат – Q1-Q3 или IQR - интерквартильный рахмах (квартили 0.25-0.75), концы «усов» - края статистической значимости

• Все, что меньше Q1 - 1.5 IQR, либо больше Q1 + 1.5 IQR - выбросы, обозначены точками.

2. Displot 🔮

Очень похож на график Histogram, но здесь мы уже оцениваем распределение с точки зрения вероятностей. Можем проанализировать на вид распределения: нормальное/не нормальное, от этого зависит будем ли мы применять какой-то определенный стат. критерий (а/б тест), либо будем логарифмировать переменную или вообще удалять выбросы из датасета.

3. Pairplot 👯

Pairplot – это график, который помогает понять основную структуру (распределение, например, нормальное оно или нет) признаков и взаимосвязь между ними, а также с целевой переменной в одном визуальном представлении.

По сути, это комбинация histogram/displot и диаграммы рассеяния (Scatter plot) на одном изображении. Это может помочь нам заметить закономерности, которые могут быть неочевидны при точечном анализе. Но здесь нужно быть осторожнее, если признаков много, то считать такой график будет долго и получатся небольшие мини-графики с распределениям, поэтому желательно брать до 10-15 признаков + целевая переменная (если это число)

4. Heatmap 🌡

Heatmap – тепловая карта, может применяться в анализе корреляций как положительных, так и отрицательных, анализе значений значимых признаков, которые могут повлиять на целевую переменную. Также помогают обнаружить признаки, которые коррелированы между собой (коллинеарные признаки), это может помочь алгоритму лучше обобщить и получить более интерпретируемые результаты