Exploratory Data Analysis (EDA)



Разведочный анализ данных (EDA) - это набор техник, которые позволяют исследовать датасет (таблицу) перед решением аналитической задачи, чтобы

📍оценить главные характеристики данных

📍определить качество данных

📍выявить взаимосвязи и корреляции между признаками в данных

📍определиться с дальнейшим способом анализа данных для решения поставленной задачи



Во время EDA производится следующая работа над данными:

- проверка на дубликаты

- проверка на пустые значения (заполнение пустых значений)

- поиск корреляций между признаками

- поиск аномалий и выбросов в данных (и их очистка, если необходимо)

- сбор статистики по датасету (максимальные, минимальные, средние и медианные значения, распределение данных)

- стандартизация и нормализация



Есть 2 части хорошей статьи с примерами проведения EDA, также доступны python ноутбуки для скачивания и тренировки



Статья часть 1

Статья часть 2