Exploratory Data Analysis (EDA)
Разведочный анализ данных (EDA) - это набор техник, которые позволяют исследовать датасет (таблицу) перед решением аналитической задачи, чтобы
📍оценить главные характеристики данных
📍определить качество данных
📍выявить взаимосвязи и корреляции между признаками в данных
📍определиться с дальнейшим способом анализа данных для решения поставленной задачи
Во время EDA производится следующая работа над данными:
- проверка на дубликаты
- проверка на пустые значения (заполнение пустых значений)
- поиск корреляций между признаками
- поиск аномалий и выбросов в данных (и их очистка, если необходимо)
- сбор статистики по датасету (максимальные, минимальные, средние и медианные значения, распределение данных)
- стандартизация и нормализация
Есть 2 части хорошей статьи с примерами проведения EDA, также доступны python ноутбуки для скачивания и тренировки
Статья часть 1
Статья часть 2
Разведочный анализ данных (EDA) - это набор техник, которые позволяют исследовать датасет (таблицу) перед решением аналитической задачи, чтобы
📍оценить главные характеристики данных
📍определить качество данных
📍выявить взаимосвязи и корреляции между признаками в данных
📍определиться с дальнейшим способом анализа данных для решения поставленной задачи
Во время EDA производится следующая работа над данными:
- проверка на дубликаты
- проверка на пустые значения (заполнение пустых значений)
- поиск корреляций между признаками
- поиск аномалий и выбросов в данных (и их очистка, если необходимо)
- сбор статистики по датасету (максимальные, минимальные, средние и медианные значения, распределение данных)
- стандартизация и нормализация
Есть 2 части хорошей статьи с примерами проведения EDA, также доступны python ноутбуки для скачивания и тренировки
Статья часть 1
Статья часть 2