📌 В чем преимущество медианы над средним ?



💬 Спрашивают в 14% собеседований



Медиана и среднее значение (среднее арифметическое) — это две основные меры центральной тенденции данных. Хотя оба эти показателя служат для описания "среднего" значения данных, они имеют разные свойства и могут давать разные результаты в зависимости от распределения данных. Рассмотрим основные преимущества медианы над средним:



1️⃣ Устойчивость к выбросам

Является более устойчивой к выбросам и экстремальным значениям, чем среднее. Это означает, что единичные очень большие или очень маленькие значения не оказывают сильного влияния на медиану.



Пример:

Предположим, у вас есть набор данных о доходах людей: [30, 32, 35, 40, 45, 50, 1000]. Среднее значение будет сильно завышено из-за выброса (1000), тогда как медиана останется представительной для большинства данных.

import numpy as np



data = [30, 32, 35, 40, 45, 50, 1000]

mean = np.mean(data)

median = np.median(data)



print(f"Среднее: {mean}")

print(f"Медиана: {median}")




Результаты:

Среднее: 176.0

Медиана: 40.0




2️⃣ Применимость к несимметричным распределениям

Лучше описывает центральную тенденцию для асимметричных (скошенных) распределений, так как она не зависит от формы распределения. Среднее значение может быть смещено в сторону длинного хвоста распределения.



Для распределения доходов в обществе, где большинство людей зарабатывает меньше среднего дохода, медиана будет представлять более точное "среднее" значение для типичного человека.



3️⃣ Интерпретируемость

Более интуитивно понятна, так как она представляет значение, разделяющее данные на две равные части. Половина наблюдений будет меньше медианы, а другая половина — больше.



4️⃣ Использование с порядковыми данными

Может быть вычислена для порядковых данных (данных, которые могут быть упорядочены, но для которых не имеет смысла вычислять среднее значение). Среднее значение не имеет смысла для таких данных.



Пример:

ratings = [1, 2, 3, 4, 5, 5, 5]

median_rating = np.median(ratings)



print(f"Медиана рейтинга: {median_rating}")




Результат:

Медиана рейтинга: 4.0




Устойчивость к выбросам: Медиана не подвержена влиянию экстремальных значений, что делает её более надежной для данных с выбросами.



Асимметричные распределения: Медиана лучше описывает центральную тенденцию в асимметричных распределениях.



Интерпретируемость: Медиана интуитивно представляет центральное значение, разделяющее данные на две равные части.



Порядковые данные: Медиана применима к порядковым данным, в то время как среднее значение не имеет смысла для таких данных.



Медиана особенно полезна в ситуациях, когда данные содержат выбросы или несимметричны, а также когда работа ведется с порядковыми данными. Среднее значение, с другой стороны, может быть более полезным для симметричных распределений без выбросов.



🔥 ТОП ВОПРОСОВ С СОБЕСОВ



🔒 База собесов | 🔒 База тестовых