● Пускай мы хотим посчитать средний возраст учеников девятых классов во всех школах города N. Даже не видя данных, можно предположить, что:
– абсолютное большинство ребят — одного и того же года рождения;
– редкие исключения старше или младше максимум на год/два;
– «средних» девятиклассников намного больше, чем «нетипичных».
Другими словами, если школьники в городе N не какие-то аномальные, все меры сойдутся примерно на одном числе. Значит, можно пользоваться любой из них (чаще выбирают среднее).
● Рассмотрим другую ситуацию: мы снова имеем дело с возрастом, но на этот раз — покупателей интернет-магазина детской одежды. В отличие от предыдущего кейса, диапазон значений здесь ограничен весьма условно.
Это значит, что возможны выбросы. Скажем, большинство покупателей — молодые мамы немного за 30. Но если данных у нас маловато, буквально пара заказов от бабушек-пенсионерок может сместить среднее на годы:
[30, 32, 33, 34, 34] — сред. ≈ 33
[30, 32, 33, 34, 34, 75] — сред. ≈ 40
Если мы ориентируемся на средний возраст покупателей, например, при оптимизации рекламы, то из-за аномалии можем просто перестать попадать в свою целевую аудиторию. Что самое обидное: попадать в бабушек мы тоже не начнём.
Это как раз тот случай, когда стоит использовать медиану — она куда лучше защищена от выбросов:
[30, 32, 33, 34, 34] — медиан. = 33
[30, 32, 33, 34, 34, 75] — медиан. = 33.5
● И, наконец, представьте, что мы работаем с архивом заявлений на замену паспорта. Люди подают их по разным причинам: из-за порчи или потери документа, новой фамилии, изменений во внешности — но всё это вряд ли сильно коррелирует с возрастом.
Зато в 20 и 45 лет паспорт обязаны менять абсолютно все россияне. Скорее всего, именно на эти значения приходятся пики по количеству обращений. Единственная мера, способная это отразить, — мода.
Какой вывод можно сделать из этих трёх примеров? В первую очередь — что универсального алгоритма по выбору «самой точной» меры не существует.
Есть только одно правило: среднее, мода и медиана совпадают, когда распределение симметрично, унимодально и не имеет значительных выбросов. Во всех остальных случаях подходить к выбору и интерпретации МЦТ нужно осознанно: внимательно смотреть и на данные, и на решаемую задачу.
– абсолютное большинство ребят — одного и того же года рождения;
– редкие исключения старше или младше максимум на год/два;
– «средних» девятиклассников намного больше, чем «нетипичных».
Другими словами, если школьники в городе N не какие-то аномальные, все меры сойдутся примерно на одном числе. Значит, можно пользоваться любой из них (чаще выбирают среднее).
● Рассмотрим другую ситуацию: мы снова имеем дело с возрастом, но на этот раз — покупателей интернет-магазина детской одежды. В отличие от предыдущего кейса, диапазон значений здесь ограничен весьма условно.
Это значит, что возможны выбросы. Скажем, большинство покупателей — молодые мамы немного за 30. Но если данных у нас маловато, буквально пара заказов от бабушек-пенсионерок может сместить среднее на годы:
[30, 32, 33, 34, 34] — сред. ≈ 33
[30, 32, 33, 34, 34, 75] — сред. ≈ 40
Если мы ориентируемся на средний возраст покупателей, например, при оптимизации рекламы, то из-за аномалии можем просто перестать попадать в свою целевую аудиторию. Что самое обидное: попадать в бабушек мы тоже не начнём.
Это как раз тот случай, когда стоит использовать медиану — она куда лучше защищена от выбросов:
[30, 32, 33, 34, 34] — медиан. = 33
[30, 32, 33, 34, 34, 75] — медиан. = 33.5
● И, наконец, представьте, что мы работаем с архивом заявлений на замену паспорта. Люди подают их по разным причинам: из-за порчи или потери документа, новой фамилии, изменений во внешности — но всё это вряд ли сильно коррелирует с возрастом.
Зато в 20 и 45 лет паспорт обязаны менять абсолютно все россияне. Скорее всего, именно на эти значения приходятся пики по количеству обращений. Единственная мера, способная это отразить, — мода.
Какой вывод можно сделать из этих трёх примеров? В первую очередь — что универсального алгоритма по выбору «самой точной» меры не существует.
Есть только одно правило: среднее, мода и медиана совпадают, когда распределение симметрично, унимодально и не имеет значительных выбросов. Во всех остальных случаях подходить к выбору и интерпретации МЦТ нужно осознанно: внимательно смотреть и на данные, и на решаемую задачу.