Machine learning Interview

Что такое ошибка отбора (в отношении данных), и почему она важна? Как предварительная обработка данных может ухудшить ситуацию?

Ответ

Ошибка отбора – это выбор для анализа людей, групп или данных методом, не обеспечивающим должную рандомизацию, в результате чего выборка не является репрезентативной.

Существуют следующие виды ошибок отбора:

ошибка выборки: выборка, полученная не в результате случайного отбора.

интервал времени: выбор особого интервала времени, поддерживающего желаемый вывод – например, исследование продаж перед Рождеством.

воздействие: включает клиническую уязвимость, протопатическую ошибку и ошибку показателей (подробнее см. здесь).

ошибка данных: выборочное представление фактов, избирательный подход, выборочное цитирование.

ошибка истощения: включает «ошибку выжившего», когда в анализ включаются только те, кто «пережил» длительный процесс и «ошибку неудачников», когда в анализ включаются только те, кто потерпел неудачу.

Обработка пропущенных данных может усилить влияние ошибок отбора. Например, если вы заменяете значения null на средние значения, вы добавляете в данные ошибку, поскольку считаете, что данные не имеют такого разброса, который они могут иметь на самом деле.

@machinelearning_interview