Вы хотите сделать регрессию, которая будет предсказывать вероятность задержки рейса. В ваших данных есть рейсы со слишком большой и редкой задержкой — до 12 часов. Это портит вашу модель. Как бы вы решали проблему?
Есть несколько вариантов действий,
✔️Исключить выбросы.
Можно удалить наблюдения, если они слишком редкие. Но перед этим следует провести статистический анализ, чтобы убедиться, что задержки превышают определённый порог, скажем, 95-й или 99-й процентиль.
✔️Сделать модель более устойчивой к выбросам.
Тут можно:
▫️применить регуляризацию
▫️взять другой алгоритм, например деревья решений.
▫️использовать метрики, устойчивые к выбросам: MAE или функцию потерь Хьюбера вместо MSE.
✔️Преобразовать данные.
Можно использовать, например, логарифмическое преобразование.
#машинное_обучение
Есть несколько вариантов действий,
✔️Исключить выбросы.
Можно удалить наблюдения, если они слишком редкие. Но перед этим следует провести статистический анализ, чтобы убедиться, что задержки превышают определённый порог, скажем, 95-й или 99-й процентиль.
✔️Сделать модель более устойчивой к выбросам.
Тут можно:
▫️применить регуляризацию
▫️взять другой алгоритм, например деревья решений.
▫️использовать метрики, устойчивые к выбросам: MAE или функцию потерь Хьюбера вместо MSE.
✔️Преобразовать данные.
Можно использовать, например, логарифмическое преобразование.
#машинное_обучение