Вы хотите сделать регрессию, которая будет предсказывать вероятность задержки рейса. В ваших данных есть рейсы со слишком большой и редкой задержкой — до 12 часов. Это портит вашу модель. Как бы вы решали проблему?



Есть несколько вариантов действий,



✔️Исключить выбросы.

Можно удалить наблюдения, если они слишком редкие. Но перед этим следует провести статистический анализ, чтобы убедиться, что задержки превышают определённый порог, скажем, 95-й или 99-й процентиль.

✔️Сделать модель более устойчивой к выбросам.

Тут можно:

▫️применить регуляризацию

▫️взять другой алгоритм, например деревья решений.

▫️использовать метрики, устойчивые к выбросам: MAE или функцию потерь Хьюбера вместо MSE.

✔️Преобразовать данные.

Можно использовать, например, логарифмическое преобразование.



#машинное_обучение