Включает использование различных методов машинного обучения и анализа данных. Этот процесс требует сбора, обработки и анализа большого объема данных, а затем применения подходящих моделей для предсказания задержек.
Сбор данных является первым и важнейшим шагом в прогнозировании задержек рейсов. Основные источники данных:
Исторические данные о рейсах: время отправления и прибытия, плановое и фактическое время, длительность задержки.
Метеорологические данные: погода в пункте отправления и прибытия, погодные условия на маршруте.
Данные о самолете: тип самолета, возраст, количество рейсов в день.
Данные о пассажирах: количество пассажиров, багаж.
Данные о воздушном движении: загруженность аэропортов, маршруты.
Данные о персонале: доступность экипажа, смены.
Очистка данных
Заполнение пропусков: заполнение отсутствующих значений, например, средними значениями или медианой.
Удаление выбросов: выявление и удаление аномальных значений.
Преобразование данных
Преобразование категориальных признаков: преобразование категориальных данных в числовые значения (например, One-Hot Encoding).
Нормализация данных: приведение данных к единому масштабу.
Фиче инжиниринг
Создание новых признаков: например, время суток, день недели, сезонность.
Агрегация данных: создание агрегированных признаков, таких как среднее время задержки для конкретного маршрута или аэропорта.
Регрессия
Линейная регрессия: простая модель для предсказания количественных значений.
Логистическая регрессия: если задача заключается в предсказании факта задержки (да/нет).
Решающие деревья и ансамбли
Decision Tree: модель на основе дерева решений.
Random Forest: ансамбль деревьев решений для улучшения точности и обобщающей способности.
Gradient Boosting (XGBoost, LightGBM): модели градиентного бустинга, эффективные для сложных задач прогнозирования.
Нейронные сети
Многослойный персептрон (MLP): простая нейронная сеть.
Recurrent Neural Networks (RNN): сети для обработки последовательных данных, например, временных рядов.
Long Short-Term Memory (LSTM): улучшенная версия RNN для работы с длительными зависимостями во временных рядах.
Ставь 👍 и забирай 📚 Базу знаний