Наткнулся на занятную статью от Uber по прогнозу времени прибытия авто (ETA). Интересна она тем, что годами решаемая бустингами задача регрессии, теперь более эффективно решается сетками! Кажется, это начало конца бустингов
Сюрпризом для меня стало то, что Uber смог обучать трансформеры на табличных данных быстрее, чем xgboost благодаря data-parallel SGD. И не только быстрее, но и с лучшим качеством.
Метрики улучшили за счет разделения непрерывных фичей на бины = квантили. И каждый бин кодировали эмбеддингом. Так что второй вывод - эмбеддинги потихоньку захватывают мир) Есть ощущение, что через 3-5 лет весь ML сведется к тому, чтобы получить каким-то образом эмбеддинги, а затем искать ближайших соседей / делать другие простые операции
Пара других интересных фактов из статьи:
- Комбинируют нейронку и классическую "физическую" модель. Делают базовый прогноз через маршрутизатор (граф дорог), а разницу между фактом и этим прогнозом оценивают нейронкой
- Используют несимметричный huber loss, чтобы прогнозировать квантили времени прибытия
Сюрпризом для меня стало то, что Uber смог обучать трансформеры на табличных данных быстрее, чем xgboost благодаря data-parallel SGD. И не только быстрее, но и с лучшим качеством.
Метрики улучшили за счет разделения непрерывных фичей на бины = квантили. И каждый бин кодировали эмбеддингом. Так что второй вывод - эмбеддинги потихоньку захватывают мир) Есть ощущение, что через 3-5 лет весь ML сведется к тому, чтобы получить каким-то образом эмбеддинги, а затем искать ближайших соседей / делать другие простые операции
Пара других интересных фактов из статьи:
- Комбинируют нейронку и классическую "физическую" модель. Делают базовый прогноз через маршрутизатор (граф дорог), а разницу между фактом и этим прогнозом оценивают нейронкой
- Используют несимметричный huber loss, чтобы прогнозировать квантили времени прибытия