Даже если человек учился водить в дневное время суток, он скорее всего сможет водить ночью. Для мл алгоритмов это не такая простая задача, так как такая простая вещь как смена суток полностью меняет visual features на которых весь алгоритм обычно и держится. Чуваки из Беркли разработали новый алгоритм Policy Adaptation during Deployment который делает RL агентов менее восприимчивыми к таким изменениям.

Обычно RL модели состоят из экстрактора, который помогает понять входные условия, и контроллера, который предпринимает соответствующие действия. Оба тренируются и фиксируются. Но в данном случае экстрактор динамический, что позволяет ему продолжать адаптироваться даже после окончания тренировки! В общем очень необычно и полезно, запросто может быть применено к селфдрайвингу.