Какие плюсы даёт слой батч нормализации:
• Ускорение обучения. За счёт сохранения распределения фичей между слоями, нейронная сеть обучается быстрее. Например, в исходной статье авторам удалось добиться ускорения обучения в 14 раз.
• Можно использовать больший learning rate. Батч нормализация сглаживает ландшафт функции ошибки, тем самым позволяя использовать бо́льший lr без опаски проскочить локальный минимум.
• Регуляризация. Статистики считаются на батче и экспоненциального сглаживаются — появляется эффект регуляризации.
• Ёмкость сети не тратится понапрасну. Так как для основных слоёв сети распределение фичей практически не меняется, им не нужно тратить ману на заучивание распределений, а можно сконцентрироваться на поиске новых важных фичей.
• Ускорение обучения. За счёт сохранения распределения фичей между слоями, нейронная сеть обучается быстрее. Например, в исходной статье авторам удалось добиться ускорения обучения в 14 раз.
• Можно использовать больший learning rate. Батч нормализация сглаживает ландшафт функции ошибки, тем самым позволяя использовать бо́льший lr без опаски проскочить локальный минимум.
• Регуляризация. Статистики считаются на батче и экспоненциального сглаживаются — появляется эффект регуляризации.
• Ёмкость сети не тратится понапрасну. Так как для основных слоёв сети распределение фичей практически не меняется, им не нужно тратить ману на заучивание распределений, а можно сконцентрироваться на поиске новых важных фичей.