
Understanding Optimization of Deep Learning
Крутой обзор всех аспектов и методов оптимизации нейронных сетей. Тут описано как бороться с возникающими проблемами, в чём отличия оптимизаторов, почему трансформеры капризнее резнетов (сильная кривизна лосса → большое значение константы Липшица) и ещё много всего интересного на 50 страниц.
P.S. На картинке показано как можно справиться с взрывающимися градиентами.
Статья
Крутой обзор всех аспектов и методов оптимизации нейронных сетей. Тут описано как бороться с возникающими проблемами, в чём отличия оптимизаторов, почему трансформеры капризнее резнетов (сильная кривизна лосса → большое значение константы Липшица) и ещё много всего интересного на 50 страниц.
P.S. На картинке показано как можно справиться с взрывающимися градиентами.
Статья