Как понять, что ваша модель столкнулась с проблемой взрывающихся градиентов?



Градиент — это вектор частных производных функции потерь по весам нейронной сети. В процессе обратного распространения ошибки в градиенте могут накапливаться большие значения. В итоге такие элементы градиента могут переполнить тип данных, в котором они хранятся. Это и называется взрывающимися градиентами (exploding gradients).



Вот признаки:

▪️Высокое значение функции потерь. Отражает неспособность модели обучиться на данных.

▪️Скачки значения функции потерь. Показывают, что модель нестабильна.

▪️Функция потерь во время обучения может принимать значение NaN.



Также на проблему взрывающихся градиентов могут указывать:

▫️Быстрый рост весов модели.

▫️Значения NaN у весов модели во время обучения.



#junior

#middle