Библиотека собеса по Data Science | вопросы с собеседований

Как понять, что ваша модель столкнулась с проблемой взрывающихся градиентов?

Градиент — это вектор частных производных функции потерь по весам нейронной сети. В процессе обратного распространения ошибки в градиенте могут накапливаться большие значения. В итоге такие элементы градиента могут переполнить тип данных, в котором они хранятся. Это и называется взрывающимися градиентами (exploding gradients).

Вот признаки:

▪️Высокое значение функции потерь. Отражает неспособность модели обучиться на данных.

▪️Скачки значения функции потерь. Показывают, что модель нестабильна.

▪️Функция потерь во время обучения может принимать значение NaN.

Также на проблему взрывающихся градиентов могут указывать:

▫️Быстрый рост весов модели.

▫️Значения NaN у весов модели во время обучения.

#junior

#middle