Что будет, если использовать сигмоиду в скрытом слое нейросети?



Выходные значения сигмоидной функции всегда находятся в диапазоне от 0 до 1. У этого есть неприятное последствие — затухание градиента. Это означает, что при использовании сигмоидной функции активации в глубоких нейронных сетях градиенты могут становиться очень маленькими.



Почему так происходит

Когда входные значения становятся очень большими или очень маленькими, сигмоида насыщается на этих крайностях, то есть выдаёт значения, близкие к 1 или 0. Как следствие, производная функции тоже становится близкой к нулю. А производные используются в процессе обратного распространения ошибки. Так, веса в начальных слоях обновляются очень медленно, что замедляет или даже полностью останавливает процесс обучения.



Вместо сигмоиды можно использовать другие функции активации, например ReLU.



#глубокое_обучение