Библиотека собеса по Data Science | вопросы с собеседований

Верно ли, что классический градиентный спуск всегда найдёт глобальный минимум функции потерь и выдаст оптимальные параметры?

Нет, неверно.

Градиентный спуск эффективно работает на выпуклых функциях. В этом случае любой локальный минимум автоматически является глобальным. Однако без выпуклости данный метод оптимизации ничего не гарантирует. При этом невыпуклые функции встречаются повсеместно, в том числе в машинном обучении.

Нередко при обучении градиентный спуск застревает в локальном минимуме и не может найти глобальный. Это означает, что найденное решение может не быть оптимальным. Для того, чтобы снизить вероятность такого исхода, применяются разные техники. Однако 100-процентной гарантии не дают и они.

К вышеуказанным техникам относятся:

▫️выбор удачных начальных параметров;

▫️модификации градиентного спуска (стохастический градиентный спуск (SGD), градиентный спуск с моментом и др.).

#машинное_обучение