Недавняя статья от Google Brain под названием "Gradients are Not All You Need"
#paper
Практически все нейросети сейчас обучаются с помощью алгоритмов оптимизации, основанных на подсчете градиентов (градиентный спуск: классический backprop). Когда говорят о каких-то инновациях в DL, чаще всего упоминают новые архитектуры сетей или новые наборы данных, насчет способа обучения умалчивается: предполагается, что сетки по умолчанию обучаются градиентным спуском. Однако "приготовить" алгоритм оптимизации для обучения сети не всегда просто: часто возникают проблемы, и исследователи проводят много экспериментов, подбирая оптимальные параметры сети и алгоритма оптимизации, чтобы обучение проходило стабильно. И чем сложнее архитектура сети, тем сложнее стабилизировать оптимизацию.
Если вы слышали о таких проблемах, как затухание или взрыв градиентов (vanishing/exploding gradients), вы понимаете, о чем речь.
В статье "Gradients are Not All You Need" авторы рассматривают проблемы gradient-based оптимизации ИИ-алгоритмов и способы борьбы с ними. Статья расскажет о том, почему с математической точки зрения происходят фейлы (спойлер: все завязано на спектре якобиана системы) и какие способы защититься от этих фейлов подойдут в разных ситуациях. Интересно, что один из лучших методов достижения стабильности обучения — использование black-box оптимизации (то есть вообще без явного подсчета градиентов)
Ссылка на статью: тык
#paper
Практически все нейросети сейчас обучаются с помощью алгоритмов оптимизации, основанных на подсчете градиентов (градиентный спуск: классический backprop). Когда говорят о каких-то инновациях в DL, чаще всего упоминают новые архитектуры сетей или новые наборы данных, насчет способа обучения умалчивается: предполагается, что сетки по умолчанию обучаются градиентным спуском. Однако "приготовить" алгоритм оптимизации для обучения сети не всегда просто: часто возникают проблемы, и исследователи проводят много экспериментов, подбирая оптимальные параметры сети и алгоритма оптимизации, чтобы обучение проходило стабильно. И чем сложнее архитектура сети, тем сложнее стабилизировать оптимизацию.
Если вы слышали о таких проблемах, как затухание или взрыв градиентов (vanishing/exploding gradients), вы понимаете, о чем речь.
В статье "Gradients are Not All You Need" авторы рассматривают проблемы gradient-based оптимизации ИИ-алгоритмов и способы борьбы с ними. Статья расскажет о том, почему с математической точки зрения происходят фейлы (спойлер: все завязано на спектре якобиана системы) и какие способы защититься от этих фейлов подойдут в разных ситуациях. Интересно, что один из лучших методов достижения стабильности обучения — использование black-box оптимизации (то есть вообще без явного подсчета градиентов)
Ссылка на статью: тык