What's Hidden in a Randomly Weighted Neural Network?
Vivek Ramanujan, Mitchell Wortsman, Aniruddha Kembhavi, Ali Farhadi, Mohammad Rastegari
Статья: https://arxiv.org/abs/1911.13299
Из серии “про суть вещей”.
Случайно инициализированные сетки содержат подсети, которые демонстрируют хорошее качество вообще без обучения. Например, в рандомно инициализированном Wide ResNet-50 содержится подсетка со случайными весами, которая _без обучения_ достигает качества _обученного_ на ImageNet ResNet-34. Предлагается алгоритм для эффективного нахождения таких подсеток.
В каком-то смысле продолжение истории про Lottery Ticket Hypothesys (https://arxiv.org/abs/1803.03635). Если кто не помнит, то это история про то, что большие сети содержат разреженные подсети, которые можно эффективно натренировать до такого же качества, что и большие родительские сети, если установить им ту самую “правильную инициализацию”, которая была у них внутри большой модели.
Затем была работа (https://arxiv.org/abs/1905.01067), показавшая, что существуют т.н. Supermasks — маски, наложенные на _необученную_ случайно инициализированную сеть, дающие результирующую сеть с качеством намного выше, чем случайное угадывание (86% on MNIST, 41% on CIFAR-10). Маска здесь в смысле бинарной маски, зануляющей часть весов.
Теперь авторы текущей работы выдвигают свою ещё более сильную гипотезу и подтверждают её фактами.
В терминах красивых фраз они “validate the unreasonable effectiveness of randomly weighted neural networks for image recognition“.
Для нахождения таких подсетей авторы предложили алгоритм edge-popup, суть которого в том, что для каждого веса в сети мы учим дополнительное число (popup score), по которому мы дальше оставляем топ-k% весов. В данной процедуре сами веса сети не обучаются и остаются случайными, как в начале процесса, обучаются градиентным спуском только popup scores, по которым дальше генерится подсеть.
Также авторы показывают, что распределение, из которого сэмплят веса, очень важно, и качество найденных алгоритмом сетей существенно проседает при “неправильной” инициализации.
В общем на подходе алгоритмы совсем нового типа: которые не обучают неделями большие сети бэкпропом, а генерят огромные случайные сети и начинают их по-умному урезать.
(to be continued…)
Vivek Ramanujan, Mitchell Wortsman, Aniruddha Kembhavi, Ali Farhadi, Mohammad Rastegari
Статья: https://arxiv.org/abs/1911.13299
Из серии “про суть вещей”.
Случайно инициализированные сетки содержат подсети, которые демонстрируют хорошее качество вообще без обучения. Например, в рандомно инициализированном Wide ResNet-50 содержится подсетка со случайными весами, которая _без обучения_ достигает качества _обученного_ на ImageNet ResNet-34. Предлагается алгоритм для эффективного нахождения таких подсеток.
В каком-то смысле продолжение истории про Lottery Ticket Hypothesys (https://arxiv.org/abs/1803.03635). Если кто не помнит, то это история про то, что большие сети содержат разреженные подсети, которые можно эффективно натренировать до такого же качества, что и большие родительские сети, если установить им ту самую “правильную инициализацию”, которая была у них внутри большой модели.
Затем была работа (https://arxiv.org/abs/1905.01067), показавшая, что существуют т.н. Supermasks — маски, наложенные на _необученную_ случайно инициализированную сеть, дающие результирующую сеть с качеством намного выше, чем случайное угадывание (86% on MNIST, 41% on CIFAR-10). Маска здесь в смысле бинарной маски, зануляющей часть весов.
Теперь авторы текущей работы выдвигают свою ещё более сильную гипотезу и подтверждают её фактами.
В терминах красивых фраз они “validate the unreasonable effectiveness of randomly weighted neural networks for image recognition“.
Для нахождения таких подсетей авторы предложили алгоритм edge-popup, суть которого в том, что для каждого веса в сети мы учим дополнительное число (popup score), по которому мы дальше оставляем топ-k% весов. В данной процедуре сами веса сети не обучаются и остаются случайными, как в начале процесса, обучаются градиентным спуском только popup scores, по которым дальше генерится подсеть.
Также авторы показывают, что распределение, из которого сэмплят веса, очень важно, и качество найденных алгоритмом сетей существенно проседает при “неправильной” инициализации.
В общем на подходе алгоритмы совсем нового типа: которые не обучают неделями большие сети бэкпропом, а генерят огромные случайные сети и начинают их по-умному урезать.
(to be continued…)