🔥Grokking наконец обнаружили на нормальных датасетах! (by MIT)



И для этого даже не пришлось тратить миллиарды GPU-часов и покупать атомную электростанцию.



Чтобы воспроизвести эффект генерализации после оверфиттинга, нужно было всего лишь увеличить норму весов модели при инициализации!



Авторы описывают grokking через простую идею нормированного ландшафта лоссов. Предложенная теория отлично описывает не только этот эффект, но и double descent, и связь weight decay со временем обучения.



Статья



P.S. про grokking я рассказывал тут.