Почему сети выучивают базисы Фурье?

или эмерджентность неприводимых представлений 🤤



В последние несколько лет стало модным использование симметрий 👥 данных для построение более эффективных моделей (en. inductive biases; обзорная статья на Кванте; перевод). Например, в моделировании климата удобно рассматривать Землю как единичную сферу – погода будет функцией, задающейся двумя координатами вместо трёх для Эвклидового пространства.



В моих любимых графах симметрии активно используются для моделирования молекул – например, для предсказания межатомных взаимодействий модели стоит быть эквивариантной по E(3). Использование симметрий позволяет значительно снизить количество параметров, стабилизирует процесс тренировки и улучшает генерализацию 📈. Но это немного спорно – недавние результаты говорят о том, что подходы, которые не ограничивают модель эквивариантностью, могут выбивать метрики лучше. В любом случае, всех заинтересовавшихся отправляю в мини-книжку Бронштейна. 📃



Известно, что фильтры свёрточных сетей для обработки изображений очень напоминают по форме фильтры Габора, соответствующие активациям в зрительных долях макак. Как так получается? 🧐



Недавно вышедшая статья “Harmonics of Learning: Universal Fourier Features Emerge in Invariant Networks” делает шаг в объяснении этого феномена. Для некоторого класса нейросетей (например, биспектральных с ICLR’23) если функция f с ортонормальными весами W инвариантна по входу к какому-либо действию группы G, веса выражаются через коэффициенты преобразования Фурье этой группы. Другая теорема показывает, что из весов W можно восстановить таблицу группы G. 👌



Судя по всему, для моделирования систем с симметриями достаточно обучить сеть на достаточном количестве данных, показывая симметрию на обучающих примерах, ну а дальше уже learning goes brr 📈. Получается математическое обоснование для Bitter Lesson, который говорит о том, что методы, опирающиеся на увеличение вычислений, выигрывают в гонках систем машинного обучения. 😭