Outlier Dimensions that Disrupt Transformers are Driven by Frequency ( https://arxiv.org/pdf/2205.11380.pdf ) - интересная статья с постерной сессии Blackbox NLP 2022. Она является логическим развитием статьи 2021го года BERT Busters: Outlier Dimensions that Disrupt Transformers ( https://arxiv.org/pdf/2105.06990.pdf ), в которой впервые были описаны outlier dimensions в BERT-подобных моделях и их значимость. Outlier dimensions в данном контексте - это связи с нетипично большим (за пределами трех сигм) средним абсолютным значением весов (weights + biases), обитающие на слоях LayerNorm. В статье 2021го было замечено, что зануление таких связей резко ухудшает качество модели, так что в итоге, занулив менее одной десятитысячной доли процента от всех параметров модели, можно сделать её практически бесполезной. Это интересный, контринтуитивный результат на фоне наших знаний о большой избыточности подобных моделей (в частности, о том, что 30-40% остальных весов можно занулить вообще практически без вреда для модели).



В статье 2022го представлен целый ряд наблюдений про outlier dimensions:

1. Outliers на ранних этапах обучения BERT не обладают большой значимостью и могут быть занулены практически безболезненно. Но чем дольше обучается модель, тем сильнее становится падение качества при удалении outliers.

2. Каждый outlier dimension можно сопоставить некоторой позиции токена в предложении. Большая абсолютная величина весов в некоторых outlier dimensions связана с появлением часто встречающегося токена на соответствующей позиции; большая величина весов в других outlier dimensions, наоборот, служит индикатором появления редких токенов.

3. Зануление outlier dimensions меняет форму матриц внимания на следующем слое. В них практически исчезают вертикальные паттерны, также матрицы становятся близкими к блочно диагональным. Таким образом показана связь между outliers и вертикальным паттерном внимания.

4. Вскользь затронута тема других видов трансформеров, таких, как Vision Transformer. У этого трансформера при занулении outlier dimensions наблюдается сильное падение качества на CIFAR-100 (датасет картинок со 100 классами), но практически отсутствует падение качества на CIFAR-10. Также авторы попробовали проанализировать трансфомеры для белков и речи, но не нашли там таких outliers, как в ViT и BERT. Авторы предполагают, что причиной может быть то, что у этих трансформеров слишком маленький "словарь" (мало различных токенов). Эта гипотеза мне, честно говоря, пока что кажется недостаточно подкрепленной. Было бы интересно увидеть больше свидетельств о связи словаря и outliers.

5. Появление outlier dimensions тесно связано с данными, на которых происходит предобучение модели. В частности, авторы смогли существенно уменьшить damaging effect outlier dimensions, просто добавляя шум в тренировочные данные. Правда, это произошло ценой падения качества модели в целом.



Сам воркшоп BlackboxNLP посвящен внутреннему анализу моделей, используемых в NLP. Больше информации о нем можно узнать здесь: https://blackboxnlp.github.io/2022/



#объяснения_статей