Естественно, мы с коллегами далеко не единственные кто интересуется свойствами матриц/графов внимания в трансформерах и пишет про это, хотя и являемся (насколько мне известно) первыми, кто начал изучать их топологию и графовые свойства в контексте задач обработки естественного языка.



Вот две самых известных статьи про паттерны в матрицах внимания BERT, в которых матрицы внимания были разделены на разные типы, и была изучена роль этих типов:



https://aclanthology.org/W19-4828/

https://aclanthology.org/D19-1445/



Эти статьи были одним из источников вдохновения для нашей следующей работы, которая уже попала на EMNLP в 2021 году, и в которой не только рассматривалась более продвинутая топология матриц внимания, но и их похожесть на паттерны из этих статей.



А ниже я репостну инфу про другую линейку работ, которая посвящена интересным свойствам матриц внимания в трансформерах для компьютерного зрения. Как всегда, при работе с картинками все оказывается намного более наглядным...