Естественно, мы с коллегами далеко не единственные кто интересуется свойствами матриц/графов внимания в трансформерах и пишет про это, хотя и являемся (насколько мне известно) первыми, кто начал изучать их топологию и графовые свойства в контексте задач обработки естественного языка.
Вот две самых известных статьи про паттерны в матрицах внимания BERT, в которых матрицы внимания были разделены на разные типы, и была изучена роль этих типов:
https://aclanthology.org/W19-4828/
https://aclanthology.org/D19-1445/
Эти статьи были одним из источников вдохновения для нашей следующей работы, которая уже попала на EMNLP в 2021 году, и в которой не только рассматривалась более продвинутая топология матриц внимания, но и их похожесть на паттерны из этих статей.
А ниже я репостну инфу про другую линейку работ, которая посвящена интересным свойствам матриц внимания в трансформерах для компьютерного зрения. Как всегда, при работе с картинками все оказывается намного более наглядным...
Вот две самых известных статьи про паттерны в матрицах внимания BERT, в которых матрицы внимания были разделены на разные типы, и была изучена роль этих типов:
https://aclanthology.org/W19-4828/
https://aclanthology.org/D19-1445/
Эти статьи были одним из источников вдохновения для нашей следующей работы, которая уже попала на EMNLP в 2021 году, и в которой не только рассматривалась более продвинутая топология матриц внимания, но и их похожесть на паттерны из этих статей.
А ниже я репостну инфу про другую линейку работ, которая посвящена интересным свойствам матриц внимания в трансформерах для компьютерного зрения. Как всегда, при работе с картинками все оказывается намного более наглядным...