Как устроено пространство, в котором думают языковые модели?



Наша статья про анизотропию и внутреннюю размерность активаций трансформеров вышла в печать на EACL! В честь этого я подготовил небольшой хабр с её разбором.



Статья, хабр