Нередко бывает, что нужно подготовить объяснения к презентациям архитектуры моделей или подготовиться к собеседованиям например. Тогда требуется спустится до базы, и вспомнить, как детально работает тот или иной механизм.



Именно для таких случаев я нашла офигенный видосик про то, как устроен self attention и cross attention. В формате не просто: 😡«ну там формула всем известная, перемножим», а именно что, зачем, почему (детали)🤓



Короче, видос одобрен, кому надо берите на особые случаи, освежить память



🎞Видео