DeepSchool

Лекция по быстрым механизмам внимания в это воскресенье

Главное препятствие на пути к быстрым трансформерам — квадратичный attention. В базовом варианте трансформеры довольно прожорливые как по времени, так и по памяти. Поэтому инженеры ищут способы ускорить attention. О некоторых из них мы расскажем на лекции в воскресенье.

Обсудим быстрые механизмы внимания с точки зрения простых инженерных решений.

Без математики тоже не обойдётся, но объясним всё простым языком и ответим на все вопросы, которые возникнут.

Лекцию проведёт Саша Гончаренко:

- CTO стартапа по ускорению моделей enot.ai

- автор статей, в том числе про low-power/precision вычисления

- спикер конференций (NAS, трансформеры, инференс на смартфоне)

- хэдлайнер нашего курса по ускорению

Саша расскажет про:

- Group Query Attention — сделаем KV-кеш поменьше.

- Pattern Attention — простой способ сократить вычисления с помощью паттерна

- Linear Attention — ряд Тейлора is all you need

🗓

Приходите 7 июля в 14:00 МСК!

Ссылку на трансляцию выложим в воскресенье.

Ставьте реакции, кто придёт 🔥

Пишите в комментариях свои вопросы — постараемся ответить на лекции!

До встречи в эфире!⚡️