#ml #transformers



🔺 Transformers United



Самая вездесущая на сегодняшний день архитектура в DL — это трансформеры. Есть сотни их модификаций и применений, берущих начало из оригинальной статьи.



Для погружения в тему можно посмотреть актуальный курс от Стенфорда [cs25] — Transformers United (содержание курса).



👉 Лекции и TLDR;



1️⃣ Что такое трансформер. tldr; Предыстория, применение. Про энкодер и декодер. Механизм внимания (attention). Недостатки (квадратичная сложность).



2️⃣ NLP. Развитие GPT подобных моделей. tldr; Универсальность авторегрессионных моделей. Обучение без учителя (unsupervised learning). Генерация кода, сэмплирование.



3️⃣ CV. Про Visual Transformer (ViT). tldr; BigTransfer (BiT). Как делали ViT (делили картинку на патчи). Эксперименты с глубиной/шириной слоев (увеличивали/уменьшали).



4️⃣ RL. Decision Transformer. tldr; Трансформеры в задачах обучения с подкреплением. Онлайн и оффлайн обучение. Нестабильность обучения.



5️⃣ Mixture of Experts. Улучшаем Switch Transformer. Sparse модели (во время инференса активируется только часть весов) → триллионы параметров. Трюки с инициализацией (уменьшаем масштаб, увеличивая стабильность). Load Balance loss для обучения экспертов разной семантике.



6️⃣ Perceiver. Кросс-модальные взаимодействия. tldr; Модальностей в мире много (картинки, звуки, текст, датчики, ряды, т.д.). Хотим выучивать взаимодействия между модальностями. Deepmind.



7️⃣ Non-parametric transformers. Альтернативные подходы в обучении. Извлекаем зависимости из всего датасета сразу. Рассказ от автора статьи.



8️⃣ Transformers circuits. tldr; Интерпретируемость. Сравнение нейросети и скомпилированного кода. Как сделать reverse engineering? (До конца непонятно).



9️⃣ Аудио. tldr; Звуки и их представления, мел-спектрограммы. Сигнал непрерывен, нужно дискретизировать. Wavelets.



🔟 Бонус от Джеффри Хинтона. tldr; Размышления о том, чтобы сети понимали изображения и язык как люди (part-whole hierarchy). Рассказывает про идею GLOM (от слова aglomerate). Чтобы разобраться, надо читать статью.