Градиент обреченный

#ml #transformers

🔺 Transformers United

Самая вездесущая на сегодняшний день архитектура в DL — это трансформеры. Есть сотни их модификаций и применений, берущих начало из оригинальной статьи.

Для погружения в тему можно посмотреть актуальный курс от Стенфорда [cs25] — Transformers United (содержание курса).

👉 Лекции и TLDR;

1️⃣ Что такое трансформер. tldr; Предыстория, применение. Про энкодер и декодер. Механизм внимания (attention). Недостатки (квадратичная сложность).

2️⃣ NLP. Развитие GPT подобных моделей. tldr; Универсальность авторегрессионных моделей. Обучение без учителя (unsupervised learning). Генерация кода, сэмплирование.

3️⃣ CV. Про Visual Transformer (ViT). tldr; BigTransfer (BiT). Как делали ViT (делили картинку на патчи). Эксперименты с глубиной/шириной слоев (увеличивали/уменьшали).

4️⃣ RL. Decision Transformer. tldr; Трансформеры в задачах обучения с подкреплением. Онлайн и оффлайн обучение. Нестабильность обучения.

5️⃣ Mixture of Experts. Улучшаем Switch Transformer. Sparse модели (во время инференса активируется только часть весов) → триллионы параметров. Трюки с инициализацией (уменьшаем масштаб, увеличивая стабильность). Load Balance loss для обучения экспертов разной семантике.

6️⃣ Perceiver. Кросс-модальные взаимодействия. tldr; Модальностей в мире много (картинки, звуки, текст, датчики, ряды, т.д.). Хотим выучивать взаимодействия между модальностями. Deepmind.

7️⃣ Non-parametric transformers. Альтернативные подходы в обучении. Извлекаем зависимости из всего датасета сразу. Рассказ от автора статьи.

8️⃣ Transformers circuits. tldr; Интерпретируемость. Сравнение нейросети и скомпилированного кода. Как сделать reverse engineering? (До конца непонятно).

9️⃣ Аудио. tldr; Звуки и их представления, мел-спектрограммы. Сигнал непрерывен, нужно дискретизировать. Wavelets.

🔟 Бонус от Джеффри Хинтона. tldr; Размышления о том, чтобы сети понимали изображения и язык как люди (part-whole hierarchy). Рассказывает про идею GLOM (от слова aglomerate). Чтобы разобраться, надо читать статью.