Градиент обреченный

#nlp #transformers

Про параллелизм

Красивый слайд из курса CS25. В последних двух колонках у нас sparse модели (MoE). Одним цветом обозначены одни и те же копии данных.

〰️ Зачем?

При масштабировании архитектуры и тренировочных данных можно упереться в ограничения по памяти/времени. Для параллельного обучения на нескольких устройствах и приходится что-то партиционировать — либо данные, либо модель, либо все вместе.