MoE(я) прелесть или Switch Transformers в каждый дом.
Как говорится, повторенье - матьмученья учения. Поговорим уже о давно отшумевшем mixture of experts подходе (далее MoE) на примере Switch transformers.
В целом MoE это продукт синтеза двух базовых подходов обычной feed forward mlp и gating/routing из GRU RNN.
Задача ансамбля MoE состоит в том, чтобы:
1. Увеличить репрезентативность и вариативность отображений ffn.
2. Сохранить при увеличении числа весов модели, за счёт роутинга небольшую потерю в вычислительной мощности.
3. Динамически регулировать ëмкость сети в зависимости от входных данных.
При этом если посмотреть на схему MoE в Switch transformers мы видим всё тот же знакомый механизм голосования при помощи soft-max . Однако, в отличии от классического MoE выбирается топ-1 эксперт.
Эксперимент:
Недавно вот попробовал заменить в нашем подходе вырезанные из BERT 6 слоёв по 768 dim. На свой классик трансформер со Switch MoE в каждом блоке вместо FFN.
Конфигурация была такая: 3 блока трансформера, 4 головы внимания и 4 эксперта в MoE. Размерность отображения эксперта и трансформера 256.
Итог. Мы достигаем тех же показателей по метрикам на задаче диалогового моделирования , но уменьшили размер модели получения эмбеддингов контекста в 17 раз!
UPD. Если хотите потрогать сами вот на HF сорс.
Как говорится, повторенье - мать
В целом MoE это продукт синтеза двух базовых подходов обычной feed forward mlp и gating/routing из GRU RNN.
Задача ансамбля MoE состоит в том, чтобы:
1. Увеличить репрезентативность и вариативность отображений ffn.
2. Сохранить при увеличении числа весов модели, за счёт роутинга небольшую потерю в вычислительной мощности.
3. Динамически регулировать ëмкость сети в зависимости от входных данных.
При этом если посмотреть на схему MoE в Switch transformers мы видим всё тот же знакомый механизм голосования при помощи soft-max . Однако, в отличии от классического MoE выбирается топ-1 эксперт.
Эксперимент:
Недавно вот попробовал заменить в нашем подходе вырезанные из BERT 6 слоёв по 768 dim. На свой классик трансформер со Switch MoE в каждом блоке вместо FFN.
Конфигурация была такая: 3 блока трансформера, 4 головы внимания и 4 эксперта в MoE. Размерность отображения эксперта и трансформера 256.
Итог. Мы достигаем тех же показателей по метрикам на задаче диалогового моделирования , но уменьшили размер модели получения эмбеддингов контекста в 17 раз!
UPD. Если хотите потрогать сами вот на HF сорс.