MoE(я) прелесть или Switch Transformers в каждый дом.



Как говорится, повторенье - мать мученья учения. Поговорим уже о давно отшумевшем mixture of experts подходе (далее MoE) на примере Switch transformers.



В целом MoE это продукт синтеза двух базовых подходов обычной feed forward mlp и gating/routing из GRU RNN.



Задача ансамбля MoE состоит в том, чтобы:



1. Увеличить репрезентативность и вариативность отображений ffn.



2. Сохранить при увеличении числа весов модели, за счёт роутинга небольшую потерю в вычислительной мощности.



3. Динамически регулировать ëмкость сети в зависимости от входных данных.



При этом если посмотреть на схему MoE в Switch transformers мы видим всё тот же знакомый механизм голосования при помощи soft-max . Однако, в отличии от классического MoE выбирается топ-1 эксперт.



Эксперимент:

Недавно вот попробовал заменить в нашем подходе вырезанные из BERT 6 слоёв по 768 dim. На свой классик трансформер со Switch MoE в каждом блоке вместо FFN.



Конфигурация была такая: 3 блока трансформера, 4 головы внимания и 4 эксперта в MoE. Размерность отображения эксперта и трансформера 256.



Итог. Мы достигаем тех же показателей по метрикам на задаче диалогового моделирования , но уменьшили размер модели получения эмбеддингов контекста в 17 раз!



UPD. Если хотите потрогать сами вот на HF сорс.