Improving Transformer Models by Reordering their Sublayers

Ofir Press, Noah A. Smith, Omer Levy

University of Washington, Allen Institute for AI, Facebook AI Research



Статья: https://ofir.io/sandwich_transformer.pdf

Тредик с обсуждением: https://twitter.com/OfirPress/status/1193074964301111296



В обычном трансформере слои self-attn и feedforward чередуются через один. А что если попробовать другие порядки? Авторы делали много разных тестов на задаче LM на WikiText-103. Основные наблюдения:

- случайные чередования слоёв дают большой разброс качества, в том числе случаются результаты получше чем у бейзлайна;

- важен ли баланс в кол-ве self-attn и feedforward -- точно не понятно, решили оставить одинаковое количество;

- выяснили, что self-attn полезнее снизу, а сверху feedforward;

- искали оптимум в классе архитектур "k-сэндвичей", это вариант, где всего 32 слоя, и устроены они так: внизу k слоёв self-attn, потом (16-k) пар self-attn+feedforward и в конце k слоёв feedforward;

- из 32 слоёв оптимумом оказался k=6, т.е. sssssssfsfsfsfsfsfsfsfsfsfffffff, на нём perplexity оказался 17.96 (против 18.40 у бейзлайна).