Improving Transformer Models by Reordering their Sublayers
Ofir Press, Noah A. Smith, Omer Levy
University of Washington, Allen Institute for AI, Facebook AI Research
Статья: https://ofir.io/sandwich_transformer.pdf
Тредик с обсуждением: https://twitter.com/OfirPress/status/1193074964301111296
В обычном трансформере слои self-attn и feedforward чередуются через один. А что если попробовать другие порядки? Авторы делали много разных тестов на задаче LM на WikiText-103. Основные наблюдения:
- случайные чередования слоёв дают большой разброс качества, в том числе случаются результаты получше чем у бейзлайна;
- важен ли баланс в кол-ве self-attn и feedforward -- точно не понятно, решили оставить одинаковое количество;
- выяснили, что self-attn полезнее снизу, а сверху feedforward;
- искали оптимум в классе архитектур "k-сэндвичей", это вариант, где всего 32 слоя, и устроены они так: внизу k слоёв self-attn, потом (16-k) пар self-attn+feedforward и в конце k слоёв feedforward;
- из 32 слоёв оптимумом оказался k=6, т.е. sssssssfsfsfsfsfsfsfsfsfsfffffff, на нём perplexity оказался 17.96 (против 18.40 у бейзлайна).
Ofir Press, Noah A. Smith, Omer Levy
University of Washington, Allen Institute for AI, Facebook AI Research
Статья: https://ofir.io/sandwich_transformer.pdf
Тредик с обсуждением: https://twitter.com/OfirPress/status/1193074964301111296
В обычном трансформере слои self-attn и feedforward чередуются через один. А что если попробовать другие порядки? Авторы делали много разных тестов на задаче LM на WikiText-103. Основные наблюдения:
- случайные чередования слоёв дают большой разброс качества, в том числе случаются результаты получше чем у бейзлайна;
- важен ли баланс в кол-ве self-attn и feedforward -- точно не понятно, решили оставить одинаковое количество;
- выяснили, что self-attn полезнее снизу, а сверху feedforward;
- искали оптимум в классе архитектур "k-сэндвичей", это вариант, где всего 32 слоя, и устроены они так: внизу k слоёв self-attn, потом (16-k) пар self-attn+feedforward и в конце k слоёв feedforward;
- из 32 слоёв оптимумом оказался k=6, т.е. sssssssfsfsfsfsfsfsfsfsfsfffffff, на нём perplexity оказался 17.96 (против 18.40 у бейзлайна).