
Microsoft Research:
LONGNET - вариант трансформера, способный масштабировать длину последовательности до более чем 1 миллиарда токенов, не жертвуя при этом производительностью на более коротких последовательностях.
Преимущества LongNet:
1) обладает линейной вычислительной сложностью и логарифмической зависимостью между токенами;
2) может служить распределенным тренером для чрезвычайно длинных последовательностей;
3) расширенное внимание является заменой стандартного внимания, которое можно бесшовно интегрировать с существующей оптимизацией на основе трансформера.
Результаты экспериментов показывают, что LONGNET обеспечивает высокую производительность как для моделирования длинных последовательностей, так и для общих задач обработки языка.
Это позволит например, обрабатывать весь Интернет как последовательность.
Код доступен по адресу https://aka.ms/LongNet.
LONGNET - вариант трансформера, способный масштабировать длину последовательности до более чем 1 миллиарда токенов, не жертвуя при этом производительностью на более коротких последовательностях.
Преимущества LongNet:
1) обладает линейной вычислительной сложностью и логарифмической зависимостью между токенами;
2) может служить распределенным тренером для чрезвычайно длинных последовательностей;
3) расширенное внимание является заменой стандартного внимания, которое можно бесшовно интегрировать с существующей оптимизацией на основе трансформера.
Результаты экспериментов показывают, что LONGNET обеспечивает высокую производительность как для моделирования длинных последовательностей, так и для общих задач обработки языка.
Это позволит например, обрабатывать весь Интернет как последовательность.
Код доступен по адресу https://aka.ms/LongNet.