Microsoft Research:

LONGNET - вариант трансформера, способный масштабировать длину последовательности до более чем 1 миллиарда токенов, не жертвуя при этом производительностью на более коротких последовательностях.

Преимущества LongNet:

1) обладает линейной вычислительной сложностью и логарифмической зависимостью между токенами;

2) может служить распределенным тренером для чрезвычайно длинных последовательностей;

3) расширенное внимание является заменой стандартного внимания, которое можно бесшовно интегрировать с существующей оптимизацией на основе трансформера.

Результаты экспериментов показывают, что LONGNET обеспечивает высокую производительность как для моделирования длинных последовательностей, так и для общих задач обработки языка.

Это позволит например, обрабатывать весь Интернет как последовательность.

Код доступен по адресу https://aka.ms/LongNet.