Проверяют лонгформер на задаче посимвольного авторегрессионного языкового моделирования, результат -- новый SoTA на text8 и enwiki8. При этом обучают на последовательностях длины до 23040 с помощью многоэтапной процедуры (сразу на больших обучаться сложно, поэтому начинают с маленьких размеров). При оценке проверяют на длинах до 32256. Всё это делают на карточках Quadro RTX8000 с 48 гигов памяти, и обучение с mixed-precision (fp16+fp32). Интересно, что внимание не смогли перевести на fp16, получили переполнение, оставили на fp32. Наверное, на TPU или свежих чипах NVIDIA помог бы bfloat16 (https://medium.com/@moocaholic/fp64-fp32-fp16-bfloat16-tf32-and-other-members-of-the-zoo-a1ca7897d407). В любом случае, длины до 30К это круто. Правда, кажется, что один из ключевых моментов здесь это таки гигантская доступная память (особенно с учётом fp16). Не пытайтесь повторить это на вашей 1080Ti…



Также проверяют на более сложных языковых задачах с файнтюнингом. Для файнтюнинга берут обученную RoBERTa (требуются лишь небольшие доработки, чтобы вставить в неё новый предложенный механизм внимания), дообучают на Masked Language Modeling на нескольких датасетах с большими текстами, и файнтюнят на задачи Question Answering, Coreference Resolution и Document Classification. Работает хорошо, есть прирост относительно RoBERTa. И получают SoTA на WikiHop и TriviaQA.



Короче, интересная движуха. Она не единственная, дальше расскажу про ещё несколько. На подходе трансформеры для работы с большими текстами!