Идея CPC в том, чтобы предсказывать следующие элементы входа в латентном пространстве вместо того, чтобы предсказывать реальные токены. Используются токены глобального входа, для которых минимизируют разницу между их скрытыми представлениями и представлениями токенов замаскированных предложений.



Из основного всё.



Как Longformer умел стартовать с обученных весов RoBERTa, ETC умеет стартовать с обученных весов BERT’а. Это получается, несмотря на различия (наличие глобальных токенов и относительные позиционные эмбеддинги).



Проверялись на датасете Гугла Natural Questions (NQ). Там дан вопрос и статья Википедии. Надо найти короткий ответ (несколько слов) и длинный ответ (параграф, например), если они есть. Обучающий сет на ~300K примеров, медианная длина 3258 wordpiece токенов, максимальная 77962. Ну то есть далеко не 512.



Обучали на радиусе локального внимания k=84, относительные эмбеддинги ограничивали C=12. Длинный вход был в 4096 токенов. Тексты, что не влезали, проходили скользящим окном с перекрытием, финальные предсказания агрегировали.



ETC работает, профит от 4096 токенов есть, CPC помогает, дополнительное маскирование внимания тоже небольшой плюс приносит.