Идея CPC в том, чтобы предсказывать следующие элементы входа в латентном пространстве вместо того, чтобы предсказывать реальные токены. Используются токены глобального входа, для которых минимизируют разницу между их скрытыми представлениями и представлениями токенов замаскированных предложений.
Из основного всё.
Как Longformer умел стартовать с обученных весов RoBERTa, ETC умеет стартовать с обученных весов BERT’а. Это получается, несмотря на различия (наличие глобальных токенов и относительные позиционные эмбеддинги).
Проверялись на датасете Гугла Natural Questions (NQ). Там дан вопрос и статья Википедии. Надо найти короткий ответ (несколько слов) и длинный ответ (параграф, например), если они есть. Обучающий сет на ~300K примеров, медианная длина 3258 wordpiece токенов, максимальная 77962. Ну то есть далеко не 512.
Обучали на радиусе локального внимания k=84, относительные эмбеддинги ограничивали C=12. Длинный вход был в 4096 токенов. Тексты, что не влезали, проходили скользящим окном с перекрытием, финальные предсказания агрегировали.
ETC работает, профит от 4096 токенов есть, CPC помогает, дополнительное маскирование внимания тоже небольшой плюс приносит.
Из основного всё.
Как Longformer умел стартовать с обученных весов RoBERTa, ETC умеет стартовать с обученных весов BERT’а. Это получается, несмотря на различия (наличие глобальных токенов и относительные позиционные эмбеддинги).
Проверялись на датасете Гугла Natural Questions (NQ). Там дан вопрос и статья Википедии. Надо найти короткий ответ (несколько слов) и длинный ответ (параграф, например), если они есть. Обучающий сет на ~300K примеров, медианная длина 3258 wordpiece токенов, максимальная 77962. Ну то есть далеко не 512.
Обучали на радиусе локального внимания k=84, относительные эмбеддинги ограничивали C=12. Длинный вход был в 4096 токенов. Тексты, что не влезали, проходили скользящим окном с перекрытием, финальные предсказания агрегировали.
ETC работает, профит от 4096 токенов есть, CPC помогает, дополнительное маскирование внимания тоже небольшой плюс приносит.