Deepmind придумал PonderNet, который умеет предсказывать дополнительным выходом, вероятность выхода из слоя, а чуваки придумали объединить RoBERTa с ним, чтобы рофлово назвать PRoBERTa, правда по метрикам ALBERT дал апгрейд побольше, поэтому PALBERT



Суть все та же, вероятность выхода на текущем слое, которая примешана в loss модели с помощью KL дивергенции



Походу, чтобы метод работал норм, и выходил заранее без неожиданностей, примешан Q-exit, который по сути накапливает вероятность, и сигнализирует о том же самом, но более точно. А также модифицирован подход оригинального PonderNet и использует для своего предсказания не 1 MLP, а hidden state-ы аж с трех предыдущих слоев сразу



Очевидно, ресерч удачен и заслуживает лайка



🖥Код