Экспериментировали на WMT 2014 English-German, на тестах заметили, что модель рано начинает сэмплить end-of-slot и end-of-sequence, и быстро останавливается на коротком выхлопе. Заткнули это место костылём, вычитая везде β из логпробов обоих этих токенов, β подбирали перебором на интервале [0,7] отдельно для каждой версии модели, оптимальное значение β даёт до +4 на BLEU у слабых моделек и поменьше у сильных. Ещё 3-4 пункта BLEU дожали на дистилляции модели.



На сравнении модификаций архитектуры (Joint/Context/Mixture) показали, что хотя из них и можно выжать чуть-чуть профита, но очень мало (и при подстройке β к оптимуму уходит и этот профит). В целом, по качеству получили оптимум на варианте с бинарным деревом и температурой 2 (почти неотличимый от варианта с температурой 1).



Параллельное декодирование (что с деревом, что с uniform) действительно позволяет генерировать результат за число вставок, близкое к логарифму от числа токенов, что является оптимальным для такой схемы.