Эксперименты проводили на датасетах WSJ и LibriSpeech, в качестве метрик использовали CER и WER. На WSJ обогнали по качеству другие неавторегрессионные модели, но чуть не дотянули до лучшей авторегрессионной. На LibriSpeech обогнали всех. Вариант dynamic programming везде оказался лучше, чем просто imitation learning.