Тут Google опять немного сошёл с ума. И решил делать перевод из аудиозаписи в аудиозапись end-to-end. То есть одна нейросетка, получающая на вход аудио на одном языке и выдающая аудио на другом.
https://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html
https://ai.googleblog.com/2019/05/introducing-translatotron-end-to-end.html