то, что готовили последние месяцы. По сравнению с распознаванием голосовых сообщений здесь нужно было добавить таймстемпы (при декодинге с языковой моделью эта информация теряется) а также уметь распознавать речь, когда на заднем плане много шума или музыка. Ну и домен отличается от разговорной речи :)
https://vk.com/press/subs
https://vk.com/press/subs