Хочу поделится своей находкой - библиотекой Vosk. Она позволяет распознавать речь. Причём делает это очень неплохо и оффлайн. На GitHub можно найти огромное количество примеров (/python/example/). Особенно полезен мне был test_microphone.py. Он слушает микрофон и сразу выводит, что услышал