Хочу поделится своей находкой - библиотекой
Vosk. Она позволяет распознавать речь. Причём делает это очень неплохо и оффлайн. На
GitHub можно найти огромное количество примеров (/
python/
example/). Особенно полезен мне был
test_microphone.py. Он слушает микрофон и сразу выводит, что услышал