Neurogen

Whisper - это мультиязычная нейросеть, позволяющая распознавать речь в видео или аудиофайле и расшифровывать их в текст, а также в режиме реального времени переводить речь в текст за счет аудиозахвата.

Я сделал обзор на Whisper.cpp который умеет:

- Распознавать речь в видео и аудиофайле и переносить её в текст

- Создавать автоматические субтитры в форматах SubRip и WebVTT

- Переводить автоматически в английский текст

- Захватывать речь с микрофона в режиме реального времени.

Программа будет полезна видео контентмейкерам, особенно для Ютуберов (сам пользуюсь)

Подробный обзор и инструкцию по установке написал в статье на Пикабу:

https://pikabu.ru/story/neyroset_dlya_rasshifrovki_video_i_audio_v_tekst_ili_subtitryi_10321125

Буду весьма признателен, если поддержите статью плюсами, это способствует выходу дальнейших материалов и сборок