Мы в одном чате выяснили, чем пользуется Telegram для расшифровки аудио. Ответ окажется очевидным, но путь к нему интересный.



Хронология:



- Я отправляю аудиосообщение в чат, его расшифровывает друг, и в конце видит следующий текст: "Ну, в общем, мы это узнаем завтра. Зав. Редактор субтитров А. Семкин, Корректор А. Егорова". Я, конечно, так не заканчивал своё сообщение, но это хорошо, что не "directed by Robert B. Weide".

- Мы гуглим и находим интересную тему на GitHub: https://github.com/openai/whisper/discussions/928, где люди описывают баги расшифровки Whisper:

1. Иногда он выводит (на французском) ❤️ Translated by Amara.org Community.

2. Когда музыка затихает, он выводит: "Thank you for watching".

3. Во время проигрывания закрывающей темы: Legendas pela comunidade Amara.org.

- И так далее.



Что интересного в теме: там есть список фраз, которые встречаются как артефакты, и если вы используете Whisper в проде, то можете их просто исключить. Для РФ это, например, "ru": ["Редактор субтитров А.Синецкая, Корректор А.Егорова"].



Саммари:



1. Telegram перешёл с Google на Whisper (раньше точно был Google, и было стрёмно, что данные уходили ещё и туда).

2. Whisper обучали на данных сериалов, в том числе с странных платформ, но на комбинации звука и субтитров.

3. Если вы используете Whisper, возьмите из ссылки выше слова, которые надо вырезать из текста (это сообщение специально для Паши Д.).

4. Генеративные модели смешно галлюцинируют 🙂



@aihappens