Onigiri

Недавно небольшому проценту пользователей стали выдавать доступ к тому самому голосовому режиму GPT-4o, который в мае показывали на презентации и обещали выпустить его через несколько недель.

Я его пока не получил, но вот, что интересно: в обычном режиме, где gpt сначала генерирует текст, а потом модель tts этот текст зачитывает, тоже можно попросить немного поменять произношение. Это не всегда работает, но хорошо получается например с картавостью (как показываю на видео, особенно в конце забавно получилось). А еще можно заметить, что текст вполне обычный, а значит разница только в tts, то есть нейросети, которая этот текст зачитывает.

Я пока точно не понял, как это работает. Многие знающие люди, сначала говорили, что так сделать нельзя, но оно почему-то работает. Возможно, gpt генерирует отдельный промт со стилем голоса для tts, а та, используя эти рекомендации для голоса, генерирует его немного другим. Хотя через api дополнительных промтов для голоса у нее нет. Или tts получает на вход расширенный промт, но в итоговый ответ идет не все