Тестируем Text-to-Speech нейронку с открытым кодом 🎤



Недавно в основном канале рассказывал про новую программу клонирования голоса и озвучки им текста. Стоит проверить, появился ли конкурент для EllevenLabs или до них еще далеко новым проектам.



Нейронка называется Camba-ai. Ее код выложен на GitHub, но помимо этого есть сайт с интерфейсом, достаточно удобным, кстати - он тут.



Как раз удобно для теста. Я решил склонировать голос Тони Старка, потому что недавно делал это в EllevenLabs и сравнить.



Результат покажу следующим сообщением.



Скажем так, голос вообще не похож. В очень маленьких фрагментах проскакивали знакомые нотки, но EllevenLabs справляется намного лучше.



Но, стоит признать, что сама озвучка неплоха. Может быть, если разобраться с настройками, то можно получать даже хороший результат, но я бы лучше использовал EllevenLabs как сервис, потому что в Camb еще и всего лишь 400 символов озвучивает бесплатно, а минимальная подписка стоит 15$, и не понятно, какие улучшения ты за нее получаешь.



Но, что интересно, на сайте еще есть возможность переозвучить видео на другом языке, чего я сразу не заметил в описаниях, и это уже интереснее, и в следующий раз я бы затестил эту функцию.



И, конечно же, самое важное - это возможность использовать код из модели. Будем ждать через пару месяцев клонов, которые сделали лучше 🙃