Play.HT — https://play.ht/
Продолжаю тестировать разные продукты на базе генеративного ИИ и на очереди запрос из комментариев — генерация аудио из текста (text - to - audio), да еще и с клонированием нужного вам голоса.
Да, знаю, что таких продуктов очень много и можно делать целую подборку, но конкретно Play.ht заинтересовал тем, что анонсировал генерацию голоса из текста через API “на лету” с задержкой до 1 секунды, и “клонированием”. Но давайте обо всем по-порядку.
Генерация голоса
Генерация голоса отличная штука, если вы, например, занимаетесь производством контента и вам нужно переозвучить ваши русскоязычные ролики для англоязычных пользователей (в целом на любом языке мира). В “старом мире” вы должны обратиться к услугам переводчика и заплатить ему, потом нанять “диктора”, который попросит в районе 500-800$ за час озвучки и подождать пару дней, чтобы получить свое готовое аудио.
В “новом мире” можно сделать перевод с помощью DeepL или ChatGPT, и если требования к качеству чрезвычайно высокие, то заказать “пруфридинг” на любой зарубежной бирже примерно за “2-5$ за лист A4” (ну или использовать Grammarly) . Дальше остается скопировать готовый текст на английском языке в сервис озвучки голоса, выбрать нужный вам голос (или скопировать свой) и на выходе у вас все тот же файл с аудио, но:
1. На порядок быстрее
2. На порядок дешевле
Клонирование голоса
Иногда предложенные голоса могут вам не подойти, иногда переозвучить нужно именно вашим голосом, или голосом нужного вам актера и диктора — вот тут и вступает в игру “клонирование”.
Все что нужно, записать пример на ~ 30 секунд голоса, и его будет уже достаточно, чтобы генерировать тексты любой длины.
Кстати, вместе с поддержкой “генерации на лету”, в Play.HT обещают еще и клонирование “по примеру” не на 30 секунд, а всего из 3 секунд.
Я проверял клонирование на себе, работает отлично — я узнаю свой голос, знакомые тоже.
Генерация с клонированием, на лету
А вот здесь открывается прямо новый дивный мир, так как количество продуктов, которые можно сделать на базе такого API практически безграничное. Начиная от умных ботов-продавцов, которые начинают работу по скрипту и после квалификации клиента безшовно подключают оператора с тем же голосом, до разных “мошенников”, которые звонят вам голосом ваших родственников.
“Клонирование за 3 секунды”, если что обозначает, что мошеннику достаточно услышать от вас “Извините, но вы ошиблись номером, это не Олег”, чтобы уже через минуту он мог позвонить вашим голосом вашей жене.
Субъективное мнение про https://play.ht/
Оценка 5 из 5. Очень хорошо справляется с генерацией аудио, отлично с клонированием голоса. К сожалению, пока только на английском языке.
Есть бесплатный тариф, в нем дает для озвучки всего 4000 слов — хватит только чтобы проверить, как работает, но не для бизнес-использования.
Из тарифов наиболее любопытный “PRO Plan” за 594$ в год (без скидки 999$, но скорее всего у вас она также будет).
В тарифе:
- 2 400 000 слов для озвучки в год;
- 50 клонированных голосов для использования;
- Клонирование голоса высокой точности — здесь уже 30 секунд будет недостаточно;
- ускоренная генерация.
Вместо выводов
Вот такой сегодня обзор, мы живем уже практически в будущем. Похоже, что в течении нескольких лет будет достаточно подобных open-source проектов с качеством не хуже, задержки в генерации уменьшатся до сотых секунды и сталкиваться в быту и бизнесе с технологией будем ежедневно.
З.Ы Если вам интересно найти какой-то продукт, который так или иначе связан с генеративным ИИ, то оставляйте запросы в комментариях :)
Продолжаю тестировать разные продукты на базе генеративного ИИ и на очереди запрос из комментариев — генерация аудио из текста (text - to - audio), да еще и с клонированием нужного вам голоса.
Да, знаю, что таких продуктов очень много и можно делать целую подборку, но конкретно Play.ht заинтересовал тем, что анонсировал генерацию голоса из текста через API “на лету” с задержкой до 1 секунды, и “клонированием”. Но давайте обо всем по-порядку.
Генерация голоса
Генерация голоса отличная штука, если вы, например, занимаетесь производством контента и вам нужно переозвучить ваши русскоязычные ролики для англоязычных пользователей (в целом на любом языке мира). В “старом мире” вы должны обратиться к услугам переводчика и заплатить ему, потом нанять “диктора”, который попросит в районе 500-800$ за час озвучки и подождать пару дней, чтобы получить свое готовое аудио.
В “новом мире” можно сделать перевод с помощью DeepL или ChatGPT, и если требования к качеству чрезвычайно высокие, то заказать “пруфридинг” на любой зарубежной бирже примерно за “2-5$ за лист A4” (ну или использовать Grammarly) . Дальше остается скопировать готовый текст на английском языке в сервис озвучки голоса, выбрать нужный вам голос (или скопировать свой) и на выходе у вас все тот же файл с аудио, но:
1. На порядок быстрее
2. На порядок дешевле
Клонирование голоса
Иногда предложенные голоса могут вам не подойти, иногда переозвучить нужно именно вашим голосом, или голосом нужного вам актера и диктора — вот тут и вступает в игру “клонирование”.
Все что нужно, записать пример на ~ 30 секунд голоса, и его будет уже достаточно, чтобы генерировать тексты любой длины.
Кстати, вместе с поддержкой “генерации на лету”, в Play.HT обещают еще и клонирование “по примеру” не на 30 секунд, а всего из 3 секунд.
Я проверял клонирование на себе, работает отлично — я узнаю свой голос, знакомые тоже.
Генерация с клонированием, на лету
А вот здесь открывается прямо новый дивный мир, так как количество продуктов, которые можно сделать на базе такого API практически безграничное. Начиная от умных ботов-продавцов, которые начинают работу по скрипту и после квалификации клиента безшовно подключают оператора с тем же голосом, до разных “мошенников”, которые звонят вам голосом ваших родственников.
“Клонирование за 3 секунды”, если что обозначает, что мошеннику достаточно услышать от вас “Извините, но вы ошиблись номером, это не Олег”, чтобы уже через минуту он мог позвонить вашим голосом вашей жене.
Субъективное мнение про https://play.ht/
Оценка 5 из 5. Очень хорошо справляется с генерацией аудио, отлично с клонированием голоса. К сожалению, пока только на английском языке.
Есть бесплатный тариф, в нем дает для озвучки всего 4000 слов — хватит только чтобы проверить, как работает, но не для бизнес-использования.
Из тарифов наиболее любопытный “PRO Plan” за 594$ в год (без скидки 999$, но скорее всего у вас она также будет).
В тарифе:
- 2 400 000 слов для озвучки в год;
- 50 клонированных голосов для использования;
- Клонирование голоса высокой точности — здесь уже 30 секунд будет недостаточно;
- ускоренная генерация.
Вместо выводов
Вот такой сегодня обзор, мы живем уже практически в будущем. Похоже, что в течении нескольких лет будет достаточно подобных open-source проектов с качеством не хуже, задержки в генерации уменьшатся до сотых секунды и сталкиваться в быту и бизнесе с технологией будем ежедневно.
З.Ы Если вам интересно найти какой-то продукт, который так или иначе связан с генеративным ИИ, то оставляйте запросы в комментариях :)