WebDev+ | Веб-разработка

🎙 Microsoft создала инструмент имитации любого голоса, которому достаточно трёхсекундного образца голоса

Модель разработанного искусственного интеллекта названа VALL-E. По утверждению разработчиков, модель способна точно воспроизвести голос любого человека — для этого модели достаточно трёхсекундного образца. Услышав конкретный голос, VALL-E создаст аудиозапись того, как человек говорит что-то, причём постарается сохранить даже его эмоциональный тон.

Технология представляет собой нейронную языковую модель, в основе которой лежит EnCodec. VALL-E с помощью неё разделяет голос человека на отдельные компоненты. Потом эти компоненты или как их называют «лексемы», нейросеть сопоставляет с соответствующими голосами в своих обучающих данных для создания новых фраз.

Хоть Microsoft и представила на GitHub эту языковую модель, она не опубликовала код VALL-E в открытом доступе. Компания считает, что может быть риск неправильного использования модели.

#измираIT