На этой неделе стартовала международная конференция Interspeech 2023 в Дублине. Рассказываем про представленные на ней статьи от исследователей AIRI 👾
🔳 Topological Data Analysis for Speech Processing
В данной статье исследователи из команды «Обучаемый интеллект» применили методы топологического анализа данных к задаче классификации речи (например, выявления эмоциональной окраски речи).
Для этого они построили набор признаков, основанных на топологических статистиках внутренних представлений трансформерной модели, обученной для распознавания речи (без дообучения её под конкретную задачу классификации) и использовали этот набор признаков для обучения линейного классификатора.
Метод позволил добиться более высокого качества решения в ряде задач по сравнению с "обычным" использованием эмбеддингов последнего слоя.
Топологические признаки позволяют приблизиться к пониманию некоторых функциональных ролей голов трансформерной модели. Достигнутые результаты показывают наличие широких перспектив для применения топологического анализа данных в задачах обработки речи.
Постер с конференции можно посмотреть по ссылке.
🔳 Iterative autoregression: a novel trick to improve your low-latency speech enhancement model
Эта работа с участием научного сотрудника группы «Вероятностные методы машинного обучения» AIRI Айбека Аланова посвящена улучшению потоковых моделей обработки речи. Такая технология была бы крайне полезна в телекоммуникациях, проектировании слуховых аппаратов, синхронных переводчиков и многом другом. Однако использование ее на практике ограничено крайне малым допустимым временем задержки (не более 10 миллисекунд). Из-за этого существующие подходы на основе принуждения учителя (teacher forcing), применяемого к авторегрессионным моделям, страдают от низкого качества.
Исследователи предложили простой, но очень эффективный алгоритм обучения авторегрессионных моделей, который значительно улучшает их работу. Он основан на итеративной замене истинного условия на предсказания модели в режиме принуждения учителя. Такой подход получил название «итеративной авторегрессии» (iterative autoregression).
Ученые показали, что новый алгоритм помогает уменьшить несоответствие между режимом обучения и применением модели к новым данным, возникающее при подходе с принуждением учителя. Он универсален и потенциально применим для обучения авторегрессионных моделей за пределами задач, связанных с улучшением и обработкой речи.
🔳 UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion Model
Авторы этой статьи представляют UnDiff — диффузионную вероятностную модель, специально разработанную для решения различных обратных задач в обработке речи. Ключевое преимущество UnDiff — способность безусловно обучаться генерации речевых сигналов, а затем адаптироваться к обратной задаче без дополнительного обучения с учителем. Это отличается от существующих подходов, которые используют модели условной диффузии для восстановления и генерации сигналов или разрабатывают специальные обучающие конвейеры для конкретных задач.
Исследователи команды «Вероятностные методы машинного обучения» продемонстрировали эффективность UnDiff при решении различных задач обработки речи, таких как расширение полосы пропускания, деклиппирование, нейронное вокодирование и разделение источников речи. Новая модель не уступает в своей работе традиционным подходам, и это делает ее многообещающим решением для множества задач обработки речи.
Все подробности про конференцию можно узнать на официальном сайте👀
В данной статье исследователи из команды «Обучаемый интеллект» применили методы топологического анализа данных к задаче классификации речи (например, выявления эмоциональной окраски речи).
Для этого они построили набор признаков, основанных на топологических статистиках внутренних представлений трансформерной модели, обученной для распознавания речи (без дообучения её под конкретную задачу классификации) и использовали этот набор признаков для обучения линейного классификатора.
Метод позволил добиться более высокого качества решения в ряде задач по сравнению с "обычным" использованием эмбеддингов последнего слоя.
Топологические признаки позволяют приблизиться к пониманию некоторых функциональных ролей голов трансформерной модели. Достигнутые результаты показывают наличие широких перспектив для применения топологического анализа данных в задачах обработки речи.
Постер с конференции можно посмотреть по ссылке.
Эта работа с участием научного сотрудника группы «Вероятностные методы машинного обучения» AIRI Айбека Аланова посвящена улучшению потоковых моделей обработки речи. Такая технология была бы крайне полезна в телекоммуникациях, проектировании слуховых аппаратов, синхронных переводчиков и многом другом. Однако использование ее на практике ограничено крайне малым допустимым временем задержки (не более 10 миллисекунд). Из-за этого существующие подходы на основе принуждения учителя (teacher forcing), применяемого к авторегрессионным моделям, страдают от низкого качества.
Исследователи предложили простой, но очень эффективный алгоритм обучения авторегрессионных моделей, который значительно улучшает их работу. Он основан на итеративной замене истинного условия на предсказания модели в режиме принуждения учителя. Такой подход получил название «итеративной авторегрессии» (iterative autoregression).
Ученые показали, что новый алгоритм помогает уменьшить несоответствие между режимом обучения и применением модели к новым данным, возникающее при подходе с принуждением учителя. Он универсален и потенциально применим для обучения авторегрессионных моделей за пределами задач, связанных с улучшением и обработкой речи.
Авторы этой статьи представляют UnDiff — диффузионную вероятностную модель, специально разработанную для решения различных обратных задач в обработке речи. Ключевое преимущество UnDiff — способность безусловно обучаться генерации речевых сигналов, а затем адаптироваться к обратной задаче без дополнительного обучения с учителем. Это отличается от существующих подходов, которые используют модели условной диффузии для восстановления и генерации сигналов или разрабатывают специальные обучающие конвейеры для конкретных задач.
Исследователи команды «Вероятностные методы машинного обучения» продемонстрировали эффективность UnDiff при решении различных задач обработки речи, таких как расширение полосы пропускания, деклиппирование, нейронное вокодирование и разделение источников речи. Новая модель не уступает в своей работе традиционным подходам, и это делает ее многообещающим решением для множества задач обработки речи.
Все подробности про конференцию можно узнать на официальном сайте