Та, которую можно не называть: инженеры Apple тестируют отказ Siri от триггера «Hey, Siri»
На июньской презентации Apple сильно прокачала Siri с помощью AI. В голосовой ассистент добавили новый набор функций Apple Intelligence (AI). Это сделает Siri умнее — теперь с ней можно будет общаться, как с человеком, как голосом, так и текстом. Она научилась выполнять больше действий в приложениях по поручению пользователя. Например, она сможет анализировать действия пользователя на экране и заполнять онлайн-формы на основе личных данных, сохраненных в смартфоне. Обновления станут доступны осенью.
Но не все возможности AI в голосовых помощниках, которые представили в Apple, вошли в этот релиз. За несколько месяцев до презентации разработчики компании опубликовали интересное исследование о способностях Siri распознавать речь. Они попробовали использовать для этих целей мультимодальную нейросеть. Она работает одновременно с акустической информацией, текстовыми расшифровками запросов и сигналами ASR-декодера.
Исследователи научили Siri реагировать на пользователя без известной фразы-триггера «Hey, Siri». Отказаться от триггера — значит научить голосового помощника отличать речь, направленную на iPhone, от фоновой речи во время общения с голосовым помощником. Вместе с этим ученые улучшили показатель равного коэффициента ошибок EER (Equal Error Rate, или EER) на 40%. Это значит, что LLM-модель с Siri стала точнее идентифицировать личность и его запросы.
Добиться таких результатов помогла в том числе ASR-система Whisper от OpenAI, а также контрастивный лингво-аудио предварительный тренинг (Contrastive Language-Audio Pretraining, или CLAP). Например, при удачных тестах записей голоса самый низкий EER Whisper составил 10,98% (ранний лучший результат — 12,15%), у EER Clap — 19,13% (12,15% ранее).
Ученые обучали большую языковую модель на акустических данных (речь и фоновый шум) для поиска паттернов, которые могут указать на желание пользователя получить помощь. В тренировочный датасет включили 40 тыс. целенаправленных высказываний (где люди просили ассистента о чем-то конкретном) и 40 тыс. более абстрактных фраз вроде «спасибо за помощь». Общая длительность записей — примерно 126 часов.
Также в набор данных для обучения добавили 3 млн транскрибированных с помощью технологии ASR речевых сигналов Near-Field (пойманных на небольшом расстоянии).
При построении новой модели использовали GPT-2 от OpenAI, потому что она относительно легкая и потенциально могла бы работать на смартфонах. Еще один плюс GPT-2 — она может быть адаптирована к новым задачам, связанными с генерацией текстов, за счет предоставления обучаемых префиксов. При префиксной настройке в LLM вводят и обучают небольшое количество специфичных векторов или «префиксов», специфичных для задачи, чтобы настроить LLM под целевую задачу. Префиксная настройка также сохраняет параметры предварительно обученной LLM и обучает только небольшую часть данных. Обычно способ обучения на основе префиксов используют, когда данных мало. Например, с его помощью обучали GPT-3.
Отказ от фразы-триггера сделает общение с ИИ-помощником более удобным, а пользовательский опыт — бесшовным. Для тех же, кто любит обращаться к устройствам по-человечески, оставили функцию Vocal Shortcuts. С помощью нее в iOS 18 можно будет вызывать Siri под любым именем или ключевым словом.
Но расширение возможностей Siri все же может усилить опасения общественности по поводу постоянного прослушивания их устройств. На Reddit уже обсуждают, что ситуация с безопасностью личных данных станет хуже (а она и так оставляла желать лучшего).
На июньской презентации Apple сильно прокачала Siri с помощью AI. В голосовой ассистент добавили новый набор функций Apple Intelligence (AI). Это сделает Siri умнее — теперь с ней можно будет общаться, как с человеком, как голосом, так и текстом. Она научилась выполнять больше действий в приложениях по поручению пользователя. Например, она сможет анализировать действия пользователя на экране и заполнять онлайн-формы на основе личных данных, сохраненных в смартфоне. Обновления станут доступны осенью.
Но не все возможности AI в голосовых помощниках, которые представили в Apple, вошли в этот релиз. За несколько месяцев до презентации разработчики компании опубликовали интересное исследование о способностях Siri распознавать речь. Они попробовали использовать для этих целей мультимодальную нейросеть. Она работает одновременно с акустической информацией, текстовыми расшифровками запросов и сигналами ASR-декодера.
Исследователи научили Siri реагировать на пользователя без известной фразы-триггера «Hey, Siri». Отказаться от триггера — значит научить голосового помощника отличать речь, направленную на iPhone, от фоновой речи во время общения с голосовым помощником. Вместе с этим ученые улучшили показатель равного коэффициента ошибок EER (Equal Error Rate, или EER) на 40%. Это значит, что LLM-модель с Siri стала точнее идентифицировать личность и его запросы.
Добиться таких результатов помогла в том числе ASR-система Whisper от OpenAI, а также контрастивный лингво-аудио предварительный тренинг (Contrastive Language-Audio Pretraining, или CLAP). Например, при удачных тестах записей голоса самый низкий EER Whisper составил 10,98% (ранний лучший результат — 12,15%), у EER Clap — 19,13% (12,15% ранее).
Ученые обучали большую языковую модель на акустических данных (речь и фоновый шум) для поиска паттернов, которые могут указать на желание пользователя получить помощь. В тренировочный датасет включили 40 тыс. целенаправленных высказываний (где люди просили ассистента о чем-то конкретном) и 40 тыс. более абстрактных фраз вроде «спасибо за помощь». Общая длительность записей — примерно 126 часов.
Также в набор данных для обучения добавили 3 млн транскрибированных с помощью технологии ASR речевых сигналов Near-Field (пойманных на небольшом расстоянии).
При построении новой модели использовали GPT-2 от OpenAI, потому что она относительно легкая и потенциально могла бы работать на смартфонах. Еще один плюс GPT-2 — она может быть адаптирована к новым задачам, связанными с генерацией текстов, за счет предоставления обучаемых префиксов. При префиксной настройке в LLM вводят и обучают небольшое количество специфичных векторов или «префиксов», специфичных для задачи, чтобы настроить LLM под целевую задачу. Префиксная настройка также сохраняет параметры предварительно обученной LLM и обучает только небольшую часть данных. Обычно способ обучения на основе префиксов используют, когда данных мало. Например, с его помощью обучали GPT-3.
Отказ от фразы-триггера сделает общение с ИИ-помощником более удобным, а пользовательский опыт — бесшовным. Для тех же, кто любит обращаться к устройствам по-человечески, оставили функцию Vocal Shortcuts. С помощью нее в iOS 18 можно будет вызывать Siri под любым именем или ключевым словом.
Но расширение возможностей Siri все же может усилить опасения общественности по поводу постоянного прослушивания их устройств. На Reddit уже обсуждают, что ситуация с безопасностью личных данных станет хуже (а она и так оставляла желать лучшего).