Одной из фич которые Амазон представил на недавней презентации стал Natural turn-taking, который дает возможность перебивать Алексу и останавливать ее посреди ответа. Для этого девайс объединяет акустические, лингвистические и визуальные сигналы, и отслеживает отдельных ораторов и темы разговора. Кроме перебивания новый навык научит Алексу понимать косвенные запросы, например, когда пользователь встревает с “этот”, пока Алекса зачитывает список опций.
Чтобы определить, разговаривает ли пользователь с Алексой или поехал кукухой, система передает фотографии говорящего через алгоритм определения позы, чтобы увидеть, в какую сторону он смотрит. Она также пропускает запись голоса через LSTM для распознавания речи, чтобы решить, были ли слова направлены на устройство. После, аутпуты обоих моделей соединяются.
Выглядит это пока скорее как костыли, но надеемся в будущем Амазон улучшит семантическое понимание речи, и разговаривать с Алексой можно будет и не смотря на нее. Релиз фичи намечен на следующий год.
Чтобы определить, разговаривает ли пользователь с Алексой или поехал кукухой, система передает фотографии говорящего через алгоритм определения позы, чтобы увидеть, в какую сторону он смотрит. Она также пропускает запись голоса через LSTM для распознавания речи, чтобы решить, были ли слова направлены на устройство. После, аутпуты обоих моделей соединяются.
Выглядит это пока скорее как костыли, но надеемся в будущем Амазон улучшит семантическое понимание речи, и разговаривать с Алексой можно будет и не смотря на нее. Релиз фичи намечен на следующий год.