О персонализации ‘Hey Siri’ в журнале машинного обучения

В новом посте в журнале машинного обучения Apple компания объясняет, как работает персонализация за функцией голосовой активации “Hey Siri”, чтобы уменьшить количество ложных срабатываний. Журнал ссылается на более раннюю запись, которая описывает общий технический подход и детали реализации детектора “Hey Siri” и более общую проблему “обнаружения ключевых фраз”, независимую от говорящего, и начинает с этого как с предполагаемой основы для этой последней статьи, которая сосредоточена на технологиях машинного обучения, которые Apple внедрила в разработку элементарной системы распознавания говорящего, чтобы уменьшить количество ложных срабатываний, вызванных другими людьми в округе, произносящими фразы, которые могут звучать похоже на “Hey Siri”.

Apple представила “Hey Siri” с дебютом iPhone 6 в 2014 году, хотя изначально функция требовала подключения iPhone к источнику питания; только с дебютом iPhone 6s год спустя “всегда включенный Hey Siri” стал доступен благодаря новому сопроцессору с низким потреблением энергии, который мог обеспечить непрерывное прослушивание без значительного разряда батареи. В то же время функция также была дополнительно улучшена в iOS 9, добавив новый “режим обучения”, чтобы помочь персонализировать Siri под голос конкретного пользователя iPhone во время первоначальной настройки.

Статья продолжает объяснять, что фраза “Hey Siri” изначально была выбрана, чтобы быть как можно более естественной, добавляя, что даже до введения функции Apple обнаружила, что многие пользователи естественным образом начинали свои запросы к Siri с “Hey Siri” после использования кнопки Home для активации. Однако “краткость и легкость артикуляции” фразы является двусторонним мечом, поскольку она также имеет потенциал привести к большему количеству ложных срабатываний; как объясняет Apple, ранние эксперименты показали неприемлемо высокое количество непреднамеренных активаций, которые были непропорциональны “разумной скорости” правильных вызовов.

Цель Apple, таким образом, заключалась в том, чтобы использовать технологии машинного обучения для уменьшения количества “Ложных Принятий”, чтобы гарантировать, что Siri просыпается только тогда, когда основной пользователь говорит “Hey Siri”, и особенно избегать ситуаций, когда третье лицо в комнате говорит что-то, что неверно интерпретируется как вызов Siri.

Apple добавляет, что “общая цель” технологии распознавания говорящего заключается в определении личности человека по голосу, предполагая долгосрочные планы, которые могут предложить дополнительную персонализацию и даже аутентификацию, особенно в свете многопользовательских устройств, таких как HomePod от Apple. Цель состоит в том, чтобы определить “кто говорит”, а не просто что говорится, и статья продолжает объяснять разницу между “распознаванием говорящего, зависящим от текста”, где идентификация основана на известной фразе (например, “Hey Siri”), и более сложной задачей “независимого от текста” распознавания говорящего, которая включает в себя идентификацию пользователя независимо от того, что он говорит.

О персонализации ‘Hey Siri’ в журнале машинного обучения

Возможно, наиболее интересно, что журнал объясняет, как Siri продолжает “неявно” обучаться распознавать голос пользователя, даже после завершения явного процесса регистрации (попросив пользователя произнести пять различных фраз “Hey Siri” во время первоначальной настройки). Неявный процесс продолжает обучать Siri после первоначальной настройки, анализируя дополнительные запросы “Hey Siri” и добавляя их в профиль пользователя, пока не будет сохранено всего 40 образцов (известных как “векторы говорящего”), включая оригинальные пять из явного процесса обучения.

Эта коллекция векторов говорящего затем используется для сравнения с будущими запросами “Hey Siri”, чтобы определить их действительность. Apple также отмечает, что часть “Hey Siri” каждой волны произнесения также хранится локально на iPhone, чтобы профили пользователей могли быть восстановлены с использованием этих сохраненных волн, когда в обновления iOS будут включены улучшенные преобразования. Статья также предполагает будущее, в котором не потребуется явный этап регистрации, и пользователи смогут просто начать использовать функцию “Hey Siri” с пустого профиля, который будет расти и обновляться органически. В настоящее время, однако, кажется, что явное обучение необходимо для обеспечения базового уровня, чтобы гарантировать точность последующего неявного обучения.

Хотя это не удивительно, учитывая позицию Apple по вопросам конфиденциальности, все же стоит отметить, что все эти вычисления и хранение профиля голоса пользователя происходят исключительно на каждом iPhone пользователя, а не на серверах Apple, что предполагает, что такие профили в настоящее время не синхронизируются между устройствами.

Get new posts in your inbox