Appleの機械学習ジャーナルにおける「Hey Siri」パーソナライズの説明

Appleの機械学習ジャーナルの新しい投稿では、同社が「Hey Siri」音声アクティベーション機能の背後でパーソナライズがどのように機能するかを説明し、誤認識の数を減らす方法を紹介しています。ジャーナルは、以前のエントリーに戻り、「Hey Siri」検出器の一般的な技術アプローチと実装の詳細、そしてより一般的なスピーカー非依存の「キーフレーズ検出」問題を説明しており、これはこの最新の論文の基盤として仮定されています。この論文は、Appleが他の人々が「Hey Siri」に似たフレーズを言うことによって引き起こされる誤認識の数を減らすために開発した基本的なスピーカー認識システムにおける機械学習技術に焦点を当てています。

Appleは2014年にiPhone 6のデビューとともに「Hey Siri」を導入しましたが、この機能は当初、iPhoneが電源に接続されている必要がありました。iPhone 6sが登場した翌年に、常時オンの「Hey Siri」が利用可能になりました。これは、重要なバッテリー消費なしに継続的なリスニングを提供できる新しい低消費電力のコプロセッサのおかげです。同時に、この機能はiOS 9でさらに改善され、初期設定中に特定のiPhoneユーザーの声にSiriをパーソナライズするための新しい「トレーニングモード」が追加されました。

論文は、「Hey Siri」というフレーズができるだけ自然であるように選ばれたことを説明し、この機能が導入される前から、多くのユーザーがホームボタンを使ってSiriを起動した後に自然に「Hey Siri」でリクエストを始めていたことを示しています。しかし、このフレーズの「簡潔さと発音のしやすさ」は二面性を持ち、誤認識が増える可能性もあります。Appleが説明するように、初期の実験では、意図しない起動の数が「合理的な率」の正しい呼び出しに対して不相応に高いことが示されました。

したがって、Appleの目標は、機械学習技術を活用して「誤受け入れ」の数を減らし、Siriが主なユーザーが「Hey Siri」と言ったときだけ起動するようにし、特に部屋の中の第三者がSiriを呼びかけたと誤解されるような状況を避けることです。

Appleは、「スピーカー認識技術の全体的な目標」は声によって人の身元を特定することであり、特にAppleのHomePodのようなマルチユーザーデバイスを考慮して、追加のパーソナライズや認証を提供する長期的な計画を示唆しています。目標は「誰が話しているか」を特定することであり、単に何が話されているかを特定することではありません。論文は、特定のフレーズ（「Hey Siri」のような）に基づいて識別される「テキスト依存スピーカー認識」と、ユーザーが何を言っているかに関係なく識別する「テキスト非依存」スピーカー認識の違いを説明しています。

Appleの機械学習ジャーナルにおける「Hey Siri」パーソナライズの説明

おそらく最も興味深いのは、ジャーナルがSiriがユーザーの声を特定するために「暗黙的に」自己訓練を続けていることを説明している点です。これは、明示的な登録プロセス（初期設定中にユーザーに5つの異なる「Hey Siri」フレーズを言わせること）が完了した後も続きます。この暗黙的なプロセスは、初期設定後に追加の「Hey Siri」リクエストを分析し、それらをユーザープロファイルに追加することでSiriを訓練し続け、最終的に40のサンプル（「スピーカーベクトル」として知られる）が保存されます。これには、明示的なトレーニングプロセスからの元の5つも含まれます。

このスピーカーベクトルのコレクションは、将来の「Hey Siri」リクエストの有効性を判断するために比較に使用されます。Appleはまた、各発話波形の「Hey Siri」部分もiPhoneにローカルに保存されているため、改善された変換がiOSのアップデートに組み込まれるたびに、保存された波形を使用してユーザープロファイルを再構築できることを指摘しています。論文は、明示的な登録ステップが必要なくなり、ユーザーが空のプロファイルから「Hey Siri」機能を使用し始め、そのプロファイルが有機的に成長し更新される未来を予想しています。しかし、現時点では、明示的なトレーニングが後の暗黙的なトレーニングの精度を確保するための基準を提供するために必要であるようです。

Appleのプライバシーに対する姿勢を考えると驚くべきことではありませんが、すべての計算とユーザーの声のプロファイルの保存がAppleのサーバーではなく、各ユーザーのiPhone上でのみ行われていることは注目に値します。これは、そのようなプロファイルが現在のところデバイス間で同期されていないことを示唆しています。

新しい投稿を受信箱で受け取る