À propos de la personnalisation de ‘Hey Siri’ dans le Journal de l'Apprentissage Automatique

Dans un nouvel article du Journal de l’Apprentissage Automatique d’Apple, la société explique comment la personnalisation fonctionne derrière la fonctionnalité d’activation vocale « Hey Siri » pour réduire le nombre de faux positifs. Le journal renvoie à une entrée précédente qui décrit l’approche technique générale et les détails de mise en œuvre du détecteur « Hey Siri » et du problème plus général de « détection de phrases clés » indépendante de l’orateur, et commence avec cela comme base supposée pour ce dernier article, qui se concentre sur les technologies d’apprentissage automatique qu’Apple a mises en œuvre pour développer un système rudimentaire de reconnaissance de locuteur afin de réduire le nombre de faux positifs déclenchés par d’autres personnes à proximité disant des phrases qui peuvent ressembler à « Hey Siri. »
Apple a introduit « Hey Siri » avec le lancement de l’iPhone 6 en 2014, bien que la fonctionnalité nécessitait à l’origine que l’iPhone soit connecté à une source d’alimentation ; ce n’est qu’avec le lancement de l’iPhone 6s un an plus tard que « Hey Siri toujours activé » est devenu disponible, grâce à un nouveau coprocesseur basse consommation qui pouvait offrir une écoute continue sans drain de batterie significatif. En même temps, la fonctionnalité a également été améliorée dans iOS 9 en ajoutant un nouveau « mode d’entraînement » pour aider à personnaliser Siri à la voix de l’utilisateur spécifique de l’iPhone lors de la configuration initiale.

L’article explique ensuite que la phrase « Hey Siri » a été choisie à l’origine pour être aussi naturelle que possible, ajoutant que même avant l’introduction de la fonctionnalité, Apple a constaté que de nombreux utilisateurs commençaient naturellement leurs demandes à Siri par « Hey Siri » après avoir utilisé le bouton d’accueil pour l’activer. Cependant, la « brièveté et la facilité d’articulation » de la phrase est une arme à double tranchant, car elle a également le potentiel de provoquer beaucoup plus de faux positifs ; comme l’explique Apple, les premières expériences ont montré un nombre inacceptable d’activations involontaires qui étaient disproportionnées par rapport au « taux raisonnable » d’invocations correctes.

L’objectif d’Apple a donc été de tirer parti des technologies d’apprentissage automatique pour réduire le nombre de « faux acceptations » afin de garantir que Siri ne se réveille que lorsque l’utilisateur principal dit « Hey Siri », et d’éviter particulièrement les situations où un tiers dans la pièce dit quelque chose qui est mal interprété comme un appel à Siri.

Apple ajoute que « l’objectif global » de la technologie de reconnaissance de locuteur est de déterminer l’identité d’une personne par la voix, suggérant des plans à long terme qui pourraient offrir une personnalisation supplémentaire et même une authentification, en particulier à la lumière des appareils multi-utilisateurs tels que le HomePod d’Apple. L’objectif est de déterminer « qui parle » plutôt que simplement ce qui est dit, et l’article explique ensuite la différence entre la « reconnaissance de locuteur dépendante du texte » où l’identification est basée sur une phrase connue (comme « Hey Siri »), et la tâche plus difficile de la reconnaissance de locuteur « indépendante du texte » qui implique d’identifier un utilisateur indépendamment de ce qu’il est en train de dire.

À propos de la personnalisation de ‘Hey Siri’ dans le Journal de l'Apprentissage Automatique

Peut-être le plus intéressant, le journal explique comment Siri continue de s’« entraîner implicitement » à identifier la voix d’un utilisateur, même après que le processus d’inscription explicite (demander à l’utilisateur de dire cinq phrases différentes « Hey Siri » lors de la configuration initiale) a été complété. Le processus implicite continue d’entraîner Siri après la configuration initiale en analysant des demandes supplémentaires « Hey Siri » et en les ajoutant au profil de l’utilisateur jusqu’à ce qu’un total de 40 échantillons (appelés « vecteurs de locuteur ») aient été stockés, y compris les cinq originaux du processus d’entraînement explicite.

Cette collection de vecteurs de locuteur est ensuite utilisée pour comparer les futures demandes « Hey Siri » afin de déterminer leur validité. Apple note également que la partie « Hey Siri » de chaque forme d’onde d’énoncé est également stockée localement sur l’iPhone afin que les profils d’utilisateur puissent être reconstruits en utilisant ces formes d’onde stockées chaque fois que des transformations améliorées sont incorporées dans les mises à jour d’iOS. L’article envisage également un avenir où aucune étape d’inscription explicite ne sera requise, et les utilisateurs pourront simplement commencer à utiliser la fonctionnalité « Hey Siri » à partir d’un profil vide qui grandira et se mettra à jour de manière organique. Pour le moment, cependant, il semble que l’entraînement explicite soit nécessaire pour fournir une base afin d’assurer l’exactitude de l’entraînement implicite ultérieur.

Bien que cela ne soit pas surprenant compte tenu de la position d’Apple sur la confidentialité, il convient de noter que tous ces calculs et le stockage du profil vocal de l’utilisateur se font uniquement sur l’iPhone de chaque utilisateur, plutôt que sur les serveurs d’Apple, ce qui suggère que ces profils ne sont actuellement pas synchronisés entre les appareils de quelque manière que ce soit.

Recevez de nouveaux articles dans votre boîte de réception.