Apple explique la technologie derrière la capacité de Siri à trouver des destinations locales

Apple a partagé un nouvel article dans son Journal de l’apprentissage automatique fournissant des détails techniques sur la façon dont il travaille pour améliorer la capacité de Siri à reconnaître les noms de points d’intérêt locaux. Dans un article intitulé Trouver des destinations locales avec les modèles linguistiques spécifiques à la région de Siri pour la reconnaissance vocale, Apple explique comment iOS intègre la connaissance de la localisation actuelle de l’utilisateur dans le système de reconnaissance vocale derrière Siri, afin de fournir un niveau de précision au-delà de la simple reconnaissance vocale générale, permettant à Siri de reconnaître plus précisément des entités nommées comme des entreprises locales.

Bien qu’Apple reconnaisse que la plupart des assistants virtuels n’ont guère de problème à reconnaître et comprendre correctement les noms d’entreprises de renom comme Starbucks, il est plus difficile d’identifier avec précision les noms de millions de petites entreprises et services locaux que les utilisateurs interrogent. Pour y remédier, Apple a commencé par intégrer la connaissance de la localisation de l’utilisateur dans le système de reconnaissance vocale, non seulement pour identifier les entreprises qui pourraient être proches de la localisation de l’utilisateur, mais aussi pour construire un modèle acoustique régional de la façon dont les utilisateurs pourraient être susceptibles de prononcer les noms des entreprises locales, tout en abordant la complexité de centaines de noms d’entreprises qui ont peu ou pas de représentation dans la base de données du modèle linguistique de Siri.

Apple a créé 169 modèles linguistiques personnalisés, appelés “Geo-LMs”, pour chacune des zones statistiques combinées (CSA) des États-Unis, ainsi qu’un Geo-LM global unique à utiliser dans les situations où l’utilisateur est soit en dehors de l’une des zones prédéfinies, soit sa localisation ne peut tout simplement pas être identifiée. Chaque Geo-LM contient des données supplémentaires qui sont intégrées à Siri aux côtés des modèles acoustiques standard pour fournir des données de reconnaissance supplémentaires spécifiques à la région de cet utilisateur, aidant Siri à mieux comprendre la séquence de mots prévue par l’utilisateur ainsi que la diction et la prononciation spécifiques à la région des noms d’entreprises.

Recevez de nouveaux articles dans votre boîte de réception.