Apple explica la tecnología detrás de la capacidad de Siri para encontrar destinos locales

Apple ha compartido un nuevo artículo en su Revista de Aprendizaje Automático proporcionando detalles técnicos sobre cómo trabaja para mejorar la capacidad de Siri para reconocer nombres de puntos de interés locales. En una publicación titulada Encontrando Destinos Locales con los Modelos de Lenguaje Específicos de la Región de Siri para el Reconocimiento de Voz, Apple explica cómo iOS incorpora el conocimiento de la ubicación actual del usuario en el sistema de reconocimiento de voz detrás de Siri, para proporcionar un nivel de precisión más allá del mero reconocimiento de voz general hasta el punto de permitir que Siri reconozca con mayor precisión entidades nombradas como negocios locales.

Mientras Apple reconoce que la mayoría de los asistentes virtuales tienen poco problema para reconocer y entender correctamente los nombres de negocios de alto perfil como Starbucks, es un desafío más grande identificar con precisión los nombres de millones de negocios y servicios locales más pequeños que los usuarios preguntan. Para abordar esto, Apple comenzó incorporando el conocimiento de la ubicación del usuario en el sistema de reconocimiento de voz, no solo para identificar negocios que podrían estar cerca de la ubicación del usuario, sino también para construir un modelo acústico regional de cómo es probable que los usuarios pronuncien los nombres de los negocios locales, así como abordar la complejidad de cientos de nombres de negocios que tienen poca o ninguna representación en la base de datos del modelo de lenguaje de Siri.

Apple creó 169 modelos de lenguaje personalizados, llamados “Geo-LMs”, para cada una de las Áreas Estadísticas Combinadas (CSA) en los Estados Unidos, junto con un único Geo-LM global para usar en situaciones donde el usuario está fuera de una de las áreas predefinidas o su ubicación simplemente no puede ser identificada. Cada Geo-LM contiene datos adicionales que se alimentan a Siri junto con los modelos acústicos estándar para proporcionar datos de reconocimiento de velocidad adicionales específicos de la región de ese usuario, ayudando a Siri a comprender mejor la secuencia de palabras que el usuario pretende así como la dicción y pronunciación específicas de la región de los nombres de negocios.

Recibe nuevas publicaciones en tu bandeja de entrada.