Acerca de la personalización de ‘Hey Siri’ en el Diario de Aprendizaje Automático

En una nueva publicación en el Diario de Aprendizaje Automático de Apple, la compañía explica cómo funciona la personalización detrás de la función de activación por voz “Hey Siri” para reducir el número de falsos positivos. El diario hace referencia a una entrada anterior que describe el enfoque técnico general y los detalles de implementación del detector “Hey Siri” y el problema más general de “detección de frases clave” independiente del hablante, y comienza con eso como una base asumida para este último documento, que se centra en las tecnologías de aprendizaje automático que Apple ha implementado en el desarrollo de un sistema rudimentario de reconocimiento de hablantes para reducir el número de falsos positivos provocados por otras personas en las cercanías que dicen frases que pueden sonar similares a “Hey Siri”.

Apple introdujo “Hey Siri” con el debut del iPhone 6 en 2014, aunque la función originalmente requería que el iPhone estuviera conectado a una fuente de energía; no fue hasta el debut del iPhone 6s un año después que “Hey Siri siempre activo” se volvió disponible, gracias a un nuevo coprocesador de bajo consumo que podía ofrecer escucha continua sin un drenaje significativo de la batería. Al mismo tiempo, la función también se mejoró aún más en iOS 9 al agregar un nuevo “modo de entrenamiento” para ayudar a personalizar Siri a la voz del usuario específico del iPhone durante la configuración inicial.

El documento continúa explicando que la frase “Hey Siri” fue elegida originalmente para ser lo más natural posible, añadiendo que incluso antes de que se introdujera la función, Apple encontró que muchos usuarios comenzaban naturalmente sus solicitudes a Siri con “Hey Siri” después de usar el botón de inicio para activarlo. Sin embargo, la “brevedad y facilidad de articulación” de la frase es una espada de doble filo, ya que también tiene el potencial de resultar en muchos más falsos positivos; como explica Apple, los primeros experimentos mostraron un número inaceptablemente alto de activaciones no intencionadas que eran desproporcionadas a la “tasa razonable” de invocaciones correctas.

El objetivo de Apple ha sido, por lo tanto, aprovechar las tecnologías de aprendizaje automático para reducir el número de “Aceptaciones Falsas” para asegurar que Siri solo se active cuando el usuario principal dice “Hey Siri”, y evitar particularmente situaciones donde una tercera parte en la habitación dice algo que se interpreta erróneamente como una llamada para Siri.

Apple añade que “el objetivo general” de la tecnología de reconocimiento de hablantes es determinar la identidad de una persona por voz, sugiriendo planes a largo plazo que pueden ofrecer personalización adicional e incluso autenticación, particularmente a la luz de dispositivos de múltiples usuarios como el HomePod de Apple. El objetivo es determinar “quién está hablando” en lugar de simplemente lo que se está diciendo, y el documento continúa explicando la diferencia entre el “reconocimiento de hablantes dependiente de texto” donde la identificación se basa en una frase conocida (como “Hey Siri”), y la tarea más desafiante del reconocimiento de hablantes “independiente de texto” que implica identificar a un usuario independientemente de lo que estén diciendo.

Acerca de la personalización de ‘Hey Siri’ en el Diario de Aprendizaje Automático

Quizás lo más interesante, el diario explica cómo Siri continúa “implícitamente” entrenándose para identificar la voz de un usuario, incluso después de que se ha completado el proceso de inscripción explícito (pidiendo al usuario que diga cinco frases diferentes de “Hey Siri” durante la configuración inicial). El proceso implícito continúa entrenando a Siri después de la configuración inicial al analizar solicitudes adicionales de “Hey Siri” y agregarlas al perfil del usuario hasta que se hayan almacenado un total de 40 muestras (conocidas como “vectores de hablante”), incluyendo las cinco originales del proceso de entrenamiento explícito.

Esta colección de vectores de hablante se utiliza luego para comparar contra futuras solicitudes de “Hey Siri” para determinar su validez. Apple también señala que la parte de “Hey Siri” de cada forma de onda de la pronunciación también se almacena localmente en el iPhone para que los perfiles de usuario puedan ser reconstruidos utilizando esas formas de onda almacenadas cada vez que se incorporan transformaciones mejoradas en las actualizaciones de iOS. El documento también postula un futuro donde no se requerirá ningún paso de inscripción explícito, y los usuarios pueden comenzar a usar la función “Hey Siri” desde un perfil vacío que crecerá y se actualizará orgánicamente. Sin embargo, en este momento, parece que el entrenamiento explícito es necesario para proporcionar una línea base que asegure la precisión del posterior entrenamiento implícito.

Si bien no es sorprendente considerando la postura de Apple sobre la privacidad, sigue siendo importante señalar que todo este cálculo y el almacenamiento del perfil de voz del usuario ocurre únicamente en el iPhone de cada usuario, en lugar de en los servidores de Apple, lo que sugiere que dichos perfiles no están actualmente sincronizados entre dispositivos de ninguna manera.

Recibe nuevas publicaciones en tu bandeja de entrada.