Apple erklärt die Technologie hinter Siris Fähigkeit, lokale Ziele zu finden

Apple hat ein neues Papier in seinem Machine Learning Journal veröffentlicht, das technische Details darüber bereitstellt, wie es funktioniert, um Siris Fähigkeit zur Erkennung von Namen lokaler Sehenswürdigkeiten zu verbessern. In einem Beitrag mit dem Titel “Finding Local Destinations with Siri’s Regionally Specific Language Models for Speech Recognition” erklärt Apple, wie iOS das Wissen über den aktuellen Standort des Benutzers in das Spracherkennungssystem hinter Siri integriert, um ein Maß an Genauigkeit zu bieten, das über die bloße allgemeine Spracherkennung hinausgeht, sodass Siri benannte Entitäten wie lokale Unternehmen genauer erkennen kann.

Während Apple anerkennt, dass die meisten virtuellen Assistenten wenig Probleme haben, die Namen von hochkarätigen Unternehmen wie Starbucks korrekt zu erkennen und zu verstehen, ist es eine größere Herausforderung, die Namen von Millionen kleinerer, lokaler Unternehmen und Dienstleistungen, nach denen Benutzer fragen, genau zu identifizieren. Um dies anzugehen, begann Apple damit, das Wissen über den Standort des Benutzers in das Spracherkennungssystem zu integrieren, nicht nur um Unternehmen zu identifizieren, die sich möglicherweise in der Nähe des Standorts des Benutzers befinden, sondern auch um ein regionales akustisches Modell zu erstellen, wie Benutzer wahrscheinlich die Namen lokaler Unternehmen aussprechen, sowie um die Komplexität von Hunderten von Firmennamen zu berücksichtigen, die in Siris Sprachmodell-Datenbank wenig bis gar nicht vertreten sind.

Apple hat 169 angepasste Sprachmodelle, die “Geo-LMs” genannt werden, für jede der Combined Statistical Areas (CSA) in den Vereinigten Staaten erstellt, zusammen mit einem einzigen globalen Geo-LM, das in Situationen verwendet wird, in denen der Benutzer sich entweder außerhalb eines der vordefinierten Gebiete befindet oder dessen Standort einfach nicht identifiziert werden kann. Jedes Geo-LM enthält zusätzliche Daten, die Siri neben den standardmäßigen akustischen Modellen zugeführt werden, um zusätzliche Geschwindigkeitsdaten zur Erkennung bereitzustellen, die spezifisch für die Region des Benutzers sind, und Siri zu helfen, die beabsichtigte Wortfolge des Benutzers sowie die regionsspezifische Diktion und Aussprache von Firmennamen besser zu verstehen.

Erhalte neue Beiträge in deinem Posteingang.