DE-102024138733-A1 - Anpassbares Spracherkennungssystem mit Analyse des Benutzer-Feedbacks und dynamischer Neuausrichtung
Abstract
Die Erfindung umfasst ein Computersystem mit einem Spracherkennungsmodul, das gesprochene Eingabebefehle in Text zur weiteren Verarbeitung umwandelt. Ein Detektionsmodul analysiert das der Antwort auf den Eingabebefehl zugeordnete Feedback des Benutzers und detektiert Indikatoren für eine falsche Antwort, einschließlich Mimik, Gesten oder emotionale Zustände. Wird eine falsche Reaktion detektiert, leitet ein Steuermodul die Sitzung erneut ein und fordert den Benutzer auf, den Eingabebefehl zu wiederholen. Das Detektionsmodul kann tiefe neuronale Netzwerke und neuronale Faltungsnetzwerke zur genauen Erkennung von Mimik und Gesten verwenden. Die Erfindung verbessert die Erfahrung des Benutzers, indem sie eine genaue Reaktion auf Befehle gewährleistet und dem Sprachassistenten eine Lernmöglichkeit bietet.
Inventors
- Sachin ATHANIKAR
Assignees
- Mercedes-Benz Group AG
Dates
- Publication Date
- 20260507
- Application Date
- 20241218
- Priority Date
- 20241104
Claims (14)
- Computersystem, das Folgendes umfasst: ein Spracherkennungsmodul, das so konfiguriert ist, dass es einen Eingabebefehl in Form von Sprache empfängt und den Eingabebefehl in Text umwandelt; eine Verarbeitungseinheit, die so konfiguriert ist, dass sie den umgewandelten Text zur weiteren Verarbeitung an ein Backend-System übermittelt; ein Detektionsmodul für Rückmeldungen, das so konfiguriert ist, dass es Benutzerrückmeldungen analysiert, die der Antwort auf den Eingabebefehl zugeordnet sind, wobei das Detektionsmodul für Rückmeldungen einen oder mehrere Indikatoren für eine falsche Antwort detektiert, wobei die Indikatoren einen oder mehrere der folgenden Punkte umfassen: einen Gesichtsausdruck, eine Geste oder einen emotionalen Zustand; ein Steuermodul, das so konfiguriert ist, dass es die Sitzung erneut auslöst, wenn das Detektionsmodul einen Indikator für eine falsche Antwort detektiert, wobei das Steuermodul den Benutzer auffordert, den Eingabebefehl zu wiederholen, um eine neue Sitzung einzuleiten.
- Computersystem nach Anspruch 1 , wobei das Detektionsmodul für Rückmeldungen außerdem ein tiefes neuronales Netzwerk (DNN) umfasst, das so trainiert ist, dass es die Gesichtsausdrücke der Benutzer als positiv, neutral oder negativ klassifiziert.
- Computersystem nach Anspruch 1 , wobei das Detektionsmodul für Rückmeldungen ein neuronales Faltungsnetzwerk (CNN) verwendet, um Echtzeit-Videodaten der Mimik des Benutzers zu verarbeiten.
- Computersystem nach Anspruch 1 , wobei das Steuermodul außerdem eine andere Reaktion auf der Grundlage des detektierten emotionalen Zustands veranlasst, wie z. B. die Bereitstellung von Vorschlägen zur Klärung des Eingabebefehls.
- Computersystem nach Anspruch 1 , wobei die Gesteneingabe unter Verwendung einer Sensorschnittstelle detektiert wird, die berührungsbasierte oder nicht berührungsbasierte Eingabesensoren umfasst.
- Computersystem nach Anspruch 1 , wobei das Detektionsmodul so konfiguriert ist, dass es Änderungen im Feedback des Benutzers im Laufe der Zeit detektiert und den Schwellenwert für die erneute Auslösung dynamisch aktualisiert.
- Computersystem nach Anspruch 1 , wobei das Steuermodul Daten über die wiederholten Befehle und das Feedback des Benutzers für zukünftige Systemverbesserungen protokolliert und aufbewahrt.
- Computerimplementiertes Verfahren zur Verarbeitung von Benutzereingaben und Rückmeldungen in einem Spracherkennungssystem, das Folgendes umfasst: Empfang eines Eingabebefehls in Form von Sprache durch ein Spracherkennungsmodul; Umwandlung des Eingabebefehls in Text durch das Spracherkennungsmodul und Übermittlung des Textes an ein Backend-System; Bereitstellung einer Antwort auf der Grundlage des verarbeiteten Eingabebefehls; Detektieren eines oder mehrerer Indikatoren für eine falsche Antwort durch ein Detektionsmodul, wobei die Indikatoren einen oder mehrere der folgenden Punkte umfassen: einen Gesichtsausdruck, eine Geste oder einen emotionalen Zustand des Benutzers; erneutes Auslösen der Sitzung, wenn eine falsche Antwort detektiert wird, einschließlich der Aufforderung an den Benutzer, den Eingabebefehl zu wiederholen.
- Verfahren nach Anspruch 8 , das ferner den Schritt des Trainings eines neuronalen Netzwerkmodells umfasst, um Gesichtsausdrücke zu klassifizieren, die der Zufriedenheit oder Unzufriedenheit des Benutzers zugeordnet sind.
- Verfahren nach Anspruch 8 , wobei das Detektieren eines emotionalen Zustands das Analysieren eines Echtzeit-Videos des Benutzers durch ein faltungsneuronales Netzwerk (CNN) umfasst.
- Verfahren nach Anspruch 8 , wobei das erneute Auslösen der Sitzung beinhaltet, dass dem Benutzer Optionen zur Klärung oder Modifizierung des Eingabebefehls auf der Grundlage des detektierten Feedbacks angeboten werden.
- Verfahren nach Anspruch 8 , wobei das Detektieren von Gesten-basiertem Feedback die Verarbeitung von Eingaben von einer nonverbalen Multi-Eingabe-Schnittstelle umfasst.
- Verfahren nach Anspruch 8 , das ferner das dynamische Einstellen des Schwellenwerts zum Erkennen einer falschen Antwort auf der Grundlage der Interaktionshistorie des Benutzers umfasst.
- Verfahren nach Anspruch 8 umfasst ferner das Aufbewahren von Daten aus wiederholten Sitzungen, um die zukünftige Verarbeitung ähnlicher Eingabebefehle zu optimieren.
Description
HINTERGRUND Im Bereich der automobilen Infotainmentsysteme haben Sprachassistenten (Voice Assistants, VA), die eine Mischung aus natürlicher Sprachverarbeitung (NLP), Spracherkennung und maschinellem Lernen nutzen, stark an Bedeutung gewonnen. Diese fortschrittlichen Systeme sind so konstruiert, dass sie die menschliche Sprache interpretieren, sie in Text umwandeln und den Text verarbeiten, um bestimmte Aufgaben oder Befehle auszuführen. Ziel ist es, dem Benutzer ein nahtloses, freihändiges Erlebnis zu bieten, vor allem beim Autofahren, wo die manuelle Interaktion ein Sicherheitsrisiko darstellen kann. Die praktische Umsetzung solcher Systeme kann jedoch aufgrund einer Vielzahl von Faktoren eine Herausforderung darstellen. So kann es beispielsweise vorkommen, dass die Eingabebefehle, die den Sprachassistenten erteilt werden, nicht immer die gewünschte Reaktion hervorrufen. Dies kann eine Vielzahl von Gründen haben, z. B. dass der Befehl nicht in der richtigen Reihenfolge empfangen wird oder dass es Probleme mit dem Dialekt und der Aussprache gibt. Diese Faktoren können die Spracherkennungsmaschine daran hindern, den eingegebenen Befehl genau zu entschlüsseln. Dieses Problem wird in einer dynamischen und oft geräuschvollen Umgebung wie einem Fahrzeug noch deutlicher. Darüber hinaus kann die Wirksamkeit der Antwort des Sprachassistenten subjektiv sein und vom Kontext, den Erwartungen und den Vorlieben des Benutzers abhängen. So kann eine Antwort, die in einem bestimmten Kontext zufriedenstellend erscheint, in einem anderen als unzureichend oder falsch empfunden werden. Diese Subjektivität macht die Konstruktion und Implementierung solcher Systeme noch komplexer. Andererseits sind alternative Verfahren zur Verbesserung der Genauigkeit von Sprachassistenten erforscht worden. So kann beispielsweise die Einbeziehung visueller Hinweise oder Gesten als zusätzliche Eingabemodalitäten das Verständnis des Systems für die Absichten des Benutzers möglicherweise verbessern. Diese Verfahren bringen jedoch eine Reihe von Herausforderungen mit sich, wie z. B. die Notwendigkeit zusätzlicher Hardware oder die Schwierigkeit, nonverbale Hinweise richtig zu interpretieren. Daher besteht die Notwendigkeit, die oben genannten Probleme zu überwinden. Eine Lösung, die Sprachbefehle genau interpretieren und verarbeiten kann, mit unterschiedlichen Dialekten und Aussprachen umgehen kann und sich an den Kontext und die Vorlieben des Benutzers anpasst, wäre von großem Nutzen. Außerdem sollte die Lösung robust genug sein, um in einer dynamischen Umgebung wie einem Fahrzeug effektiv zu funktionieren. Darüber hinaus wäre es von Vorteil, wenn die Lösung aus vergangenen Interaktionen lernen und sich anpassen könnte, um so ihre Leistung im Laufe der Zeit zu verbessern. ZUSAMMENFASSUNG Die primäre Aufgabe der vorliegenden Erfindung ist es, ein verbessertes Benutzererlebnis mit einem Sprachassistenten (VA) durch die Einbeziehung von Mimik, emotionalem Feedback und Gestenerkennung zu ermöglichen. Dies ermöglicht es dem VA, falsche oder unerwartete Antworten auf der Grundlage des nonverbalen Feedbacks des Benutzers zu detektieren und die Sitzung neu zu starten, indem der Benutzer aufgefordert wird, seinen Befehl zu wiederholen. Eine weitere Aufgabe der vorliegenden Erfindung ist die Verwendung von Deep Neural Network (DNN)- und Convolutional Neural Network (CNN)-Modellen zur Erkennung von Gesichtsausdrücken, Emotionen und Gesten. Die Ausgabe dieser Modelle wird verwendet, um die Antwort des VA zu informieren und die Genauigkeit und Relevanz seiner Interaktionen mit dem Benutzer zu verbessern. Eine weitere Aufgabe der vorliegenden Erfindung ist es, Hardware wie RGB-Kameras, Tiefensensoren wie Microsoft Kinect oder LiDAR-Sensoren für die genaue Verfolgung von Gesichtsmerkmalen und die Analyse von Gesichtsausdrücken zu nutzen. Diese Hardware kann auch zur Erkennung von Gesten verwendet werden, indem die Bewegung von Händen oder Karosserieteilen verfolgt wird. Eine weitere Aufgabe der vorliegenden Erfindung ist die Verwendung von Techniken des maschinellen Lernens und der Computer Vision zur Verarbeitung der Daten von diesen Sensoren. Bibliotheken und Frameworks wie OpenCV, TensorFlow und PyTorch können zur Entwicklung von Anwendungen zur Erkennung von Mimik und Gesten verwendet werden. Gemäß einem Aspekt der vorliegenden Erfindung umfasst ein Computersystem ein Spracherkennungsmodul 10, eine Verarbeitungseinheit 12, ein Detektionsmodul für Rückmeldungen 14 und ein Steuergerät 18. Das Spracherkennungsmodul 10 ist so konfiguriert, dass es einen Eingabebefehl in Form von Sprache empfängt und diesen in Text umwandelt. Die Verarbeitungseinheit 12 überträgt den umgewandelten Text zur weiteren Verarbeitung an ein Backend-System 16. Gemäß einem weiteren Aspekt der vorliegenden Erfindung ist das Detektionsmodul 14 so konstruiert, dass es das der Reaktion auf den Eingabebefehl zugeordnete Feedback des Benutzers analysiert. Es detektiert Indikatoren für eine fa