EP-4738069-A1 - METHOD FOR OUTPUTTING A CONTENT TO BE TRANSMITTED BY AN AVATAR

EP4738069A1EP 4738069 A1EP4738069 A1EP 4738069A1EP-4738069-A1

Abstract

Es wird ein Verfahren zur akustischen und insbesondere visuellen Ausgabe eines auszusprechenden Inhalts durch einen Avatar vorgeschlagen, wobei eine Eingabe durch einen Nutzer erfolgt und als Reaktion darauf ein auszusprechender Inhalt erzeugt und durch den Avatar ausgegeben wird. Die Eingabe wird an wenigstens zwei voneinander unabhängige Servereinheiten gesendet. Jede Servereinheit bestimmt eine Übereinstimmung der Eingabe mit jeweils einer der Servereinheit zugeordneten Sprache. Des Weiteren werden eine Vorrichtung, ein Computerprogramm und ein computerlesbarer Datenträger zur Durchführung des vorschlagsgemäßen Verfahrens vorgeschlagen.

Inventors

SCHELLENBERG, Jan

Assignees

goAVA GmbH

Dates

Publication Date: 20260506
Application Date: 20241203

Claims (15)

Verfahren zur akustischen und insbesondere visuellen Ausgabe eines auszusprechenden Inhalts durch einen Avatar (3), wobei eine Eingabe durch einen Nutzer (5) erfolgt, wobei der auszusprechende Inhalt als Reaktion auf die Eingabe erzeugt und durch den Avatar (3) ausgegeben wird, dadurch gekennzeichnet, dass die Eingabe des Nutzers an wenigstens zwei voneinander unabhängige Servereinheiten (8) gesendet wird, wobei von jeder Servereinheit (8) eine Übereinstimmung der Eingabe mit jeweils einer der Servereinheit (8) zugeordneten Sprache bestimmt wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass jeder Servereinheit jeweils eine von den anderen Servereinheiten (8) unterschiedliche Sprache zugeordnet ist.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Bestimmung der Übereinstimmung mit den jeweiligen Sprachen zumindest im Wesentlichen gleichzeitig erfolgt.
Verfahren nach einem der voranstehenden Ansprüche, dadurch gekennzeichnet, dass die Eingabe durch den Nutzer (5) und die Ausgabe des auszusprechenden Inhalts mittels eines Ein- und Ausgabegeräts (1) erfolgt.
Verfahren nach einem der voranstehenden Ansprüche, dadurch gekennzeichnet, dass die Übereinstimmungen mit den jeweiligen Sprachen miteinander verglichen werden und die Servereinheit (8) mit der größten Übereinstimmung mit der ihr zugeordneten Sprache als Antwortservereinheit (10) bestimmt wird, und/oder bei einer zumindest im Wesentlichen gleichgroßen Übereinstimmung bei wenigstens zwei Servereinheiten (8) eine Servereinheit (8) davon als Antwortservereinheit (10) in Abhängigkeit eines zusätzlichen Einflussfaktors bestimmt wird.
Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die Antwortservereinheit (10) dazu verwendet wird, den auszusprechenden Inhalt zu erzeugen.
Verfahren nach Anspruch 5 oder 6, dadurch gekennzeichnet, dass die Antwortservereinheit (10) dazu verwendet wird, den Eingabeinhalt der Eingabe des Nutzers (5) anhand von Wörtern, Ausdrücken und/oder Synonymen, insbesondere mittels eines Large Language Moduls, zu analysieren.
Verfahren nach einem der voranstehenden Ansprüche, dadurch gekennzeichnet, dass die Eingabe des Nutzers (5) über eine Vermittlereinheit (9) an die Servereinheiten (8) gesendet wird.
Verfahren nach Anspruch 4, einem der Ansprüche 5 bis 7 und Anspruch 8, dadurch gekennzeichnet, dass der auszusprechende Inhalt von der Antwortservereinheit (10) über die Vermittlereinheit (9) an das Ein- und Ausgabegerät (1) gesendet wird.
Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass jeweils eine bidirektionale Verbindung (V) zwischen der Vermittlereinheit (9) und den Servereinheiten (8) aufgebaut und/oder aufrechterhalten wird, und/oder dass eine bidirektionale Verbindung (V) zwischen dem Ein- und Ausgabegerät (1) und der Vermittlereinheit (9) aufgebaut und/oder aufrechterhalten wird.
Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass jeweils eine bidirektionale Verbindung (V) zwischen dem Ein- und Ausgabegerät (1) und den Servereinheiten (8) aufgebaut und/oder aufrechterhalten wird.
Verfahren nach einem der voranstehenden Ansprüche, dadurch gekennzeichnet, dass wenigstens ein Verfahrensschritt mittels eines Computers ausgeführt wird.
System zur Datenverarbeitung umfassend Mittel zur Ausführung eines Verfahrens nach einem der voranstehenden Ansprüche.
Computerprogramm, umfassend Befehle, die bei Ausführung des Computerprogramms durch einen Computer diesen veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 12 auszuführen.
Computerlesbarer Datenträger, auf dem das Computerprogramm nach Anspruch 14 gespeichert ist.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur akustischen und insbesondere visuellen Ausgabe eines auszusprechenden Inhalts durch einen Avatar gemäß dem Oberbegriff von Anspruch 1, eine Vorrichtung zur Datenverarbeitung, ein Computerprogramm und einen computerlesbaren Datenträger. Bei üblichen Verfahren wird zu Beginn einer Konversation von einem Nutzer eine Sprache ausgewählt, in welcher der Nutzer mit dem Avatar kommunizieren möchte. Die Auswahl kann dabei mittels einem der Konversation vorgeschalteten Menü erfolgen. Möchte der Nutzer in einer anderen Sprache mit dem Avatar kommunizieren, so muss der Benutzer die Konversation mit dem Avatar verlassen bzw. beenden und über das vorgeschaltete Menü eine andere Sprache auswählen. Ein Sprachwechsel während der laufenden Kommunikation ist somit aufwendig und führt dazu, dass ein Bruch in der Kommunikation mit dem Avatar stattfindet. Eine entsprechende Unterbrechung wird von Nutzern als störend und unnatürlich empfunden. Insbesondere bei einer Konversation von mehreren Personen mit einem Avatar, wobei die Personen unterschiedliche Sprachen sprechen, kann der erforderliche Sprachenwechsel zu einer lang andauernden Kommunikation und einem umständlichen Kommunikationsablauf führen. Es sind auch Verfahren bekannt, bei denen eine Spracherkennung, insbesondere mittels eines gemeinsamen Sprachmoduls, erfolgt. Dabei muss zunächst die Sprache der akustischen Eingabe bestimmt werden. Es werden in der Regel wenigstens acht bis zwölf gesprochene Wörter benötigt, um die Sprache zuverlässig bestimmen zu können. Erst nach der Identifizierung der Sprache kann die erfolgte sprachliche Eingabe durch den Nutzer inhaltlich analysiert werden. Entsprechend kann zwischen der Eingabe durch den Nutzer und der Ausgabe des auszusprechenden Inhalts ein langer Zeitversatz entstehen, der von Nutzern als unangenehm und unnatürlich empfunden wird. Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein im Vergleich zum Stand der Technik verbessertes Verfahren zur akustischen und insbesondere visuellen Ausgabe eines auszusprechenden Inhalts durch einen Avatar bereitzustellen, wobei eine besonders komfortable und natürlich wirkende Konversation mit dem Avatar ermöglicht wird, wobei eine besonders einfache, benutzerfreundliche und/oder intuitive Kommunikation geschaffen oder unterstützt wird. Die der vorliegenden Erfindung zugrunde liegende Aufgabe wird durch das Verfahren gemäß Anspruch 1, das System zur Datenverarbeitung gemäß Anspruch 13, das Computerprogramm gemäß Anspruch 14 und den computerlesbaren Datenträger gemäß Anspruch 15 gelöst. Die vorliegende Erfindung betrifft ein, insbesondere computerimplementiertes, Verfahren zur akustischen und insbesondere visuellen Ausgabe eines auszusprechenden Inhalts durch einen Avatar. Unter dem Begriff "Avatar" sind im Rahmen der vorliegenden Erfindung digitale Wesen mit anthropomorphem Aussehen zu verstehen, die von Menschen oder Software gesteuert werden und die Fähigkeit besitzen, zu interagieren. Vorzugsweise wird bzw. werden das vorschlagsgemäße Verfahren, insbesondere einzelne oder alle Verfahrensschritte des vorschlagsgemäßen Verfahrens, mittels eines Systems zur Datenverarbeitung (teil-)automatisch bzw. selbsttätig durchgeführt, insbesondere durch entsprechende Mittel zur Datenverarbeitung und Steuerung der Vorrichtung, wie eine Datenverarbeitungseinrichtung oder dergleichen. Bei dem vorschlagsgemäßen Verfahren zur akustischen und insbesondere visuellen Ausgabe eines auszusprechenden Inhalts durch einen Avatar erfolgt zunächst eine Eingabe durch einen Nutzer. Der auszusprechende Inhalt wird anschließend als Reaktion auf die Eingabe erzeugt und durch den Avatar ausgegeben. Wesentlich ist die grundsätzliche Überlegung, die Eingabe des Nutzers an verschiedene Sprachmodule zu übertragen und die Eingabe mit jeder dieser Sprachen zu vergleichen. Es ist dann möglich, die Sprache der Eingabe anhand der ermittelten Übereinstimmung mit den jeweiligen Sprachen zu bestimmen. Auf diese Weise kann dann das Sprachmodul zur Erzeugung des auszusprechenden Inhalts ausgewählt und verwendet werden, dass die höchste Übereinstimmung mit der Sprache der Eingabe aufweist. Da jedem Sprachmodul lediglich eine Sprache zugeordnet ist, kann die Analyse bzw. Bestimmung des Inhalts der Eingabe mit dem Beginn der Eingabe durch den Nutzer starten. Insbesondere kann die Analyse des Inhalts zeitgleich zur Bestimmung der Sprache durchgeführt werden. Da lediglich das Sprachmodul mit der höchsten Übereinstimmung zur Erzeugung des auszusprechenden Inhalts verwendet wird, kann ein bestmöglich passender auszusprechender Inhalt in besonders kurzer Zeit erzeugt werden. Erfolgt im Anschluss an die Ausgabe des auszusprechenden Inhalts eine neue Eingabe des Nutzers in einer anderen Sprache, so kann in besonders einfacher Weise die Sprache der neuen Eingabe erkannt und ein auszusprechender Inhalt in der entsprechenden Sprache erzeugt werden. Der Avatar ist dadurch in Lage, während