DE-102025108683-A1 - Informationstechnisches System zur Bereitstellung eines persönlichen Assistenten und Fahrzeug

DE102025108683A1DE 102025108683 A1DE102025108683 A1DE 102025108683A1DE-102025108683-A1

Abstract

Die Erfindung betrifft ein informationstechnisches System (1) zur Bereitstellung eines auf einem Basismodell (FM) basierenden persönlichen Assistenten, dazu eingerichtet in einer Interaktion zwischen einem Nutzer (2) und dem Assistenten anfallende Interaktionsinformationen durch das Basismodell (FM) zu verarbeiten, um induktiv durch das Basismodell (FM) abgeleitete Induktiv-Gedanken (IG) zu erzeugen, beschreibend eine aus der Interaktion gewonnene Erkenntnis formuliert in natürlicher Sprache, die Induktiv-Gedanken (IG) in einem Langzeitspeicher (3) für das Basismodell (FM) abzulegen und den Inhalt des Langzeitspeichers (3) für künftige Interaktionen mit dem Nutzer (2) zu berücksichtigen. Das erfindungsgemäße informationstechnische System ist gekennzeichnet durch die Fähigkeit einen spezifischen in den Langzeitspeicher (3) zu schreibenden oder aus diesem zu lesenden Inhalt durch das Basismodell (FM) selbst zu referenzieren.

Inventors

Rebecca Westhäußer
Sebastian Zepf

Assignees

Mercedes-Benz Group AG

Dates

Publication Date: 20260507
Application Date: 20250307

Claims (10)

Informationstechnisches System (1) zur Bereitstellung eines auf einem Basismodell (FM) basierenden persönlichen Assistenten, dazu eingerichtet in einer Interaktion zwischen einem Nutzer (2) und dem Assistenten anfallende Interaktionsinformationen durch das Basismodell (FM) zu verarbeiten, um induktiv durch das Basismodell (FM) abgeleitete Induktiv-Gedanken (IG) zu erzeugen, beschreibend eine aus der Interaktion gewonnene Erkenntnis formuliert in natürlicher Sprache, die Induktiv-Gedanken (IG) in einem Langzeitspeicher (3) für das Basismodell (FM) abzulegen und den Inhalt des Langzeitspeichers (3) für künftige Interaktionen mit dem Nutzer (2) zu berücksichtigen, gekennzeichnet durch die Fähigkeit einen spezifischen in den Langzeitspeicher (3) zu schreibenden oder aus diesem zu lesenden Inhalt durch das Basismodell (FM) selbst zu referenzieren.
Informationstechnisches System (1) nach Anspruch 1 , dadurch gekennzeichnet , dass im Langzeitspeicher (3) jedem Induktiv-Gedanken (IG) zumindest ein Bezeichner (TAG) zugeordnet ist, beschreibend eine Klassifizierung für den Induktiv-Gedanken (IG) in natürlicher Sprache.
Informationstechnisches System (1) nach Anspruch 2 , dadurch gekennzeichnet , dass im Langzeitspeicher (3) jedem Induktiv-Gedanken (IG) ein Zeitstempel (TS) zugeordnet ist, angebend den Zeitpunkt der Interaktion aus der der respektive Induktiv-Gedanke (IG) abgeleitet wurde.
Informationstechnisches System (1) nach einem der Ansprüche 1 bis 3 , dadurch gekennzeichnet , dass der Inhalt des Langzeitspeichers (3) als Tabelle formatiert ist.
Informationstechnisches System (1) nach einem der Ansprüche 2 bis 4 , gekennzeichnet durch ein Ontologie-Modul (ONT), umfassend eine Abbildung sämtlicher im Langzeitspeicher (3) hinterlegten Bezeichner (TAG) in einer nach Themenkomplexen sortieren hierarchischen Darstellung, wobei die Bezeichner (TAG) auf der untersten Hierarchieebene angesiedelt sind; wobei das Basismodell (FM) dazu eingerichtet ist, den Inhalt des Ontologie-Moduls (ONT) zum Referenzieren eines Inhalts des Langzeitspeichers (3) im Kontext einer Interaktion zu berücksichtigen.
Informationstechnisches System (1) nach einem der Ansprüche 2 bis 5 , gekennzeichnet durch die Ausführung einer ersten Instanz (INS1) des Basismodells (FM), durch eine Feinabstimmung dazu eingerichtet, mit dem Nutzer (2) zu interagieren und aus der Interaktion zu ermitteln, ob im Zuge der Interaktion Induktiv-Gedanken (IG) erzeugt und in den Langzeitspeicher (3) abgelegt werden sollen und als Reaktion darauf ein Speichersignal (101) auszugeben sowie, ob im Zuge der Interaktion Induktiv-Gedanken (IG) aus dem Langzeitspeicher (3) bezogen werden sollen und als Reaktion darauf ein Lesesignal (102) auszugeben; die Ausführung einer zweiten Instanz (INS2) des Basismodells (FM), durch eine Feinabstimmung dazu eingerichtet, als Reaktion auf ein von der ersten Instanz (INS1) empfangenes Lesesignal (102) durch Verarbeitung der Interaktionsinformationen wenigstens einen Bezeichner (TAG) zu ermitteln und sämtliche Induktiv-Gedanken (IG), denen respektive Bezeichner (TAG) zugeordnet sind, aus dem Langzeitspeicher (3) auszulesen und in Abhängigkeit eines für die Interaktionsinformationen ermittelten Kontextes zur Erzeugung einer Reaktion für den Nutzer (2) im Zuge der Interaktion durch die erste Instanz (INS1) relevante Induktiv-Gedanken (IG) zu ermitteln und diese an die erste Instanz (INS1) weiterzuleiten; und die Ausführung einer dritten Instanz (INS3) des Basismodells (FM), durch eine Feinabstimmung dazu eingerichtet, als Reaktion auf ein von der ersten Instanz (INS1) empfangenes Speichersignal (101) die Interaktionsinformationen zur Erzeugung der Induktiv-Gedanken (IG) und Zuordnung von Bezeichnern (TAG) zu den Induktiv-Gedanken (IG) zu verarbeiten.
Informationstechnisches System (1) nach Anspruch 6 , dadurch gekennzeichnet , dass die zweite Instanz (INS2) dazu eingerichtet ist, die Menge der für die erste Instanz (INS1) relevanten Induktiv-Gedanken (IG) mit einer festgelegten Maximalmenge zu vergleichen und eine Zusammenfassung der relevanten Induktiv-Gedanken (IG) zu erzeugen und für die Interaktion mit dem Nutzer (2) an die erste Instanz (INS1) zu übermitteln, wenn die Menge der relevanten Induktiv-Gedanken (IG) die Maximalmenge übersteigt, insbesondere in Form einer maximalen Tokenbegrenzung.
Informationstechnisches System (1) nach Anspruch 6 oder 7 , dadurch gekennzeichnet , dass die dritte Instanz (INS3) dazu eingerichtet ist Induktiv-Gedanken (IG), denen derselbe Bezeichner (TAG) zugeordnet ist, im Zuge einer Schlussfolgerungsiteration miteinander abzugleichen und gleiche oder ähnliche Induktiv-Gedanken (IG) zu verwerfen, zu kombinieren oder zu speichern.
Informationstechnisches System (1) nach einem der Ansprüche 6 bis 9 , dadurch gekennzeichnet , dass die dritte Instanz (INS3) dazu eingerichtet ist, zusätzlich zu den Interaktionsinformationen Zusatzinformationen (103) in der Erzeugung der Induktiv-Gedanken (IG) zu berücksichtigen, insbesondere bereitgestellt von einem fahrzeuginternen System und/oder einem mobilen Endgerät.
Fahrzeug, gekennzeichnet durch zumindest den zur Interaktion mit dem Nutzer (2) vorgesehenen Teil eines Informationstechnischen Systems (1) nach einem der Ansprüche 1 bis 9 .

Description

Die Erfindung betrifft ein informationstechnisches System zur Bereitstellung eines auf einem Basismodell basierenden persönlichen Assistenten nach der im Oberbegriff von Anspruch 1 näher definierten Art sowie ein Fahrzeug, umfassend zumindest einen Teil des informationstechnischen Systems. Mit zunehmender Digitalisierung hat sich auch der Einsatz von digitalen persönlichen Assistenten etabliert. Solche Systeme sind weit verbreitet und können durch unterschiedliche Endgeräte genutzt werden. Beispielsweise sind in Smart-Home-Anwendungen implementierte Assistenten bekannt, die das Steuern smarter Beleuchtung per Sprachbefehl oder das Vortragen eines Wetterberichts oder der neusten Nachrichten erlauben. Über ein mobiles Endgerät wie ein Smartphone kann per digitalem Assistent beispielsweise eine Textnachricht per Sprachbefehl verfasst werden oder ein Terminkalendereintrag angelegt werden. Mit einem fahrzeugintegrierten Assistenten können Fahrzeugfunktionen per Sprachbefehl gesteuert werden. Entsprechende Assistenten können auch über ein Webinterface nutzbar sein, was es beispielsweise erlaubt, mit dem Assistenten per Chat einen Dialog zu führen. Nutzer können somit mit einem persönlichen digitalen Assistenten auf vielfältige Art und Weise interagieren, wobei insbesondere auf künstlicher Intelligenz basierende Algorithmen zur Erkennung des semantischen Inhalts in zugrunde liegenden Sprachbefehlen sowie zur Ausformulierung geeigneter Antworten zum Einsatz kommen. Die Mächtigkeit solcher digitalen Assistenten nimmt immer weiter zu. Insbesondere sogenannte große Sprachmodelle, auch als Large Language Model (LLM) bezeichnet, sind dazu in der Lage, Gespräche wie ein Mensch zu führen. Große Sprachmodelle bauen auf sogenannten Basismodellen oder Grundmodellen, auch als „Foundation Model“ bezeichnet, auf. Hierbei handelt es sich um große, vortrainierte Modelle, die auf umfangreichen und vielfältigen Datensätzen trainiert wurden. Hierdurch erhalten Basismodelle die Fähigkeit, allgemeines Weltwissen zu erlangen. Dies versetzt Basismodelle dazu in die Lage, die vielfältigsten Aufgaben zu bewältigen, wie das Führen von Dialogen in natürlicher Sprache, das Erkennen von Bildinhalten bspw. mit einem sogenannten „Vision Transformer“, das Steuern autonomer Systeme oder das künstliche Generieren von Medieninhalten wie Bilder, Animationen, Videos, Musik und dergleichen. Ein Basismodell kann durch eine geeignete Feinabstimmung, auch als „Fine-Tuning“ bezeichnet, zur Bewältigung einer bestimmten Aufgabe angepasst werden. Für eine zufriedenstellende Interaktion mit einem Nutzer kann es dabei erforderlich sein, auf Informationen zuzugreifen, die einen Zusammenhang zu vergangenen Interaktionen aufweisen. Beispielsweise kann ein Nutzer eine Rückfrage zu einer in der Vergangenheit durchgeführten Interaktion stellen. Zudem kann sich eine Interaktion auf Eigenschaften oder Erfahrungen des Nutzers beziehen, die nur dann ausreichend befriedigend beantwortet werden können, wenn das zugrunde liegende Basismodell bzw. große Sprachmodell über entsprechende Kenntnisse verfügt. Dies erfordert es, große Datenmengen zur Verfügung zu stellen, damit das Basismodell solche Informationen berücksichtigen kann. Dies resultiert in einem hohen Speicherbedarf, was jedoch die Kosten des zugrunde liegenden informationstechnischen Systems erhöht. Zudem ist die Verarbeitung entsprechender großer Datenmengen aufwändig, was zu weiteren Nachteilen führt. So müssen zur Bearbeitung einer einzelnen Interaktion mehr Rechenressourcen bereitgestellt werden, die somit nicht für andere Aufgaben zur Verfügung stehen. So können weniger Interaktionen pro Zeit verarbeitet werden. Zudem kann die benötigte Rechendauer ansteigen. Ferner gilt es den Kontext einer jeweiligen Interaktion zwischen Nutzer und intelligentem digitalen Assistenten zu berücksichtigen. Hierzu können aus unterschiedlichen Domänen stammende Informationen relevant sein, die es entsprechend miteinander zu verknüpfen gilt, um den Kontext angemessen zu beschreiben. Dieser zusätzliche Verarbeitungsschritt geht mit einer weiteren Zunahme des Leistungsbedarf einher und Bedarf der Implementierung gesonderter Rechenmodelle, beispielsweise zur Durchführung einer aufwändigen semantischen Ähnlichkeitsberechnung beim Abrufen von Informationen aus einem Langzeitspeicher. Meist werden Basismodelle, insbesondere große Sprachmodelle, zur Bereitstellung eines intelligenten digitalen Assistenten genutzt, die von einem Dienstleister angeboten werden. Ein solcher Dienstleister erhebt in der Regel eine Gebühr für die Verarbeitung von Informationen durch das Basismodell. Diese Gebühr kann von der Menge der in einer Interaktion zu berücksichtigenden Token abhängen. Je komplexer die Interaktion ist, beispielsweise durch die Länge des zu verarbeitenden Prompts, desto mehr Token fallen auch an. Entsprechend steigt die vom Dienstleister erhobene Gebühr. Wird eine maximale Tokenbegrenzung überschritten, so kann gegebenenfalls das zugrun