DE-102025144636-A1 - DOMÄNENSPEZIFISCHE ABRUFSPRACHMODELLE

DE102025144636A1DE 102025144636 A1DE102025144636 A1DE 102025144636A1DE-102025144636-A1

Abstract

Verschiedene Beispiele, Systeme und Verfahren werden in Bezug auf den domänenspezifischen Dokumentenabruf offenbart, der die Integration von benutzerdefiniertem Vokabular und die Aktualisierung von Einbettungsmodellen beinhaltet. Ein Rechensystem kann mehrere Segmente aus einer Sammlung von Dokumenten extrahieren und Abfragen erzeugen, die mindestens einem Segment entsprechen. Das Rechensystem kann Begriffe identifizieren, die ein Eindeutigkeitskriterium erfüllen, und die Begriffe in einen Tokenizer eingeben, um einen Vokabulardatensatz zu erstellen. Der Vokabulardatensatz, die Dokumentensegmente und die Abfragen können für die Aktualisierung eines Einbettungsmodells verwendet werden, um den Abruf und den semantischen Abgleich innerhalb privater Dokumente zu unterstützen.

Inventors

Jiaheng Huang

Assignees

NVIDIA CORPORATION

Dates

Publication Date: 20260507
Application Date: 20251030
Priority Date: 20241101

Claims (20)

Ein oder mehrere Prozessoren, die eine Verarbeitungsschaltung für Folgendes umfassen: Eingeben in einen Tokenizer eines oder der mehrerer Begriffe, die ein Einzigartigkeitskriterium erfüllen, um den Tokenizer zu veranlassen, den einen oder die mehreren Begriffe in einen Vokabulardatensatz zu tokenisieren, wobei der eine oder die mehreren Begriffe einer Domäne entsprechen und aus einer Mehrzahl von Dokumenten extrahiert wurden; Extrahieren aus der Mehrzahl von Dokumenten einer Mehrzahl von Teilen der Mehrzahl von Dokumenten, die den einen oder die mehreren Begriffe umfasst, die der Domäne entsprechen; Erzeugen mindestens auf Grundlage der Mehrzahl von Teilen einer Mehrzahl von Abfragen, die der Mehrzahl von Teilen entspricht; und Aktualisieren eines Einbettungsmodell, das mindestens auf der Mehrzahl von Abfragen, der Mehrzahl von Teilen und dem Vokabulardatensatz basiert.
Ein oder mehrere Prozessoren nach Anspruch 1 , wobei die Mehrzahl von Teilen der Mehrzahl von Dokumenten extrahiert wird, indem die Mehrzahl von Dokumenten auf Grundlage von mindestens einer Markierung segmentiert wird, um den Inhalt der Mehrzahl von Dokumenten in die Mehrzahl von Teilen zu segmentieren.
Ein oder mehrere Prozessoren nach Anspruch 1 oder 2 , wobei die Mehrzahl von Abfragen, die der Mehrzahl von Teilen entspricht, von einem großen Sprachmodell (Large Language Model, LLM) erzeugt wird, das trainiert wurde, um die Mehrzahl von Abfragen auf Grundlage von Inhalt und Kontext der extrahierten Mehrzahl von Teilen zu erzeugen.
Ein oder mehrere Prozessoren nach Anspruch 3 , wobei der Inhalt Textinformationen in der Mehrzahl von Teilen umfasst, und wobei der Kontext eine Zuordnung der Mehrzahl von Abfragen zu der Mehrzahl von Teilen umfasst.
Ein oder mehrere Prozessoren nach Anspruch 3 , wobei die Erzeugung der Mehrzahl von Abfragen das Auffordern des LLM mit einer Mehrzahl von Anweisungen umfasst, die auf dem Inhalt und dem Kontext der Mehrzahl von Teilen basiert und mindestens einem Parameter entspricht.
Ein oder mehrere Prozessoren nach einem der vorhergehenden Ansprüche, wobei der eine oder die mehreren Begriffe der Mehrzahl von Dokumenten durch ein LLM extrahiert werden, das trainiert ist, um eine Mehrzahl von Datensegmenten auf Grundlage des Einzigartigkeitskriteriums zu identifizieren.
Ein oder mehrere Prozessoren nach Anspruch 6 , wobei die Extraktion des einen oder der mehreren Begriffe das Auffordern des LLM mit einer Mehrzahl von Anweisungen umfasst, eine Mehrzahl von Begriffen in der Mehrzahl von Dokumenten zu identifizieren, die dem Einzigartigkeitskriterium entsprechen.
Ein oder mehrere Prozessoren nach einem der vorhergehenden Ansprüche, wobei das Einzigartigkeitskriterium eine Mehrzahl von Häufigkeiten des einen oder der mehreren Begriffe umfasst, die unter einer Schwellenfrequenz in einem Vokabular des Tokenizers liegen.
Ein oder mehrere Prozessoren nach Anspruch 8 , wobei die Schwellenhäufigkeit einer Häufigkeit des Vorkommens oder einer Häufigkeit des gemeinsamen Vorkommens entspricht und wobei die Schwellenhäufigkeit auf Grundlage einer Mehrzahl von Vorkommen einer Mehrzahl von domänenspezifischen Begriffen innerhalb der Mehrzahl von Dokumenten festgelegt wird.
Ein oder mehrere Prozessoren nach einem der vorhergehenden Ansprüche, wobei das Einbettungsmodell ein Transformermodell umfasst, das trainiert wurde, um eine Mehrzahl von Texteingaben in eine Mehrzahl von kontinuierlichen Vektordarstellungen auf Grundlage der Verarbeitung einer Mehrzahl von Token durch eine Mehrzahl von mehrschichtigen Aufmerksamkeitsmechanismen umzuwandeln, um eine Mehrzahl von semantischen Beziehungen zwischen dem einen oder den mehreren Begriffen zu kodieren.
Ein oder mehrere Prozessoren nach einem der vorhergehenden Ansprüche, wobei der eine oder die mehreren Prozessoren in mindestens einem der Folgenden enthalten sind: einem System, das ein oder mehrere große Sprachmodelle (LLMs) implementiert; einem System, das ein oder mehrere kleine Sprachmodelle (Small Language Models, SLMs) implementiert; einem System, das ein oder mehrere Visionssprachmodelle (Vision Language Models, VLMs) implementiert; einem System zum Erzeugen synthetischer Daten; einem System für die Erzeugung synthetischer Daten unter Verwendung von KI; einem Steuersystem für eine autonome oder halbautonome Maschine; einem Wahrnehmungssystem für eine autonome oder halbautonome Maschine; einem System zum Durchführen von Simulationsvorgängen; einem System zum Durchführen von Digital-Twin-Vorgängen; einem System zum Durchführen von Lichttransportsimulationen; einem System zum Durchführen von kollaborativer Erstellung von Inhalten für 3D-Assets; einem System zum Durchführen von Deep-Learning-Vorgängen; einem System zum Durchführen von entfernten Vorgängen; einem System zum Durchführen von Echtzeit-Streaming; einem System zum Erzeugen oder Präsentieren von mindestens einem oder mehreren von Augmented Reality-Inhalten, Virtual Reality-Inhalten oder Mixed Reality-Inhalten; einem System, das unter Verwendung eines Edge-Geräts implementiert wird; einem System, das unter Verwendung eines Roboters implementiert wird; einem System zum Durchführen von konversationellen KI-Vorgängen; einem System, das ein oder mehrere Sprachmodelle mit mehreren Modellen implementiert; einem System, das eine oder mehrere virtuelle Maschinen (Virtual Machines, VMs) verkörpert; einem System, das mindestens teilweise in einem Rechenzentrum implementiert wird; oder einem System, das mindestens teilweise unter Verwendung von Cloud-Rechenressourcen implementiert wird.
System, das Folgendes umfasst: einen oder mehrere Prozessoren für die Ausführung von Vorgängen, die Folgendes umfassen: Extrahieren aus einer Mehrzahl von Dokumenten einer Mehrzahl von Teilen der Mehrzahl von Dokumenten, die einen oder mehrere Begriffe umfasst, die einer Domäne entsprechen; Erzeugen mindestens auf Grundlage der Mehrzahl von Teilen einer Mehrzahl von Abfragen, die der Mehrzahl von Teilen entspricht; Eingeben in einen Tokenizer des einen oder der mehreren Begriffe, die ein Einzigartigkeitskriterium erfüllen, um den Tokenizer zu veranlassen, den einen oder die mehreren Begriffe in einen Vokabulardatensatz zu tokenisieren, wobei der eine oder die mehreren Begriffe aus der Mehrzahl von Dokumenten extrahiert wurden; und Aktualisieren eines Einbettungsmodell, das mindestens auf der Mehrzahl von Abfragen, der Mehrzahl von Teilen und dem Vokabulardatensatz basiert.
System nach Anspruch 12 , wobei die Mehrzahl von Teilen der Mehrzahl von Dokumenten extrahiert wird, indem die Mehrzahl von Dokumenten auf Grundlage von mindestens einer Markierung segmentiert wird, um den Inhalt der Mehrzahl von Dokumenten in die Mehrzahl von Teilen zu segmentieren.
System nach Anspruch 12 oder 13 , wobei die Mehrzahl von Abfragen, die der Mehrzahl von Teilen entspricht, von einem großen Sprachmodell (LLM) erzeugt wird, das trainiert wurde, um die Mehrzahl von Abfragen auf Grundlage von Inhalt und Kontext der extrahierten Mehrzahl von Teilen zu erzeugen.
System nach Anspruch 14 , wobei der Inhalt Textinformationen in der Mehrzahl von Teilen umfasst, und wobei der Kontext eine Zuordnung der Mehrzahl von Abfragen zu der Mehrzahl von Teilen umfasst.
System nach Anspruch 14 oder 15 , wobei die Erzeugung der Mehrzahl von Abfragen das Auffordern des LLM mit einer Mehrzahl von Anweisungen umfasst, die auf dem Inhalt und dem Kontext der Mehrzahl von Teilen basiert und mindestens einem Parameter entspricht.
System nach einem der Ansprüche 12 bis 16 , wobei der eine oder die mehreren Begriffe der Mehrzahl von Dokumenten durch ein LLM extrahiert werden, das trainiert ist, um eine Mehrzahl von Datensegmenten auf Grundlage des Einzigartigkeitskriteriums zu identifizieren.
System nach Anspruch 17 , wobei die Extraktion des einen oder der mehreren Begriffe das Auffordern des LLM mit einer Mehrzahl von Anweisungen umfasst, eine Mehrzahl von Begriffen in der Mehrzahl von Dokumenten zu identifizieren, die dem Einzigartigkeitskriterium entsprechen.
System nach einem der Ansprüche 12 bis 18 , wobei das Einzigartigkeitskriterium eine Mehrzahl von Häufigkeiten des einen oder der mehreren Begriffe umfasst, die unter einer Schwellenfrequenz in einem Vokabular des Tokenizers liegen.
Verfahren, das Folgendes umfasst: Eingeben unter Verwendung eines oder mehrerer Prozessoren eines oder der mehrerer Begriffe, die ein Einzigartigkeitskriterium erfüllen, um den einen oder die mehreren Prozessoren zu veranlassen, den einen oder die mehreren Begriffe in einen Vokabulardatensatz zu tokenisieren, wobei der eine oder die mehreren Begriffe einer Domäne entsprechen und aus einer Mehrzahl von Dokumenten extrahiert wurden; Extrahieren unter Verwendung des einen oder der mehreren Prozessoren aus der Mehrzahl von Dokumenten einer Mehrzahl von Teilen der Mehrzahl von Dokumenten, die einen oder mehrere Begriffe umfasst, die einer Domäne entsprechen; Erzeugen unter Verwendung des einen oder der mehreren Prozessoren einer Mehrzahl von Abfragen, die der Mehrzahl von Teilen entspricht, mindestens auf Grundlage der Mehrzahl von Teilen; und Aktualisieren unter Verwendung des einen oder der mehreren Prozessoren eines Einbettungsmodells mindestens auf Grundlage der Mehrzahl von Abfragen der Mehrzahl von Teilen und des Vokabulardatensatzes.

Description

HINTERGRUND Die Verbesserung der Genauigkeit und Leistung des Dokumentenabrufs in textbasierten Informationsabrufsystemen ist eine Herausforderung. Einige herkömmliche Verfahren stützen sich auf generische Textabrufmodelle ohne Unterstützung von spezialisiertem Vokabularen oder interner Dokumententerminologie, was zu Ineffizienz und begrenzter Abrufleistung in privaten Umgebungen führt. Dieser Ansatz kann zu einer unzureichenden Abrufgenauigkeit führen. Derzeitige Systeme sind nicht dazu konfiguriert und/oder trainiert, Assoziationen zwischen privaten Begriffen und relevanten Dokumenteninhalten zu identifizieren, was bei der Verarbeitung von domänenspezifischer Sprache zu inkonsistenten Abfrageantworten führt. Darüber hinaus stützen sich herkömmliche Verfahren auf statische, vorab trainierte Tokenizer mit einem auf öffentlich zugängliche Begriffe beschränkten Vokabular, was zu Ineffizienzen und verminderter Abrufleistung führt, da private Terminologie nicht erkannt wird. Dieser Ansatz kann zu einer redundanten Verarbeitung führen und dazu, dass dokumentenspezifische Begriffe nicht effektiv verarbeitet werden. Die derzeitigen Verfahren sind unzureichend, um Terminologieaktualisierungen im Laufe der Zeit zu bewältigen, was die Komplexität des Aufrechterhaltens der Abrufrelevanz über sich entwickelnde Dokumentensammlungen hinweg erhöht. Die Herausforderungen bei der Implementierung neuronaler Netzwerke für einbettungsbasierte Abrufmodelle erstellen Ineffizienzen, die die Genauigkeit und Recheneffizienz des Textabrufs in domänenspezifischen Umgebungen beeinträchtigen. KURZDARSTELLUNG Die Erfindung ist in den Ansprüchen definiert. Für die Veranschaulichung der Erfindung werden hierin Aspekte und Ausführungsformen beschrieben, die in den Schutzumfang der Ansprüche fallen können oder auch nicht. Verschiedene Beispiele, Systeme und Verfahren werden in Bezug auf den domänenspezifischen Dokumentenabruf offenbart, der die Integration von benutzerdefiniertem Vokabular und die Aktualisierung von Einbettungsmodellen beinhaltet. Ein Rechensystem kann mehrere Segmente aus einer Sammlung von Dokumenten extrahieren und Abfragen erzeugen, die mindestens einem Segment entsprechen. Das Rechensystem kann Begriffe identifizieren, die ein Eindeutigkeitskriterium erfüllen, und die Begriffe in einen Tokenizer eingeben, um einen Vokabulardatensatz zu erstellen. Der Vokabulardatensatz, die Dokumentensegmente und die Abfragen können für die Aktualisierung eines Einbettungsmodells verwendet werden, um den Abruf und den semantischen Abgleich innerhalb privater Dokumente zu unterstützen. Weitere Merkmale der Offenbarung sind durch die unabhängigen und abhängigen Ansprüche gekennzeichnet. Jedes Merkmal in einem Aspekt der Offenbarung kann in jeder geeigneten Kombination auf andere Aspekte der Offenbarung angewendet werden. Insbesondere können Verfahrensaspekte auf Vorrichtungs- oder Systemaspekte angewandt werden, und umgekehrt. Ferner können in Hardware implementierte Merkmale in Software implementiert werden und umgekehrt. Jede Bezugnahme auf Software- und Hardware-Merkmale hierin sollte entsprechend ausgelegt werden. Jedes hierin beschriebene System- oder Vorrichtungsmerkmal kann auch als Verfahrensmerkmal bereitgestellt werden und umgekehrt. System- und/oder Vorrichtungsaspekte, die funktional beschrieben sind (einschließlich Mittel plus Funktionsmerkmale), können alternativ in Form ihrer entsprechenden Struktur ausgedrückt werden, wie als geeignet programmierter Prozessor und zugeordneter Arbeitsspeicher. Es versteht sich auch, dass bestimmte Kombinationen der verschiedenen Merkmale, die in jedem Aspekt der Offenbarung beschrieben und definiert sind, unabhängig voneinander implementiert und/oder bereitgestellt und/oder verwendet werden können. Die Offenbarung stellt auch Computerprogramme und Computerprogrammprodukte bereit, die einen Softwarecode umfassen, der so ausgelegt ist, dass er, wenn er auf einer Datenverarbeitungsvorrichtung ausgeführt wird, eines der hierin beschriebenen Verfahren durchführt und/oder eines der hierin beschriebenen Vorrichtungs- und Systemmerkmale verkörpert, einschließlich eines oder aller Komponentenschritte eines Verfahrens. Die Offenbarung stellt auch einen Computer oder ein Rechensystem (einschließlich vernetzter oder verteilter Systeme) mit einem Betriebssystem bereit, das ein Computerprogramm für die Durchführung eines der hierin beschriebenen Verfahren und/oder für die Verkörperung eines der hierin beschriebenen Vorrichtungs- oder Systemmerkmale unterstützt. Die Offenbarung stellt auch ein computerlesbares Medium bereit, auf dem eines oder mehrere der vorstehend genannten Computerprogramme gespeichert sind. Die Offenbarung stellt auch ein Signal bereit, das eines oder mehrere der vorstehend genannten Computerprogramme trägt. Die Offenbarung erstreckt sich auf Verfahren und/oder Vorrichtungen und/oder Systeme, wie sie hierin unter Bezugnahme auf die beigefügten Zeichnungen beschrieben sind. Aspekte un