DE-102025145744-A1 - REGION-TEXT-BESCHRIFTUNGSGENERIERUNG UNTER VERWENDUNG GLOBALER BESCHRIFTUNGSINFORMATIONEN

DE102025145744A1DE 102025145744 A1DE102025145744 A1DE 102025145744A1DE-102025145744-A1

Abstract

Hierin präsentierte Ansätze können verwendet werden, um Beschriftungen unter Verwendung von rohen Beschriftungsinformationen zu generieren. Rohe Beschriftungsinformationen können, mit einem assoziierten Bild, verwendet werden, um eine detaillierte Bildbeschriftung zu generieren. Objektlisten können danach aus dem Bild und/oder der detaillierten Bildbeschriftung generiert werden, um ein Bild zu generieren, das Begrenzungsrahmenvorschläge für Objekte innerhalb des Bilds einschließt. Ein oder mehrere trainierte Maschinenlernsysteme können danach verwendet werden, um Region-von-Interesse-Beschriftungen zu generieren, die den globalen Beschriftungskontext, der mit den rohen Beschriftungsinformationen assoziiert ist, infundieren.

Inventors

Subhashree Radhakrishnan
Shijia Liao
Charul Verma
Zhiding Yu
Sifei Liu
Sean Cha

Assignees

NVIDIA CORPORATION

Dates

Publication Date: 20260507
Application Date: 20251106
Priority Date: 20241107

Claims (20)

Ein Prozessor, der Folgendes umfasst: eine oder mehrere Schaltungen zum: Generieren einer Objektliste für ein Eingabebild basierend auf dem Eingabebild und einer ersten Beschriftung, die dem Eingabebild entspricht; Generieren eines oder mehrerer Begrenzungsrahmen für Objekte, die mindestens teilweise in dem Eingabebild veranschaulicht werden; Generieren einer ersten ausgewählten Beschriftung für einen ausgewählten Begrenzungsrahmen des einen oder der mehreren Begrenzungsrahmen; Bestimmen eines Objekts, innerhalb des ausgewählten Begrenzungsrahmens, basierend auf der ersten ausgewählten Beschriftung; Generieren einer zweiten ausgewählten Beschriftung basierend auf der ersten Beschriftung und dem ausgewählten Begrenzungsrahmen; und Generieren einer zusammengefügten Beschriftung basierend auf der ersten ausgewählten Beschriftung, der zweiten ausgewählten Beschriftung und dem Objekt.
Prozessor nach Anspruch 1 , wobei mindestens eine von der ersten Beschriftung, der ersten ausgewählten Beschriftung oder der zweiten ausgewählten Beschriftung unter Verwendung eines Visionssprachmodells generiert werden.
Prozessor nach Anspruch 1 oder 2 , wobei die eine oder die mehreren Schaltungen ferner Folgendem dienen: Generieren einer ersten Objektliste aus dem Eingabebild; Generieren einer zweiten Objektliste aus der ersten Beschriftung; und Kombinieren der ersten Objektliste und der zweiten Objektliste, um die Objektliste zu bilden.
Prozessor nach Anspruch 3 , wobei die eine oder die mehreren Schaltungen ferner Folgendem dienen: Bereitstellen der Objektliste für ein oder mehrere trainierte Maschinenlernsysteme, um den einen oder die mehreren Begrenzungsrahmen zu generieren.
Prozessor nach einem vorhergehenden Anspruch, wobei die eine oder die mehreren Schaltungen ferner Folgendem dienen: Identifizieren einer Vielzahl von Begrenzungsrahmen, des einen oder der mehreren Begrenzungsrahmen, die ein gemeinsames Label aufweisen; Bestimmen mindestens eines Teils der Vielzahl von Begrenzungsrahmen innerhalb einer Schwellendistanz; und Kombinieren des Teils der Vielzahl von Begrenzungsrahmen innerhalb eines einzelnen Begrenzungsrahmens.
Prozessor nach einem vorhergehenden Anspruch, wobei die eine oder die mehreren Schaltungen ferner Folgendem dienen: Bestimmen eines ersten Labels, das mit dem ausgewählten Begrenzungsrahmen assoziiert ist; Bestimmen eines zweiten Labels, das mit dem Objekt assoziiert ist; Bestimmen, dass eine Ähnlichkeitsmetrik zwischen dem ersten Label und dem zweiten Label unter einer Schwelle liegt; und Identifizieren der zusammengefügten Beschriftung zur Prüfung.
Prozessor nach einem vorhergehenden Anspruch, wobei eine Eingabe in ein trainiertes Maschinenlernsystem, das verwendet wird, um die erste Beschriftung zu generieren, rohe Erfassungsdaten für das Eingabebild einschließt.
Prozessor nach einem vorhergehenden Anspruch, wobei die eine oder die mehreren Schaltungen ferner Folgendem dienen: Empfangen von einem oder mehreren Prompts, die mit mindestens einer Ausgabekonfiguration für mindestens eine von der ersten Beschriftung, der ersten ausgewählten Beschriftung oder der zweiten ausgewählten Beschriftung assoziiert sind.
Prozessor nach einem vorhergehenden Anspruch, wobei der Prozessor mindestens in einem von Folgendem umfasst ist: einem System zum Durchführen von Simulationsoperationen; einem System zum Durchführen von Simulationsoperationen zum Testen oder Validieren von autonomen Maschinenanwendungen; einem System zum Durchführen von digitalen Twinning-Operationen; einem System zum Durchführen von einer Lichttransportsimulation; einem System zum Rendern einer grafischen Ausgabe; einem System zum Durchführen von Deep-Learning-Operationen; einem System, das unter Verwendung eines Edge-Geräts implementiert einem; einem System zum Generieren oder Präsentieren von Virtuelle-Realität(VR)-Inhalt; einem System zum Generieren oder Präsentieren von Erweiterte-Realität(AR)-Inhalt; einem System zum Generieren oder Präsentieren von Gemischte-Realität(MR)-Inhalt; einem System, das eine oder mehrere virtuelle Maschinen (VMs) einbezieht; einem System zum Durchführen von Operationen für eine konversationelle KI-Anwendung; einem System zum Durchführen von Operationen für eine generative KI-Anwendung; einem System zum Durchführen von Operationen unter Verwendung eines Sprachmodells; einem System zum Durchführen von einer oder mehreren Operationen unter Verwendung eines großen Sprachmodells (LLM); einem System zum Durchführen von einer oder mehreren Operationen unter Verwendung eines Visionssprachmodells (VLM); einem System, das mindestens teilweise in einem Datenzentrum implementiert wird; einem System zum Durchführen von Hardwaretests unter Verwendung von Simulation; einem System zum Durchführen von einer oder mehreren generativen Inhaltsoperationen unter Verwendung eines Sprachmodells; einem System zur Generierung synthetischer Daten; einer Plattform zur kollaborativen Inhaltserstellung für 3D-Assets; oder einem System, das mindestens teilweise unter Verwendung von Cloud-Rechenressourcen implementiert wird.
Ein rechnerimplementiertes Verfahren, das Folgendes umfasst: Erhalten eines Satzes von Begrenzungsrahmen und Labels für ein Bild basierend auf einer Objektliste, die ein oder mehrere identifizierte Objekte, die mindestens teilweise in dem Bild veranschaulicht werden, und ein oder mehrere beschriebene Objekte einschließt, aus einer ersten Beschriftung des Bilds; Bestimmen, für einen ausgewählten Begrenzungsrahmen des Satzes von Begrenzungsrahmen, einer zweiten Beschriftung; Bestimmen, aus der zweiten Beschriftung, eines Begrenzungsrahmenobjekts; Bestimmen, für den ausgewählten Begrenzungsrahmen, einer dritten Beschriftung, basierend auf der ersten Beschriftung; und Generieren einer vierten Beschriftung basierend auf der zweiten Beschriftung, der dritten Beschriftung und dem Begrenzungsrahmenobjekt.
Rechnerimplementiertes Verfahren nach Anspruch 10 , das ferner Folgendes umfasst: Generieren, unter Verwendung einer rohen Beschriftung, die mit dem Bild assoziiert ist, der ersten Beschriftung; und Generieren einer ersten Objektliste basierend auf der ersten Beschriftung.
Rechnerimplementiertes Verfahren nach Anspruch 11 , das ferner Folgendes umfasst: Identifizieren des einen oder der mehreren identifizierten Objekte in dem Bild unter Verwendung eines trainierten Maschinenlernmodells; Generieren einer zweiten Objektliste basierend auf dem einen oder den mehreren identifizierten Objekten; und Generieren der Objektliste basierend auf der ersten Objektliste und der zweiten Objektliste.
Rechnerimplementiertes Verfahren nach einem der Ansprüche 10 bis 12 , das ferner Folgendes umfasst: Bestimmen einer Vielzahl von Begrenzungsrahmen, des ersten Satzes von Begrenzungsrahmen, die ein gemeinsames Label aufweisen; Bestimmen mindestens eines Teils der Vielzahl von Begrenzungsrahmen innerhalb einer Schwellendistanz; und Kombinieren des Teils der Vielzahl von Begrenzungsrahmen innerhalb eines einzelnen Begrenzungsrahmens mit dem gemeinsamen Label.
Rechnerimplementiertes Verfahren nach einem der Ansprüche 10 bis 13 , das ferner Folgendes umfasst: Empfangen eines Prompts, das einem Ausgabeformat für die vierte Beschriftung entspricht.
Rechnerimplementiertes Verfahren nach einem der Ansprüche 10 bis 14 , das ferner Folgendes umfasst: Bestimmen eines ersten Labels, das mit dem ausgewählten Begrenzungsrahmen assoziiert ist; Bestimmen eines zweiten Labels, das mit dem Begrenzungsrahmenobjekt assoziiert ist; Bestimmen, dass eine Ähnlichkeitsmetrik zwischen dem ersten Label und dem zweiten Bildlabel unter einer Schwelle liegt; und Identifizieren der vierten Beschriftung zur Prüfung.
Ein System, das Folgendes umfasst: Verarbeitungsschalttechnik zum Generieren einer Beschriftung für ein Eingabebild basierend auf einem Satz von Regionenbeschriftungen, wobei individuelle Regionenbeschriftungen des Satzes von Regionenbeschriftungen unter Verwendung einer ersten Regionenbeschriftung basierend auf einem gelabelten Begrenzungsrahmen für ein Objekt innerhalb des Bilds und einer zweiten Regionenbeschriftung basierend auf einer globalen Beschreibung des Bilds generiert werden.
System nach Anspruch 16 , wobei die eine oder die mehreren Verarbeitungseinheiten ferner Folgendem dienen: Generieren einer Objektliste für das Eingabebild basierend auf einer ersten Objektliste, die einer ersten Ausgabe für ein Objekterkennungsmodell entspricht, und einer zweiten Objektliste, die einer zweiten Ausgabe für ein großes Sprachmodell entspricht.
System nach Anspruch 17 , wobei das Objekterkennungsmodell das Eingabebild verarbeitet und das große Sprachmodell eine Bildbeschriftung verarbeitet, die durch ein Visionssprachmodell basierend auf dem Eingabebild und rohen Beschriftungsdaten generiert wird.
System nach einem der Ansprüche 16 bis 18 , wobei die eine oder die mehreren Verarbeitungseinheiten ferner Folgendem dienen: Bereitstellen der Beschriftung für eine Human-in-the-Loop-Prüfungsengine reagierend auf dem Bestimmen, dass eine Ähnlichkeitsmetrik zwischen gelabelten Objekten in dem Eingabebild unter einer Schwelle liegt.
System nach einem der Ansprüche 16 bis 19 , wobei das System in mindestens einem von Folgendem umfasst ist: einem System zum Durchführen von Simulationsoperationen; einem System zum Durchführen von Simulationsoperationen zum Testen oder Validieren von autonomen Maschinenanwendungen; einem System zum Durchführen von digitalen Twinning-Operationen; einem System zum Durchführen von einer Lichttransportsimulation; einem System zum Rendern einer grafischen Ausgabe; einem System zum Durchführen von Deep-Learning-Operationen; einem System, das unter Verwendung eines Edge-Geräts implementiert einem; einem System zum Generieren oder Präsentieren von Virtuelle-Realität(VR)-Inhalt; einem System zum Generieren oder Präsentieren von Erweiterte-Realität(AR)-Inhalt; einem System zum Generieren oder Präsentieren von Gemischte-Realität(MR)-Inhalt; einem System, das eine oder mehrere virtuelle Maschinen (VMs) einbezieht; einem System zum Durchführen von Operationen für eine konversationelle KI-Anwendung; einem System zum Durchführen von Operationen für eine generative KI-Anwendung; einem System zum Durchführen von Operationen unter Verwendung eines Sprachmodells; einem System zum Durchführen von einer oder mehreren Operationen unter Verwendung eines großen Sprachmodells (LLM); einem System zum Durchführen von einer oder mehreren Operationen unter Verwendung eines Visionssprachmodells (VLM); einem System, das mindestens teilweise in einem Datenzentrum implementiert wird; einem System zum Durchführen von Hardwaretests unter Verwendung von Simulation; einem System zum Durchführen von einer oder mehreren generativen Inhaltsoperationen unter Verwendung eines Sprachmodells; einem System zur Generierung synthetischer Daten; einer Plattform zur kollaborativen Inhaltserstellung für 3D-Assets; oder einem System, das mindestens teilweise unter Verwendung von Cloud-Rechenressourcen implementiert wird.

Description

ALLGEMEINER STAND DER TECHNIK Das Annotieren dichter Bilder ist ein langsamer Prozess und häufig fehleranfällig wenn er auf unterschiedliche automatisierte Systeme ausgeladen wird. Automatisierte Systeme können eine holistische Beschreibung einer Szene bereitstellen, die innerhalb eines Bilds gezeigt wird, können aber keine Objektebenendetails oder reichhaltigen Informationen bereitstellen. Als Resultat werden häufig detaillierte Beschriftungen von menschlichen Prüfern bereitgestellt, die Kontext in die Beschriftungen für konkrete Regionen, Gruppierungen oder Objekte innerhalb eines Bilds einbeziehen können. Mit großen Datensätzen kann es für Menschen unpraktisch sein, die Beschriftungen zu generieren, und werden nur teilweise Beschriftungen mit existierenden Systemen bereitgestellt, wird es möglicherweise nicht gelingen, alle Elemente eines Bilds zu beschreiben, was außerdem zeit- und arbeitsintensiv ist. KURZBESCHREIBUNG DER ZEICHNUNGEN Verschiedene Ausführungsformen in Übereinstimmung mit der vorliegenden Offenbarung werden unter Bezugnahme auf die Zeichnungen beschrieben, wobei:1 eine beispielhafte Umgebung für die Beschriftungsgenerierung in Übereinstimmung mit verschiedenen Ausführungsformen illustriert;2A eine beispielhafte Umgebung für das Generieren von BildebenenBeschriftungen unter Verwendung roher Beschriftungsinformationen in Übereinstimmung mit verschiedenen Ausführungsformen illustriert;2B eine beispielhafte Repräsentation einer generierten Bildebenen-Beschriftung in Übereinstimmung mit verschiedenen Ausführungsformen illustriert;3A eine beispielhafte Umgebung für das Generieren von Bildern einschließlich Begrenzungsrahmenvorschlägen, in Übereinstimmung mit verschiedenen Ausführungsformen illustriert;3B eine beispielhafte Repräsentation einer Objektliste, die aus einem Objektdetektionssystem und einem großen Sprachmodell generiert wird, in Übereinstimmung mit verschiedenen Ausführungsformen illustriert;3C eine beispielhafte Repräsentation eines Bilds, einschließlich Begrenzungsrahmenvorschlägen, in Übereinstimmung mit verschiedenen Ausführungsformen illustriert;3D eine beispielhafte Repräsentation eines zusammengefügten Begrenzungsrahmens in Übereinstimmung mit verschiedenen Ausführungsformen illustriert;4A eine beispielhafte Umgebung für das Generieren von Beschriftungen mit infundierten globalen Beschriftungsinformationen in Übereinstimmung mit verschiedenen Ausführungsformen illustriert;4B eine beispielhafte Repräsentation von Region-von-Interesse-Beschriftungen in Übereinstimmung mit verschiedenen Ausführungsformen illustriert;4C eine beispielhafte Repräsentation einer detektierten Objektliste in Übereinstimmung mit verschiedenen Ausführungsformen illustriert;4D eine beispielhafte Repräsentation einer Beschriftung mit infundierten globalen Beschriftungsinformationen in Übereinstimmung mit verschiedenen Ausführungsformen illustriert;4E eine beispielhafte Repräsentation einer Human-in-the-Loop-Prüfungsengine für eine Beschriftung in Übereinstimmung mit verschiedenen Ausführungsformen illustriert;5A einen beispielhaften Prozess für das Generieren einer zusammengefügten Beschriftung mit infundiertem globalem Kontext in Übereinstimmung mit verschiedenen Ausführungsformen illustriert;5B einen beispielhaften Prozess für das Generieren einer zusammengefügten Beschriftung mit infundiertem globalem Kontext in Übereinstimmung mit verschiedenen Ausführungsformen illustriert;6 Komponenten eines verteilten Systems, das zum Aktualisieren oder Durchführen von Inferenzierung unter Verwendung eines Maschinenlernmodells genutzt werden kann, gemäß mindestens einer Ausführungsform illustriert;7A Inferenz- und/oder Trainingslogik gemäß mindestens einer Ausführungsform illustriert;7B Inferenz- und/oder Trainingslogik gemäß mindestens einer Ausführungsform illustriert;8 ein beispielhaftes Datenzentrumssystem gemäß mindestens einer Ausführungsform illustriert;9 ein Rechnersystem gemäß mindestens einer Ausführungsform illustriert;10 ein Rechnersystem gemäß mindestens einer Ausführungsform illustriert;11 mindestens Teile eines Grafikprozessors gemäß einer oder mehrerer Ausführungsformen illustriert;12 mindestens Teile eines Grafikprozessors gemäß einer oder mehreren Ausführungsformen illustriert;13 eine beispielhafte Datenflussdarstellung für eine fortschrittliche Rechenpipeline in Übereinstimmung mit mindestens einer Ausführungsform ist;14 eine Systemdarstellung für ein beispielhaftes System zum Trainieren, Adaptieren, Instanziieren und Einsetzen von Maschinenlernmodellen in einer fortschrittlichen Rechenpipeline in Übereinstimmung mit mindestens einer Ausführungsform ist;15A und 15B eine Datenflussdarstellung für einen Prozess zum Trainieren eines Maschinenlernmodells sowie Client-Server-Architektur zum Verbessern von Annotationstools mit vortrainierten Annotationsmodellen in Übereinstimmung mit mindestens einer Ausführungsform illustrieren;16A eine Blockdarstellung eines beispielhaften generativen Sprachmodellsy