DE-102025144641-A1 - MERKMALSERKENNUNGSMODELLE FÜR AUTONOME UND HALBAUTONOME SYSTEME UND ANWENDUNGEN

DE102025144641A1DE 102025144641 A1DE102025144641 A1DE 102025144641A1DE-102025144641-A1

Abstract

In verschiedenen Beispielen werden hier Merkmalserkennungsmodelle für autonome und/oder halbautonome Systeme und Anwendungen beschrieben. Hier beschriebene Systeme und Verfahren können ein oder mehrere trainierte Maschinenlernmodelle verwenden, um Darstellungen von Verkehrsmerkmalen, die einer Karte entsprechen, automatisch zu generieren, wie z. B. Straßenmarkierungen und/oder Straßenränder. Das eine oder die mehreren Modelle können beispielsweise als Eingabe ein Bild nehmen, das mindestens einen Abschnitt einer Karte darstellt, die ein oder mehrere Verkehrsmerkmale zusammen mit einem oder mehreren Hinweisen auf einen oder mehrere Punkte, die dem einen oder den mehreren Verkehrsmerkmalen, wie durch das Bild dargestellt, zugeordnet sind. Basierend mindestens auf der Verarbeitung der Eingaben können das eine oder die mehreren Modelle Daten generieren und/oder ausgeben, die zusätzliche Punkte darstellen, die dem einen oder den mehreren Verkehrsmerkmalen zugeordnet sind, und/oder eine Heatmap, die eine oder mehrere Linien darstellt, die das eine oder die mehreren Verkehrsmerkmale darstellt. Diese Ausgabedaten können dann verwendet werden, um die eine oder mehreren Darstellungen des einen oder der mehreren Verkehrsmerkmale zum Annotieren der Karte zu bestimmen.

Inventors

Kezhao CHEN
Ruiqi Zhao
Yujian LI

Assignees

NVIDIA CORPORATION

Dates

Publication Date: 20260507
Application Date: 20251030
Priority Date: 20241101

Claims (20)

Verfahren, umfassend: Generieren eines oder mehrerer Eingabe-Token, die einem oder mehreren ersten Punkten entsprechen, die einer Straßenmarkierung zugeordnet sind, wie durch ein Bild, das einer Karte zugeordnet ist, abgebildet; Generieren eines oder mehrerer Einbettungen, die dem Bild zugeordnet sind; Generieren eines oder mehrerer Maschinenlernmodelle und basierend mindestens auf dem einen oder den mehreren Eingabe-Token und dem einen oder den mehreren Einbettungen, eines oder mehrerer Ausgabe-Token, die einem oder mehreren zweiten Punkten, die der Straßenmarkierung zugeordnet sind, entsprechen; Generieren einer Liniendarstellung der Straßenmarkierung basierend mindestens auf dem einen oder den mehreren zweiten Punkten; und Aktualisieren der Karte, basierend mindestens auf der Liniendarstellung, um ein Label, das der Straßenmarkierung zugeordnet ist, zu enthalten.
Verfahren nach Anspruch 1 , ferner umfassend mindestens eines von Folgendem: Empfangen von Eingabedaten, die dem einen oder den mehreren ersten Punkten, die der Straßenmarkierung zugeordnet sind; entsprechen oder Bestimmen, basierend mindestens auf dem Analysieren von mindestens einer von der Karte oder dem Bild, des einen oder der mehreren ersten Punkte, die der Straßenmarkierung zugeordnet sind.
Verfahren nach Anspruch 1 oder 2 , wobei das Generieren des einen oder der mehreren Ausgabe-Token Folgendes umfasst: Generieren, unter Verwendung des einen oder der mehreren Maschinenlernmodelle und basierend mindestens auf dem einen oder den mehreren Eingabe-Token und dem einen oder den mehreren Einbettungen, eines oder mehrerer erster Ausgabe-Token, die einem ersten Abschnitt des einen oder der mehreren zweiten Punkte entsprechen; und Generieren, unter Verwendung des einen oder der mehreren Maschinenlernmodelle und basierend mindestens auf dem einen oder den mehreren ersten Ausgabe-Token, eines oder mehrerer zweiter Ausgabe-Token, die einem zweiten Abschnitt des einen oder der mehreren zweiten Punkte entsprechen.
Verfahren nach einem der vorhergehenden Ansprüche, ferner umfassend: Generieren, unter Verwendung des einen oder der mehreren Maschinenlernmodelle und basierend mindestens auf dem einen oder den mehreren Eingabe-Token und dem einen oder den mehreren Einbettungen, eines oder mehrerer Bild-Token, die dem Bild zugeordnet sind, wobei das Generieren der Liniendarstellung ferner mindestens auf dem einen oder den mehreren Bild-Token basiert.
Verfahren nach einem der vorhergehenden Ansprüche, ferner umfassend: Anhängen des einen oder der mehreren Eingabe-Token an einen oder mehrere lernbare Token, um einen oder mehrere angehängte Eingabe-Token zu generieren, wobei das Generieren des einen oder der mehreren Eingabe-Token ferner mindestens auf dem einen oder den mehreren angehängten Eingabe-Token und der einen oder den mehreren Einbettungen basiert.
Verfahren nach einem der vorhergehenden Ansprüche, ferner umfassend: Bestimmen, basierend mindestens auf dem einen oder den mehreren Eingabe-Token, einer oder mehrerer Klassifizierungen, die dem einen oder den mehreren zweiten Punkten zugeordnet sind, wobei das Generieren der Liniendarstellung ferner mindestens auf dem einen oder den mehreren Klassifizierungen basiert.
Verfahren nach einem der vorhergehenden Ansprüche, ferner umfassend: Generieren, unter Verwendung eines oder mehrerer Decoder und basierend mindestens auf dem einen oder den mehreren Eingabe-Token, einer oder mehrerer Koordinaten, die dem einen oder den mehreren zweiten Punkten innerhalb des Bildes zugeordnet sind, wobei das Generieren der Liniendarstellung mindestens auf der einen oder den mehreren Koordinaten basiert.
Verfahren nach einem der vorhergehenden Ansprüche, ferner umfassend: Generieren, basierend mindestens auf mindestens einem oder mehreren Ausgabe-Token oder einem oder mehreren Bild-Token, die einem Bild zugeordnet sind, einer Heatmap, die der Straßenmarkierung zugeordnet ist, wobei das Generieren der Liniendarstellung ferner mindestens auf der Heatmap basiert.
Rechenzentrum, umfassend: eine oder mehrere Zentraleinheiten (CPUs); eine oder mehrere Grafikverarbeitungseinheiten (GPUs); eine oder mehrere isolierte vertrauenswürdige Ausführungsumgebungen (TEEs); eine oder mehrere Verbindungen für die Multi-GPU-Kommunikation; eine oder mehrere Datenverarbeitungseinheiten (DPUs); einen oder mehrere Netzwerkschnittstellenchips (NICs); wobei eine oder mehrere Komponenten des Rechenzentrums zu Folgendem dienen: Bestimmen eines oder mehrerer erster Punkte, die einem Verkehrsmerkmal aus einer Sensordatendarstellung zugeordnet sind, die einer Karte entsprechen; Bestimmen, unter Verwendung eines oder mehrerer Maschinenlernmodelle und basierend mindestens auf Eingabedaten, die dem einen oder den mehreren ersten Punkten und der Sensordatendarstellung zugeordnet sind, des einen oder der mehreren zweiten Punkte, die dem Verkehrsmerkmal zugeordnet sind; Generieren einer Darstellung des Verkehrsmerkmals basierend mindestens auf dem einen oder den mehreren zweiten Punkten; und Aktualisieren der Karte, basierend mindestens auf der Darstellung, um Informationen zu enthalten, die dem Verkehrsmerkmal zugeordnet sind.
System nach Anspruch 9 , wobei die eine oder die mehreren Komponenten ferner zu Folgendem dienen: Generieren eines oder mehrerer Eingabe-Token basierend mindestens auf dem einen oder den mehreren ersten Punkten und einer oder mehreren Einbettungen basierend mindestens auf der Sensordatendarstellung, wobei die Eingabedaten dem einen oder den mehreren Eingabe-Token und der einen oder den mehreren Einbettungen zugeordnet sind.
Rechenzentrum nach Anspruch 10 , wobei die eine oder mehreren Komponenten ferner zu Folgendem dienen: Anhängen des einen oder der mehreren Eingabe-Token an einen oder mehrere lernbare Token, um einen oder mehrere angehängte Eingabe-Token zu generieren, wobei die Eingabedaten dem einen oder den mehreren angehängten Eingabe-Token und der einen oder den mehreren Einbettungen zugeordnet ist.
Rechenzentrum nach einem der Ansprüche 9 - 11 , wobei die Bestimmung des einen oder der mehreren zweiten Punkte, die dem Verkehrsmerkmal zugeordnet sind, Folgendes umfasst: Generieren, unter Verwendung des einen oder der mehreren Maschinenlernmodelle und basierend mindestens auf den Eingabedaten, eines oder mehrerer Ausgabe-Token; und Bestimmen, basierend mindestens auf dem einen oder den mehreren Ausgabe-Token, des einen oder der mehreren zweiten Punkte, die dem Verkehrsmerkmal zugeordnet sind.
Rechenzentrum nach einem der Ansprüche 9 bis 12 , wobei die eine oder mehreren Komponenten ferner dazu dienen, mindestens eines von Folgendem durchzuführen: Empfangen einer oder mehrerer Eingaben, die den einen oder die mehreren ersten Punkte darstellen, die dem Verkehrsmerkmal zugeordnet sind; oder Bestimmen, basierend mindestens auf dem Analysieren von mindestens einer der Karte oder der Sensordatendarstellung, des einen oder der mehreren ersten Punkte, die dem Verkehrsmerkmal zugeordnet sind.
Rechenzentrum nach einem der Ansprüche 9 - 13 , wobei das Bestimmen des einen oder der mehreren zweiten Punkte, die dem Verkehrsmerkmal zugeordnet sind, Folgendes umfasst: Bestimmen, unter Verwendung des einen oder der mehreren Maschinenlernmodelle und basierend mindestens auf den Eingabedaten, mindestens eines ersten Abschnitts des einen oder der mehreren zweiten Punkte; und Bestimmen, unter Verwendung des einen oder der mehreren Maschinenlernmodelle und basierend mindestens auf zweiten Eingabedaten, die dem mindestens ersten Abschnitt des einen oder der mehreren zweiten Punkte zugeordnet ist, eines mindestens zweiten Abschnitts des einen oder der mehreren zweiten Punkte.
Rechenzentrum nach einem der Ansprüche 9 - 14 , wobei die eine oder mehreren Komponenten ferner zu Folgendem dienen: Bestimmen, unter Verwendung des einen oder der mehreren Maschinenlernmodelle und basierend mindestens auf den Eingabedaten, einer oder mehrerer Klassifizierungen, die dem einen oder den mehreren zweiten Punkten zugeordnet sind, wobei die Darstellung ferner basierend mindestens auf der einen oder den mehreren Klassifizierungen generiert ist.
Rechenzentrum nach einem der Ansprüche 9 - 15 , wobei die eine oder mehreren Komponenten ferner zu Folgendem dienen: Bestimmen, unter Verwendung des einen oder der mehreren Maschinenlernmodelle und basierend mindestens auf den Eingabedaten, einer Heatmap, die dem Verkehrsmerkmal zugeordnet ist, wobei die Darstellung ferner basierend mindestens auf der Heatmap generiert ist.
Rechenzentrum nach einem der Ansprüche 9 bis 16 , wobei: das Verkehrsmerkmal eine Straßenmarkierung enthält, wie durch die Sensordatendarstellung, die der Karte entspricht, dargestellt; der eine oder die mehreren Prozessoren ferner dazu ausgelegt sind, basierend mindestens auf der Sensordatendarstellung, eine Art von Markierung zu bestimmen, die der Straßenmarkierung zugeordnet ist; und die Karte weiter aktualisiert wird, um die Art der Markierung anzugeben.
Rechenzentrum nach einem der Ansprüche 9 bis 17 , wobei das Rechenzentrum mindestens eines von Folgendem umfasst oder in Verbindung mit einem von Folgendem verwendet wird: einem Steuersystem für eine autonome oder halbautonome Maschine; einem Wahrnehmungssystem für eine autonome oder halbautonome Maschine; einem System zum Durchführen einer oder mehrerer Simulationsoperationen; einem System zum Durchführen einer oder mehrerer Digital-Twin-Operationen; einem System zum Durchführen von Lichttransportsimulationen; einem System zum Durchführen von kollaborativer Erstellung von Inhalten für 3D-Assets; einem System, das eine oder mehrere Cloud-Gaming-Anwendungen bereitstellt; einem System zum Durchführen einer oder mehrerer Deep-Learning-Operationen; einem System, das unter Verwendung eines Edge-Geräts implementiert wird; einem System, das unter Verwendung eines Roboters implementiert wird; einem System zum Durchführen einer oder mehrerer Operationen mit generativer KI; einem System zum Durchführen von Operationen unter Verwendung eines oder mehrerer großer Sprachmodelle (LLMs); einem System zum Durchführen von Operationen unter Verwendung eines oder mehrerer Vision-Sprachmodelle (VLMs); einem System zum Durchführen von Operationen unter Verwendung eines oder mehrerer multimodaler Sprachmodelle; einem System zum Durchführen einer oder mehrerer Operationen mit konversationeller KI; einem System zum Generieren synthetischer Daten; einem System zum Präsentieren von mindestens einem von Virtual Reality-Inhalten, Augmented Reality-Inhalten oder Mixed Reality-Inhalten; Systemen, die ein oder mehrere multimodale Sprachmodelle implementieren; Systemen, die ein oder mehrere Inferenz-Mikrodienste verwenden oder einsetzen; Systemen, die das Einsetzen eines oder mehrerer Maschinenlernmodelle in einem Dienst oder Mikrodienst zusammen mit einem Virtualisierungspaket (z. B. einem Container) auf OS-Ebene beinhalten; einem System, das eine oder mehrere virtuelle Maschinen (VMs) beinhaltet; einem System, das mindestens teilweise in einem Rechenzentrum implementiert ist; oder einem System, das mindestens teilweise unter Verwendung von Cloud-Computing-Ressourcen implementiert ist.
Ein oder mehrere Prozessoren, umfassend: Verarbeiten von Schaltkreisen, um eine Liniendarstellung zu generieren, die einem Verkehrsmerkmal, wie durch eine Karte dargestellt, zugeordnet ist, wobei die Liniendarstellung basierend mindestens auf Folgendem generiert wird: einem oder mehreren Encodern eines oder mehrerer Maschinenlernmodelle, die ein oder mehrere Eingabe-Token, die einem oder mehreren ersten Punkten des Verkehrsmerkmals zugeordnet sind, und eine oder mehrere Bildeinbettungen, die einem Bild des Verkehrsmerkmals zugeordnet sind, generieren; und einem oder mehreren Decodern des einen oder der mehreren Maschinenlernmodelle, die das eine oder die mehreren Eingabe-Token und die eine oder mehreren Einbettungen verarbeiten, um einen oder mehrere zweite Punkte, die der Liniendarstellung zugeordnet sind, zu bestimmen.
Der eine oder die mehreren Prozessoren nach Anspruch 19 , wobei der eine oder die mehreren Prozessoren mindestens eines von Folgendem umfassen: ein Steuersystem für eine autonome oder halbautonome Maschine; ein Wahrnehmungssystem für eine autonome oder halbautonome Maschine; ein System zum Durchführen einer oder mehrerer Simulationsoperationen; ein System zum Durchführen einer oder mehrerer Digital-Twin-Operationen; ein System zum Durchführen von Lichttransportsimulationen; ein System zum Durchführen von kollaborativer Erstellung von Inhalten für 3D-Assets; ein System, das eine oder mehrere Cloud-Gaming-Anwendungen bereitstellt; ein System zum Durchführen einer oder mehrerer Deep-Learning-Operationen; ein System, das unter Verwendung eines Edge-Geräts implementiert wird; ein System, das unter Verwendung eines Roboters implementiert wird; ein System zum Durchführen einer oder mehrerer Operationen mit generativer KI; ein System zum Durchführen von Operationen unter Verwendung eines oder mehrerer großer Sprachmodelle (LLMs); ein System zum Durchführen von Operationen unter Verwendung eines oder mehrerer Vision-Sprachmodelle (VLMs); ein System zum Durchführen von Operationen unter Verwendung eines oder mehrerer multimodaler Sprachmodelle; ein System zum Durchführen einer oder mehrerer Operationen mit konversationeller KI; ein System zum Generieren synthetischer Daten; ein System zum Präsentieren von mindestens einem von Virtual Reality-Inhalten, Augmented Reality-Inhalten oder Mixed Reality-Inhalten; Systeme, die ein oder mehrere multimodale Sprachmodelle implementieren; Systeme, die ein oder mehrere Inferenz-Mikrodienste verwenden oder einsetzen; Systeme, die das Einsetzen eines oder mehrerer Maschinenlernmodelle in einem Dienst oder Mikrodienst zusammen mit einem Virtualisierungspaket (z. B. einem Container) auf OS-Ebene beinhalten; ein System, das eine oder mehrere virtuelle Maschinen (VMs) beinhaltet; ein System, das mindestens teilweise in einem Rechenzentrum implementiert ist; oder ein System, das mindestens teilweise unter Verwendung von Cloud-Computing-Ressourcen implementiert ist.

Description

HINTERGRUND Damit Fahrzeuge (z. B. autonome Fahrzeuge, halbautonome Fahrzeuge, Roboter usw.) in Umgebungen sicher betrieben werden können, müssen die Fahrzeuge dazu in der Lage sein, Fahrzeugmanöver wirksam durchzuführen, wie z. B. Fahrspurhaltung, Fahrspurwechsel, Fahrspurteilung, Abbiegemanöver, Anhalten und Anfahren an Kreuzungen, Fußgängerübergänge und dergleichen und/oder andere Fahrzeuge oder Maschinenmanöver. Damit ein Fahrzeug beispielsweise durch Straßen, die sich auf derselben Ebene wie die Umgebung befinden (z. B. städtische Straßen, Seitenstraßen, Nachbarschaftsstraßen usw.) und auf Autobahnen (z. B. mehrspurigen Straßen) navigieren kann, muss das Fahrzeug zwischen einer oder mehreren Unterteilungen oder Abgrenzungen (z. B. Fahrspuren, Kreuzungen, Fußgängerübergängen, Begrenzungen usw.) einer Straße navigieren, die häufig unter Verwendung von Verkehrsmerkmalen, wie z. B. Straßenmarkierungen, die Pfeile, Text, Grafiken und/oder andere Arten von Inhalten enthalten, markiert sind. Daher ist es wichtig, dass die Fahrzeuge die Verkehrsmerkmale innerhalb der Umgebungen erkennen können, damit die Fahrzeuge bestimmen können, wie sie gemäß den Regeln, die den Verkehrsmerkmalen zugeordnet sind, navigieren sollen. Um Verkehrsmerkmale zu erkennen, können Fahrzeuge mindestens teilweise Karten verwenden, die den Umgebungen entsprechen, in denen die Fahrzeuge navigieren. Beispielsweise können die Karten annotiert werden, um die Positionen wichtiger Verkehrsmerkmale anzugeben, die die Fahrzeuge beim Navigieren identifizieren müssen, wie z. B. Straßenränder, Straßenmarkierungen, Verkehrszeichen und/oder so weiter. Einige herkömmliche Ansätze zum Annotieren solcher Karten enthalten Benutzer, die verschiedene Abschnitte der Karte betrachten, um die Labels für die Verkehrsmerkmale manuell einzugeben. Ein Benutzer kann beispielsweise die Position einer Straßenmarkierung manuell angeben, indem er eine Anzahl von Punkten, die sich entlang der Straßenmarkierung befinden, wie z. B. Hunderte und/oder Tausende von Punkten, für eine gegebene Länge der Straßenmarkierung auswählt. Das Veranlassen, dass Benutzer die Positionen von Verkehrsmerkmalen, wie durch Karten dargestellt, manuell angeben, kann jedoch zeitaufwendig sein, anfällig für Benutzerfehler sein und/oder eine große Menge an Rechenressourcen (verschiedener Benutzervorrichtungen) erfordern. Daher und insbesondere für die Straßenmarkierung können andere herkömmliche Ansätze Curve Fitting Funktionen verwenden, um vorhandene Straßenmarkierungen, die bereits auf Karten annotiert sind, zu verbinden. Wenn Benutzer beispielsweise bereits einen ersten Abschnitt einer Straßenmarkierung und einen separaten, zweiten Abschnitt der Straßenmarkierung annotiert haben, werden diese herkömmlichen Ansätze die beiden Abschnitte der Straßenmarkierung nur unter Verwendung einer Curve Fitting Funktion aneinander befestigen. Durch die bloße Verwendung von Curve Fitting Funktionen zum Verbinden vorhandener Straßenmarkierungen können diese herkömmlichen Ansätze jedoch in Bezug auf eine gerade Straßenmarkierung genau sein, aber für Straßenmarkierungen, die eine oder mehrere Kurven enthalten, ungenau sein. Da diese herkömmlichen Ansätze zusätzlich auf einer Gesamtheit einer Karte operieren, können sich die generierten Annotationen für die Straßenmarkierungen nicht ausrichten, wenn die Karte in Unterabschnitte (z. B. Bilder) segmentiert ist, wie z. B. zum Bereitstellen der Karte für Fahrzeuge zum Navigieren. KURZDARSTELLUNG Die Erfindung ist durch die Ansprüche definiert. Zum Veranschaulichen der Erfindung werden Aspekte und Ausführungsformen, die in den Schutzumfang der Ansprüche fallen können oder nicht, hierin beschrieben. Ausführungsformen der vorliegenden Offenbarung beziehen sich auf Merkmalserkennungsmodelle für autonome oder halbautonome Systeme und Anwendungen. Hier beschriebene Systeme und Verfahren können ein oder mehrere trainierte Maschinenlernmodelle (das eine oder die mehreren Modelle) verwenden, um Darstellungen von Verkehrsmerkmalen, die einer Karte entsprechen, automatisch zu generieren, wie z. B. Straßenmarkierungen und/oder Straßenränder. Das eine oder die mehreren Modelle können beispielsweise als Eingabe ein Bild nehmen, das mindestens einen Abschnitt einer Karte darstellt, die ein oder mehrere Verkehrsmerkmale zusammen mit einem oder mehreren Hinweisen auf einen oder mehrere Punkte (z. B. einen oder mehrere Prompts) enthält, die dem einen oder den mehreren Verkehrsmerkmalen, wie durch das Bild dargestellt, zugeordnet sind. Basierend mindestens auf der Verarbeitung der Eingaben können das eine oder die mehreren Modelle Daten generieren und/oder ausgeben, die zusätzliche Punkte darstellen, die dem einen oder den mehreren Verkehrsmerkmalen zugeordnet sind, und/oder eine Heatmap, die eine oder mehrere Linien darstellt, die dem einen oder den mehreren Verkehrsmerkmalen entsprechen. In einigen Beispielen können das eine oder die mehreren Modelle und/oder eine andere Nachbear