DE-102025145256-A1 - VERKEHRSLICHTKLASSIFIZIERUNG FÜR AUTONOME UND HALBAUTONOME SYSTEME UND ANWENDUNGEN

DE102025145256A1DE 102025145256 A1DE102025145256 A1DE 102025145256A1DE-102025145256-A1

Abstract

In verschiedenen Beispielen können die Systeme und Verfahren der vorliegenden Offenbarung maschinelle Lernmodelle trainieren und verwenden, um Attribute und in einigen Fällen Klassifizierungen im Zusammenhang mit Verkehrslichtem zu bestimmen, um Verkehrsregeln für den Betrieb einer Maschine (z. B. einer autonomen oder halbautonomen Maschine oder eines autonomen oder halbautonomen Fahrzeugs) in einer Umgebung zu bestimmen. Beispielsweise kann ein Bild, das eine Verkehrslichtvorrichtung darstellt, auf ein maschinelles Lernmodell angewendet werden, das eine Vielzahl von Komponenten-Heads umfasst. Jeder der Komponenten-Heads kann trainiert werden, um verschiedene Attribute und/oder Kombinationen von Attributen zu erkennen, die der Verkehrslichtvorrichtung zugeordnet sind. Zusätzlich kann das maschinelle Lernmodell in einigen Beispielen einen Fusions-Head umfassen, der darauf trainiert ist, die Verkehrslichtvorrichtung zu klassifizieren. Beispielsweise kann der Fusions-Head die Verkehrslichtvorrichtung unter Verwendung der erkannten Attribute und/oder unter Verwendung eines kombinierten Merkmalsvektors aus mehreren Merkmalsvektoren, die auf die Vielzahl von Komponenten-Heads angewendet werden, klassifizieren.

Inventors

Rui Shen
Dong Zhang

Assignees

NVIDIA CORPORATION

Dates

Publication Date: 20260507
Application Date: 20251104
Priority Date: 20241105

Claims (20)

Verfahren, umfassend: Anwenden von Bilddaten, die ein Bild darstellen, das eine oder mehrere Verkehrslichtvorrichtungen zeigt, als Eingabe für ein oder mehrere tiefe neuronale Netze (DNN); Bestimmen eines oder mehrerer Attribute, die einer oder mehreren Verkehrslichtvorrichtungen zugeordnet sind, unter Verwendung eines oder mehrerer Komponenten-Heads des einen oder mehreren DNN; Bestimmen einer oder mehrerer Klassifizierungen, die der einen oder mehreren Verkehrslichtvorrichtungen zugeordnet sind, unter Verwendung eines Fusions-Heads des einen oder mehreren DNN und basierend auf mindestens einem oder mehreren Attributen; und Veranlassen einer Maschine, einen oder mehrere Steuerungsvorgänge basierend auf mindestens einem aus dem einen oder mehreren Attributen oder der einen oder mehreren Klassifizierungen, die der einen oder mehreren Verkehrslichtvorrichtungen zugeordnet sind, durchzuführen.
Verfahren nach Anspruch 1 , wobei das eine oder mehrere Attribute, die der einen oder mehreren Verkehrslichtvorrichtungen zugeordnet sind, mindestens eines der folgenden Elemente umfassen: eine oder mehrere Ausrichtungen der einen oder mehreren Verkehrslichtvorrichtungen; eine oder mehrere Gehäuseformen der einen oder mehreren Verkehrslichtvorrichtungen; eine oder mehrere aktive Leuchtmittelfarben der einen oder mehreren Verkehrslichtvorrichtungen; oder eine oder mehrere aktive Leuchtmittelformen der einen oder mehreren Verkehrslichtvorrichtungen.
Verfahren nach Anspruch 1 oder 2 , wobei der eine oder mehrere Komponenten-Heads mindestens einen Komponenten-Head umfassen, der dazu ausgebildet ist, eine Kombination von erfassten Attributen, die der einen oder mehreren Verkehrslichtvorrichtungen zugeordnet sind, auszugeben.
Verfahren nach Anspruch 3 , wobei die erfassten Attribute der Kombination mindestens eine oder mehrere Farb- und Formkombinationen eines oder mehrerer aktiver Leuchtmittel der einen oder mehreren Verkehrslichtvorrichtungen umfassen.
Verfahren nach einem der vorstehenden Ansprüche, wobei die eine oder mehreren Klassifizierungen, die der einen oder mehreren Verkehrslichtvorrichtungen zugeordnet sind, mindestens eine Teilmenge der einen oder mehreren Attribute umfassen, wobei die eine oder mehreren Klassifizierungen unter Verwendung des Fusions-Heads basierend auf zumindest einer Kombination der einen oder mehreren Attribute bestimmt werden.
Verfahren nach einem der vorstehenden Ansprüche, ferner umfassend: Erzeugen eines oder mehrerer Komponentenmerkmalvektoren, die der einen oder mehreren Verkehrslichtvorrichtungen entsprechen, die in dem Bild dargestellt sind, basierend auf mindestens einem oder mehreren DNNs, die die Bilddaten verarbeiten, wobei: das eine oder mehreren Attribute unter Verwendung des einen oder mehreren Komponenten-Heads basierend auf zumindest einem Anwenden des einen oder mehreren Komponentenmerkmalsvektoren an dem einen oder mehreren Komponenten-Heads bestimmt werden, und die eine oder mehrere Eigenschaften unter Verwendung des Fusions-Heads basierend auf zumindest einem Anwenden eines kombinierten Merkmalsvektors, der eine Kombination des einen oder mehreren Komponentenmerkmalsvektoren enthält, an dem Fusions-Head bestimmt werden.
Verfahren nach einem der vorstehenden Ansprüche, wobei der eine oder mehrere Komponenten-Heads mindestens einen ersten Komponenten-Head und einen zweiten Komponenten-Head umfassen, wobei der erste Komponenten-Head ein oder mehrere erste Attribute der einen oder mehreren Verkehrslichtvorrichtungen klassifiziert und der zweite Komponenten-Head ein oder mehrere zweite Attribute der einen oder mehreren Verkehrslichtvorrichtungen klassifiziert.
System, umfassend: einen oder mehrere Prozessoren zum: Bestimmen von ersten Daten, die einem oder mehreren ersten Attributen, die der Verkehrslichtvorrichtung zugeordnet sind, entsprechen, basierend auf mindestens einer oder mehreren ersten Schichten eines maschinellen Lernmodells, das Sensordaten verarbeitet, die unter Verwendung eines oder mehrerer Sensoren mit Sichtfeldern oder Sensorfeldern, die eine Verkehrslichtvorrichtung umfassen, erlangt werden; Bestimmen von zweiten Daten, die einem oder mehreren zweiten Attributen, die der Verkehrslichtvorrichtung zugeordnet sind, entsprechen, basierend auf mindestens einer oder mehreren zweiten Schichten des maschinellen Lernmodells, das die ersten Daten verarbeitet; und Durchführen einer oder mehrerer Operationen, die einer Maschine zugeordnet sind, basierend auf mindestens einem aus dem einen oder mehreren ersten Attributen oder dem einen oder mehreren zweiten Attributen.
System nach Anspruch 8 , wobei mindestens eines der einen oder mehreren ersten Attribute oder der einen oder mehreren zweiten Attribute mindestens eines umfassen aus: einer Ausrichtung der Verkehrslichtvorrichtung; einer Gehäuseform der Verkehrslichtvorrichtung; aktive Leuchtmittelfarben der Verkehrslichtvorrichtung; aktive Leuchtmittelformen der Verkehrslichtvorrichtung; einer Leuchtmittelzahl der Verkehrslichtvorrichtung; einem Verkehrsteilnehmer der Verkehrslichtvorrichtung; oder einem Blinkzustand der Verkehrslichtvorrichtung.
System nach Anspruch 8 oder 9 , wobei der eine oder mehrere Prozessoren ferner ausgebildet zum: Bestimmen einer Klassifizierung, die der Verkehrslichtvorrichtung zugeordnet ist, unter Verwendung einer oder mehrerer Fusionsschichten des maschinellen Lernmodells, wobei die Durchführung der einen oder mehreren Operationen, die der Maschine zugeordnet sind, ferner zumindest auf der Klassifizierung basiert.
System nach Anspruch 10 , wobei die Bestimmung der Klassifizierung, die der Verkehrslichtvorrichtung zugeordnet ist, auf einer Kombination basiert aus zumindest einem aus: dem einen oder mehreren ersten Attributen und dem einen oder mehreren zweiten Attributen; oder einem ersten Merkmalsvektor und einem oder mehreren zweiten Merkmalsvektoren, wobei der erste Merkmalsvektor als Eingabe für die eine oder mehreren ersten Schichten und der eine oder mehrere zweite Merkmalsvektoren als Eingabe für die eine oder mehreren zweiten Schichten verwendet werden.
System nach einem der Ansprüche 8 bis 11 nach , wobei das eine oder mehrere erste Attribute, die unter Verwendung der einen oder mehreren ersten Schichten bestimmt werden, mindestens eine oder mehrere Farb- und Formkombinationen eines oder mehrerer aktiver Leuchtmittel der Verkehrslichtvorrichtung umfassen.
System nach einem der Ansprüche 8 bis 12 , wobei mindestens eines aus dem einen oder mehreren ersten Attributen oder dem einen oder mehreren zweiten Attributen eine oder mehrere Gehäuseformen umfassen, die der Verkehrslichtvorrichtung zugeordnet sind, wobei die eine oder mehreren Gehäuseformen mindestens einer entsprechen aus: einer vertikalen Gehäuseform; einer horizontalen Gehäuseform; einer Hundehütten-Gehäuseform; oder einer Hybrid-Lichtsignal-Gehäuseform für Fußgänger.
System nach einem der Ansprüche 8 bis 13 , wobei das maschinelle Lernmodell durch mindestens eines trainiert wird aus: Erfassen eines Bildes, das eine zweite Verkehrslichtvorrichtung darstellt; Aktualisieren eines oder mehrerer Teile des Bildes, um ein aktualisiertes Bild zu erzeugen, das die zweite Verkehrslichtvorrichtung mit einem oder mehreren aktualisierten Attributen darstellt; und Aktualisieren eines oder mehrerer Parameter, die der einen oder mehreren ersten Schichten oder der einen oder mehreren zweiten Schichten des maschinellen Lernmodells zugeordnet sind, basierend auf zumindest einem Anwenden des aktualisierten Bildes als eine Trainingseingabe in das maschinelle Lernmodell.
System nach einem der Ansprüche 8 bis 14 , wobei das System in mindestens einem enthalten ist aus: einem Steuerungssystem für eine autonome oder halbautonome Maschine; einem Wahrnehmungssystem für eine autonome oder halbautonome Maschine; einem System zum Ausführen einer oder mehrerer Simulationsvorgänge; einem System zur Durchführung eines oder mehrerer digitaler Zwillingsvorgänge; einem System zur Durchführung einer Lichttransportsimulation; einem System zur Durchführung der gemeinsamen Erstellung von Inhalten für 3D-Assets; einem System zur Durchführung einer oder mehrerer Deep-Learning-Vorgänge; einem System, das unter Verwendung einer Edge-Vorrichtung implementiert ist; einem System, das unter Verwendung eines Roboters implementiert ist; einem System zur Durchführung einer oder mehrerer generativer KI-Vorgänge; einem System zur Durchführung von Vorgängen unter Verwendung eines großen Sprachmodells; einem System zur Durchführung von Vorgängen unter Verwendung eines oder mehrerer Vision-Sprachmodelle (VLMs); einem System zur Durchführung von Vorgängen unter Verwendung eines oder mehrerer multimodaler Sprachmodelle; einem System zur Verwendung oder Bereitstellung eines oder mehrerer Inferenz-Mikroservices; einem System zur Durchführung einer oder mehrerer dialogorientierter KI-Vorgänge; einem System zum Generieren synthetischer Daten; einem System zum Präsentieren von zumindest Virtual-Reality-Inhalten, Augmented-Reality-Inhalten oder Mixed-Reality-Inhalten; einem System, das eine oder mehrere virtuelle Maschinen (VMs) umfasst; einem System, das zumindest teilweise in einem Rechenzentrum implementiert ist; oder einem System, das zumindest teilweise unter Verwendung von Cloud-Computing-Ressourcen implementiert ist.
Ein oder mehrere Prozessoren, umfassend: eine Verarbeitungsschaltung zum Ausführen einer oder mehrerer Vorgänge, die einer Maschine entsprechen, basierend auf mindestens einem oder mehreren Attributen, die einer ersten Verkehrslichtvorrichtung zugeordnet sind, wobei das eine oder mehrere Attribute unter Verwendung eines oder mehrerer maschineller Lernmodelle bestimmt werden, wobei das eine oder mehrere maschinelle Lernmodelle durch mindestens eines trainiert werden aus: Erlangen eines Bildes, das eine zweite Verkehrslichtvorrichtung mit einem oder mehreren ersten Attributen darstellt; Aktualisieren eines oder mehrerer Teile des Bildes, um ein aktualisiertes Bild zu erzeugen, wobei das aktualisierte Bild die zweite Verkehrslichtvorrichtung mit einem oder mehreren zweiten Attributen darstellt; und Aktualisieren eines oder mehrerer Parameter, die einem oder mehreren Komponenten-Heads des einen oder mehreren maschinellen Lernmodellen zugeordnet sind, basierend auf zumindest einem Anwenden des aktualisierten Bildes als Trainingseingabe in das eine oder mehrere maschinellen Lernmodelle.
Ein oder mehrere Prozessoren nach Anspruch 16 , wobei das Aktualisieren des einen oder mehrerer Teile des Bildes zum Erzeugen des aktualisierten Bildes ein Modifizieren eines oder mehrerer Werte eines oder mehrerer Pixel des Bildes, die einem oder mehreren aktiven Leuchtmitteln der zweiten Verkehrslichtvorrichtung entsprechen, umfasst, wobei der eine oder mehrere Werte derart modifiziert werden, dass das eine oder mehrere aktive Leuchtmittel als nicht aktive Leuchtmittel in dem aktualisierten Bild dargestellt werden.
Ein oder mehrere Prozessoren nach Anspruch 16 oder 17 , wobei das Bild die zweite Verkehrslichtvorrichtung in einem ersten Zustand darstellt, und das Aktualisieren des einen oder mehrerer Teile des Bildes zum Erzeugen des aktualisierten Bildes, ein Aktualisieren des Bildes derart umfasst, dass das aktualisierte Bild die zweite Verkehrslichtvorrichtung in einem zweiten Zustand darstellt, der sich vom ersten Zustand unterscheidet.
Ein oder mehrere Prozessoren nach einem der Ansprüche 16 bis 18 , wobei das Aktualisieren des einen oder mehrerer Teile des Bildes zum Erzeugen des aktualisierten Bildes mindestens eines der folgenden umfasst: Aktualisieren einer oder mehrerer Formen eines oder mehrerer Leuchtmittel der zweiten Verkehrslichtvorrichtung; Aktualisieren einer Ausrichtung der zweiten Verkehrslichtvorrichtung; Aktualisieren einer Gehäuseform der zweiten Verkehrslichtvorrichtung; oder Aktualisieren einer Anzahl von Leuchtmitteln, die mit der zweiten Verkehrslichtvorrichtung verbunden sind.
Ein oder mehrere Prozessoren nach einem der Ansprüche 16 bis 19 , wobei der eine oder mehrere Prozessoren in mindestens einem enthalten sind aus: einem Steuerungssystem für eine autonome oder halbautonome Maschine; einem Wahrnehmungssystem für eine autonome oder halbautonome Maschine; einem System zum Ausführen einer oder mehrerer Simulationsvorgänge; einem System zur Durchführung eines oder mehrerer Digital-Twin-Vorgänge; einem System zur Durchführung einer Lichttransportsimulation; einem System zur Durchführung einer gemeinsamen Erstellung von Inhalten für 3D-Assets; einem System zur Durchführung einer oder mehrerer Deep-Learning-Vorgänge; einem System, das unter Verwendung einer Edge-Vorrichtung implementiert ist; einem System, das unter Verwendung eines Roboters implementiert ist; einem System zur Durchführung einer oder mehrerer generativer KI-Vorgänge; einem System zur Durchführung von Vorgängen unter Verwendung eines großen Sprachmodells; einem System zur Durchführung von Vorgängen unter Verwendung eines oder mehrerer Vision-Sprachmodelle (VLMs); einem System zur Durchführung von Vorgängen unter Verwendung eines oder mehrerer multimodaler Sprachmodelle; einem System zur Verwendung oder Bereitstellung eines oder mehrerer Inferenz-Mikroservices; einem System zur Durchführung einer oder mehrerer dialogorientierter KI-Vorgängen; einem System zur Erzeugung synthetischer Daten; einem System zum Präsentieren von zumindest Virtual-Reality-Inhalten, Augmented-Reality-Inhalten oder Mixed-Reality-Inhalten; einem System, das eine oder mehrere virtuelle Maschinen (VMs) umfasst; einem System, das zumindest teilweise in einem Rechenzentrum implementiert ist; oder einem System, das zumindest teilweise unter Verwendung von Cloud-Computing-Ressourcen implementiert ist.

Description

HINTERGRUND Damit ein autonomes oder halbautonomes Fahrzeug sicher durch eine Umgebung navigieren kann, muss es unter Umständen in der Lage sein, den Status von Ampeln bzw. Verkehrslichtem korrekt zu bestimmen. Diese Fähigkeit kann dazu beitragen, dass das Fahrzeug die an einem bestimmten Ort oder einer bestimmten Kreuzung geltenden Verkehrsregeln versteht. Die physischen Eigenschaften (z. B. das Aussehen) von Verkehrslichtern variieren jedoch in der Regel von einer geografischen Region zur anderen. So können Verkehrslichter in verschiedenen geografischen Regionen unterschiedliche Formen, Ausrichtungen, Anzahlen von Leuchtmitteln, Farben von Leuchtmitteln, Formen von Leuchtmitteln und/oder andere physikalische Merkmale aufweisen. Daher kann es in einer Vielzahl von Szenarien schwierig sein, die durch den Zustand eines bestimmten Verkehrslichts übermittelten Verkehrsregeln korrekt zu identifizieren. KURZFASSUNG Die Erfindung wird durch die Ansprüche definiert. Zur Veranschaulichung der Erfindung werden hier Aspekte und Ausführungsformen beschrieben, die unter den Geltungsbereich der Ansprüche fallen können oder auch nicht. Ausführungsformen der vorliegenden Offenbarung beziehen sich auf die Klassifizierung von Verkehrslichtem bzw. Ampeln für autonome oder halbautonome Systeme und Anwendungen. Es werden Systeme und Verfahren offenbart, die maschinelle Lernmodelle trainieren und verwenden können, um Attribute und in einigen Fällen Klassifizierungen im Zusammenhang mit Verkehrslichtem zu bestimmen, um Verkehrsregeln für den Betrieb einer Maschine (z. B. einer autonomen oder halbautonomen Maschine oder eines autonomen oder halbautonomen Fahrzeugs) in einer Umgebung festzulegen. Beispielsweise kann ein Bild, das eine Verkehrslichtvorrichtung darstellt, auf ein maschinelles Lernmodell angewendet werden, das eine Vielzahl von Komponenten-Heads umfasst. Jeder Komponenten-Head der Vielzahl von Komponenten-Heads kann trainiert werden, um verschiedene Attribute und/oder Kombinationen von Attributen zu erkennen, die mit der Verkehrslichtvorrichtung verbunden sind, wie z. B. aktive Leuchtmittelfarben und/oder -formen, Anzahl der Leuchtmittel, Gehäuseausrichtung und/oder andere Attribute. In einigen Beispielen kann das maschinelle Lernmodell einen Fusions-Head umfassen, der darauf trainiert ist, die Verkehrslichtvorrichtung zu klassifizieren. Der Fusions-Head kann beispielsweise die Verkehrslichtvorrichtung unter Verwendung der erkannten Attribute oder Einbettungen aus der Vielzahl von Komponenten-Heads und/oder unter Verwendung eines kombinierten Merkmalsvektors aus mehreren Merkmalsvektoren, die auf die Vielzahl von Komponenten-Heads angewendet werden, klassifizieren. Unter Verwendung der erkannten Attribute und/oder der Klassifizierung der Verkehrslichtvorrichtung können die Systeme der vorliegenden Offenbarung die Maschine veranlassen, einen oder mehrere Steuerungsvorgänge auszuführen. Im Gegensatz zu herkömmlichen Systemen sind die Systeme der vorliegenden Offenbarung in einigen Ausführungsformen in der Lage, eine Mehrkomponenten-Architektur für maschinelles Lernen zu verwenden, um jede Komponente zu klassifizieren (wobei beispielsweise jede Komponente ein oder mehrere Attribute eines Verkehrslichts darstellen kann), und in einigen Fällen einen Fusions-Heads bzw. Klassifikators zu verwenden, um die Merkmale aus jedem Komponenten-Head zu fusionieren, um eine endgültige Klasse des Verkehrslichts vorherzusagen. Beispielsweise können die Systeme der vorliegenden Offenbarung ein Mehrkomponenten-Modell für maschinelles Lernen verwenden, um ein Verkehrslicht in mehrere Komponenten zu zerlegen, wobei der aktive Leuchtmittelzustand eine der Komponenten sein kann, und dann kann ein Fusions-Head innerhalb des Modells verwendet werden, um die endgültige Verkehrslichtklasse durch Kombinieren all dieser Komponenten vorherzusagen, was in einigen Fällen Gegenprüfungen zwischen Komponenten und das Entfernen oder Reduzieren der Nachbearbeitung ermöglicht. Darüber hinaus können die Systeme der vorliegenden Offenbarung im Gegensatz zu herkömmlichen Systemen während des Trainings für jedes Negativbeispiel implizite negative Trainingsziele auf die maschinellen Lernmodelle anwenden und die Negativbeispiele einer gleichmäßigen Verteilung zuordnen, wodurch die Modelle gültige Beispiele besser von unbekannten oder ungültigen Beispielen unterscheiden können, wodurch falsch-positive Aktivierungen in jeder Komponente und bei der Fusion reduziert werden. Weitere Merkmale der Offenbarung sind durch die unabhängigen und abhängigen Ansprüche gekennzeichnet. Jedes Merkmal in einem Aspekt der Offenbarung kann in jeder geeigneten Kombination auf andere Aspekte der Offenbarung angewendet werden. Insbesondere können Verfahren auf Geräte- oder Systemaspekte angewendet werden und umgekehrt. Darüber hinaus können in Hardware implementierte Merkmale in Software implementiert werden und umgekehrt. Jeder Verweis auf Software- und Hardwaremerkmale in dieser Bes