Search

DE-102025145259-A1 - VERARBEITUNG VON ZWISCHENDARSTELLUNGSDATEN FUR BILDANSICHTEN, DIE MIT STEREO-DISPARITÄTSDATEN ERZEUGT WERDEN

DE102025145259A1DE 102025145259 A1DE102025145259 A1DE 102025145259A1DE-102025145259-A1

Abstract

Die hier vorgestellten Ansätze ermöglichen die Erzeugung alternativer Ansichten aus Disparitätsdaten, die für ein oder mehrere Objekte in einer Szene erfasst wurden. Die Erzeugung kann unter Verwendung eines eingebetteten Prozessors mit DMA-Speicherzugriff oder anderer Hardware mit begrenzter Kapazität erfolgen. Es kann eine Zwischendarstellung erzeugt werden, die eine 2D-Histogrammansicht der Disparitätsdaten darstellt. Diese Zwischendarstellung kann unter Verwendung des eingebetteten Prozessors in ein alternatives Ansichtsbild, beispielsweise ein Bild aus der Vogelperspektive, umgewandelt werden. Morphologische oder ähnliche Filterungen können für das eine oder mehrere Objekte in der Zwischendarstellung unter Verwendung eines Filters gleicher Größe durchgeführt werden, unabhängig von der Entfernung von einer Kameraebene, die zur Erfassung der Disparitätsdaten verwendet wird.

Inventors

  • Branislav Kisacanin
  • Ching Hung

Assignees

  • NVIDIA CORPORATION

Dates

Publication Date
20260507
Application Date
20251104
Priority Date
20241105

Claims (20)

  1. System, aufweisend: mindestens einen eingebetteten Prozessor mit Direktspeicherzugriffsfunktion (DMA) zum: Erzeugen einer zweidimensionalen (2D) Histogrammansicht eines oder mehrerer Objekte in einer Umgebung, die teilweise auf Disparitätsdaten für das eine oder die mehreren Objekte basiert, wobei die zweidimensionale Histogrammansicht eine Funktion des Winkels und der Entfernung mindestens einer Kamera ist, die zum Erzeugen der Stereo-Disparitätsdaten verwendet wird; Auswählen eines Filters mit einer einzigen Form und Größe, der unabhängig von den jeweiligen Abständen der einzelnen Objekte zu einer Kameraebene der mindestens einen Kamera verwendet wird; Durchführen einer morphologischen Filterung des einen oder der mehreren Objekte im 2D-Histogrammbild unter Verwendung des Filters der angegebenen Größe; und Umwandeln der 2D-Histogrammansicht nach der morphologischen Filterung in ein alternatives Ansichtsbild des einen oder der mehreren Objekte.
  2. System nach Anspruch 1 , wobei die 2D-Histogrammansicht eine Zwischendarstellung ist und wobei die alternativen Ansichtsbilder ein Vogelperspektivenbild des einen oder der mehreren Objekte sind, das durch Umwandeln der Zwischendarstellung erzeugt wird.
  3. System nach Anspruch 1 oder 2 , wobei der mindestens eine eingebettete Prozessor keinen Zugriff auf einen vollständigen Satz der in einem externen Speicher gespeicherten Disparitätsdaten hat, um diese zur Erzeugung des alternativen Ansichtsbildes zu verwenden.
  4. System nach einem der vorhergehenden Ansprüche, wobei das System außerdem unter Verwendung von Bilddaten, die mit der mindestens einen Kamera erfasst wurden, die Disparitätsdaten bestimmt.
  5. System nach einem der vorhergehenden Ansprüche, wobei die mindestens eine Kamera mindestens eine stereoskopische Kameraeinheit, ein Paar aufeinander abgestimmter Kamerasensoren oder einen Tiefensensor umfasst.
  6. System nach einem der vorhergehenden Ansprüche, wobei die alternative Bildansicht teilweise dadurch erzeugt wird, dass eine Liste von Objektzentren und Statistiken unter Verwendung der 2D-Histogrammansicht erzeugt und die Liste in eine entsprechende Liste in einem Koordinatensystem des Bildes der alternativen Ansicht umgewandelt wird.
  7. System nach Anspruch 6 , wobei die Objektzentren unter Verwendung von Positionen in der 2D-Histogrammansicht berechnet werden, für die unter Verwendung eines Algorithmus von verbundenen Komponenten mit dem mindestens einen eingebetteten Prozessor eine Zuordnung zu dem einen oder den mehreren Objekten identifiziert wird.
  8. System nach einem der vorhergehenden Ansprüche, wobei der mindestens eine eingebettete Prozessor ferner dazu ausgebildet ist, die 2D-Histogrammansicht zu verwenden, um eine Bewegung des einen oder der mehreren Objekte abzuschätzen, ohne einen Abstand des einen oder der mehreren Objekte von einer Kameraebene der mindestens einen Kamera bestimmen zu müssen.
  9. System nach Anspruch 8 , wobei die Bewegung unter Verwendung einer optischen Flusskarte mit der 2D-Histogrammansicht und unter Verwendung von Informationen aus einer Kameraansicht, die zur Erzeugung der Disparitätsdaten verwendet wird, geschätzt wird.
  10. System nach einem der vorhergehenden Ansprüche, wobei das System mindestens eines aufweist aus: einem System zum Durchführen von Simulationsoperationen; einem System zum Durchführen von Simulationsvorgängen zum Testen oder Validieren autonomer Maschinenanwendungen; einem System zum Durchführen von Digital-Twin-Operationen; einem System zum Durchführen von Lichttransportsimulationen; einem System zum Rendern von grafischen Ausgaben; einem System zum Durchführen von Deep-Learning-Operationen; einem System zum Durchführen generativer KI-Operationen unter Verwendung eines großen Sprachmodells (LLM), einem System zur Durchführung generativer KI-Operationen unter Verwendung eines Bildverarbeitungs-Sprachmodells (VLM), einem System zum Ausführen generativer KI-Operationen unter Verwendung eines multimodalen Sprachmodells (MMLM); einem System zum Bereitstellen eines oder mehrerer Sprachmodelle unter Verwendung eines Virtualisierungscontainers auf Betriebssystemebene (OS), der mit dem einen oder den mehreren Sprachmodellen über eine oder mehrere Anwendungsprogrammierschnittstellen (APIs) kommuniziert; einem System, das mit einem Edge-Gerät umgesetzt wird; einem System zum Erzeugen oder Präsentieren von Virtual-Reality-Inhalten (VR); einem System zum Erzeugen oder Präsentieren von Augmented-Reality-Inhalten (AR); einem System zum Erzeugen oder Präsentieren von Mixed-Reality-Inhalten (MR); einem System, das eine oder mehrere virtuelle Maschinen (VMs) umfasst; einem System, das zumindest teilweise in einem Rechenzentrum implementiert ist; einem System zum Durchführen von Hardwaretests mittels Simulation; einem System zur Erzeugung synthetischer Daten; einer Plattform für die gemeinsame Erstellung von Inhalten für 3D-Assets; oder einem System, das zumindest teilweise unter Verwendung von Cloud-Computing-Ressourcen implementiert ist.
  11. Mindestens ein eingebetteter Prozessor mit Direktspeicherzugriffsfunktion (DMA), der dazu ausgebildet ist, ein alternatives Bild zu erzeugen durch Erzeugung eines Zwischenhistogramms als Funktion eines Winkels aus Disparitätsdaten für eine Szene, ein oder mehrere Objekte im Zwischenhistogramm unter Verwendung einer einzigen Filtergröße unabhängig von einer Entfernung von einer Kameraebene zu filtern, und das Zwischenhistogramm in das alternative Bild umzuwandeln.
  12. Mindestens ein eingebetteter Prozessor nach Anspruch 11 , wobei der mindestens eine eingebettete Prozessor ferner dazu ausgebildet ist, eine Analyse von verbundenen Komponenten an dem Zwischenhistogramm durchzuführen, um Pixelpositionen, die dem einen oder den mehreren Objekten zugeordnet sind, zu identifizieren.
  13. Mindestens ein eingebetteter Prozessor nach Anspruch 12 , wobei der mindestens eine eingebettete Prozessor ferner dazu ausgebildet ist, eine Liste von Objektzentren und Statistiken für das eine oder die mehreren Objekte unter Verwendung der Zwischenhistogrammansicht zu erzeugen, und die Liste in eine entsprechende Liste in einem Koordinatensystem des Vogelperspektivenbildes umzuwandeln.
  14. Mindestens ein eingebetteter Prozessor nach einem der Ansprüche 11 bis 13 , wobei der mindestens eine eingebettete Prozessor keinen Zugriff auf einen vollständigen Satz von Bilddaten hat, die in einem externen Speicher gespeichert sind, um sie zur Erzeugung des Zwischenhistogramms oder des Vogelperspektivenbildes zu verwenden.
  15. Mindestens ein eingebetteter Prozessor nach einem der Ansprüche 11 bis 14 , wobei das Filtern ein Erosionsfiltern und ein Dilatationsfiltern von Darstellungen in dem Zwischenhistogramm des einen oder der mehreren Objekte umfasst.
  16. Mindestens ein eingebetteter Prozessor nach einem der Ansprüche 11 bis 15 , wobei der mindestens eine eingebettete Prozessor in mindestens einem enthalten ist aus: einem System zum Durchführen von Simulationsoperationen; einem System zum Durchführen von Simulationsoperationen zum Testen oder Validieren autonomer Maschinenanwendungen; einem System zum Durchführen von Digital-Twin-Operationen; einem System zum Durchführen einer Lichttransportsimulation; einem System zum Rendern grafischer Ausgaben; einem System zum Durchführen von Deep-Learning-Operationen; einem System, das unter Verwendung einer Edge-Vorrichtung implementiert ist; einem System zum Erzeugen oder Präsentieren von Virtual-Reality-Inhalten (VR); einem System zum Erzeugen oder Präsentieren von Augmented-Reality-Inhalten (AR); einem System zum Erzeugen oder Präsentieren von Mixed-Reality-Inhalten (MR); einem System, das eine oder mehrere virtuelle Maschinen (VMs) umfasst; einem System, das zumindest teilweise in einem Rechenzentrum implementiert ist; einem System zum Durchführen von Hardwaretests mithilfe von Simulationen; einem System zur Erzeugung synthetischer Daten; einem System zum Durchführen generativer KI-Operationen unter Verwendung eines großen Sprachmodells (LLM), einem System zur Durchführung generativer KI-Operationen unter Verwendung eines Bildverarbeitungsmodells (VLM), einem System zur Durchführung generativer KI-Operationen unter Verwendung eines multimodalen Sprachmodells (MMLM); einem System zum Einsatz von einem oder mehreren Sprachmodellen mit einem Virtualisierungscontainer auf Betriebssystemebene, der über eine oder mehrere Anwendungsprogrammierschnittstellen (APIs) mit dem einen oder den mehreren Sprachmodellen kommuniziert; einer Plattform für die gemeinsame Erstellung von Inhalten für 3D-Assets; oder einem System, das zumindest teilweise unter Verwendung von Cloud-Computing-Ressourcen implementiert ist.
  17. Computerimplementiertes Verfahren, aufweisend: Erzeugen einer zweidimensionalen (2D) Histogrammansicht von einem oder mehreren Objekten in einer Umgebung, teilweise basierend auf Disparitätsdaten für das eine oder die mehreren Objekte, unter Verwendung eines eingebetteten Prozessors mit DMA-Speicherzugriff, wobei die zweidimensionale Histogrammansicht eine Funktion eines Winkels von mindestens einer Kamera ist, die zum Erzeugen der Stereo-Disparitätsdaten verwendet wird; Auswählen eines Filters mit einer einzigen Form und Größe, der unabhängig von den jeweiligen Abständen der einzelnen Objekte zu einer Kameraebene der mindestens einen Kamera verwendet wird; Durchführen einer morphologischen Filterung des einen oder der mehreren Objekte in dem 2D-Histogrammbild unter Verwendung des Filters der spezifizierten Größe; und Umwandeln der 2D-Histogrammansicht in ein alternatives Ansichtsbild des einen oder der mehreren Objekte unter Verwendung des eingebetteten Prozessors, nach der morphologischen Filterung.
  18. Computerimplementiertes Verfahren nach Anspruch 17 , wobei der eingebettete Prozessor keinen Zugriff auf einen externen Speicher hat, um diesen zur Erzeugung der 2D-Histogrammansicht oder des alternativen Ansichtsbildes zu verwenden.
  19. Computerimplementiertes Verfahren nach Anspruch 17 oder 18 , ferner aufweisend: Auswählen der Filtergröße teilweise basierend auf einer Datenübertragungsgrenze des DMA-Speicherzugriffs und einer Auflösung der Disparitätsdaten.
  20. Computerimplementiertes Verfahren nach einem der Ansprüche 17 bis 19 , ferner aufweisend: Durchführen einer Analyse von verbundenen Komponenten an der Zwischenhistogrammdarstellung unter Verwendung des eingebetteten Prozessors, um Orte, die dem einen oder den mehreren Objekten zugeordnet sind, zu identifizieren; Erzeugen einer Liste von Objektzentren und Statistiken für das eine oder die mehreren Objekte aus der Zwischenhistogrammdarstellung unter Verwendung des eingebetteten Prozessors; und Umwandeln der Liste in eine entsprechende Liste in einem Koordinatensystem des alternativen Ansichtsbildes unter Verwendung des eingebetteten Prozessors.

Description

TECHNISCHES GEBIET Diese Offenbarung betrifft die Umwandlung von Bilddaten zwischen verschiedenen Ansichten oder Darstellungen, insbesondere in einer oder mehreren nicht einschränkenden Ausführungsformen die Erzeugung einer Zwischenbilddarstellung aus einem Satz von Disparitätsdaten, die eine Verarbeitung und Umwandlung unter Verwendung von Ressourcen mit begrenzter Kapazität ermöglicht. HINTERGRUND Bei verschiedenen Rechenoperationen muss man die Positionen verschiedener Objekte in einer Szene oder einem geografischen Gebiet bestimmen. Dazu kann zum Beispiel die Analyse von aufgenommenen Bildinformationen gehören, um Aufgaben wie Navigation, Lokalisierung, kontrollierte Interaktion und Kollisionsvermeidung für Roboter und autonome oder halbautonome Fahrzeuge oder Maschinen zu unterstützen. Die Durchführung von Vorgängen wie Bilderkennung und Computervision kann erhebliche Ressourcen erfordern, darunter die Möglichkeit, auf Speicher mit ausreichender Kapazität zuzugreifen, um ein gesamtes Bild zu speichern. Aufgaben wie die Erzeugung einer Vogelperspektive (BEV) einer Szene aus aufgenommenen Disparitätsdaten können mit begrenzten Ressourcen, wie eingebetteten Prozessoren ohne Zugriff auf externen Speicher, schwierig oder sogar unmöglich zu bewältigen sein. Darüber hinaus gibt es Aufgaben wie morphologische Filterung und Bewegungsanalyse, die ressourcenintensiv sind, wenn sie auf Vogelperspektivenbildern durchgeführt werden müssen, bei denen Objekte in unterschiedlichen Entfernungen unterschiedliche Qualitätsstufen oder Mengen an aufgenommenen Informationen aufweisen können. KURZFASSUNG Die Erfindung wird durch die Ansprüche definiert. Um die Erfindung zu veranschaulichen, werden hier Aspekte und Ausführungsformen beschrieben, die unter den Anspruch fallen können oder auch nicht. Die hier vorgestellten Ansätze ermöglichen die Erzeugung alternativer Ansichten aus Disparitätsdaten, die für ein oder mehrere Objekte in einer Szene erfasst wurden. Die Erzeugung kann mit einem eingebetteten Prozessor mit DMA-Speicherzugriff oder anderer Hardware mit begrenzter Kapazität durchgeführt werden. Es kann eine Zwischendarstellung erzeugt werden, die eine 2D-Histogrammansicht der Disparitätsdaten ist. Diese Zwischendarstellung kann mit dem eingebetteten Prozessor in ein alternatives Ansichtsbild, wie z. B. ein Bild aus der Vogelperspektive, umgewandelt werden. Eine morphologische oder ähnliche Filterung kann für das eine oder mehrere Objekte in der Zwischendarstellung unter Verwendung eines Filters gleicher Größe durchgeführt werden, unabhängig von der Entfernung von einer Kameraebene, die zur Erfassung der Disparitätsdaten verwendet wird. Weitere Merkmale der Offenbarung sind durch die unabhängigen und abhängigen Ansprüche gekennzeichnet. Jedes Merkmal in einem Aspekt der Offenbarung kann in jeder geeigneten Kombination auf andere Aspekte der Offenbarung angewendet werden. Insbesondere können Verfahren auf Geräte- oder Systemaspekte angewendet werden und umgekehrt. Außerdem können in Hardware implementierte Merkmale in Software implementiert werden und umgekehrt. Jeder Verweis auf Software- und Hardwaremerkmale in dieser Beschreibung sollte entsprechend ausgelegt werden. Jedes hierin beschriebene System- oder Gerätemerkmal kann auch als Verfahren bereitgestellt werden und umgekehrt. Funktional beschriebene System- und/oder Geräteaspekte (einschließlich Mittel-plus-Funktionsmerkmalen) können alternativ in Bezug auf ihre entsprechende Struktur ausgedrückt werden, beispielsweise als ein entsprechend programmierter Prozessor und zugehöriger Speicher. Es sollte auch beachtet werden, dass bestimmte Kombinationen der verschiedenen Merkmale, die in beliebigen Aspekten der Offenbarung beschrieben und definiert sind, unabhängig voneinander implementiert und/oder bereitgestellt und/oder verwendet werden können. Die Offenbarung umfasst auch Computerprogramme und Computerprogrammprodukte, die Softwarecode enthalten, der so angepasst ist, dass er bei Ausführung auf einem Datenverarbeitungsgerät jedes der Verfahren ausführt und/oder jedes der hier beschriebenen Geräte- und Systemmerkmale verkörpert, einschließlich aller oder eines Teils der einzelnen Schritte eines Verfahrens. Die Offenbarung stellt auch einen Computer oder ein Computersystem (einschließlich vernetzter oder verteilter Systeme) mit einem Betriebssystem bereit, das ein Computerprogramm unterstützt, um jedes der hier beschriebenen Verfahren auszuführen und/oder jedes der hier beschriebenen Geräte- oder Systemmerkmale zu verkörpern. Die Offenbarung stellt auch ein computerlesbares Medium bereit, auf dem eines oder mehrere der oben genannten Computerprogramme gespeichert sind. Die Offenbarung umfasst auch ein Signal, das eines oder mehrere der oben genannten Computerprogramme enthält. Die Offenbarung erstreckt sich auf Verfahren und/oder Vorrichtungen und/oder Systeme, wie sie hier unter Bezugnahme auf die beigefügten Zeichnungen beschrieben sind. Aspekte und Ausführungsfor