DE-102024210706-A1 - Objektdetektion mit Distanzbestimmung

DE102024210706A1DE 102024210706 A1DE102024210706 A1DE 102024210706A1DE-102024210706-A1

Abstract

Die Erfindung betrifft ein Verfahren, insbesondere computer-implementiertes Verfahren, zur Detektion von Objekten (O) anhand von mittels einer Umgebungserfassungs-Sensoreinheit (1) erfassten Umgebungsdaten und zur Ermittlung einer Distanz (d) der erkannten Objekte (O) von der Umgebungserfassungs-Sensoreinheit (1), wobei das Verfahren die folgenden Verfahrensschritte aufweist: - Empfangen von Bilddaten (B(U,O)) betreffend eine Umgebung (U) der Umgebungserfassungs-Sensoreinheit (U), in welcher sich zumindest ein Objekt (O) befindet, - Detektieren von zumindest einem Objekt (O) in der Umgebung (U) der Umgebungserfassungs-Sensoreinheit (1); - Empfangen von Punktdaten (P(U,O)) in Form einer, insbesondere dreidimensionalen, Punktewolke betreffend die Umgebung (U) der Umgebungserfassungs-Sensoreinheit (1), in welcher sich das zumindest eine Objekt (O) befindet, - Ermitteln einer Superposition (SP(B,P)) der Punktdaten (P(U,O)) und Bilddaten (B(U,O)), - Bestimmen einer Objekt-Teilmenge (OT(P,O)) der Punktdaten (P(U,O)), welche Objekt-Teilmenge (OT(P,O)) Punktdaten betreffend das Objekt (O) enthält, anhand der Superposition (SP(B,P)); - Ermitteln der Distanz (d) des Objekts (O) anhand der Objekt-Teilmenge (SP(B,P)), und - Ausgeben des Objekts (O) und der Distanz (d) des Objekts (O) von der Umgebungserfassungs-Sensoreinheit (1).

Inventors

Armin Staudenmaier
Karl Matthias Nacken

Assignees

AUMOVIO AUTONOMOUS MOBILITY GERMANY GMBH

Dates

Publication Date: 20260507
Application Date: 20241107

Claims (15)

Verfahren, insbesondere computer-implementiertes Verfahren, zur Detektion von Objekten (O) anhand von mittels einer Umgebungserfassungs-Sensoreinheit (1) erfassten Umgebungsdaten und zur Ermittlung einer Distanz (d) der erkannten Objekte (O) von der Umgebungserfassungs-Sensoreinheit (1), wobei das Verfahren die folgenden Verfahrensschritte aufweist: - Empfangen von Bilddaten (B(U,O)) betreffend eine Umgebung (U) der Umgebungserfassungs-Sensoreinheit (U), in welcher sich zumindest ein Objekt (O) befindet, - Detektieren von zumindest einem Objekt (O) in der Umgebung (U) der Umgebungserfassungs-Sensoreinheit (1); - Empfangen von Punktdaten (P(U,O)) in Form einer, insbesondere dreidimensionalen, Punktewolke betreffend die Umgebung (U) der Umgebungserfassungs-Sensoreinheit (1), in welcher sich das zumindest eine Objekt (O) befindet, - Ermitteln einer Superposition (SP(B,P)) der Punktdaten (P(U,O)) und Bilddaten (B(U,O)), - Bestimmen einer Objekt-Teilmenge (OT(P,O)) der Punktdaten (P(U,O)), welche Objekt-Teilmenge (OT(P,O)) Punktdaten betreffend das Objekt (O) enthält, anhand der Superposition (SP(B,P)); - Ermitteln der Distanz (d) des Objekts (O) anhand der Objekt-Teilmenge (SP(B,P)), und - Ausgeben des Objekts (O) und der Distanz (d) des Objekts (O) von der Umgebungserfassungs-Sensoreinheit (1).
Verfahren nach Anspruch 1 , wobei die Umgebungserfassungs-Sensoreinheit (1) zumindest zwei Sensoren umfasst, insbesondere wobei ein erster Sensor (1a) eine Kamera ist und wobei ein zweiter Sensor (1b) ein LiDAR-Sensor oder ein Radarsensor ist.
Verfahren nach Anspruch 1 oder 2 , wobei das zumindest eine Objekt (O) mittels eines Objektdetektors detektiert wird.
Verfahren nach einem der vorherigen Ansprüche, wobei das Ermitteln einer Superposition (SP(B,P)) der (P(U,O)) und Bilddaten (B(U,O)) eine Projektion der Punktdaten (P(U,O)) in die Bilddaten (B(U,O)) beinhaltet.
Verfahren nach einem der vorherigen Ansprüche, wobei das Bestimmen der Objekt-Teilmenge (OT(P,O)) das Ermitteln einer Häufigkeitsverteilung (H) der Punktdaten (P(U,O)) in der Superposition (SP(B,P)) als Funktion einer Position innerhalb der Superposition (SP(B,P)) beinhaltet.
Verfahren nach Anspruch 5 , wobei ein lokales und/oder globales Maximum der Häufigkeitsverteilung (H) ermittelt und dem zumindest einen Objekt (O) zugeordnet wird.
Verfahren nach einem der vorherigen Ansprüche, wobei anhand der Objekt-Teilmenge (OT(P,O)) eine Höhe (h) des Objekts (O) ermittelt wird.
Verfahren nach einem der vorherigen Ansprüche, wobei das Objekt (O), die Distanz (d) des Objekts (O) von der Umgebungserfassungs-Sensoreinheit (1) und insbesondere die Höhe (h) des Objekts (O) zur Durchführung einer Hinderniserkennung für ein Fahrzeug verwendet werden.
Verfahren nach einem der vorherigen Ansprüche, wobei eine Orientierung (or) des Objekts (O) ermittelt wird.
Verfahren nach Anspruch 9 , wobei eine Vielzahl von virtuellen Projektionsgeraden (p) in einem vorgebbaren Winkelintervall vorgegeben wird, welche Projektionsgeraden (p) insbesondere parallel zu einer Längsrichtung der Superposition (SP(B,P)) ausgerichtet sind, und welche Projektionsgeraden (p) mit einem Raster versehen werden, wobei die Objekt-Teilmenge (OT(P,O)) auf jede der Projektionsgeraden (p) projiziert wird, wobei ermittelt wird, für welche Projektionsgerade (p) die meisten Punkte der Objektteilmenge (OT(P,O)) in einem einzigen Rasterabschnitt liegen, und wobei die Orientierung (or) des Objekts (O) anhand der Projektionsgeraden (p), für welche die meisten Punkte der Objekt-Teilmenge (OT(P,O)) in einem einzigen Rasterabschnitt liegen, bestimmt wird.
Verfahren nach Anspruch 9 oder 10 , wobei die Orientierung (or) des Objekts (O) mittels eines neuronalen Netztes (NN) ermittelt wird, welches neuronale Netz (NN) dazu ausgestaltet ist, anhand der Objekt-Teilmenge (OT(P,O)) und/oder anhand zumindest einer Teilmenge der Bilddaten (B(U,O), insbesondere einer Teilmenge der Bilddaten (B(U,O), welche einem Begrenzungsrahmen (BR) für das Objekt (O) entsprechen, die Orientierung (or) des Objekts (O) zu ermitteln.
Verfahren nach einem der vorherigen Ansprüche, wobei jeder Datenpunkt der Punktdaten (P(U,O), welcher einem Objekt (O) entspricht, mit einem Label versehen wird, wobei das Label eine Objektklasse des Objekts sowie eine Pose für das Objekt (O) im dreidimensionalen Raum enthält.
Trainings-Daten-Set umfassend Punktdaten (P(U,O) und/oder Bilddaten (B(U,O) einer Umgebungserfassungs-Sensoreinheit (1) und zugehörige Indikationen, wobei die Indikationen zumindest eine Objektklasse für jedes enthaltene Objekt (O) und eine zugehörige Pose des Objekts (O) beinhalten, und wobei die zumindest eine Objektklasse und/oder die zugehörige Pose des Objekts (O) mittels eines Verfahrens nach einem der vorherigen Ansprüche ermittelt wird.
Computerprogramm mit Anweisungen, die, wenn das Computerprogramm von einem Computer ausgeführt wird, den Computer veranlassen, das Verfahren nach einem der Ansprüche 1 - 12 auszuführen, oder Computerprogrammprodukt, auf welchem das Computerprogramm gespeichert ist.
Verwendung des Verfahrens nach zumindest einem der Ansprüche 1 - 12 für ein Fahrerassistenzsystem oder für ein zumindest teilweise autonom fahrendes Fahrzeug.

Description

Die Erfindung betrifft ein, insbesondere computer-implementiertes, Verfahren zur Detektion von Objekten anhand von mittels einer Umgebungserfassungs-Sensoreinheit erfassten Umgebungsdaten und zur Ermittlung einer Distanz der erkannten Objekte von der Umgebungserfassungs-Sensoreinheit, ein Trainings-Daten-Set umfassend Punktdaten einer Umgebungserfassungs-Sensoreinheit und zugehörige Objektklassen und/oder Posen, ein Computerprogramm sowie ein Computerprogrammprodukt. Zur Objektdetektion und/oder Objektklassifikation werden typischerweise Eingangsdaten von Sensoren, beispielsweise Eingangsdaten, welche Informationen zu den zu detektierenden und klassifizierenden Objekten enthalten, auf das Vorhandensein verschiedener vorgebbarer Merkmale untersucht und diese Merkmale ggf. bestimmten Objektklassen zugeordnet. In diesem Zusammenhang sind viele unterschiedliche Verfahren und insbesondere auch zahlreiche Ansätze aus dem Bereich des maschinellen Lernens zur Objekterkennung bekannt geworden. Die Zuordnung zu einer Objektklasse erfolgt beispielsweise unter Zuhilfenahme einer Aktivierungsfunktion, mit welcher bestimmte Wertebereiche für die detektierten Merkmale definiert werden können. Beispielsweise wird eine Objektdetektion und/oder -klassifikation in vielen Fällen in Zusammenhang mit Fahrerassistenzsystemen (engl. advanced driver assistance system, ADAS) durchgeführt, bei denen beispielsweise neuronale Netze für die Verarbeitung von Input-Daten verschiedener Sensoren bzw. Umgebungserfassungssensoren, beispielsweise Radar-, Lidar- oder Ultraschallsensoren, sowie auch Kameras, eingesetzt werden. Von den ADAS-Systemen typischerweise bereitgestellte ADAS-Funktionen basieren häufig auf vorangegangenen Objektklassifikationen und können einerseits zur Unterstützung des Fahrers dienen, während die Kontrolle über das Fahren des Fahrzeugs weiterhin beim Fahrer verbleibt, oder es kann in Abhängigkeit des Automatisierungsgrades ein vollständig automatisiertes Fahren realisiert werden. Beispiele für ADAS-Funktionen sind verschiedene Verfahren zum Erkennen von Objekten oder Hindernissen auf der Fahrbahn, Verfahren zum Erkennen von Fahrbahnbegrenzungen und/oder zum Halten des Fahrzeugs in einer Spur, Verfahren zum Erkennen von Regen auf der Windschutzscheibe, oder auch Verfahren zur Unterstützung oder Durchführung eines Parkvorgangs. Um in Eingangsdaten Objekte sowie deren Koordinaten zu ermitteln, sind in Abhängigkeit der jeweils verwendeten Umgebungserfassungssensoren verschiedene Verfahren bekannt geworden, welche auf der Verarbeitung von Punktewolken basieren, wie zum Beispiel die in „Real-Aug: Realistic Scene Synthesis for LiDAR Augmentation in 3D Object Detection“ aus 2023 von J. Zhan et al, verfügbar auf arXiv, doi: arXiv:2305.12853, in „PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space“ aus 2017 von C. R. Qi et al., verfügbar auf arXiv, doi: arXiv: 1706.02413, oder in „VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection“ aus 2017 von Y. Zhou et al., ebenfalls verfügbar auf arXiv, doi: arXiv:1711.06396 beschriebenen Verfahren. Objektdetektoren, welche auf Eingangsdaten in Form von Punktewolken basieren, haben häufig Probleme mit einer abnehmenden Datendichte im Fernbereich. Dies führt zu fehlerbehafteten oder falschen Objektdetektionen oder Objektklassifizierungen, vor allem im Fernbereich. Zudem ist eine räumliche Annotation von Trainingsdatensets zum Trainieren der jeweiligen Objektdetektoren sehr zeitintensiv und komplex. Im Fernbereich ist darüber hinaus eine Annotation teilweise gar nicht möglich, da nicht ausreichend strukturelle Informationen vorhanden sind. Zudem sind entsprechende Verfahren, welche auf Eingangsdaten in Form von Punktewolken basieren, nicht robust, was unter anderem an einer Adaptation von sensorspezifischen Scan- und Rauschmustern während der Trainingsphase und einer daraus folgenden Einschränkung einer Generalisierungsperformance des jeweiligen Objektdetektors führt. Darüber hinaus sind Verfahren, bei denen Eingangsdaten von LiDAR-Sensoren und Kameras kombiniert werden, bekannt geworden, wie z. B. das in „SparseLIF: High-Performance Sparse LiDAR-Camera Fusion for 3D Object Detection“ von H. Zhang et al aus 2024, verfügbar auf arXiv, doi: arXiv:2403.07284 beschriebene Verfahren. Bei der Verwendung von gridbasierten Merkmalen zur Objektdetektion wiederum kommt es zu einem vergleichbar hohen Speicheraufwand derart, dass typischerweise eine Abwägung zwischen gewünschter Reichweite und einer vorgenommenen Diskretisierung vorgenommen werden muss. Möglichkeiten zur 3D räumlich orientierten Objektdetektion basierend auf 2D bildbasierten Detektionen wurden beispielsweise in „Frustum VoxNet for 3D object detection from RGB-D or Depth images“, 2019, von X. Shen, verfügbar auf arXiv, doi: arXiv:1910.05483, oder in „Frustum PointNets for 3D Object Detection from RGB-D Dat“, 2017, von C. R. Qi, verfügbar auf arXiv, doi: arXiv:1711.08488v2 offenbart. Auch hier