DE-102022112317-B4 - Verfahren zur Ermittlung einer dreidimensionalen Ausdehnungsinformation eines Zielobjekts, Kraftfahrzeug, Computerprogramm und elektronisch lesbarer Datenträger

DE102022112317B4DE 102022112317 B4DE102022112317 B4DE 102022112317B4DE-102022112317-B4

Abstract

Verfahren zur Ermittlung einer dreidimensionalen Ausdehnungsinformation eines Zielobjekts (2, 12, 22), insbesondere eines Fahrzeugs, aus einem das Zielobjekt (2, 12, 22) zeigenden, zweidimensionalen Kamerabild (1, 11, 21), welches mit einer Kamera (39), die intrinsisch und extrinsisch bezüglich eines die Kamera (39) tragenden Egoobjekts, insbesondere Kraftfahrzeugs (38), kalibriert ist, aufgenommen wird, wobei aus einer Bodeninformation zu der dreidimensionalen Lage der Bodenebene (30) unter dem Zielobjekt (2, 12, 22) zu der Kamera (39) und einer durch Auswertung des Kamerabildes (1, 11, 21) mittels eines Auswertungsalgorithmus ermittelten, zumindest ein das Zielobjekt (2, 12, 22) in dem Kamerabild (1, 11, 21) einschließendes Rechteck (4, 14, 24) beschreibenden zweidimensionalen Auswertungsinformation die dreidimensionale Ausdehnungsinformation bestimmt wird, wobei - als Teil der Auswertungsinformation zusätzlich eine die Orientierung des Zielobjekts (2, 12, 22) für wenigstens eine vertikal verlaufende Seite des Zielobjekts (2, 12, 22) an deren unterem Rand in dem Kamerabild (1, 11, 21) anzeigende Orientierungsinformation, insbesondere je nach Bildinhalt des Kamerabildes (1, 11, 21) eine Orientierungslinie (6, 26) oder ein Orientierungspunkt (16), ermittelt wird, und - für wenigstens einen mittels der Orientierungsinformation und des Rechtecks (4, 14, 24) ermittelten Rechenpunkt (31, 33, 35, 36, 37) des Kamerabildes (1, 11, 21) die dreidimensionale Position eines zugeordneten, auf der Bodenebene (30) liegenden Bodeneckpunkts eines das Zielobjekt (2, 12, 22) wenigstens teilweise umschließenden Quaders unter Verwendung eines Aufnahmegeometriemodells der Kamera (39) ermittelt wird und daraus die Ausdehnungsinformation als der das Zielobjekt (2, 12, 22) wenigstens teilweise umschließende Quader rekonstruiert wird.

Inventors

Sebastian Dorn
Sebastian Garreis
Chiragkumar Savani

Assignees

AUDI AKTIENGESELLSCHAFT

Dates

Publication Date: 20260507
Application Date: 20220517

Claims (18)

Verfahren zur Ermittlung einer dreidimensionalen Ausdehnungsinformation eines Zielobjekts (2, 12, 22), insbesondere eines Fahrzeugs, aus einem das Zielobjekt (2, 12, 22) zeigenden, zweidimensionalen Kamerabild (1, 11, 21), welches mit einer Kamera (39), die intrinsisch und extrinsisch bezüglich eines die Kamera (39) tragenden Egoobjekts, insbesondere Kraftfahrzeugs (38), kalibriert ist, aufgenommen wird, wobei aus einer Bodeninformation zu der dreidimensionalen Lage der Bodenebene (30) unter dem Zielobjekt (2, 12, 22) zu der Kamera (39) und einer durch Auswertung des Kamerabildes (1, 11, 21) mittels eines Auswertungsalgorithmus ermittelten, zumindest ein das Zielobjekt (2, 12, 22) in dem Kamerabild (1, 11, 21) einschließendes Rechteck (4, 14, 24) beschreibenden zweidimensionalen Auswertungsinformation die dreidimensionale Ausdehnungsinformation bestimmt wird, dadurch gekennzeichnet , dass - als Teil der Auswertungsinformation zusätzlich eine die Orientierung des Zielobjekts (2, 12, 22) für wenigstens eine vertikal verlaufende Seite des Zielobjekts (2, 12, 22) an deren unterem Rand in dem Kamerabild (1, 11, 21) anzeigende Orientierungsinformation, insbesondere je nach Bildinhalt des Kamerabildes (1, 11, 21) eine Orientierungslinie (6, 26) oder ein Orientierungspunkt (16), ermittelt wird, und - für wenigstens einen mittels der Orientierungsinformation und des Rechtecks (4, 14, 24) ermittelten Rechenpunkt (31, 33, 35, 36, 37) des Kamerabildes (1, 11, 21) die dreidimensionale Position eines zugeordneten, auf der Bodenebene (30) liegenden Bodeneckpunkts der Bodenfläche eines das Zielobjekt (2, 12, 22) wenigstens teilweise umschließenden Quaders unter Verwendung eines Aufnahmegeometriemodells der Kamera (39) ermittelt wird und daraus die Ausdehnungsinformation als zumindest die durch das Zielobjekt (2, 12, 22) abgedeckte Bodenfläche des Quaders, insbesondere als der Quader, rekonstruiert wird.
Verfahren nach Anspruch 1 , dadurch gekennzeichnet , dass die Bodenebene (30) unter dem Zielobjekt (2, 12, 22) unter Verwendung der extrinsischen Kalibrierung der Kamera (39) - mittels der Annahme gleicher Lage wie die Bodenebene unter dem Egoobjekt oder - aus Sensordaten eines weiteren, ebenso extrinsisch mit dem Egoobjekt registrierten Abstandssensors (42), insbesondere eines Laserscanners und/oder Radarsensors, und/oder unter Verwendung von Kartendaten ermittelt wird.
Verfahren nach Anspruch 1 oder 2 , dadurch gekennzeichnet , dass als Aufnahmegeometriemodell ein Lochkameramodell verwendet wird.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet , - dass für wenigstens eine vertikal verlaufende Seite des Zielobjekts (2, 12, 22), insbesondere wenigstens die wenigstens eine Seite, der die Orientierungsinformation zugeordnet ist, als Teil der Auswertungsinformation eine Seitenklassifizierung in Vorderseite (19, 29), Rückseite (9) oder Lateralseite, insbesondere rechte Seite (7, 17) oder linke Seite (20, 27), ermittelt wird und/oder - dass die Orientierungsinformation bei mehr als einer in dem Kamerabild (1, 11, 21) sichtbaren, vertikal verlaufenden Seite des Zielobjekts (2, 12, 22) als Orientierungslinie (6, 26) entlang des unteren Randes einer der perspektivisch in dem Kamerabild (1, 11, 21) sichtbaren Seiten, insbesondere einer Lateralseite, des Zielobjekts (2, 12, 22) ermittelt wird, bei einem Fahrzeug als Zielobjekt (2, 12, 22) insbesondere als den unteren Rand von Rädern (8, 18, 28) des Fahrzeugs touchierende Orientierungslinie (6, 26), und/oder - dass bei nur einer in dem Kamerabild (1, 11, 21) sichtbaren vertikal verlaufenden Seite des Zielobjekts (2, 12, 22) die Orientierungsinformation als ein eine in die Bildebene verlaufende Orientierung anzeigender Orientierungspunkt (16) bestimmt wird.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet , dass die Auswertungsinformation eine die Lage wenigstens einer vertikal verlaufenden, in dem Kamerabild (1, 11, 21) sichtbaren Seite des Zielobjekts (2, 12, 22) beschreibende Trenninformation, insbesondere eine vertikal verlaufende Trennlinie (5, 15) zwischen unterschiedlichen vertikal verlaufenden Seiten des Zielobjekts (2, 12, 22) in dem Kamerabild (1, 11, 21), umfassend ermittelt wird.
Verfahren nach Anspruch 5 , dadurch gekennzeichnet , dass bei zwei in dem Kamerabild (1, 11, 21) sichtbare, vertikal verlaufende Seiten des Zielobjekts (2, 12, 22) anzeigender Trenninformation und auf eine der sichtbaren Seiten, insbesondere eine Lateralseite, bezogener Orientierungslinie (6, 26) als Orientierungsinformation zur Bestimmung der durch das Zielobjekt (2, 12, 22) auf der Bodenebene (30) abgedeckten Bodenfläche - ein erster Rechenpunkt (31) als Schnittpunkt der Orientierungslinie (6, 26) mit der unteren Kante (10) des Rechtecks (4, 14, 24) in dem Kamerabild (1, 11, 21) und ein zweiter Rechenpunkt (33) als Schnittpunkt der Orientierungslinie (6, 26) mit der der Seite, auf die die Orientierungslinie (6, 26) bezogen ist, gemäß der Trenninformation zugeordneten vertikalen Kante (32) des Rechtecks (4, 14, 24) ermittelt werden, - mittels des Aufnahmegeometriemodells für den ersten und den zweiten Rechenpunkt (31, 33) Strahlen, auf denen die Rechenpunkte (31, 33) liegen, ermittelt werden und die jeweiligen Schnittpunkte der Strahlen mit der Bodenebene (30) als erste und zweite Bodeneckpunkte im dreidimensionalen Raum bestimmt werden, - eine senkrecht zu einer den ersten und den zweiten Bodeneckpunkt verbindenden Verbindungsgeraden in der Bodenebene (30) liegende, durch den ersten Bodeneckpunkt verlaufende Suchgerade sowie ein auf der Suchgerade liegender dritter Bodeneckpunkt, dessen aufgrund des Aufnahmegeometriemodells bestimmbare Projektion in das Kamerabild (1, 11, 21) auf der der Kante (32) der Seite, auf die die Orientierungslinie (6, 26) bezogen ist, gegenüberliegenden vertikalen Kante (34) des Rechtecks (4, 14, 24) in dem Kamerabild (1, 11, 21) liegt, im dreidimensionalen Raum bestimmt werden, und - ein vierter, die rechteckförmige Bodenfläche vervollständigender Bodeneckpunkt aus dem ersten, zweiten und dritten Bodeneckpunkt bestimmt wird, insbesondere durch Addition der dem dritten und dem zweiten Bodeneckpunkt zugehörigen Vektoren und Subtraktion des dem ersten Bodeneckpunkt zugehörigen Vektors.
Verfahren nach Anspruch 6 , dadurch gekennzeichnet , dass bei eine Projektion auf einer Verlängerung der entsprechenden Kante (34) außerhalb des Rechtecks (4, 14, 24) aufweisend bestimmtem dritten Bodeneckpunkt und/oder bei eine Projektion außerhalb des Rechtecks (4, 14, 24) aufweisend bestimmtem vierten Bodeneckpunkt die Bodenebene (30) und/oder die Orientierungslinie (6, 26) und/oder das Rechteck (4, 14, 24) und/oder der erste und/oder zweite Rechenpunkt (31, 33) derart korrigiert werden, dass die jeweiligen Projektionen auf der Kante (34) bzw. innerhalb des Rechtecks (4, 14, 24) zu liegen kommen.
Verfahren nach einem der Ansprüche 5 bis 7 , dadurch gekennzeichnet , dass als Teil der Auswertungsinformation eine Klasse des Zielobjekts (2, 12, 22), der eine wenigstens eine Erwartungsabmessung eines Zielobjekts (2, 12, 22) der Klasse beschreibende Dimensionsinformation zugeordnet ist, ermittelt wird und/oder dem Zielobjekt (2, 12, 22) aus einer zeitlich vorhergehenden Ermittlung der Ausdehnungsinformation eine wenigstens eine Erwartungsabmessung des Zielobjekts (2, 12, 22) beschreibende Dimensionsinformation zugeordnet wird.
Verfahren nach Anspruch 8 , dadurch gekennzeichnet , dass bei nur eine in dem Kamerabild (1, 11, 21) sichtbare vertikal verlaufende Seite des Zielobjekts (2, 12, 22) anzeigender Trenninformation zur Bestimmung der durch das Zielobjekt (2, 12, 22) auf der Bodenebene (30) abgedeckten Bodenfläche - ein erster Rechenpunkt (35) als unterer linker Eckpunkt des Rechtecks (4, 14, 24) in dem Kamerabild (1, 11, 21) und ein zweiter Rechenpunkt (36) als unterer rechter Eckpunkt des Rechtecks (4, 14, 24) in dem Kamerabild (1, 11, 21) ermittelt werden, - mittels des Aufnahmegeometriemodells für den ersten und den zweiten Rechenpunkt (35, 36) Strahlen, auf denen die Rechenpunkte (35, 36) liegen, ermittelt werden und die jeweiligen Schnittpunkte der Strahlen mit der Bodenebene (30) als erste und zweite Bodeneckpunkte im dreidimensionalen Raum bestimmt werden, und - zwei senkrecht zu einer den ersten und den zweiten Bodeneckpunkt verbindenden Verbindungsgeraden in der Bodenebene (30) liegende Suchgeraden durch die jeweiligen Bodeneckpunkte und dritte und vierte Bodeneckpunkte entlang der jeweiligen Suchgerade in einer Richtung weg von der Kamera (39) bei Aufnahme des Kamerabildes (1, 11, 21) in einem gemäß der Dimensionsinformation ermittelten Abstand im dreidimensionalen Raum bestimmt werden.
Verfahren nach Anspruch 9 , dadurch gekennzeichnet , dass bei initial unmittelbar in ihrer Projektion in das Kamerabild (1, 11, 21) aus dem Rechteck (4, 14, 24) hinauslaufenden Suchgeraden die Bodenebene (30) und/oder das Rechteck (4, 14, 24) derart korrigiert werden, dass die Projektionen der Suchgeraden zumindest bis zu dem Abstand innerhalb des Rechtecks (4, 14, 24) in dem Kamerabild (1, 11, 21) verlaufen.
Verfahren nach Anspruch 9 oder 10 , dadurch gekennzeichnet , dass bei Vorliegen einer Seitenklassifizierung als Teil der Auswertungsinformation die Erwartungsabmessung in der zu der in dem Kamerabild (1, 11, 21) sichtbaren, vertikal verlaufenden, klassifizierten Seite senkrechten Richtung aus der Dimensionsinformation als Abstand ausgewählt wird.
Verfahren nach einem der Ansprüche 8 bis 11 , dadurch gekennzeichnet , bei nicht vollständig in dem Kamerabild (1, 11, 21) aufgenommenem Zielobjekt (2, 12, 22), insbesondere bei nur einem bestimmbaren Bodeneckpunkt, fehlende Information zur Rekonstruktion der Bodenfläche der Dimensionsinformation entnommen wird.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet , dass eine der Bodenfläche zugeordnete Dachfläche des Quaders durch den Satz von sich durch Addition eines gemeinsamen Höhenwerts multipliziert mit dem Normaleneinheitsvektor der Bodenebene (30) zu den Bodeneckpunkten ergebenden Dacheckpunkten, deren Projektionen in das Kamerabild (1, 11, 21) bei maximalem Höhenwert für mindestens einen Dacheckpunkt, insbesondere alle Dacheckpunkte, innerhalb des Rechtecks (4, 14, 24) liegen, bestimmt wird.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet , dass als der Auswertungsalgorithmus eine trainierte Funktion, insbesondere ein neuronales Netzwerk, verwendet wird, welche insbesondere mit händisch annotierten Kamerabildern als Trainingsdaten trainiert wurde.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet , dass für zumindest einen Teil nicht vollständig in dem Kamerabild (1, 11, 21) aufgenommener Zielobjekte (2, 12, 22) der Auswertungsalgorithmus, insbesondere aufgrund entsprechenden Trainings, zur Abschätzung des vollständigen, aus dem Kamerabild (1, 11, 21) hinausragenden Rechtecks (4, 14, 24) ausgebildet ist.
Kraftfahrzeug (38), aufweisend ein zur Durchführung eines Verfahrens nach einem der vorangehenden Ansprüche ausgebildetes Steuergerät (40) und die Kamera (39).
Computerprogramm, welches die Schritte eines Verfahrens nach einem der Ansprüche 1 bis 15 durchführt, wenn es auf einer Recheneinrichtung ausgeführt wird.
Elektronisch lesbarer Datenträger, auf dem ein Computerprogramm nach Anspruch 17 gespeichert ist.

Description

Die Erfindung betrifft ein Verfahren zur Ermittlung einer dreidimensionalen Ausdehnungsinformation eines Zielobjekts, insbesondere eines Fahrzeugs, aus einem das Zielobjekt zeigenden, zweidimensionalen Kamerabild, welches mit einer Kamera, die intrinsisch und extrinsisch bezüglich eines die Kamera tragenden Egoobjekts, insbesondere Kraftfahrzeugs, kalibriert ist, aufgenommen wird, wobei aus einer Bodeninformation zu der dreidimensionalen Lage der Bodenebene unter dem Zielobjekt zu der Kamera und einer durch Auswertung des Kamerabildes mittels eines Auswertungsalgorithmus ermittelten, zumindest ein das Zielobjekt in dem Kamerabild einschließendes Rechteck beschreibenden zweidimensionalen Auswertungsinformation die dreidimensionale Ausdehnungsinformation bestimmt wird. Daneben betrifft die Erfindung ein Kraftfahrzeug, ein Computerprogramm und einen elektronisch lesbaren Datenträger. Für eine Vielzahl von auf Sensordaten beruhenden Anwendungen, insbesondere im Automotive-Bereich, sollen aus Sensordaten Informationen über die Position und Ausdehnung von Zielobjekten im Erfassungsbereich des jeweiligen Sensors abgeleitet werden. Eine günstige Variante eines derartigen Sensors ist eine zweidimensionale Kamerabilder aufnehmende Kamera. Da diese jedoch nur zweidimensionale Kamerabilder liefert, sind Gegenstand der Forschung und Entwicklung auch Verfahren, um aus solchen zweidimensionalen Kamerabildern dreidimensionale Ausdehnungsinformationen bezüglich wenigstens eines Zielobjekts herzuleiten. Dabei ist insbesondere die Erkennung von Zielobjekten im Straßenverkehr, beispielsweise die Erkennung anderer Fahrzeuge sowie deren Position, Orientierung und Größe, ein wichtiges Einsatzgebiet, insbesondere im Hinblick auf Anwendungen, die die zumindest teilweise automatische Führung von Fahrzeugen, insbesondere Kraftfahrzeugen, ermöglichen sollen. Ist im Kraftfahrzeug nur eine einzelne, nach außen gerichtete Kamera, beispielsweise eine Frontkamera, vorhanden, können aktuelle Ansätze entweder die Zielobjekte im zweidimensionalen Kamerabild lokalisieren oder im dreidimensionalen Raum. Dabei wurde für beide Ansätze bereits vorgeschlagen, Methoden des maschinellen Lernens einzusetzen, beispielsweise trainierte Funktionen wie neuronale Netze. Hierbei sind allerdings große Datenmengen erforderlich, um die erforderliche Performanz und Zuverlässigkeit zu erreichen. Hinsichtlich vieler Fahrfunktionen, insbesondere eine wenigstens teilweise automatische Führung eines Kraftfahrzeugs ermöglichenden Fahrfunktionen, liefern im Stand der Technik bekannte Methoden und Ansätze keine hinreichenden Informationen (2D-Zielobjekterkennung) oder benötigen in der Entwicklung eine große Anzahl genauer Annotationen von Zielobjekten im dreidimensionalen Raum (3D-Objekterkennung). Derartige dreidimensionale Annotationen für Trainingsdaten sind sehr aufwendig und häufig nur unter Einbeziehung weiterer Sensorik, zum Beispiel von Laserscannern, zu erhalten. Zweidimensionale Annotationen im Gegenzug sind einfacher und schneller zu erstellen. In diesem Zusammenhang wurde vorgeschlagen, annotierte Rechtecke um die Zielobjekte zu verwenden oder eine pixelweise Zuordnung zu Zielobjekten vorzunehmen (Instanz-Segmentierung). Diese 2D-Annotationen liefern jedoch zunächst keine Informationen über die Position und Orientierung des Zielobjekts im dreidimensionalen Raum. US 2020 / 0160033 A1 beschreibt Systeme und Verfahren zum Erheben dreidimensionaler Repräsentationen aus monokularen zweidimensionalen Bildern. Dabei wird ein monokulares 2D-Bild durch eine Kamera aufgenommen und verarbeitet, um ein oder mehr Eigenschaftskarten zu erzeugen, deren Eigenschaften diese Eigenschaften oder Objektlabel umfassen können. Interessierende Regionen, die mit Fahrzeugen in dem Bild korrespondieren, werden bestimmt und auf jede interessierende Region wird eine Lifting-Funktion angewendet, um Werte wie beispielsweise Höhe und Breite, Kameraabstand und Orientierung zu bestimmen. Eine Acht-Punkte-Box, mithin ein Quader, wird ermittelt, der eine 3D-Repräsentation des Fahrzeugs ist, welches in der interessierenden Region enthalten ist. Die 3D-Repräsentationen können beispielsweise für die Routenplanung, Kollisionsvermeidung oder als Trainingsdaten eingesetzt werden. Informationen über den Untergrund, das Terrain, Straßen, Oberflächen und andere Eigenschaften können einbezogen werden. Ein Verfahren zum Abschätzen einer relativen Position eines Objekts in der Umgebung eines Fahrzeugs wird durch EP 3 594 902 A1 beschrieben. Hierin wird die relative Position auf der Basis eines zweidimensionalen Kamerabilds ermittelt, wobei zunächst eine Objektkontur des Objekts in dem Kamerabild bestimmt wird und wenigstens eine digitale Objektvorlage ermittelt wird, die das Objekt auf der Basis der Objektkontur repräsentiert. Die wenigstens eine Objektvorlage wird aus unterschiedlichen Positionen auf eine Bildebene des Kamerabilds projiziert, wobei jede vorwärtsprojizierte Objektvorlage einen entspreche