KR-20260060984-A - CAMERA-RADAR FUNSION FOR BACKWARD PROJECTION BASED 3D PERCEPTION

KR20260060984AKR 20260060984 AKR20260060984 AKR 20260060984AKR-20260060984-A

Abstract

역투영 기반의 3차원 인지를 위한 카메라-레이더 융합을 위한 기술을 개시한다. 일실시예에 따른 3차원 객체 검출 방법은 카메라로부터 이미지를 수집하는 단계, 레이더로부터 레이더 포인트를 수집하는 단계, 상기 수집된 이미지의 픽셀과 상기 수집된 레이더 포인트를 서로 대응시키기 위해, 상기 수집된 레이더 포인트의 클라우드를 상기 이미지를 위한 이미지 좌표계로 투영시키는 단계, 상기 이미지의 문맥 특징을 BEV(Bird's-Eye View) 공간으로 변환하여 BEV 특징을 생성하는 단계, 상기 레이더 포인트 클라우드에서 추출된 문맥 정보를 상기 BEV 특징에 통합하는 단계, 및 상기 BEV 특징을 이용하여 3차원 객체를 탐지(detect) 또는 분할(segment)하는 단계를 포함할 수 있다.

Inventors

금동석
이인재
황시환

Assignees

한국과학기술원

Dates

Publication Date: 20260506
Application Date: 20250428
Priority Date: 20241025

Claims (20)

적어도 하나의 컴퓨터 장치로 구현되는 3차원 객체 검출 시스템의 3차원 객체 검출 방법에 있어서, 상기 적어도 하나의 컴퓨터 장치는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서에 의해, 카메라로부터 이미지를 수집하는 단계; 상기 적어도 하나의 프로세서에 의해, 레이더로부터 레이더 포인트를 수집하는 단계; 상기 적어도 하나의 프로세서에 의해, 상기 수집된 이미지의 픽셀과 상기 수집된 레이더 포인트를 서로 대응시키기 위해, 상기 수집된 레이더 포인트의 클라우드를 상기 이미지를 위한 이미지 좌표계로 투영시키는 단계; 상기 적어도 하나의 프로세서에 의해, 상기 이미지의 문맥 특징을 BEV(Bird's-Eye View) 공간으로 변환하여 BEV 특징을 생성하는 단계; 상기 적어도 하나의 프로세서에 의해, 상기 레이더 포인트 클라우드에서 추출된 문맥 정보를 상기 BEV 특징에 통합하는 단계; 및 상기 적어도 하나의 프로세서에 의해, 상기 BEV 특징을 이용하여 3차원 객체를 탐지(detect) 또는 분할(segment)하는 단계 를 포함하는 3차원 객체 검출 방법.
제1항에 있어서, 상기 BEV 특징을 생성하는 단계는, 상기 이미지의 이미지 특징 맵에 대한 역투영 기반의 뷰 변환을 이용하여 BEV 특징 맵을 생성하는 것을 특징으로 하는 3차원 객체 검출 방법.
제2항에 있어서, 상기 BEV 특징을 생성하는 단계는, 상기 이미지의 문맥 특징을 상기 BEV 특징 맵에 통합하여 상기 BEV 특징 맵을 생성하는 것을 특징으로 하는 3차원 객체 검출 방법.
제3항에 있어서, 상기 BEV 특징을 생성하는 단계는, 상기 레이더 포인트의 클라우드에서 추출된 레이더 점유 정보와 상기 이미지에서 추출된 이미지 점유 정보의 외적(outer product)을 계산하는 단계; 상기 외적과 상기 이미지의 문맥 특징을 사용하여 확장된 특징 맵을 계산하는 단계; 및 상기 확장된 특징 맵과 상기 BEV 쿼리간의 깊이 인식 공간 교차 어텐션(depth-aware spatial cross attention) 연산을 통해 깊이 인식 이미지 특징이 인코딩된 제1 BEV 특징을 생성하는 단계 를 포함하는 것을 특징으로 하는 3차원 객체 검출 방법.
제4항에 있어서, 상기 레이더 점유 정보는 상기 레이더 포인트의 클라우드가 CRN에 따라 카메라 절두체 뷰(frustum view)로 복셀화되어 생성되는 절두체 뷰에서의 점유 정보를 포함하고, 상기 깊이 인식 공간 교차 어텐션 연산은, 상기 확장된 특징 맵을 키(key), 상기 카메라의 파라미터를 밸류(value), 상기 BEV 쿼리를 쿼리(query)로 이용한 변형가능한 어텐션(deformable attention) 연산을 포함하는 것을 특징으로 하는 3차원 객체 검출 방법.
제3항에 있어서, 상기 BEV 특징을 생성하는 단계는, 상기 이미지에서 예측된 깊이 분포를 이용하여 상기 이미지의 문맥 특징이 인코딩된 제2 BEV 특징을 생성하는 단계 를 더 포함하는 것을 특징으로 하는 3차원 객체 검출 방법.
제6항에 있어서, 상기 제2 BEV 특징을 생성하는 단계는, 상기 깊이 분포 및 상기 이미지의 이미지 거리 정보에 기반한 깊이 인식 공간 교차 어텐션(depth-aware spatial cross attention) 연산을 통해 상기 제2 BEV 특징을 생성하는 것을 특징으로 하는 3차원 객체 검출 방법.
제2항에 있어서, 상기 추출된 문맥 정보를 상기 BEV 특징에 통합하는 단계는, 상기 레이더의 문맥 정보와 상기 BEV 특징간의 문맥 인식 공간 교차 어텐션(context-aware spatial cross attention) 연산을 통해 상기 BEV 특징 맵에 상기 레이더의 문맥 정보를 통합하는 것을 특징으로 하는 3차원 객체 검출 방법.
제8항에 있어서, 상기 문맥 인식 공간 교차 어텐션 연산은, 상기 레이더의 문맥 정보를 키와 밸류로, 상기 BEV 특징을 쿼리로 이용한 변형가능한 어텐션(deformable attention) 연산을 포함하는 것을 특징으로 하는 3차원 객체 검출 방법.
제1항에 있어서, 상기 수집된 레이더 포인트의 클라우드를 상기 이미지를 위한 이미지 좌표계로 투영시키는 단계, 상기 BEV 특징을 생성하는 단계, 및 상기 추출된 문맥 정보를 상기 BEV 특징에 통합하는 단계는, 탐지 손실, 깊이 손실, 및 점유 손실을 이용하여 훈련된 3차원 객체 검출 모델을 이용하여 수행되는 것을 특징으로 하는 3차원 객체 검출 방법.
제10항에 있어서, 상기 탐지 손실은 경계 상자 회귀를 위한 L1 손실과 분류를 위한 포컬(focal) 손실을 포함하고, 상기 깊이 손실은 깊이 분포를 감독하기 위해 이진 교차 엔트로피 손실을 포함하고, 상기 점유 손실은 2차원 경계 상자에서 얻어진 히트맵을 기준으로 하는 가우시안 포컬 손실을 포함하는 것 을 특징으로 하는 3차원 객체 검출 방법.
제1항 내지 제11항 중 어느 한 항의 방법을 컴퓨터 장치에 실행시키기 위한 컴퓨터 프로그램이 기록되어 있는 컴퓨터 판독 가능한 기록매체.
3차원 객체 검출 시스템을 구현하는 컴퓨터 장치와 결합되어 3차원 객체 검출 방법을 상기 컴퓨터 장치에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램에 있어서, 상기 3차원 객체 검출 방법은, 카메라로부터 이미지를 수집하는 단계; 레이더로부터 레이더 포인트를 수집하는 단계; 상기 수집된 이미지의 픽셀과 상기 수집된 레이더 포인트를 서로 대응시키기 위해, 상기 수집된 레이더 포인트의 클라우드를 상기 이미지를 위한 이미지 좌표계로 투영시키는 단계; 상기 이미지의 문맥 특징을 BEV(Bird's-Eye View) 공간으로 변환하여 BEV 특징을 생성하는 단계; 상기 레이더 포인트 클라우드에서 추출된 문맥 정보를 상기 BEV 특징에 통합하는 단계; 및 상기 BEV 특징을 이용하여 3차원 객체를 탐지(detect) 또는 분할(segment)하는 단계 를 포함하는 것을 특징으로 하는 컴퓨터 프로그램.
제13항에 있어서, 상기 BEV 특징을 생성하는 단계는, 상기 이미지의 이미지 특징 맵에 대한 역투영 기반의 뷰 변환을 이용하여 BEV 특징 맵을 생성하되, 상기 이미지의 문맥 특징을 상기 BEV 특징 맵에 통합하여 상기 BEV 특징 맵을 생성하는 것을 특징으로 하는 컴퓨터 프로그램.
제14항에 있어서, 상기 BEV 특징을 생성하는 단계는, 상기 레이더 포인트의 클라우드에서 추출된 레이더 점유 정보와 상기 이미지에서 추출된 이미지 점유 정보의 외적(outer product)을 계산하는 단계; 상기 외적과 상기 이미지의 문맥 특징을 사용하여 확장된 특징 맵을 계산하는 단계; 및 상기 확장된 특징 맵과 상기 BEV 쿼리간의 깊이 인식 공간 교차 어텐션(depth-aware spatial cross attention) 연산을 통해 깊이 인식 이미지 특징이 인코딩된 제1 BEV 특징을 생성하는 단계 를 포함하는 것을 특징으로 하는 컴퓨터 프로그램.
제14항에 있어서, 상기 BEV 특징을 생성하는 단계는, 상기 이미지에서 예측된 깊이 분포를 이용하여 상기 이미지의 문맥 특징이 인코딩된 제2 BEV 특징을 생성하는 단계 를 포함하고, 상기 제2 BEV 특징을 생성하는 단계는, 상기 깊이 분포 및 상기 이미지의 이미지 거리 정보에 기반한 깊이 인식 공간 교차 어텐션(depth-aware spatial cross attention) 연산을 통해 상기 제2 BEV 특징을 생성하는 것 을 특징으로 하는 컴퓨터 프로그램.
제15항에 있어서, 상기 문맥 정보를 상기 BEV 특징에 통합하는 단계는, 상기 레이더의 문맥 정보와 상기 BEV 특징간의 문맥 인식 공간 교차 어텐션(context-aware spatial cross attention) 연산을 통해 상기 BEV 특징에 상기 레이더의 문맥 정보를 통합하고, 상기 문맥 인식 공간 교차 어텐션 연산은, 상기 레이더의 문맥 정보를 키와 밸류로, 상기 BEV 특징을 쿼리로 이용한 변형가능한 어텐션(deformable attention) 연산을 포함하는 것 을 특징으로 하는 컴퓨터 프로그램.
적어도 하나의 컴퓨터 장치로 구현되는 3차원 객체 검출 시스템에 있어서, 상기 적어도 하나의 컴퓨터 장치는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서에 의해, 카메라로부터 이미지를 수집하고, 레이더로부터 레이더 포인트를 수집하고, 상기 수집된 이미지의 픽셀과 상기 수집된 레이더 포인트를 서로 대응시키기 위해, 상기 수집된 레이더 포인트의 클라우드를 상기 이미지를 위한 이미지 좌표계로 투영시키고, 상기 이미지의 문맥 특징을 BEV(Bird's-Eye View) 공간으로 변환하여 BEV 특징을 생성하고, 상기 레이더 포인트 클라우드에서 추출된 문맥 정보를 상기 BEV 특징에 통합하고, 상기 BEV 특징을 이용하여 3차원 객체를 탐지(detect) 또는 분할(segment)하는 것 을 특징으로 하는 3차원 객체 검출 시스템.
제18항에 있어서, 상기 BEV 특징을 생성하기 위해, 상기 적어도 하나의 프로세서에 의해, 상기 이미지의 이미지 특징 맵에 대한 역투영 기반의 뷰 변환을 이용하여 BEV 특징 맵을 생성하되, 상기 이미지의 문맥 특징을 상기 BEV 특징 맵에 통합하여 상기 BEV 특징 맵을 생성하는 것 을 특징으로 하는 3차원 객체 검출 시스템.
제19항에 있어서, 상기 BEV 특징을 생성하기 위해, 상기 적어도 하나의 프로세서에 의해, 상기 레이더 포인트의 클라우드에서 추출된 레이더 점유 정보와 상기 이미지에서 추출된 이미지 점유 정보의 외적(outer product)을 계산하고, 상기 외적과 상기 이미지의 문맥 특징을 사용하여 확장된 특징 맵을 계산하고, 상기 확장된 특징 맵과 상기 BEV 쿼리간의 깊이 인식 공간 교차 어텐션(depth-aware spatial cross attention) 연산을 통해 깊이 인식 이미지 특징이 인코딩된 제1 BEV 특징을 생성하는 것 을 특징으로 하는 3차원 객체 검출 시스템.

Description

역투영 기반의 3차원 인지를 위한 카메라-레이더 융합{CAMERA-RADAR FUNSION FOR BACKWARD PROJECTION BASED 3D PERCEPTION} 아래의 설명은 역투영 기반의 3차원 인지를 위한 카메라-레이더 융합 기술에 관한 것으로, 보다 자세하게는, 새로운 카메라-레이더 융합 기반 3차원 객체 검출 방법 및 시스템에 관한 것이다. 자율주행차의 주변상황을 정확하게 3차원으로 인지하는 것은 안전성 측면에서 중요한 역할을 하며, 이때 사용되는 센서들의 종류와 그 특징은 아래와 같음. - 카메라로부터 얻은 이미지에는 의미론적, 문맥적 정보가 담겨있지만, 3차원 공간의 물체까지의 거리 정보를 얻는 데 한계가 있다. - 레이더는 악천후 환경에서도 객체까지의 거리와 객체의 속도 정보를 제공하지만, 포인트 클라우드가 희소하며 높이 정보를 알 수 없다. - 라이다를 활용하면 객체의 기하적인 정보를 정확하게 알 수 있지만, 카메라나 레이더와 같은 센서에 비해 비용이 상당히 높다는 단점이 존재한다. 이처럼 서로 다른 센서의 특성으로 인해 두 가지 센서를 융합하여 활용하는 방법이 요구되며, 최근 서로 상호 보완적이며 저비용인 카메라-레이더 융합 기술이 각광받고 있다. [선행문헌번호] 한국등록특허 제10-2741962호 도 1은 종래기술에 따른 카메라-레이더 융합의 예를 도시한 도면이다. 도 2는 본 발명의 일실시에에 따른 CRAB의 예를 도시한 도면이다. 도 3은 본 발명의 일실시예에 있어서, CRAB의 전체 구조의 예를 도시한 도면이다. 도 4는 본 발명의 일실시예에 따른 레이더 점유 정보 기반 공간 교차 어텐션의 예를 도시한 도면이다. 도 5는 본 발명의 일실시예에 있어서, 인코딩된 BEV 특징의 비교예를 도시한 도면이다. 도 6은 본 발명의 일실시예에 있어서, 3차원 객체 탐지의 질적 결과의 예를 도시한 도면이다. 도 7은 본 발명의 일실시예에 있어서, nuScenes 검증 세트에서 BEV 분할의 질적 결과의 예를 도시한 도면이다. 도 8은 본 발명의 일실시예에 따른 3차원 객체 검출 방법의 예를 도시한 도면이다. 도 9는 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다. 이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다. 본 발명의 실시예들에 따른 3차원 객체 검출 방법 및 시스템은 적어도 하나의 컴퓨터 장치에 의해 구현될 수 있다. 이때, 적어도 하나의 컴퓨터 장치에는 본 발명의 일실시예에 따른 컴퓨터 프로그램이 설치 및 구동될 수 있고, 컴퓨터 장치는 구동된 컴퓨터 프로그램의 제어에 따라 본 발명의 실시예들에 따른 3차원 객체 검출 방법을 수행할 수 있다. 상술한 컴퓨터 프로그램은 적어도 하나의 컴퓨터 장치와 결합되어 3차원 객체 검출 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장될 수 있다. 최근 카메라-레이더 융합 기반의 3D 객체 탐지 방법들이 조감도(Bird's Eye View, BEV)에서 주목을 받게 된 이유는 이러한 센서들의 상호 보완적인 특성과 비용 효율성 때문이다. 정투영(forward projection)을 사용하는 이전의 접근법들은 희소한 BEV 특징 생성에 어려움을 겪는 반면, 역투영(backward projection)을 사용하는 방법들은 깊이 모호성(depth ambiguity)을 간과하여 잘못된 긍정(false positives)을 초래한다. 본 발명의 실시예들에서는 앞서 언급한 한계를 해결하기 위해 역투영을 활용하여 깊이 모호성을 완화하는 카메라-레이더 융합 기반 3차원 객체 검출(탐지 및/또는 분할) 모델(이하, 'CRAB(Camera-Radar fusion for reducing depth Ambiguity in Backward projection-based view transformation)')을 제공할 수 있으며, 이러한 CRAB를 이용한 3차원 객체 검출 방법 및 시스템을 제공할 수 있다. 해당 CRAB는 레이더를 활용한 역투영 기법을 통해 깊이 모호성을 줄이는 방식을 적용할 수 있다. 뷰 변환 중에 CRAB는 원근 뷰 이미지 문맥 특징을 BEV 쿼리로 집계할 수 있다. 이는 이미지에서 얻은 조밀하지만 신뢰성이 낮은 깊이 분포와 레이더 점유 정보(radar occupancy)에서 얻은 희소하지만 정밀한 깊이 정보를 결합하여, 동일한 광선(raycast) 상의 쿼리들 간 깊이 구분을 향상시킬 수 있다. 또한, CRAB는 3차원 장면의 이해도를 높이기 위해 레이더 문맥 정보를 포함하는 특징 맵과 공간 교차 어텐션을 도입할 수 있다. 'nuScenes' 오픈 데이터셋에서 평가한 결과, 제안된 접근 방식은 역투영 기반 카메라-레이더 융합 방법 중에서 최첨단 성능을 달성하였으며, 3차원 객체 탐지에서 61.2% NDS 및 53.1% mAP를 기록하였다. 1. 소개 3차원 주변 환경의 정확한 인식은 자율 주행 및 모바일 로봇 공학 분야에서 중요한 역할을 한다. 자율 주행 및 모바일 로봇 공학에서 카메라, 라이다, 레이더는 3차원 객체 검출에 가장 일반적으로 사용되는 센서이다. 이들의 특성이 다르기 때문에 다중 센서 융합에 대한 기술의 필요성이 증가하고 있다. 카메라-라이다 융합에 대한 연구는 활발하지만 악천후 환경에서 성능 저하에 취약하고, 라이다의 높은 비용은 자율주행 차량의 대량 생산에 큰 장애물이 된다. 최근 저렴한 비용의 카메라와 레이더를 융합하는 연구가 활발해지고 있으며, 이는 두 센서의 상호 보완적인 특성 덕분이다. 특히, 카메라가 촬영한 이미지는 각도 방향에서 픽셀 형태로 조밀한 의미적(semantic) 및 문맥적(contextual) 정보를 포함하고 있다. 그러나 카메라는 3D 공간상의 거리(깊이)를 정확하게 측정할 수 없는데, 이는 본질적으로 정의되지 않은 문제(ill-posed problem)이기 때문이다. 반면, 레이더는 정확한 거리 정보를 제공하며, 악천후 환경에서도 강인한 특성을 가진다. 그러나 레이더 포인트 클라우드는 희소성(sparsity), 다중 경로 효과(multi-path effects)로 인한 노이즈, 그리고 제한적인 각 해상도(angular resolution) 등의 한계를 가진다. 따라서 이러한 상호 보완적인 센서를 최적적으로 융합하면 각각의 장점을 극대화하고 단점을 최소화하여 성능을 크게 향상시킬 수 있다. 도 1은 종래기술에 따른 카메라-레이더 융합의 예를 도시한 도면이다. 도 1의 (a)에 나타난 CRAFT(Channel and Region Attention for 3D Fusion)는 원근(view) 이미지에서 탐지기를 사용하여 직접 3D 객체 후보를 생성하며, 융합 과정에서 후보 영역 밖의 노이즈가 있는 레이더 포인트를 필터링하고 2차원 변형가능한 어텐션(deformable attention)을 적용한다. 도 1의 (b)에 나타난 CRN(Camera-Radar Network)는 정투영을 활용하여 'Lift' 단계에서 레이더 점유 정보를 통합하며, 이미지 및 레이더의 BEV 특징을 적응적으로 융합하지만, 후처리 없이 2차원 변형가능한 어텐션을 사용한다. 이러한 기존의 융합 기법은 일반적으로 원근(perspective view) 이미지에서 추출된 3차원 객체 후보를 사용한 후, 노이즈가 포함된 레이더 포인트 클라우드를 필터링하는 방식을 따른다(일례로, 도 1의 (a)). 이후, 어텐션 또는 단순 연결(concatenation)과 같은 연산을 통해 융합이 이루어진다. 그러나 이러한 방법들은 카메라 기반 3차원 객체 탐지 모델의 성능에 크게 의존하며, 분할, 경로 계획(path planning), 예측(prediction)과 같은 다운스트림 작업이 BEV 공간에서 이루어지는 경우, 공간적 불일치 문제가 발생할 수 있다. 한편, 최근 카메라-레이더 융합 기술은 주로 BEV 공간에서 수행되는데, 이는 객체 크기의 분산 감소, 특정 작업에 대한 독립성(agnostic), 다양한 센서의 좌표계를 통합할 수 있다는 장점이 있기 때문이다. 이러한 기술들은 주로 기존의 두 가지 뷰 변환(view transformation) 방식인 정투영과 역투영을 활용한다. 정투영 기반 접근법은 자차량(ego vehicle)으로부터의 거리가 증가할수록 BEV 특징이 희소해지는 문제를 해결하지 못하며, 후처리 과정 없이 깊이 예측에 과도하게 의존하는 한계를 가진다. 반면, 역투영을 활용한 기술은 동일한 광선 상의 BEV 쿼리가 동일한 이미지 특징을 가져 깊이 구분이 되지 않는 문제를 효과적으로 해결하지 못한다. 본 발명의 실시예들에 따른 CRAB는 앞서 언급한 한계를 극복할 수 있다. 도 2는 본 발명의 일실시에에 따른 CRAB의 예를 도시한 도면이다. CRAB은 역투영을 기반으로 하여 3차원 변형가능한 어텐션을 위해 여러 레이어에 걸쳐 레이더 점유 정보를 사용, 이미지 문맥을 BEV로 변환하면서 명확한 깊이 구분을 보장할 수 있다. 그 후, 2차원 변형가능한 어텐션은 레이더 문맥 특징을 BEV 쿼리로 집합시킨다. 이러한 CRAB은 역투영 기반의 3차원 객체 검출(탐지 및/또는 분할) 모델로, 카메라-레이더 융합을 활용하여 깊이 모호성을 완화할 수 있다. CRAB가 포함할 수 있는 모듈인 레이더 점유 정보 유도 공간 교차 어텐션(Radar Occupancy-guided Spatial Cross Attention, ROSCA)는 이전 DFA3D(Deformable Attention for 3D) 방법에서 사용된 깊이 분포 외에도 레이더 점유 정보를 추가로 활용하여 보다 정확한 깊이 추정을 수행하고, 이를 통해 정밀한 BEV 특징을 생성한다. 또한, 레이더 문맥 정보(radar context information) 를 효과적으로 활용하기 위해 CRAB는 RCSCA(Radar Context-aware Spatial Cross Attention) 모듈을 더 포함할 수 있다. RCSCA에서는 절두체 뷰 형태(frustum view-shaped)의 레이더 문맥적 특징 맵과 BEV 쿼리 간 변형가능한 어텐션을 수행할 수 있다. 이를 통해, 동일한 광선 상의 쿼리라도 서로 다른 깊이 위치에 투영되어 깊이 구분이 가능한 특징을 얻을 수 있다.