KR-20260061247-A - 깊이 맵을 생성하기 위한 장치 및 방법

KR20260061247AKR 20260061247 AKR20260061247 AKR 20260061247AKR-20260061247-A

Abstract

장면의 이미지에 대한 깊이 맵을 생성하기 위한 장치는 하나 이상의 이미지들을 수신하도록 배열된 수신기(101)를 포함한다. 구조 프레임 결정기(103)는 이미지 내의 객체에 대한 2차원 구조 프레임을 결정하기 위해 제1 이미지를 처리하며, 2차원 구조 프레임은 점들의 세트 및 점들 사이의 상호연결들에 의해 정의된다. 2차원 구조 프레임은 장면 내의 객체의 3차원 구조 프레임의 이미지의 이미지 공간/평면으로의 투영을 나타낸다. 구조 프레임(들)은 예를 들어 인간 또는 동물의 골격을 나타낼 수 있다. 깊이 결정기(105)는 2차원 구조 프레임에 의존하여 깊이 맵을 생성하도록 배열된다. 구조 프레임 결정기(103)는 많은 경우들에서 2차원 구조 프레임을 생성하기 위해 인공 신경망을 이용할 수 있다.

Inventors

루 야오
바레캄프 크리스티안
첸 홍신
구 하이
양 밍
마 푸롱

Assignees

코닌클리케 필립스 엔.브이.

Dates

Publication Date: 20260506
Application Date: 20240820
Priority Date: 20230901

Claims (15)

장면의 제1 이미지에 대한 깊이 맵을 생성하기 위한 장치로서, 적어도 상기 제1 이미지를 수신하도록 배열된 수신기(101); 상기 제1 이미지 내의 객체에 대한 2차원 구조 프레임을 결정하기 위해 상기 제1 이미지를 처리하도록 배열된 구조 프레임 결정기(103)로서, 상기 2차원 구조 프레임은 점들의 세트 및 상기 점들 사이의 상호연결들에 의해 정의되고, 상기 2차원 구조 프레임은 상기 장면 내의 상기 객체의 3차원 구조 프레임의 상기 이미지의 이미지 공간으로의 투영을 나타내는 것인 구조 프레임 결정기(103); 상기 2차원 구조 프레임에 의존하여 상기 제1 이미지에 대한 상기 깊이 맵을 생성하도록 배열된 깊이 결정기(105)를 포함하는, 장치.
제1항에 있어서, 상기 구조 프레임 결정기(103)는 상기 제1 이미지를 입력으로서 수신하고 상기 2차원 구조 프레임의 점들을 출력으로서 생성하도록 배열된 훈련된 인공 신경망을 포함하는, 장치.
제1항 또는 제2항에 있어서, 상기 수신기(101)는 복수의 이미지들을 수신하도록 배열되고, 상기 구조 프레임 결정기(103)는 상기 복수의 이미지들 중 적어도 일부 이미지들에 대한 2차원 구조 프레임을 생성하도록 배열되고, 상기 깊이 결정기(105)는 상기 적어도 일부 이미지들에 대한 2차원 프레임 구조들의 점들 사이의 디스패리티(disparity)에 의존하여 상기 깊이 맵에 대한 깊이 값들을 결정하도록 배열되는, 장치.
제3항에 있어서, 상기 깊이 결정기(105)는 상기 적어도 일부 이미지들에 대한 상기 2차원 프레임 구조들의 점들 사이의 디스패리티들에 의존하여 상기 객체에 대한 추정된 3차원 프레임 구조를 결정하고, 상기 적어도 일부 이미지들의 이미지 공간들로의 상기 추정된 3차원 프레임 구조의 점들의 투영에 의해 상기 이미지들 중 상기 적어도 일부에 대한 상기 2차원 구조 프레임들의 점들에 대한 깊이 값들을 결정하도록 배열되는, 장치.
제3항 또는 제4항에 있어서, 상기 깊이 결정기(105)는 상기 2차원 프레임 구조의 제1 점 및 제2 점의 깊이 값들로부터 상기 제1 점과 상기 제2 점 사이의 상호연결에 대한 깊이 값들을 생성하도록 배열되는, 장치.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 깊이 결정기(105)는 초기 깊이 맵을 결정하고, 상기 깊이 맵의 적어도 제1 픽셀에 대해, 후보 깊이 값들의 세트를 결정하는 단계로서, 상기 후보 깊이 값들의 세트는 상기 제1 픽셀 이외의 상기 깊이 맵의 픽셀들에 대한 깊이 값들 및 상기 2차원 구조 프레임으로부터 결정된 적어도 제1 후보 깊이 값을 포함하는 것인 단계, 비용 함수에 응답하여 상기 후보 깊이 값들의 세트 내의 상기 후보 깊이 값들 각각에 대한 비용 값을 결정하는 단계, 상기 후보 깊이 값들의 세트에 대한 상기 비용 값들에 응답하여 상기 후보 깊이 값들의 세트로부터 제1 깊이 값을 선택하는 단계, 상기 제1 깊이 값에 응답하여 상기 제1 픽셀에 대한 업데이트된 깊이 값을 결정하는 단계 를 수행함으로써 상기 깊이 맵을 생성하도록 배열되며, 상기 제1 후보 깊이 값에 대한 상기 비용 값은 상기 후보 깊이 값과 상기 2차원 구조 프레임의 깊이 값 사이의 차이에 의존하는, 장치.
제6항에 있어서, 상기 제1 후보 깊이 값에 대한 상기 비용 값은 상기 후보 깊이 값의 위치와 상기 2차원 구조 프레임의 상기 깊이 값의 위치 사이의 거리에 의존하는, 장치.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 깊이 결정기(105)는 상기 제1 이미지로부터 시각적 피처(visual feature)들을 추출하고 상기 제1 이미지 내의 상기 객체에 대한 이미지 마스크를 결정하도록 배열되고, 상기 깊이 결정기(105)는 상기 시각적 피처들, 상기 마스크, 및 상기 2차원 구조 프레임에 의존하여 상기 깊이 맵에 대한 깊이 추정치들을 결정하도록 더 배열되는, 장치.
제8항에 있어서, 상기 깊이 결정기(105)는 상기 시각적 피처들, 상기 마스크, 및 상기 2차원 구조 프레임을 입력들로서 수신하고 상기 깊이 맵을 출력으로서 결정하도록 배열된 훈련된 인공 신경망을 포함하는, 장치.
제8항 또는 제9항에 있어서, 상기 깊이 결정기는 상기 제1 이미지를 입력으로서 수신하고 상기 마스크를 출력으로서 생성하도록 배열된 훈련된 인공 신경망을 포함하는, 장치.
제1항 내지 제10항 중 어느 한 항에 있어서, 상기 깊이 결정기(105)는 상기 이미지에 대한 깊이 값들의 제1 세트를 수신하고 상기 2차원 프레임 구조에 의존하여 상기 깊이 값들의 제1 세트를 적응시킴으로써 상기 깊이 맵을 결정하도록 배열되는, 장치.
제11항에 있어서, 상기 적어도 제1 이미지는 상이한 뷰포인트들로부터의 상기 장면을 나타내는 복수의 이미지들을 포함하고, 상기 장치는 상기 복수의 이미지들 사이의 디스패리티 추정에 의해 상기 깊이 값들의 제1 세트를 결정하도록 배열된 디스패리티 추정기(107)를 포함하는, 장치.
제11항 또는 제12항에 있어서, 상기 깊이 결정기(105)는 상기 제1 깊이 픽셀에 대한 상기 깊이 값들의 제1 세트 중의 깊이 값과 상기 2차원 프레임 구조의 깊이 값 사이의 차이를 감소시킴으로써 상기 깊이 맵의 제1 픽셀에 대한 깊이 값을 결정하도록 배열되며, 상기 감소는 상기 제1 깊이 픽셀과 상기 2차원 깊이 구조 사이의 거리에 의존하는, 장치.
장면의 제1 이미지에 대한 깊이 맵을 결정하는 방법으로서, 적어도 상기 제1 이미지를 수신하는 단계; 상기 제1 이미지 내의 객체에 대한 2차원 구조 프레임을 결정하기 위해 상기 제1 이미지를 처리하는 단계로서, 상기 2차원 구조 프레임은 점들의 세트 및 상기 점들 사이의 상호연결들에 의해 정의되고, 상기 2차원 구조 프레임은 상기 장면 내의 상기 객체의 3차원 구조 프레임의 상기 이미지의 이미지 공간으로의 투영을 나타내는 것인 단계; 및 상기 2차원 구조 프레임에 의존하여 상기 제1 이미지에 대한 상기 깊이 맵을 생성하는 단계를 포함하는, 방법.
컴퓨터 프로그램 제품으로서, 상기 프로그램이 컴퓨터에서 실행될 때 제1항의 모든 단계들을 수행하도록 적응된 컴퓨터 프로그램 코드 수단을 포함하는, 컴퓨터 프로그램 제품.

Description

깊이 맵을 생성하기 위한 장치 및 방법 본 발명은 깊이 맵을 생성하기 위한 장치 및 방법에 관한 것이며, 특히, 그러나 비-배타적으로, 사람 또는 동물을 포함하는 이미지에 대한 깊이 맵을 생성하는 것에 관한 것이다. 전통적으로, 이미지들의 기술적 처리 및 사용은 2차원 이미징에 기초했지만, 점점 더 이미지 처리에서 3차원이 명백하게 고려되고 있다. 예를 들어, 관찰되는 장면의 상이한 뷰(view)들을 관찰자의 두 눈에 제공함으로써 관찰 경험에 제3 차원을 추가하는 3차원(3D) 디스플레이들이 개발되었다. 예는 다수의 카메라에 의해 캡처된 장면의 공간 내비게이션을 (한계 내에서) 허용하는 자유 뷰포인트 사용 사례이다. 이것은 예를 들어 스마트폰 또는 태블릿 상에서 행해질 수 있으며, 게임-유사 경험을 제공할 수 있다. 대안으로서, 데이터는 증강 현실(AR) 또는 가상 현실(VR) 헤드셋 상에서 관찰될 수 있다. 많은 응용들에서, 새로운 관찰 방향들에 대한 뷰 이미지들을 생성하는 것이 바람직할 수 있다. 이미지 및 깊이 정보에 기초하여 그러한 새로운 뷰 이미지들을 생성하기 위한 다양한 알고리즘이 공지되어 있지만, 이들은 제공된(또는 도출된) 깊이 정보의 정확도에 크게 의존하는 경향이 있다. 새로운 뷰들로부터의 제시된 3차원 이미지/이미지들의 품질은 수신된 이미지 및 깊이 데이터의 품질에 의존한다. 많은 실제 응용 및 시나리오에서 제공된 깊이 정보는 최적이 아닌 경향이 있다. 실제로, 많은 실제 응용들 및 사용 시나리오들에서, 깊이 정보는 원하는 만큼 정확하지 않을 수 있으며, 이것은 에러들, 아티팩트들 및/또는 잡음이 처리에서 그리고 생성된 이미지들에 도입되는 결과를 가져올 수 있다. 예를 들어, 많은 응용들에서, 3차원 장면들은 장면 내의 상이한 위치들에 배치된 다중 카메라 시스템들을 사용하여 캡처된다. 이어서 카메라들 간의 멀티 뷰 매칭(multi view matching)을 사용하여 특정 깊이 값들이 생성될 수 있다. 그러나, 깊이 추정은 문제가 있으며, 비-이상적 깊이 값들을 초래하는 경향이 있다. 이것은 다시 아티팩트들 및 새로 합성된 뷰들의 저하된 3차원 이미지 품질을 초래할 수 있다. 깊이 정보를 개선하기 위해, 후처리를 위한 그리고/또는 깊이 추정 및/또는 깊이 맵들을 개선하기 위한 다수의 기술들이 제안되었다. 그러나, 이들 모두는 최적이 아닌 경향이 있고 최적으로 정확하고 신뢰 가능하지 않은 경향이 있으며/있거나, 예를 들어 요구되는 계산 자원으로 인해, 구현하기가 어려울 수 있다. 깊이 맵의 후처리의 예가 EP4013049A1호에 개시되어 있다. 그 접근법에서, 스캐닝 접근법이 적용되며, 여기서 깊이 맵이 초기화되고 후속하여 스캐닝 접근법을 사용하여 반복하여 업데이트될 수 있으며, 여기서 현재 픽셀의 깊이는 전형적으로 이웃 픽셀들에 대한 깊이 값들인 후보 깊이 값들의 후보 세트에 기초하여 업데이트된다. 그러나, 그러한 접근법은 많은 시나리오들에서 깊이 맵을 개선할 수 있지만, 항상 최적으로 정확한 깊이 맵들을 생성하지는 않는 것을 포함하여, 모든 시나리오들에서 최적은 아닌 경향이 있다. 그것은 또한 계산적으로 부담이 큰 경향이 있다. 따라서, 깊이 정보를 생성/처리/수정하기 위한 개선된 접근법이 유리할 것이며, 특히 증가된 유연성, 용이해진 구현, 감소된 복잡성, 감소된 자원 요건, 개선된 깊이 정보, 더 신뢰성 있고/있거나 정확한 깊이 정보, 개선된 3D 경험, 깊이 정보에 기초한 렌더링된 이미지의 개선된 품질, 및/또는 개선된 성능을 허용하는, 깊이 맵을 처리하기 위한 접근법이 유리할 것이다. 따라서, 본 발명은 전술한 불리한 점들 중 하나 이상을 단독으로 또는 임의의 조합으로 바람직하게 완화, 경감 또는 제거하고자 한다. 본 발명의 태양에 따르면, 장면의 제1 이미지에 대한 깊이 맵을 생성하기 위한 장치로서, 적어도 제1 이미지를 수신하도록 배열된 수신기; 제1 이미지 내의 객체에 대한 2차원 구조 프레임을 결정하기 위해 제1 이미지를 처리하도록 배열된 구조 프레임 결정기로서, 2차원 구조 프레임은 점들의 세트 및 점들 사이의 상호연결들에 의해 정의되고, 2차원 구조 프레임은 장면 내의 객체의 3차원 구조 프레임의 이미지의 이미지 공간으로의 투영을 나타내는 것인 구조 프레임 결정기; 2차원 구조 프레임에 의존하여 제1 이미지에 대한 깊이 맵을 생성하도록 배열된 깊이 결정기를 포함하는, 장치가 제공된다. 본 발명은 깊이 맵들을 개선하여, 예를 들어 개선된 3차원 이미지 처리 및 인식 렌더링 품질을 야기할 수 있다. 특히, 접근법은 많은 실시예 및 시나리오에서 더 일관된 그리고/또는 정확한 깊이 맵을 제공할 수 있다. 처리는 많은 실시예에서 충분히 낮은 복잡성 및/또는 자원 요구를 유지하면서 개선된 깊이 맵을 제공할 수 있다. 많은 실시예에서의 이점은, 접근법이 깊이 추정 기술에서의, 예를 들어 스테레오- 또는 멀티-뷰 이미지들을 사용하는 디스패리티(disparity) 기반 깊이 추정에서의 사용 및 통합에 매우 적합할 수 있다는 것이다. 접근법은 많은 실시예들에서 다른 접근법들에 의해 결정된 깊이 값들의 정제를 허용할 수 있다. 깊이 맵은 제1 이미지의 픽셀들에 대한 깊이 값들을 나타낼 수 있다. 깊이 값은 예를 들어 디스패리티 값, z-좌표, 또는 뷰포인트 값으로부터의 거리를 포함하는 깊이를 나타내는 임의의 값일 수 있다. 2차원 구조 프레임은 제1 이미지의 이미지 공간/평면으로의 3차원 구조 프레임의 투영일 수 있으며, 특히 2차원 구조 프레임의 각각의 점은 3차원 구조 프레임의 (대응하는) 점의 제1 이미지의 이미지 평면으로의 투영일 수 있다. 2차원/3차원 구조 프레임은 골격(프레임/모델)일 수 있다. 객체는 특히 인간 또는 동물일 수 있다. 몇몇 실시예들에서, 2차원 구조 프레임은 2차원 정보만을 포함하며, 이미지 평면 내의 구조 프레임의 정보만을 제공할 수 있다. 예를 들어, 2차원 구조 프레임은 이미지 내의 점들의 위치들에 의해서만 정의될 수 있는데, 예컨대 그것은 2차원 구조 프레임의 점들 각각에 대한 이미지 좌표들을 포함할 수 있다. 몇몇 실시예들에서, 2차원 모델은 제3 좌표의 정보를 추가로 포함할 수 있다. 예를 들어, 2차원 구조 프레임의 각각의 점에 대해, 깊이 좌표가 또한 제공될 수 있다. 예를 들어, 2차원 구조 프레임 점들은 각각 이미지 좌표에 의해 정의될 수 있고, 추가로 깊이 값을 포함할 수 있다. 실제로, 2차원 구조 프레임은 또한 3차원 구조 프레임을 정의하는 정보를 제공할 수 있고, 실제로 2차원 구조 프레임은 많은 그러한 경우들에서 3차원 공간으로, 그리고 특히 3차원 구조 프레임으로 직접 변환될 수 있다. 몇몇 실시예들에서, 장치는 깊이 맵 및 제1 이미지에 기초하여/그들로부터 (제1 이미지의 뷰포인트와는 상이한) 뷰포인트에 대한 이미지를 합성하도록 배열된 이미지 합성기를 포함할 수 있다. 본 발명의 선택적인 특징에 따르면, 구조 프레임 결정기는 제1 이미지를 입력으로서 수신하고 2차원 구조 프레임의 점들을 출력으로서 생성하도록 배열된 훈련된 인공 신경망을 포함한다. 이것은 많은 실시예에서 개선된 성능 및/또는 구현을 제공할 수 있다. 그것은 특히 많은 시나리오들에서 정확한 2D 구조 프레임들을 결정하기 위한 효율적인 접근법을 제공할 수 있다. 몇몇 실시예들에서, 구조 프레임 결정기는 적어도 일부 점들에 대한 확률 맵을 생성하도록 배열되며, 점에 대한 확률 맵은 이미지 공간 내의 상이한 위치들에서의 점의 확률을 나타내며; 깊이 맵 생성기는 확률 맵들에 의존하여 깊이 맵을 생성하도록 배열된다. 본 발명의 선택적인 특징에 따르면, 수신기는 복수의 이미지들을 수신하도록 배열되고, 구조 프레임 결정기는 복수의 이미지들 중 적어도 일부 이미지들에 대한 2차원 구조 프레임을 생성하도록 배열되며, 깊이 결정기는 적어도 일부 이미지들에 대한 2차원 프레임 구조들의 점들 사이의 디스패리티에 의존하여 깊이 맵에 대한 깊이 값들을 결정하도록 배열된다. 이것은 많은 실시예에서 개선된 성능 및/또는 구현을 제공할 수 있다. 본 발명의 선택적인 특징에 따르면, 깊이 결정기는 적어도 일부 이미지들에 대한 2차원 프레임 구조들의 점들 사이의 디스패리티들에 의존하여 객체에 대한 추정된 3차원 프레임 구조를 결정하고, 적어도 일부 이미지들의 이미지 공간들로의 추정된 3차원 프레임 구조의 점들의 투영에 의해 이미지들 중 적어도 일부에 대한 2차원 구조 프레임들의 점들에 대한 깊이 값들을 결정하도록 배열된다. 이것은 많은 실시예에서 개선된 성능 및/또는 구현을 제공할 수 있다. 본 발명의 선택적인 특징에 따르면, 깊이 결정기는 2차원 프레임 구조의 제1 점 및 제2 점의 깊이 값들로부터 제1 점과 제2 점 사이의 상호연결에 대한 깊이 값들을 생성하도록 배열된다. 이것은 많은 실시예에서 개선된 성능 및/또는 구현을 제공할 수 있다. 몇몇 실시예들에서, 깊이 맵 결정기는 제1 점과 제2 점의 깊이 값들 사이의 보간에 의해 제1 점과 제2 점 사이의 상호연결에 대한 깊이 값들을 결정하도록 배열된다. 몇몇 실시예들에서, 깊이 결정기는 추정된 3차원 프레임 구조의 점들의 추정된 위치들로부터 추정된 3차원 프레임 구조의 점들 사이의 상호연결들에 대한 3차원 위치 추정치들을 결정하고, 제1 이미지의 이미지 공간으로의 상호연결들의 투영에 의해 깊이 값들을 결정하도록 배열된다. 본 발명의 선택적인 특징에 따르면, 깊이 결정기는 초기 깊이 맵을 결정하고, 깊이 맵의 적어도 제1 픽셀에 대해, 후보 깊이 값들의 세트를 결정하는 단계로서, 후보 깊이 값들의 세트는 제1 픽셀 이외의 깊이 맵의 픽셀들에 대한 깊이 값들 및 2D 구조 프레임으로부터 결정된 적어도 제1 후보 깊이 값을 포함하는 것인 단계; 비용 함수에 응답하여 후보 깊이 값들의 세트 내의 후보 깊이 값들 각각에 대한 비용 값을 결정하는 단계; 후보 깊이 값들의 세트에 대한 비용 값들에 응답하여 후보 깊이 값들의 세트로부터 제1 깊이 값을 선택하는 단계; 제1 깊이 값에 응답하여 제1 픽셀에 대한 업데이트된 깊이 값을 결정하는 단계를 수행함으로써 깊이 맵을 생성하도록 배열되며,