KR-102961994-B1 - Feature selection method and device for visual localization
Abstract
본 발명의 실시 예에 따른 전자 장치의 위치 추정을 위한 동작 방법은 카메라에 의해 촬영된 RGB 이미지의 특징 정보를 기초로 상기 RGB 이미지에 포함된 주요 영역을 추출하는 단계 및 상기 주요 영역을 기초로 상기 카메라의 자세를 추정하는 단계를 포함하는 것을 특징으로 한다.
Inventors
- 조형기
- 난다 페브리 이스티그파린
Assignees
- 전북대학교산학협력단
Dates
- Publication Date
- 20260506
- Application Date
- 20241105
Claims (8)
- 전자 장치의 위치 추정을 위한 동작 방법에 있어서, 카메라에 의해 촬영된 RGB 이미지의 특징 정보를 기초로 상기 RGB 이미지에 포함된 주요 영역을 추출하는 단계; 상기 주요 영역을 기초로 상기 카메라의 자세를 추정하는 단계; 및 상기 주요 영역을 기초로 2D-3D 대응관계를 추정하는 단계;를 포함하고, 상기 주요 영역을 추출하는 단계는 상기 RGB 이미지로부터 추출된 에지 콘텍스트 정보에 해당하는 제1특징과, 상기 RGB 이미지에 대한 공간 어텐션 네트워크의 중요도 계산에서 기준 이상의 중요도 점수를 갖는 부분에 해당하는 제2특징이 공통으로 나타나는 중첩 영역을 상기 주요 영역으로 추출하고, 상기 2D-3D 대응관계를 추정하는 단계는 상기 주요 영역을 가이드로 사용하여 트레이닝 버퍼를 만들고, 상기 트레이닝 버퍼를 이용하여 상기 2D-3D 대응관계를 추정하는 것을 특징으로 하는, 방법.
- 제1항에 있어서, 상기 주요 영역을 추출하는 단계는 상기 RGB 이미지로부터 추출된 에지 콘텍스트(Edge context) 정보에 해당하는 제1 특징을 기초로 상기 RGB 이미지에 포함된 주요 영역을 추출하는, 방법.
- 제1항에 있어서, 상기 주요 영역을 추출하는 단계는 상기 RGB 이미지를 대상으로 공간 어텐션 네트워크(Spatial attention network)에서 계산한 중요도 점수가 기준 이상인 부분에 해당하는 제2특징을 기초로 상기 RGB 이미지에 포함된 주요 영역을 추출하는, 방법.
- 삭제
- 제1항에 있어서, 상기 주요 영역을 추출하는 단계는 상기 제1 특징과 상기 제2특징이 중첩되는 영역으로 상기 주요 영역을 추출하는, 방법.
- 삭제
- 제1항에 있어서, 상기 카메라의 자세를 추정하는 단계는 포즈 설버(Pose solver)를 사용하여 상기 카메라의 위치 및 방향을 추정하는, 방법.
- 전자 장치에 있어서, 카메라에 의해 촬영된 RGB 이미지의 특징 정보를 기초로 상기 RGB 이미지에 포함된 주요 영역을 추출하고, 상기 주요 영역을 기초로 상기 카메라의 자세를 추정하고, 상기 주요 영역을 기초로 2D-3D 대응관계를 추정하도록 구성되는 프로세서;를 포함하고, 상기 프로세서는 상기 RGB 이미지로부터 추출된 에지 콘텍스트 정보에 해당하는 제1 특징과, 상기 RGB 이미지에 대한 공간 어텐션 네트워크의 중요도 계산에서 기준 이상의 중요도 점수를 갖는 부분에 해당하는 제2 특징이 공통으로 나타나는 중첩 영역을 상기 주요 영역으로 추출하고, 상기 주요 영역을 기초로 2D-3D 대응관계를 추정할 시, 상기 주요 영역을 가이드로 사용하여 트레이닝 버퍼를 구성하고, 상기 트레이닝 버퍼를 이용하여 상기 2D-3D 대응관계를 추정하는 것을 특징으로 하는, 전자 장치.
Description
위치 추정을 위한 특징 선정 방법 및 장치{Feature selection method and device for visual localization} 본 발명은 시각적 위치 추정을 위한 중요 특징의 선정 방법 및 장치에 관한 것이다. 보다 자세하게는, 본 발명은 시각적 위치 추정을 위하여 공간 정보와 엣지 검출을 활용하여 중요 특징을 선정하는 방법 및 장치에 관한 것이다. 종래의 시각적 위치 추정을 위한 딥러닝 기반 방법들은 일반적으로 특성 선택 과정을 포함시키지 않거나, 특성 선택 과정을 포함하더라도 이는 3D 맵이나 세그멘테이션(Segmentation) 이미지와 같은 추가 데이터를 필요로 한다. 이러한 종래의 방법들은 위치 추정의 정확도는 높일 수 있지만 그에 대비 매우 큰 메모리를 사용해야 하거나, RGBD 카메라와 같은 비교적 비싼 장비를 이용해야 했다. 또한 종래의 딥러닝 기반의 위치 추정 방법은 RGB 카메라만을 사용할 수도 있지만 매핑 시간이 길어지거나, 위치 추정 결과가 정확하지 않을 수 있다는 문제가 있었다. 이러한 문제점에 기반하여, RGB 이미지만으로 시각적 위치를 추정하면서도 정확도와 속도는 향상시키고 비용은 감소시키는 방법이 요구되고 있다. 도 1은 본 발명의 실시 예에 따른 전자 장치의 구성을 도시한 도면이다. 도 2는 본 발명의 실시 예에 따른 프로세서의 구성을 도시한 도면이다. 도 3 내지 6은 본 발명의 실시 예에 따른 위치 추정 동작의 순서를 설명하기 위한 도면이다. 도 7는 본 발명의 실시 예에 따른 공간 어텐션 네트워크(Spatial Attention Network)를 설명하기 위한 도면이다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다. 다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 명세서에서 사용되는 "부" 또는 “모듈”이라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부" 또는 “모듈”은 어떤 역할들을 수행한다. 그렇지만 "부" 또는 “모듈”은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부" 또는 “모듈”은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부" 또는 “모듈”은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부" 또는 “모듈”들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부" 또는 “모듈”들로 결합되거나 추가적인 구성요소들과 "부" 또는 “모듈”들로 더 분리될 수 있다. 공간적으로 상대적인 용어인 "아래(below)", "아래(beneath)", "하부(lower)", "위(above)", "상부(upper)" 등은 도면에 도시되어 있는 바와 같이 하나의 구성요소와 다른 구성요소들과의 상관관계를 용이하게 기술하기 위해 사용될 수 있다. 공간적으로 상대적인 용어는 도면에 도시되어 있는 방향에 더하여 사용시 또는 동작시 구성요소들의 서로 다른 방향을 포함하는 용어로 이해되어야 한다. 예를 들어, 도면에 도시되어 있는 구성요소를 뒤집을 경우, 다른 구성요소의 "아래(below)"또는 "아래(beneath)"로 기술된 구성요소는 다른 구성요소의 "위(above)"에 놓여질 수 있다. 따라서, 예시적인 용어인 "아래"는 아래와 위의 방향을 모두 포함할 수 있다. 구성요소는 다른 방향으로도 배향될 수 있으며, 이에 따라 공간적으로 상대적인 용어들은 배향에 따라 해석될 수 있다. 이하 첨부된 도면을 참조하여, 본 발명의 실시 예를 설명하기로 한다. 도 1은 본 발명의 실시 예에 따른 전자 장치의 구성을 도시한 도면이다. 도 1에서 도시되는 바와 같이, 발명의 실시 예에 따른 전자 장치(100)는 프로세서(110), 메모리(120) 및 통신부(130)를 포함하여 구성될 수 있다. 상기 프로세서(110)는 카메라로 촬영된 2D 형식의 RGB 이미지(이하, 이미지)의 특징 정보를 기초로 상기 이미지에 포함된 주요 영역을 추출하고, 추출된 주요 영역을 기초로 2D-3D 대응관계를 추청함에 따라 상기 카메라의 자세를 추정할 수 있다. 보다 자세한 상기 프로세서(110)의 구성 및 동작에 대하여는 하기에 도 2를 참조하여 후술하기로 한다. 상기 메모리(120)는 상기 프로세서(110)에서 수행하는 카메라로 촬영된 2D이미지에 포함된 주요 영역을 추출하는 동작 및 추출된 주요 영역을 기초로 상기 카메라의 자세를 추정하는 동작을 수행하는 데 요구되는 명령 및 인공지능 모델을 저장할 수 있다. 또한 상기 메모리(120)는 주요 영역을 추출하는 동작의 대상이 되는 2D이미지를 저장할 수 있다. 상기 통신부(130)는 상기 프로세서(110)가 위치 추정의 대상이 되는 RGB 이미지를 획득하는 것과 관련된 통신 동작을 수행할 수 있다. 예를 들어, 상기 통신부(130)는 외부 전자 장치(예, 카메라) 등으로부터 대상 이미지를 전송받을 수 있다. 이하에서는 상기 프로세서(110)의 구성에 대하여 도 2를 참조하여 보다 자세히 설명하기로 한다. 도 2는 본 발명의 실시 예에 따른 프로세서의 구성을 도시한 도면이다. 도 2에서 도시되는 바와 같이, 상기 프로세서(110)는 주요 영역 추출부(111), 대응 관계 추출부(112), 포즈 추정부(113), 추가 설정부(114)를 포함하여 구성될 수 있다. 상기 주요 영역 추출부(111)는 RGB 이미지에서 주요한 특징 정보를 포함하는 영역에 해당하는 주요 영역을 추출하는 동작을 수행할 수 있다. 상기 주요 영역 추출부(111)는 먼저, 일 실시 예에 따라 에지 디텍터(Edge detector)에 의해 에지 콘텍스트(Edge context) 정보(이하, 제1특징으로 지칭될 수 있음)를 추출하는 동작을 수행할 수 있다. 이 때 상기 에지 콘텍스트 정보란 이미지 처리에서 에지 주변의 추가적인 정보를 의미할 수 있다. 그리고 상기 에지(Edge)는 이미지 내에서 밝기, 색상 등의 값이 급격하게 변화하는 경계 부분을 의미할 수 있다. 이러한 상기 에지는 그 자체적으로 충분한 정보를 제공하지 못하는 경우가 많아, 에지 주변의 정보를 활용하는 것이 중요하게 여겨지고 있다. 그에 따라 에지 콘텍스트(Edge context) 정보가 요구될 수 있다. 일 실시 예에 따른 상기 주요 영역 추출부(111)는 다중 스케일 필터링을 사용해 에지의 위치, 방향 및 강도에 대한 정보를 추출하고, 이를 통해 상기 에지 콘텍스트 정보(제1특징)를 추출할 수 있다. 구체적으로, 상기 주요 영역 추출부(111)는 이미지의 밝기 변화율을 의미하는 그라디언트(Gradient)를 계산할 수 있고, 이 그라디언트 값에 기반하여 에지 정보를 탐색할 수 있다. 그리고 상기 주요 영역 추출부(111)는 상기 에지의 그라디언트 방향, 에지의 강도, 연속성(에지의 연결 여부) 등을 기반으로 물체의 형태를 명확히 식별할 수 있다. 이와 같은 물체 윤곽 인식을 기반으로 상기 주요 영역 추출부(111)는 에지뿐 아니라 에지의 방향, 강도, 연결성과 같은 주변 정보를 포함하는 에지 콘텍스트 정보를 추출할 수 있다. 또한 상기 주요 영역 추출부(111)는 에지 콘텍스트 정보(제1특징)뿐 아니라, 공간 어텐션 네트워크(Spatial attention network)에서 계산한 중요도 점수가 기준 이상인 부분(이하, 제2특징으로 지칭될 수 있음)을 기초로 대상 이미지에 포함된 주요 영역을 추출할 수 있다. 참고로, 상기 공간 어텐션 네트워크는 딥러닝 분야에서 사용되는 모델로, 주어진 이미지나 영상에서 어디에 주목해야 하는지를 학습하고, 그 부분에 집중하도록 설계된 네트워크에 해당한다. 상기 공간 어텐션 네트워크는 도 7에서 도시되는 것과 같이 동작의 결과로 중요도 점수(Attention score)를 산출하는데, 이 점수는 이미지의 각 위치(픽셀이나 패치)가 얼마나 중요한지를 나타낸다. 이러한 상기 공간 어텐션 네트워크는 이미지 내에서 중요하다고 판단되는 특정 위치나 영역에 집중하도록 하고, 배경과 같은 덜 중요한 요소는 무시하는 동작을 수행할 수 있다. 그리고 이러한 공간 어텐션 네트워크는 다른 딥