KR-20260062025-A - REGION OF INTEREST BASED IMAGE ENCODING METHOD

KR20260062025AKR 20260062025 AKR20260062025 AKR 20260062025AKR-20260062025-A

Abstract

본 개시에 따른 관심 영역을 기반으로 영상을 부호화하는 방법은, 입력 영상 내 초기 관심 영역을 설정하는 단계; 상기 초기 관심 영역의 크기를 조정하여, 상기 입력 영상 내 최종 관심 영역을 설정하는 단계; 상기 입력 영상 내 설정된 상기 최종 관심 영역을 포함하는 부호화 대상 영상을 생성하는 단계를 포함할 수 있다. 이때, 상기 초기 관심 영역의 크기를 조정할 것인지 여부는, 제1임계값과 초기 관심 영역의 크기를 비교한 결과를 기초로 결정될 수 있다.

Inventors

이희경
김상균

Assignees

한국전자통신연구원
명지대학교 산학협력단

Dates

Publication Date: 20260506
Application Date: 20250908
Priority Date: 20241028

Claims (1)

입력 영상 내 초기 관심 영역을 설정하는 단계; 상기 초기 관심 영역의 크기를 조정하여, 상기 입력 영상 내 최종 관심 영역을 설정하는 단계; 상기 입력 영상 내 설정된 상기 최종 관심 영역을 포함하는 부호화 대상 영상을 생성하는 단계; 및 상기 부호화 대상 영상을 부호화하는 단계를 포함하되, 상기 초기 관심 영역의 크기를 조정할 것인지 여부는, 임계값과, 상기 초기 관심 영역의 크기를 비교한 결과를 기초로 결정되는 것을 특징으로 하는, 관심 영역 기반 영상 부호화 방법.

Description

관심 영역 기반 영상 부호화 방법 {REGION OF INTEREST BASED IMAGE ENCODING METHOD} 본 개시는 관심 영역을 기반으로 영상을 부호화/복호화하는 방법 및 장치에 관한 것이다. 전통적으로, 영상 부호화/복호화 기술은, 인간의 시각 체계를 고려하여, 영상의 압축 효율 및 화질 개선을 이루어 왔다. 그러나, 향후 영상 부호화/복호화 기술은 인간의 시각 (Human vision) 뿐만 아니라, 감시 (Surveillance) 기능, 지능형 교통 (Intelligent transportation), 스마트 시티 또는 지능형 공장(Intelligent industry) 등 머신 비전 (Machine vision) 분야에서도 광범위하게 활용될 것으로 전망된다. 이에 따라, 인간의 시각뿐만 아니라, 기계의 시각을 동시에 고려하여, 고효율의 압축과 인식 정확도를 얻을 수 있는 영상 부호화/복호화 기술 개발이 요구되고 있다. 도 1은 본 개시의 일 실시예에 따른, 영상 부호화기의 블록도이다. 도 2는 본 개시의 일 실시예에 따른, 영상 복호화기의 블록도이다. 도 3은 본 개시의 일 실시예에 따른, 관심 영역의 예시도이다. 도 4는 본 개시의 일 실시예에 따른, 관심 영역 크기 확장을 적용한 영상과 적용하지 않은 영상의 객체 탐색 결과를 평가하여 부호화할 영상을 선택하는 과정을 도시한 흐름도이다. 도 5는 본 개시의 일 실시예에 따른, 초기 관심 영역 크기에 따라 크기 적응적 확장 방법을 적용할지 여부를 결정하는 과정을 도시한 흐름도이다. 도 6은 본 개시의 일 실시예에 따른, 초기 관심 영역의 크기가 확장된 예를 도시한 도면이다. 본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 개시를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다. 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다. 후술하는 예시적 실시예들에 대한 상세한 설명은, 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 실시예를 실시할 수 있기에 충분하도록 상세히 설명된다. 다양한 실시예들은 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 개시의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 실시예의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 예시적 실시예들의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 본 개시에서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 개시의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다. 본 개시의 어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다거나 "직접 접속되어"있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 본 개시의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두 개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수개의 구성부로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 개시의 본질에서 벗어나지 않는 한 본 개시의 권리범위에 포함된다. 본 개시에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 개시를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 개시에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 즉, 본 개시에서 특정 구성을 "포함"한다고 기술하는 내용은 해당 구성 이외의 구성을 배제하는 것이 아니며, 추가적인 구성이 본 개시의 실시 또는 본 개시의 기술적 사상의 범위에 포함될 수 있음을 의미한다. 본 개시의 일부의 구성 요소는 본 개시에서 본질적인 기능을 수행하는 필수적인 구성 요소는 아니고 단지 성능을 향상시키기 위한 선택적 구성 요소일 수 있다. 본 개시는 단지 성능 향상을 위해 사용되는 구성 요소를 제외한 본 개시의 본질을 구현하는데 필수적인 구성부만을 포함하여 구현될 수 있고, 단지 성능 향상을 위해 사용되는 선택적 구성 요소를 제외한 필수 구성 요소만을 포함한 구조도 본 개시의 권리범위에 포함된다. 이하, 도면을 참조하여 본 개시의 실시 형태에 대하여 구체적으로 설명한다. 본 명세서의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략하고, 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다. 도 1은 본 개시의 일 실시예에 따른, 영상 부호화기의 블록도이다. 도 1을 참조하면, 영상 부호화기는, 전처리부(110) 및 영상 부호화부(120)를 포함할 수 있다. 전처리부(110)는, 입력되는 원본 영상들을 영상 부호화에 적합한 영상들로 변환하는 전처리 과정을 수행한다. 이때, 전처리부(110)로 입력되는 영상은, YUV 또는 YCbCr 포맷을 따르는, 컬러 또는 흑백 영상일 수 있다. 전처리부(110)는, 시간적 리샘플링부(112), 공간적 리샘플링부(114) 또는 관심 영역 기반 처리부(116) 중 적어도 하나를 포함할 수 있다. 시간적 리샘플링부(112)는 영상들을 시간적으로 리샘플링한다. 리샘플링된 영상들만이 영상 부호화의 대상으로 선정될 수 있다. 즉, 시간적 리샘플을 통해, 전처리부(110)로 입력되는 영상들 중 일부 영상에 대한 부호화가 생략될 수 있다. 일 예로, 60fps (frame per second) 영상의 홀수번째 영상을 생략하여, 60fps 영상을 30fps 영상으로 변환할 수 있다. 또는, 영상들 간의 시간적 중복성을 고려하여, 특정 출력 순서의 영상을 생략할 수도 있다. 공간적 리샘플링부(114)는, 영상을 공간적으로 리샘플링한다. 공간 적 리샘플링을 통해, 영상의 크기 및/또는 공간적 해상도가 감소할 수 있다. 일 예로, 1920x1080 해상도의 영상을 960x540 또는 480x270 등의 영상으로 변환할 수 있다. 관심 영역 기반 처리부(116)는, 기계 추론 임무에 중요한 정보 위주로 영상 부호화/복호화가 수행되도록 하기 위해, 영상 내 관심 영역을 설정한다. 관심 영역 기반 처리부(116)에서는, 설정된 관심 영역을 제외한 배경 영역은 제거하거나, 영상 내 관심 영역의 크기 및/또는 위치를 조절하여, 관심 영역이 높은 품질로 부호화/복호화되도록 설정할 수 있다. 영상 부호화부(120)는, 전처리부(110)에서 출력된 영상을 부호화한다. 한편, 영상 부호화부(120)에서는, 통상적인 코덱 기술 또는 통산적인 코덱 기술을 기반으로 VCM (Vido Coding for Machine)을 위해 수정된 코덱 기술을 활용하여, 영상을 부호화할 수 있다. 일 예로, 영상 부호화부(120)는, HEVC, VVC 또는 AV1을 기반으로, 영상을 부호화할 수 있다. 영상 부호화의 결과 비트스트림이 생성되고, 생성된 비트스트림은, 영상 복호화기에 전송될 수 있다. 도 2는 본 개시의 일 실시예에 따른, 영상 복호화기의 블록도이다. 도 2를 참조하면, 영상 복호화기는, 영상 복호화부(210) 및 후처리부(220)를 포함할 수 있다. 영상 복호화부(210)는, 영상 부호화기(110)로부터 수신한 비트스트림을 복호화하여, 복호화된(decoded 또는 reconstructed) 영상을 생성한다. 영상 복호화부(210)는, 영상 부호화부(120)에서 이용된 코덱 기술에 기반하여, 비트스트림을 복호화할 수 있다. 후처리부(220)는, 복호화된 영상에 대한 후처리를 수행한다. 후처리를 통해, 영상의 크기 및 프레임 레이트가 원본 영상에 맞춰 복원될 수 있다. 후처리부(220)는, 포스트 필터링부(222), 관심 영역 기반 복원부 (224), 공간적 복원부(226) 또는 시간적 복원부(218) 중 적어도 하나를 포함할 수 있다. 포스트 필터링부(222)는, 복호화된 영상의 복원 에러를 감소시키기 위해, 필터링을 적용한다. 일 예로, 포스트 필터링부(222)에서는, 복호화된 영상에 대해 인루프 필터를 적용할 수 있다. 인루프 필터는, 디블록킹 필터, 샘플 적응적 오프셋 필터, LMCS (Luma mapping chro