KR-20260061049-A - METHOD AND APPARATUS FOR ENCODING/DECODING FEATURE MAP USING SELECTIVE LEARNING TECHNIQUE AND ADAPTIVE CHANNEL TRUNCATION

KR20260061049AKR 20260061049 AKR20260061049 AKR 20260061049AKR-20260061049-A

Abstract

본 개시의 특징맵 부호화 장치는, 다계층 특징맵의 중복도를 제거하여 단일 계층 특징맵을 출력하는 제1 인공신경망을 포함하는 특징 축소부, 상기 단일 계층 특징맵을 신호처리 기반 부호화기의 입력 포맷에 맞게 변환하여 YUV 프레임을 생성하는 특징 변환부, 및 상기 YUV 프레임을 부호화하여 비트스트림을 출력하는 상기 신호처리 기반 부호화기를 포함하는 특징 내부 코딩부를 포함할 수 있다.

Inventors

정세윤
김연희
이주영
강정원
김재곤
한규웅
유인근

Assignees

한국전자통신연구원
한국항공대학교산학협력단

Dates

Publication Date: 20260506
Application Date: 20251024
Priority Date: 20241025

Claims (20)

다계층 특징맵의 중복도를 제거하여 단일 계층 특징맵을 출력하는 제1 인공신경망을 포함하는 특징 축소부; 상기 단일 계층 특징맵을 신호처리 기반 부호화기의 입력 포맷에 맞게 변환하여 YUV 프레임을 생성하는 특징 변환부; 및 상기 YUV 프레임을 부호화하여 비트스트림을 출력하는 상기 신호처리 기반 부호화기를 포함하는 특징 내부 코딩부를 포함하는 것을 특징으로 하는, 특징맵 부호화 장치.
제1항에 있어서, 상기 제1 인공신경망은, 선택적 학습 방법이 적용되고, 상기 선택적 학습 방법의 적용 여부를 나타내는 플래그는 비트스트림으로 부호화되는 것을 특징으로 하는, 특징맵 부호화 장치.
제2항에 있어서, 상기 선택적 학습 방법이 적용되는 경우, 상기 제1 인공신경망은 채널 마스킹 블록을 포함하고, 상기 채널 마스킹 블록은, 마스킹을 통해 특징맵의 채널들을 활성화 또는 비활성화하는 것을 특징으로 하는, 특징맵 부호화 장치.
제3항에 있어서, 상기 선택적 학습 방법에 의해 정렬되는 채널의 범위는, 마스킹 조절 변수 n에 의해 조절되는 것을 특징으로 하는, 특징맵 부호화 장치.
제4항에 있어서, 상기 선택적 학습 방법에 의해 정렬되는 채널의 범위는, 상기 선택적 학습 방법 진행시 동적으로 조절되는 것을 특징으로 하는, 특징맵 부호화 장치.
제4항에 있어서, 상기 제1 인공신경망의 채널 마스킹 블록에 의해 출력된 마스킹된 채널들 중 일부는 제1 절삭 블록에 의해 절삭되는 것을 특징으로 하는, 특징맵 부호화 장치.
제6항에 있어서, 상기 절삭의 정도는, 상기 제1 인공신경망의 양자화 파라미터에 따라 상이하게 결정되는 것을 특징으로 하는, 특징맵 부호화 장치.
제1항에 있어서, 상기 제1 인공신경망의 학습은, 비율에 대한 제1 학습항 및 왜곡에 대한 제2 학습항을 포함하는 손실 함수에 기초하여 수행되는 것을 특징으로 하는, 특징맵 부호화 장치.
제8항에 있어서, 상기 제1 학습항은, 상기 제2 학습항에서 사용한 것과 동일한 mask 요소가 적용되는 것을 특징으로 하는, 특징맵 부호화 장치.
제9항에 있어서, 상기 손실 함수는, 각 퀄리티 레벨에서 계산된 손실 값을 누적 평균하여 계산되고, 상기 퀄리티 레벨의 개수는, 데이터 세트에 따라 상이한 것을 특징으로 하는, 특징맵 부호화 장치.
제4항에 있어서, 상기 활성화 또는 비활성화의 기준이 되는 임계값은, 제1 인공신경망의 양자화 파라미터에 따라 상이하게 결정되고, 상기 임계값은, 상기 채널들의 평균적인 entropy의 값을 이용하여 결정되는 것을 특징으로 하는, 특징맵 부호화 장치.
제11항에 있어서, 상기 활성화 또는 상기 비활성화된 채널들은 3개의 구간으로 나누어 비트스트림에 시그널링되는 것을 특징으로 하는, 특징맵 부호화 장치.
제6항에 있어서, 상기 비활성화되는 채널의 수를 결정하는 방법에 따라, 상기 비활성화되는 채널의 수를 결정하는 방법을 나타내는 정보가 비트스트림에 부호화되는 것을 특징으로 하는, 특징맵 부호화 장치.
제13항에 있어서, 상기 비활성화되는 채널의 수를 나타내는 정보는, 상기 비활성화되는 채널의 수를 결정하는 방법을 나타내는 정보와 다른 파라미터 세트로 비트스트림에 부호화되는 것을 특징으로 하는, 특징맵 부호화 장치.
제14항에 있어서, 상기 비활성화되는 채널은, 상기 채널들의 평균 값으로 채워지는 것을 특징으로 하는, 특징맵 부호화 장치.
비트스트림을 복호화하여 복원된 YUV 프레임을 획득하는 신호처리 기반 복호화기를 포함하는 특징 내부 코딩부; 상기 복원된 YUV 프레임을 역변환하여 역변환된 단일 계층 특징맵을 획득하는 특징 역변환부; 및 상기 역변환된 단일 계층 특징맵으로부터 복원된 다계층 특징맵으로 출력하는 제2 인공신경망을 포함하는 특징 복원부를 포함하는 것을 특징으로, 특징맵 복호화 장치.
제16항에 있어서, 상기 제2 인공신경망은, 상기 선택적 학습 방법의 적용 여부를 나타내는 플래그에 따라, 선택적 학습 방법이 적용되는 것을 특징으로 하는, 특징맵 복호화 장치.
제17항에 있어서, 상기 선택적 학습 방법이 적용되는 경우, 상기 제2 인공신경망은 채널 마스킹 블록을 포함하고, 상기 채널 마스킹 블록은, 마스킹을 통해 특징맵의 채널들을 활성화 또는 비활성화하는 것을 특징으로 하는, 특징맵 복호화 장치.
제18항에 있어서, 상기 선택적 학습 방법에 의해 정렬되는 채널의 범위는, 마스킹 조절 변수 n에 의해 조절되는 것을 특징으로 하는, 특징맵 복호화 장치.
특징맵 부호화 방법에 의해 생성된 비트스트림을 저장하는 컴퓨터 판독가능한 기록 매체에 있어서, 상기 특징맵 부호화 방법은, 특징 축소부의 제1 인공신경망에서, 다계층 특징맵의 중복도를 제거하여 단일 계층 특징맵을 출력하는 단계; 특징 변환부에서, 상기 단일 계층 특징맵을 신호처리 기반 부호화기의 입력 포맷에 맞게 변환하여 YUV 프레임을 생성하는 단계; 및 특징 내부 코딩부의 상기 신호처리 기반 부호화기에서, 상기 YUV 프레임을 부호화하여 비트스트림을 출력하는 단계를 포함하는 것을 특징으로 하는, 컴퓨터 판독가능한 기록 매체.

Description

선택적 학습 기법과 적응적 채널 절삭을 이용한 피쳐맵 부호화/복호화 방법 및 장치{METHOD AND APPARATUS FOR ENCODING/DECODING FEATURE MAP USING SELECTIVE LEARNING TECHNIQUE AND ADAPTIVE CHANNEL TRUNCATION} 본 개시는 인공신경망과 신호처리 기반 부/복호화의 기술분야에서 활용될 수 있다. 특히, 본 개시는 인공신경망과 신호처리 기반 부호화/복호화 방식 결합을 통해, 기계작업 인공신공경망으로부터 추출된 특징맵의 부호화 방법을 제공함으로써 특징맵의 압축 비트량을 줄이면서도 복호화된 특징맵을 이용하여 수행되는 기계작업의 성능 저하는 최소화하기 위한 기술에 관한 것일 수 있다. 종래 인공신경망과 신호처리 기반 부호화 결합 방식에 있어서, 인공신경망이 입력 다계층 특징맵을 중복도를 줄인 출력 특징맵을 단순 포맷 변환만 수행하여 신호처리 기반 부호화기 입력으로 사용하고 있다. 단순 포맷 변환만을 하는 종래의 방식은 율-제어 최적화 측면에서 최적의 방식이 아닐 수 있다. 도 1은 피쳐맵 압축 부호화/복호화 처리 과정(pipeline)의 일 실시예를 도시한다. 도 2는 FCM 참조 소프트웨어인 FCTM의 구조 및 입출력에 대한 일 실시예를 도시한다. 도 3은 본 개시의 선택적 학습 방법과 및 적응적 절삭 방법을 적용한 피쳐맵 부호화/복호화 방식의 구조 및 입출력의 일 실시예를 도시한다. 도 4는 FCTM 1단계 학습에 선택적 학습 방법을 적용한 일 실시예를 도시한다. 도 5는 채널 마스킹(Channel Masking)을 설명하기 위한 도면이다. 도 6은 SLS 를 통해 정렬되는 채널의 일 실시예를 도시한다. 도 7은 SLS에서 출력되는 채널에서 정렬되는 범위를 초기에 조절하는 일 실시예를 도시한다. 도 8은 SLS 다른 실시예로 학습 과정 중에 동적으로 정렬 범위를 조정하는 방식의 예를 도시한다. 도 9는 학습 과정 중에 동적으로 정렬 범위를 조정하는 방식에 대한 코딩의 예를 도시한다. 도 10은 SLS 강도를 초기에 조절한 실시예들의 효과를 설명하기 위한 도면이다. 도 11은 적응적 절삭의 일 실시예를 도시한다. 도 12는 각 퀄리티 레벨에 대한 활성화된 채널의 수의 일 예를 도시한다. 도 13은 채널 단위 특징 제거 기법이 적용된 일 실시예를 도시한다. 도 14은 RBICR 적용 효과 설명을 위한 도면이다. 도 15는 entropy를 이용한 QA-RBICR 기술을 설명하기 위한 도면이다. 도 16는 채널의 활성 여부를 나타내는 일 실시예를 도시한다. 도 17은 채널 번호 구간을 나눈 예를 도시한다. 본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 개시를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다. 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다. 후술하는 예시적 실시예들에 대한 상세한 설명은, 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 실시예를 실시할 수 있기에 충분하도록 상세히 설명된다. 다양한 실시예들은 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 개시의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 실시예의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 예시적 실시예들의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 본 개시에서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 개시의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다. 본 개시의 어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결 되어"있다거나 "직접 접속되어"있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 본 개시의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 개시의 본질에서 벗어나지 않는 한 본 개시의 권리범위에 포함된다. 본 개시에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 개시를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 개시에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 즉, 본 개시에서 특정 구성을 "포함"한다고 기술하는 내용은 해당 구성 이외의 구성을 배제하는 것이 아니며, 추가적인 구성이 본 개시의 실시 또는 본 개시의 기술적 사상의 범위에 포함될 수 있음을 의미한다. 본 개시의 일부의 구성 요소는 본 개시에서 본질적인 기능을 수행하는 필수적인 구성 요소는 아니고 단지 성능을 향상시키기 위한 선택적 구성 요소일 수 있다. 본 개시는 단지 성능 향상을 위해 사용되는 구성 요소를 제외한 본 개시의 본질을 구현하는데 필수적인 구성부만을 포함하여 구현될 수 있고, 단지 성능 향상을 위해 사용되는 선택적 구성 요소를 제외한 필수 구성 요소만을 포함한 구조도 본 개시의 권리범위에 포함된다. 이하, 도면을 참조하여 본 개시의 실시 형태에 대하여 구체적으로 설명한다. 본 명세서의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략하고, 도면상의 동일한 구성요소에 대해서는 동일한 참조 부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다. 도 1은 피쳐맵 압축 부호화/복호화 처리 과정(pipeline)의 일 실시예를 도시한다. FCM(Feature Coding for Machines)은 특징맵(Feature map, 피쳐맵)을 압축하고 복원하는 기술이며, FCTM(Feature Compression Test Model)은 FCM을 소프트웨어로 구현한 모델일 수 있다. 도 1을 참조하면, 본 개시의 피쳐맵 압축 부호화/복호화 처리 과정은, 신경망 네트워크에서 특징맵을 추출하는 NN part 1(Neural Network part 1), 특징맵을 비트스트림으로 부호화하는 FCTM encoder, 비트스트림으로 부터 특징맵을 복호화하는 FCTM decoder, 또는 특징맵을 활용하여 컴퓨터 비전 작업을 처리하는 NN part 2(Neural Network part 2) 중 적어도 하나를 포함할 수 있다. 즉, FCTM은 도 1의 파이프라인에서 NN part 1(분석 네트워크)에서 추출된 특징맵을 부/복호화하여 비트스트림을 전송 비용을 절감함과 동시에 NN part 2에서 컴퓨터 비전 처리가 원활하게 수행되도록 하는 것을 목적으로 할 수 있다. 도 2는 FCM 참조 소프트웨어인 FCTM의 구조 및 입출력에 대한 일 실시예를 도시한다. 도 2를 참조하면, 특징 축소부(Feature Reduction unit)는, 입력된 다중 계층 피쳐맵(또는, 특징맵이라고도 함)의 중복도를 제거하여 단일 계층 피쳐맵을 출력하는 인공신경망 (FENet(Feature fusion and Encoding Network); 도 2의 Multi-scale Feature Fusion 블록)을 포함하는 유닛일 수 있다. 특징 변환부(Feature Conversion unit)은, 출력된 단일 계층 피쳐맵을 신호처리 기반 부호화기(VVC Encoder)의 입력 포맷에 맞게 YUV 400 10bit 포맷으로 변환할 수 있다. 이때, 출력된 단일 계층 피쳐맵을 채널 단위로 타일링해서 YUV 프레임으로 패킹할 수 있다. 특징 내부 코딩부(Feature Inner Coding)은, 신호처리 기반 부호화기 및 복호화기로 구성될 수 있다. 부호화기에서는 입력된 YUV 프레임을 신호처리 기반 부호화기로 압축하여 압축된 비트스트림을 출력할 수 있다. 복호화기에서는 압축된 비트스트림을 신호처리 기반 복호화기로 복호화하여 복호화된 YUV 프레임을 출력할 수 있다. 특징 역변환부(Feature Inverse Conversion unit)은, VVC 복호화기가 출력한 YUV 프레임을 프레임별로 특징맵 포맷으로 변환할 수 있다. 특징 복원부(Feature Restoration uni