KR-20260062075-A - METHOD, DEVICE, AND RECORDING MEDIUM FOR PROCESSING MACHINE MEDIA DATA FOR MACHINE LEARNING

KR20260062075AKR 20260062075 AKR20260062075 AKR 20260062075AKR-20260062075-A

Abstract

본 개시의 기계 학습을 위한 머신 미디어 데이터 처리 방법, 장치 및 기록매체는, 확장 데이터가 있는지 여부를 나타내는 상기 확장 데이터 관련 플래그를 비트스트림으로부터 시그널링하는 단계, 및 상기 확장 데이터 관련 플래그의 값에 따라, 상기 확장 데이터와 관련된 more_rbsp_data 함수를 호출하는 단계를 포함하되, 상기 확장 데이터 관련 플래그는 상기 비트스트림의 비디오 파라미터 세트, 시간적 파라미터 세트, 공간적 파라미터 세트, 관심영역 파라미터 세트 및 비트뎁스 파라미터 세트 중 어느 하나에서 시그널링 될 수 있다.

Inventors

이진영
정순흥
박기범
김규헌
이성배

Assignees

한국전자통신연구원
경희대학교 산학협력단

Dates

Publication Date: 20260506
Application Date: 20251028
Priority Date: 20241028

Claims (1)

확장 데이터가 있는지 여부를 나타내는 상기 확장 데이터 관련 플래그를 비트스트림으로부터 시그널링하는 단계; 및 상기 확장 데이터 관련 플래그의 값에 따라, 상기 확장 데이터와 관련된 more_rbsp_data 함수를 호출하는 단계를 포함하되, 상기 확장 데이터 관련 플래그는 상기 비트스트림의 비디오 파라미터 세트, 시간적 파라미터 세트, 공간적 파라미터 세트, 관심영역 파라미터 세트 및 비트뎁스 파라미터 세트 중 어느 하나에서 시그널링 되는 것을 특징으로 하는, 기계 학습을 위한 머신 미디어 데이터 처리 방법.

Description

기계 학습을 위한 머신 미디어 데이터 처리 방법, 장치 및 기록 매체{METHOD, DEVICE, AND RECORDING MEDIUM FOR PROCESSING MACHINE MEDIA DATA FOR MACHINE LEARNING} 본 개시는, VCM 비트스트림을 활용하는 부호화/복호화 기술 분야에서 활용될 수 있다. MPEG(Moving Picture Experts Group)은 비디오와 오디오를 포함한 멀티미디어 기술의 국제 표준화를 선도하는 기구이다. 최근 다양한 산업분야에서 인공지능 기술의 적용이 확산되면서, 지능형 영상분석에 대한 수요가 증가하고 있다. 이에 따라 MPEG은 2019년 VCM(Video Coding for Machines)이라는 AhG(Ad hoc Group)을 설립했으며, 머신비전을 위한 비디오 압축 기술에 대해 지속적으로 논의하고 있다. 감시나 자율주행 자동차와 같은 환경에서는 사람이나 자동차와 같은 객체를 탐지 및 추적하는 것이 주요 목표이다. 도 1은 본 개시의 일 실시예에 따른, 영상 부호화기의 블록도이다. 도 2는 본 개시의 일 실시예에 따른, 영상 복호화기의 블록도이다. 도 3은 본 개시의 일 실시예에 따른, 관심 영역에 기반한 영상 부/복호화 방법의 흐름도이다. 도 4는 VCM 비트스트림 구조의 제1 실시예를 도시한다. 도 5는 VCM 비트스트림 구조의 제2 실시예를 도시한다. 도 6은 VCM 비트스트림 구조의 제3 실시예를 도시한다. 도 7는 VCM 참조 소프트웨어 구조의 예를 도시한다. 도 8은 NAL unit syntax 및 VCM NAL unit header syntax의 예를 도시한다. 도 9는 NAL 단위에 포함된 RBSP 데이터 구조 유형의 예를 도시한다. 도 10은 Video parameter set RBSP syntax의 예를 도시한다. 도 11은 Profile, tier and level syntax의 예를 도시한다. 도 12는 Temporal parameter set RBSP syntax의 예를 도시한다. 도 13은 Spatial parameter set RBSP syntax의 예를 도시한다. 도 14는 RoI parameter set RBSP syntax의 예를 도시한다. 도 15는 Bit depth parameter set RBSP syntax의 예를 도시한다. 도 16은 Supplimental enhancement information RBSP syntax 및 Supplimental enhancement information message syntax를 도시한다. 도 17은 RBSP trailing bits syntax를 도시한다. 도 18은 Byte alignment syntax의 예를 도시한다. 도 19는 Codec video data의 예를 도시한다. 도 20은 다중 스트림을 지원하는 VCM의 구조의 예를 도시한다. 도 21 내지 도 26은 본 개시의 관련된 신택스 구조의 다른 버전의 예들을 개시한다. 본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 개시를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다. 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다. 후술하는 예시적 실시예들에 대한 상세한 설명은, 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 실시예를 실시할 수 있기에 충분하도록 상세히 설명된다. 다양한 실시예들은 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 개시의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 실시예의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 예시적 실시예들의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 본 개시에서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 개시의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다. 본 개시의 어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있으나, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결 되어"있다거나 "직접 접속되어"있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 본 개시의 실시예에 나타나는 구성부들은 서로 다른 특징적인 기능들을 나타내기 위해 독립적으로 도시되는 것으로, 각 구성부들이 분리된 하드웨어나 하나의 소프트웨어 구성단위로 이루어짐을 의미하지 않는다. 즉, 각 구성부는 설명의 편의상 각각의 구성부로 나열하여 포함한 것으로 각 구성부 중 적어도 두개의 구성부가 합쳐져 하나의 구성부로 이루어지거나, 하나의 구성부가 복수 개의 구성부로 나뉘어져 기능을 수행할 수 있고 이러한 각 구성부의 통합된 실시예 및 분리된 실시예도 본 개시의 본질에서 벗어나지 않는 한 본 개시의 권리범위에 포함된다. 본 개시에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 개시를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 개시에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 즉, 본 개시에서 특정 구성을 "포함"한다고 기술하는 내용은 해당 구성 이외의 구성을 배제하는 것이 아니며, 추가적인 구성이 본 개시의 실시 또는 본 개시의 기술적 사상의 범위에 포함될 수 있음을 의미한다. 본 개시의 일부의 구성 요소는 본 개시에서 본질적인 기능을 수행하는 필수적인 구성 요소는 아니고 단지 성능을 향상시키기 위한 선택적 구성 요소일 수 있다. 본 개시는 단지 성능 향상을 위해 사용되는 구성 요소를 제외한 본 개시의 본질을 구현하는데 필수적인 구성부만을 포함하여 구현될 수 있고, 단지 성능 향상을 위해 사용되는 선택적 구성 요소를 제외한 필수 구성 요소만을 포함한 구조도 본 개시의 권리범위에 포함된다. 이하, 도면을 참조하여 본 개시의 실시 형태에 대하여 구체적으로 설명한다. 본 명세서의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 명세서의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략하고, 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다. 도 1은 본 개시의 일 실시예에 따른, 영상 부호화기의 블록도이다. 도 1을 참조하면, 영상 부호화기는, 전처리부(110) 및 영상 부호화부(120)를 포함할 수 있다. 전처리부(110)는, 입력되는 원본 영상들을 영상 부호화에 적합한 영상들로 변환하는 전처리 과정을 수행한다. 이때, 전처리부(110)로 입력되는 영상은, YUV 또는 YCbCr 포맷을 따르는, 컬러 또는 흑백 영상일 수 있다. 전처리부(110)는, 시간적 리샘플링부(112), 공간적 리샘플링부(114) 또는 관심 영역 기반 처리부(116) 중적어도 하나를 포함할 수 있다. 시간적 리샘플링부(112)는 영상들을 시간적으로 리샘플링한다. 리샘플링된 영상들 만이 영상 부호화의 대상으로 선정될 수 있다. 즉, 시간적 리샘플링을 통해, 전처리부(110)로 입력되는 영상들 중 일부 영상에 대한 부호화가 생략될 수 있다. 일 예로, 60fps (frame per second) 영상의 홀수번째 영상을 생략하여, 60fps 영상을 30fps 영상으로 변환할 수 있다. 또는, 영상들 간의 시간적 중복성을 고려하여, 특정 출력 순서의 영상을 생략할 수도 있다. 공간적 리샘플링부(114)는, 영상을 공간적으로 리샘플링한다. 공간적 리샘플링을 통해, 영상의 크기 및/또는 공간적 해상도가 감소할 수 있다. 일 예로, 1920x1080 해상도의 영상을 960x540 또는 480x270 등의 영상으로 변환할 수 있다. 관심 영역 기반 처리부(116)는, 기계 추론 임무에 중요한 정보 위주로 영상 부호화/복호화가 수행되도록 하기 위해, 영상 내 관심 영역을 설정한다. 관심 영역 기반 처리부(116)에서는, 설정된 관심 영역을 제외한 배경 영역은 제거하거나, 영상 내 관심 영역의 크기 및/또는 위치를 조절하여, 관심 영역이 높은 품질로 부호화/복호화되도록 설정할 수 있다. 영상 부호화부(120)는, 전처리부(110)에서 출력된 영상을 부호화한다. 한편, 영상 부호화부(120)에서는, 통상적인 코덱 기술 또는 통산적인 코덱 기술을 기반으로 VCM (Vido Coding for Machine)을 위해 수정된 코덱 기술을 활용하여, 영상을 부호화할 수 있다. 일 예로, 영상 부호화부(120)는, HEVC, VVC 또는 AV1을 기반으로, 영상을 부호화할 수 있다.