KR-102960178-B1 - 비디오 처리를 위한 방법, 장치 및 매체
Abstract
본 발명의 실시예들은 미디어 데이터 전송을 위한 해결책을 제공한다. 미디어 데이터 전송을 위한 방법은 제안된다. 방법은 제1 장치에서, 제2 장치로부터 메타데이터 파일을 수신하는 단계 및 상기 메타데이터 파일로부터, 제1 비디오에서 타겟 화면 속 화면 영역을 나타내는 제1 그룹의 코딩된 비디오 데이터 유닛이 제2 비디오에서 코딩된 비디오 데이터 유닛의 제2 그룹에 의해 대체될 수 있는지 여부를 결정하는 단계를 포함한다.
Inventors
- 왕, 예-쿠이
Assignees
- 바이트댄스 아이엔씨
Dates
- Publication Date
- 20260506
- Application Date
- 20220926
- Priority Date
- 20210927
Claims (10)
- 미디어 데이터 전송을 위한 방법으로서, 제1 장치에서, 제2 장치로부터 메타데이터 파일을 수신하는 단계, 및 상기 메타데이터 파일로부터, 제1 비디오에서 타겟 화면 속 화면 영역을 나타내는 코딩된 비디오 데이터 유닛의 제1 세트가 제2 비디오에서 코딩된 비디오 데이터 유닛의 제2 세트로 대체될 수 있는지 여부를 표시하기 위한 표시를 결정하는 단계를 포함하고, 상기 제1 비디오의 표현은 상기 메타데이터 파일의 하이퍼텍스트 전송 프로토콜(HTTP)에 기반한 동적 적응 스트리밍(DASH) 사전 선택의 메인 적응 그룹에 포함되고 상기 제2 비디오의 표현은 상기 DASH 사전 선택의 부분 적응 그룹에 포함되고, 상기 표시는 상기 메타데이터 파일의 사전 선택 레벨에서 화면 속 화면 디스크립터에 있는 요소의 속성인 것을 특징으로 하는, 방법.
- 삭제
- 제1항에 있어서, 상기 속성은 데이터 유닛 교체가능(dataUnitsReplacable)한 속성인 것을 특징으로 하는, 방법.
- 제1항 또는 제3항에 있어서, 상기 표시는 상기 제1 비디오를 디코딩하기 전에, 상기 코딩된 비디오 데이터 유닛의 제1 세트가 상기 코딩된 비디오 데이터 유닛의 제2 세트로 대체되는 것을 허용하는 것을 특징으로 하는, 방법.
- 비디오 처리를 위한 방법으로서, 제2 장치에서, 제1 비디오에서 타겟 화면 속 화면 영역을 나타내는 코딩된 비디오 데이터 유닛의 제1 세트가 제2 비디오에서 코딩된 비디오 데이터 유닛의 제2 세트로 대체될 수 있는지 여부를 표시하기 위한 표시를 포함하는 메타데이터 파일을 결정하는 단계 - 상기 제1 비디오의 표현은 상기 메타데이터 파일의 하이퍼텍스트 전송 프로토콜(HTTP)에 기반한 동적 적응 스트리밍(DASH) 사전 선택의 메인 적응 그룹에 포함되고 상기 제2 비디오의 표현은 상기 DASH 사전 선택의 부분 적응 그룹에 포함되고, 상기 표시는 상기 메타데이터 파일의 사전 선택 레벨에서 화면 속 화면 디스크립터에 있는 요소의 속성임 -; 및 상기 메타데이터 파일을 제1 장치로 전송하는 단계를 포함하는 것을 특징으로 하는, 방법.
- 삭제
- 제5항에 있어서, 상기 속성은 데이터 유닛 교체가능(dataUnitsReplacable)한 속성인 것을 특징으로 하는, 방법.
- 제5항 또는 제7항에 있어서, 상기 표시는 상기 제1 비디오를 디코딩하기 전에, 상기 코딩된 비디오 데이터 유닛의 제1 세트가 상기 코딩된 비디오 데이터 유닛의 제2 세트로 대체되는 것을 허용하는 것을 특징으로 하는, 방법.
- 프로세서와 명령어가 있는 비일시적 메모리를 포함하는 비디오 데이터를 처리하기 위한 장치로서, 상기 명령어는 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 제1항 또는 제5항에 따른 방법을 수행하도록 하는 것을 특징으로 하는, 비디오 데이터를 처리하기 위한 장치.
- 비일시적인 컴퓨터 판독 가능한 저장 매체로서, 프로세서가 제1항 또는 제5항에 따른 방법을 수행하도록 하는 명령어를 저장한 것을 특징으로 하는, 비일시적인 컴퓨터 판독 가능한 저장 매체.
Description
비디오 처리를 위한 방법, 장치 및 매체 관련 애플리케이션에 대한 교차 참조 본 출원은 2021년 9월 27일 출원된 미국 임시 출원 제63/248,852호의 이익을 주장하며, 그 내용은 본 명세서에 전체적인 참조로 통합된다. 기술분야 본 발명의 실시예는 일반적으로 비디오 코딩 기술에 관한 것으로, 더 상세하게는 파일 형식의 디지털 오디오 비디오 매체 정보의 생성, 저장 및 소비에 관한 것이다. 미디어 스트리밍 응용 프로그램은 일반적으로 인터넷 프로토콜(IP), 전송 제어 프로토콜(TCP) 및 하이퍼텍스트 전송 프로토콜(HTTP) 전송 방식을 기반으로 하며, 일반적으로 ISO 기본 미디어 파일 형식(ISOBMFF)과 같은 파일 형식에 의존한다. 그러한 스트리밍 시스템 중 하나는 HTTP에 기반한 동적 적응 스트리밍(DASH)이다. HTTP에 기반한 동적 적응 스트리밍 (DASH)에서, 멀티미디어 내용의 비디오 및/또는 오디오 데이터에 대한 복수의 표현이 있을 수 있고, 상이한 표현은 상이한 코딩 특성(예를 들어, 비디오 코딩 표준의 상이한 프로파일 또는 레벨, 상이한 비트율, 상이한 공간 해상도 등)에 대응할 수 있다. 이 밖에 “화면 속 화면”라는 이름의 기술도 제안되었다. 따라서 화면 속 화면 서비스를 지원하는 DASH에 대해 연구할 가치가 있다. 본 발명의 실시예들은 비디오 처리를 위한 해결책을 제공한다. 제1 측면에서 비디오 처리를 위한 방법이 제안된다. 방법은 제1 장치에서, 제2 장치로부터 메타데이터 파일을 수신하는 단계 및 상기 메타데이터 파일로부터, 제1 비디오에서 타겟 화면 속 화면 영역을 나타내는 제1 그룹의 코딩된 비디오 데이터 유닛이 제2 비디오에서 코딩된 비디오 데이터 유닛의 제2 그룹에 의해 대체될 수 있는지 여부를 결정하는 단계를 포함한다. 이런 식으로 메인 비디오와 보조 비디오의 분리된 디코딩을 피할 수 있다. 또한, 메인 영상과 보조 비디오를 전송하기 위한 전송 자원도 절약할 수 있다. 제2 측면에서 비디오 처리를 위한 또 다른 방법이 제안된다. 방법은 제2 장치에서, 제1 비디오에서 타겟 화면 속 화면 영역을 나타내는 코딩된 비디오 데이터 유닛의 제1 그룹이 제2 비디오에서 코딩된 비디오 데이터 유닛의 제2 그룹에 의해 대체될 수 있는지 여부를 나타내는 표시를 포함하는 메타데이터 파일을 결정하는 단계 및 상기 메타데이터 파일을 제1 장치로 전송하는 단계를 포함한다. 이런 식으로 메인 비디오와 보조 비디오의 분리된 디코딩을 피할 수 있다. 또한, 메인 영상과 보조 비디오를 전송하기 위한 전송 자원도 절약할 수 있다. 세 번째 측면에서 비디오 데이터를 처리하기 위한 장치가 제안된다. 비디오 데이터를 처리하기 위한 장치는 프로세서 및 명령어를 포함하는 비일시적 메모리를 포함한다. 명령어들은 프로세서에 의해 실행될 때, 프로세서로 하여금 본 발명의 제1 또는 제2 측면에 따른 방법을 수행하게 한다. 네 번째 측면에서, 비일시적 컴퓨터 판독가능한 저장 매체가 제안된다. 비일시적 컴퓨터 판독가능한 저장 매체는 프로세서로 하여금 본 발명의 제1 또는 제2 측면에 따른 방법을 수행하게 하는 명령어들을 저장한다. 본 발명의 내용은 다음과 같은 상세한 설명에서 진일보한 개념의 선택을 간략한 형식으로 소개하기 위한 것이다. 본 발명의 내용은 보호가 필요한 주제의 핵심 특징이나 기본 특징을 식별하거나 보호가 필요한 주제의 범위를 제한하는 데 사용되지 않는다. 첨부된 도면들을 참조하여 아래의 상세한 설명을 통해, 본 발명의 예시적인 실시예들의 상기와 다른 목적, 특징 및 이점이 보다 명확해질 것이다. 본 발명의 예시적인 실시예에서, 동일한 참조 번호는 일반적으로 동일한 구성요소를 지칭한다. 도 1은 본 발명의 일부 실시예에 따른 비디오 코딩 시스템을 예시하는 블록도를 도시한다. 도 2는 본 발명의 일부 실시예에 따른 제1 예시 비디오인코더를 예시하는 블록도를 도시한다. 도 3은 본 발명의 일부 실시예에 따른 하나의 예시 비디오 디코더를 예시하는 블록도를 도시한다. 도 4는 18개의 타일, 24개의 슬라이스 및 24개의 서브 이미지로 분할된 그림의 개략도를 도시한다. 도 5는 일반적인 서브 이미지 기반의 뷰포트 의존성 360o 비디오 전송 방식의 개략도를 도시한다. 도 6은 2 개의 서브 이미지과 4 개의 슬라이스가 포함된 비트스트림에서 서브 이미지를 추출하는 개략도를 도시한다. 도 7은 VVC 서브 이미지를 기반으로 한 화면에서 화면 속 화면 지원의 개략도를 도시한다. 도 8은 본 발명의 실시예에 따른 방법의 흐름도를 도시한다. 도 9A 및 9B는 화면 속 화면의 개략도를 도시한다. 도 10은 본 발명의 실시예에 따른 방법의 흐름도를 도시하고, 도 11는 본 발명의 다양한 실시예들이 구현될 수 있는 컴퓨팅 장치의 블록도를 도시한 것이다. 도면 전체에서 동일하거나 유사한 참조 번호는 일반적으로 동일하거나 유사한 요소를 지칭한다. 본 발명의 원리는 이제 일부 실시예들을 참조하여 설명될 것이다. 이러한 실시예들은 본 발명의 범위에 대한 어떠한 제한도 제시하지 않고, 단지 예시를 목적으로 기술되고 당업자가 본 발명을 이해하고 구현하도록 돕는 것임을 이해하는 것이다. 본 명세서에 기재된 발명 내용은 아래에 기재된 발명 내용 외에 다양한 방식으로 구현될 수 있다. 아래의 기술 및 청구항들에서, 달리 정의되지 않는 한, 본 명세서에서 사용되는 모든 기술적 및 과학적 용어들은 본 발명 내용이 속하는 기술분야의 통상의 기술자들 중 하나에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 본 발명에서 “일 실시예”, “한 실시예”,“한 예시적인 실시예” 등에 대한 언급은 기재된 실시예가 특정 특징, 구조 또는 특성을 포함할 수 있음을 나타내지만, 모든 실시예가 특정 특징, 구조 또는 특성을 포함할 필요는 없다. 이 밖에 이런 구절이 반드시 동일한 실시예를 가리키는 것은 아니다. 또한, 특정 특징, 구조 또는 특성이 예시적인 실시예와 관련하여 기술될 때명시적으로 설명되었는지 여부에 관계없이 다른 실시예를 결합하여 그러한 특징, 구조 또는 특성이 해당 분야의 기술자의 지식 범위에 영향을 미친다고 생각한다. 여기서 “제 1” 및 “제 2” 등의 용어가 다양한 요소를 설명하는 데 사용될 수 있지만 이러한 요소가 이러한 용어에 의해 제한되어서는 안 된다는 것을 이해해야 한다. 이 용어는 한 요소와 다른 요소를 구별하는 데만 사용된다. 예를 들어, 제1 요소는 제2 요소로 명명될 수 있고, 유사하게, 예시적인 실시예들의 범위를 벗어나지 않는 경우, 제2 요소는 제1 요소로 명명될 수 있다. 본 발명에서 사용되는 바와 같이, 용어 “및/또는”에는 나열된 용어들 중 하나 이상의 임의의 및 모든 조합이 포함된다. 본 발명에서 사용되는 용어는 특정 실시예들만을 설명하기 위한 목적이며, 예시적인 실시예들을 제한하기 위한 것은 아니다. 본 발명에서 사용되는 바와 같이, 단수 형태 “한”, “일” 및 “그”는 문맥상 명백하게 다르게 뜻하지 않는 한 복수 형태도 포함하도록 되어 있다. 본 발명에서 사용되는 용어 “구성함”, “구성되어 있음”,“보유함”, “보유하고 있음”,“포함” 및/또는 “포함되어 있음”은 명시된 특징, 요소 및/또는 구성요소 등의 존재를 명시하지만, 하나 이상의 다른 특징, 요소, 구성요소 및/또는 이들의 조합의 존재 또는 추가를 배제하는 것은 아니다. 예시 환경 도 1은 본 명세서의 기술을 활용할 수 있는 하나의 예시적인 비디오 코딩 시스템 (100)을 도시하는 블록도이다. 도시된 바와 같이, 비디오 코딩 시스템(100)은 소스 장치(110) 및 목표 장치(120)를 포함할 수 있다. 소스 장치(110)는 비디오 코딩 장치라고도 지칭될 수 있고, 목표 장치(120)는 비디오 디코딩 장치라고도 지칭될 수 있다. 이 동작에서, 소스 장치(110)는 코딩된 비디오 데이터를 생성하도록 구성될 수 있고, 목표 장치(120)는 소스 장치(110)에 의해 생성된 코딩된 비디오 데이터를 디코딩하도록 구성될 수 있다. 소스 장치(110)는 비디오 소스(112), 비디오 인코더(114) 및 입출력(I/O) 인터페이스(116)를 포함할 수 있다. 비디오 소스(112)는 비디오 캡처 장치와 같은 소스를 포함할 수 있다. 비디오 캡처 장치의 예시는 비디오 내용 제공자로부터 비디오 데이터를 수신하기 위한 인터페이스, 비디오 데이터를 생성하기 위한 컴퓨터 그래픽 시스템, 및/또는 이들의 조합을 포함하지만, 이에 제한되지는 않는다. 비디오 데이터는 하나 또는 그 이상의 화면으로 구성될 수 있다. 비디오 인코더(114)는 비디오 소스(112)로부터의 비디오 데이터를 코딩하여 비트스트림을 생성한다. 비트스트림은 비디오 데이터의 코딩된 표현을 형성하는 비트의 시퀀스를 포함할 수 있다. 비트스트림은 코딩된 화면 및 연관된 데이터를 포함할 수 있다. 코딩된 화면은 화면의 코딩된 표현이다. 연관된 데이터는 시퀀스 파라미터 세트, 화면 파라미터 세트, 및 다른 구문 구조를 포함할 수 있다. I/O 인터페이스(116)는 변조기/복조기 및/또는 송신기를 포함할 수 있다. 코딩된 비디오 데이터는 네트워크(130A)를 통해 I/O 인터페이스(116)를 거쳐 목표 장치(120)로 직접 전송될 수 있다. 코딩된 비디오 데이터는 또한 목표 장치(120)에 의한 액세스를 위해 저장 매체/서버(130B) 상에 저장될 수 있다. 목표 장치(120)는 I/O 인터페이스(126), 비디오 디코더(124) 및 표시 장치(122)를 포함할 수 있다. I/O 인터페이스(126)는 수신기 및/또는 모뎀을 포함할 수 있다. I/O 인터페이스(126)는 소스 장치(110) 또는 저장 매체/서버(130B)로부터 코딩된 비디오 데이터를 획득할 수 있다. 비디오 디코더(124)는 코딩된 비디오 데이터를 디코딩할 수 있다. 표시 장치(122)는 디코딩된 비디오 데이터를 사용자에게 표시할 수 있다. 표시 장치(122)는 목표 장치(120)와 일체화될 수도 있고, 외부 표시 장치와 인터페이스하도록 구성된 목표 장치(120)의 외부에 있을 수도 있다. 비디오 인코더(114) 및 비디오 디코더(124