KR-20260061282-A - AUDIO ENCODING AND DECODING USING PRESENTATION TRANSFORM PARAMETERS

KR20260061282AKR 20260061282 AKR20260061282 AKR 20260061282AKR-20260061282-A

Abstract

입력 오디오 스트림을 인코딩하기 위한 방법으로서, 제1 오디오 재생 시스템 상에서의 재생을 위해 의도되는 입력 오디오 스트림의 제1 플레이백 스트림 프레젠테이션을 획득하는 단계, 제2 오디오 재생 시스템 상에서의 재생을 위해 의도되는 입력 오디오 스트림의 제2 플레이백 스트림 프레젠테이션을 획득하는 단계, 중간 플레이백 스트림 프레젠테이션을 제2 플레이백 스트림 프레젠테이션의 근사치로 변환하기에 적합한 변환 파라미터들의 세트를 결정하는 단계 - 변환 파라미터들은 제2 플레이백 스트림 프레젠테이션의 근사치와 제2 플레이백 스트림 프레젠테이션 사이의 차이의 측정의 최소화에 의해 결정됨 - , 및 디코더로의 전송을 위한 제1 플레이백 스트림 프레젠테이션 및 변환 파라미터들의 세트를 인코딩하는 단계를 포함한다.

Inventors

브리바트, 더크 제로엔
쿠퍼, 데이비드 엠.
사무엘손, 레이프 제이.
코펜스, 제로엔
윌슨, 론다 조이
푸른하겐, 헤이코
스탈만, 알렉산더

Assignees

돌비 레버러토리즈 라이쎈싱 코오포레이션
돌비 인터네셔널 에이비

Dates

Publication Date: 20260506
Application Date: 20160824
Priority Date: 20151009

Claims (1)

제1항에 따른, 방법.

Description

프레젠테이션 변환 파라미터들을 사용하는 오디오 인코딩 및 디코딩{AUDIO ENCODING AND DECODING USING PRESENTATION TRANSFORM PARAMETERS} 이 출원은 2015년 8월 25일에 출원된 미국 가 출원 제62/209,735호 및 2015년 10월 9일에 출원된 유럽 특허 출원 제15189094.4호를 우선권 주장하며, 이들 둘 모두는 그 전체가 참조로 본원에 포함된다. 본 발명은 신호 프로세싱 분야에 관한 것이고, 특히, 공간화 컴포넌트들, 즉 상이한 공간 위치들과 연관된 오디오 컴포넌트들을 가지는 오디오 신호들의 효율적 전송을 위한 시스템을 개시한다. 명세서 전반에 걸친 배경 기술에 대한 임의의 논의는 어떤 식으로든, 이러한 기술이 그 분야의 공통적인 일반적인 지식으로 널리 알려지거나 그 일부분을 형성한다는 것을 수용하는 것으로서 고려되지는 않아야 한다. 콘텐츠 생성, 코딩, 배포 및 오디오의 재생은 전통적으로는 채널 기반 포맷으로 수행되는데, 즉, 하나의 특정 타겟 플레이백 시스템이 콘텐츠 생태계 전반에 걸친 콘텐츠에 대해 고안된다. 이러한 타겟 플레이백 시스템 오디오 포맷들의 예들은 모노, 스테레오, 5.1, 7.1 등이다. 콘텐츠가 의도된 것과는 상이한 플레이백 시스템 상에서 재생될 경우, 다운믹싱 또는 업믹싱 프로세스가 적용될 수 있다. 예를 들어, 5.1 콘텐츠는 특정 다운믹스 방정식들을 사용함으로써 스테레오 플레이백 시스템 상에서 재생될 수 있다. 또 다른 예는 7.1 스피커 셋업에 대한 스테레오 인코딩된 콘텐츠의 플레이백인데, 이는 스테레오 신호 내에 존재하는 정보에 의해 가이드될 수 있거나 가이드 될 수 없는, 소위 업믹싱 프로세스를 포함할 수 있다. 업믹싱이 가능한 시스템은 Dolby Laboratories Inc로부터의 Dolby Pro Logic이다(Roger Dressler, "Dolby Pro Logic Surround Decoder, Principles of Operation", www.Dolby.com). 대안적인 오디오 포맷 시스템은 예컨대 Dolby Atmos system에 의해 제공되는 오디오 오브젝트 포맷이다(Robinson, C. Q., Mehta, S., & Tsingos, N.(2012) "Scalable format and tools to extend the possibilities of cinema audio" Motion Imaging Journal, SMPTE, 121(8), 63-69를 참조). 이러한 타입의 포맷에서, 오브젝트들은 청취자 주위의 특정한 위치를 가지도록 정의되는데, 이는 시간 가변적일 수 있다. 이러한 오브젝트-기반 포맷에서, 콘텐츠는 특정한 플레이백 또는 재생 시스템에 대해 불변적인 방식으로 표현된다. 결과적으로, 콘텐츠를 라우드스피커 셋업 또는 헤드폰들과 같은 특정 플레이백 시스템에 적합한 프레젠테이션으로 변환하기 위해 전용 렌더링 프로세스가 요구된다. 스테레오, 멀티-채널 또는 오브젝트-기반 콘텐츠가 헤드폰들 상에서 재생될 때, 헤드-관련 임펄스 응답(HRIR)들 또는 바이너럴 룸 임펄스 응답(BRIR)들에 의해 멀티-채널 스피커 셋업(채널-기반 콘텐츠의 경우) 또는 가상 음원들의 세트(오브젝트-기반 콘텐츠의 경우)을 시뮬레이트하는 것이 종종 바람직한데, 이는 각자, 무반향 또는 반향(시뮬레이트된) 환경에서, 각각의 라우드스피커로부터 고막들까지의 음향적 경로를 시뮬레이트한다. 특히, 오디오 신호들은 HRIR들 또는 BRIR들과 컨벌브되어(convolve) 청취자가 각각의 개별 채널의 위치를 결정하게 하는 ILD(inter-aural level difference)들, ITD(inter-aural time difference)들 및 스펙트럼 큐들을 복귀시킬 수 있다. 음향 환경(잔향)의 시뮬레이션은 또한 특정 인지 거리를 달성하는 것을 돕는다. 도 1을 참조하면, 4개의 HRIR(예를 들어, 14)을 프로세싱하기 위한 콘텐츠 스토어(12) 밖에서 판독되는, 2개의 오브젝트 또는 채널 신호(xi)를 렌더링하기 위한 프로세싱 흐름(10, 11)의 개략적 개요가 예시된다. HRIR 출력들은 이후, 헤드폰들(18)을 통해 청취자에게로의 플레이백을 위한 헤드폰 출력들을 생성하기 위해, 각각의 채널 신호에 대해, 합산된다(15, 16). HRIR들의 기본 원리는, 예를 들어, Wightman, F. L., and Kistler, D. J. (1989b). "Headphone simulation of free-field listening. I. Stimulus synthesis," J. Acoust. Soc. Am. 85, 858-867에 설명되어 있다. 결과적인 스테레오 헤드폰 신호(15, 16)는 종종 바이너럴 신호, 바이너럴 프레젠테이션, 또는 (바이너럴) 헤드폰 프레젠테이션이라 지칭된다. 또한, 이러한 바이너럴 프레젠테이션은 라우드스피커 프레젠테이션 신호(들) 내에 존재하는 채널들에 매치하는 라우드스피커 셋업 상에서 재생되도록 의도되는 라우드스피커 프레젠테이션과는 대조적으로, 헤드폰들을 통해 재생되도록 의도된다(또는 구체적으로 설계된다). 이러한 상이한 재생 시스템들은 모달리티(modality)들이라 지칭되는데, 예를 들어, 하나의 플레이백 모달리티는 헤드폰들로 구성되는 반면, 또 다른 플레이백 또는 재생 모달리티는 하나 이상의 라우드스피커를 포함한다. 플레이백 모달리티와는 무관하게, 상이한 프레젠테이션들(스테레오, 바이너럴, 5.1)은 멀티-채널 또는 오브젝트-기반 콘텐츠 포맷과 같은 입력 스트림으로부터 렌더링된다(생성된다). 이상적으로는, 예술적 의도가 청취자에게 정확하게 전달됨을 보장하기 위해, 프레젠테이션들이 특정 플레이백 모달리티들에 대해 렌더링되거나 생성된다. 헤드폰 플레이백에 대해, 이는 바이너럴 프레젠테이션을 생성하기 위한 HRIR들 또는 BRIR들의 적용을 내포하는 반면, 라우드스피커들에 대해, 진폭 패닝 기법들이 공통적으로 사용된다. 따라서 이러한 렌더링 프로세스는 채널-기반 입력 콘텐츠(5.1, 7.1 등) 뿐만 아니라 Dolby Atmos와 같은 몰입형의, 오브젝트-기반 콘텐츠에 적용될 수 있다. 후자에 대해, 진폭 패닝(라우드스피커 프레젠테이션들에 대해) 또는 BRIR들(헤드폰 프레젠테이션들에 대해)이 통상적으로, 개별 오브젝트 기여들의 결과적인 바이너럴 신호로의 합산에 선행하여, 독립적으로 모든 입력 오브젝트에 대해 사용된다. 헤드폰들 상에서의 플레이백을 위해 의도되는 바이너럴 프레젠테이션을 생성하기 위한 컨볼루션 프로세스는, (무반향) HRTF들 내에 존재하는 음원 위치결정 큐들(sound source localization cues)이, 입력 채널 또는 오브젝트의 (의도된, 인지된) 위치에 따라, 독립적으로 모든 입력에 대해 복귀되는 반면, 반향 시뮬레이트된 환경은, 적어도 부분적으로는, 입력들 중 2개 이상에 걸쳐 공통 알고리즘에 의해 공유될 수 있다. 이러한 목적으로, 하나 이상의 입력 신호는 하나 이상의 환경 시뮬레이션 알고리즘 입력 신호로 믹스되거나 결합되는데, 이는 후속적으로 프로세싱되어 무반향 HRTF 컨볼루션 프로세스의 출력과 결합될 수 있는 환경 시뮬레이션 출력 신호들을 생성한다. 환경 시뮬레이션 알고리즘은 조기 반사들, 추후 잔향들, 또는 둘 모두를 시뮬레이트할 수 있고, 컨볼루션, 지연들, 피드백-지연 네트워크들, 전역 통과 필터들 등과 같은 공지된 기법들에 의해 구현될 수 있다. HRIR/BRIR 컨볼루션 접근법은 몇몇 결함들을 수반하는데, 그 중 하나는 헤드폰 플레이백을 위해 요구되는 상당량의 컨볼루션 프로세싱이다. HRIR 또는 BRIR 컨볼루션은 모든 입력 오브젝트 또는 채널에 대해 별도로 적용될 필요가 있고, 따라서 복잡성은 통상적으로 채널들 또는 오브젝트들의 수에 따라 선형적으로 커진다. 헤드폰들이 종종 배터리-전력공급형 휴대용 디바이스들과 함께 종종 사용됨에 따라, 높은 계산적 복잡성은 그것이 배터리 수명을 실질적으로 단축시킬 수 있음에 따라 바람직하지 않다. 또한, 소위 100개 초과의 활성인 오브젝트들을 동시에 포함할 수 있는 오브젝트-기반 오디오 콘텐츠의 도입과 더불어, HRIR 컨볼루션의 복잡성은 전통적인 채널-기반 콘텐츠에 대해서보다 실질적으로 더 높을 수 있다. 디코더-측 계산 부하를 감소시키기 위한 하나의 해법은 프로세싱 체인에서 추가적인 업스트림을 컨볼루션 프로세스들에 적용하는 것이다. 예를 들어, 콘텐츠 생성 또는 인코딩 스테이지 동안. '바이너럴 사전-렌더링'이라 지칭되는 이러한 특정한 경우, 사전-렌더링 스테이지 동안 생성되는 결과적인 바이너럴 신호 또는 바이너럴 프레젠테이션은 헤드폰 플레이백을 위해 의도되는 모든 위치결정 큐들을 포함하며, 재생 디바이스에서 어떠한 추가적인 프로세싱도 요구되지 않는다. 이 방법의 결함은 HRIR들 내에 존재하는 유입된 음원 위치결정 큐들(예컨대, ITD(interaural time difference)들, ILD(interaural level difference)들, 스펙트럼 큐들 및 잔향)이 이러한 특정한 바이너럴 프레젠테이션이 라우드스피커들 상에서 재생될 때 인지되는 품질을 저하시킨다는 것인데, 왜냐하면 이러한 위치결정 큐들이 이후, 라우드스피커들과 청취자의 귀 사이의 음향 경로의 결과, 사실상 두번; 한번은 사전-렌더링 단계에 의해 알고리즘 방식으로, 그리고 한번은 음향적으로 적용될 것이기 때문이다. 본 발명의 목적은 그것의 바람직한 형태로, 재생을 위한 오디오 신호들의 인코딩 및 디코딩의 개선된 형태를 제공하는 것이다. 본 발명의 제1 양태에 따르면, 하나 이상의 오디오 컴포넌트를 갖는 입력 오디오 스트림을 인코딩하는 방법이 제공되며, 여기서 각각의 오디오 컴포넌트는 공간 위치와 연관되고, 방법은 입력 오디오 스트림의 제1 플레이백 스트림 프레젠테이션을 획득하는 단계 - 제1 플레이백 스트림 프레젠테이션은 제1 오디오 재생 시스템 상에서의 재생을 위해 의도되는 M1 개의 신호의 세트임 -, 입력 오디오 스트림의 제2 플레이백 스트림 프레젠테이션을 획득하는 단계 - 제2 플레이백 스트림 프레젠테이션은 제2