KR-102960516-B1 - GENERATING BINAURAL AUDIO IN RESPONSE TO MULTI-CHANNEL AUDIO USING AT LEAST ONE FEEDBACK DELAY NETWORK

KR102960516B1KR 102960516 B1KR102960516 B1KR 102960516B1KR-102960516-B1

Abstract

일부 실시예에서, 적어도 하나의 피드백 지연 네트워크(FDN)를 이용하여 채널들의 다운믹스에 공통의 늦은 반향을 적용하는 것을 포함한 각각의 채널에 바이노럴 룸 임펄스 응답(BRIR)을 적용하는, 다채널 오디오 신호의 채널들에 응답하여 바이노럴 신호를 생성하기 위한 가상화 방법이 개시된다. 일부 실시예에서, 입력 신호 채널들은 각각의 채널에 그 채널에 대한 단일-채널 BRIR의 직접 응답 및 이른 반사 부분을 적용하는 제1 처리 경로에서 처리되고, 채널들의 다운믹스는 공통의 늦은 반향을 적용하는 적어도 하나의 FDN을 포함하는 제2 처리 경로에서 처리된다. 통상적으로, 공통의 늦은 반향은, 단일-채널 BRIR들의 적어도 일부의 늦은 반향 부분들의 집합적 매크로 속성들을 에뮬레이팅한다. 다른 양태들은 본 방법의 임의의 실시예를 수행하도록 구성된 헤드폰 가상화기이다.

Inventors

옌, 콴-제
브리바트, 더크 제이.
데이비슨, 그랜트 에이.
윌슨, 론다
쿠퍼, 데이비드 엠.
슈앙, 즈웨이

Assignees

돌비 레버러토리즈 라이쎈싱 코오포레이션

Dates

Publication Date: 20260506
Application Date: 20141218
Priority Date: 20140429

Claims (11)

다채널 오디오 입력 신호의 채널들의 세트에 응답하여 바이노럴 신호(binaural signal)를 생성하기 위한 방법으로서, 상기 방법은 상기 세트의 각각의 채널에 바이노럴 룸 임펄스 응답(BRIR; binaural room impulse response)을 적용함으로써, 필터링된 신호들을 생성하는 단계; 및 상기 필터링된 신호들을 결합하여 상기 바이노럴 신호를 생성하는 단계를 포함하고, 상기 세트의 각각의 채널에 상기 BRIR을 적용하는 것은, 늦은 반향 생성기(late reverberation generator)를 사용하여, 상기 늦은 반향 생성기에 어써팅되는(asserted) 제어 값들에 응답하여, 공통의 늦은 반향을 상기 세트의 상기 채널들의 다운믹스에 도입하는 것을 포함하고, 상기 공통의 늦은 반향은 상기 세트의 적어도 일부 채널들에 걸쳐서 공유되는 단일-채널 BRIR들의 늦은 반향 부분들의 집합적 매크로 속성들(collective macro attributes)을 에뮬레이팅하고, 콘텐츠 의존적인 에너지 등화 인자가 상기 다운믹스에 적용되고, 상기 다채널 오디오 입력 신호의 중앙 채널은 상기 다운믹스의 좌측 채널 및 상기 다운믹스의 우측 채널 둘 다에 팬닝되는, 방법.
제1항에 있어서, 상기 세트의 각각의 채널에 BRIR을 적용하는 것은, 상기 채널을 위한 상기 단일-채널 BRIR의 직접 응답 및 이른 반사 부분을 상기 세트의 각각의 채널에 적용하는 것을 포함하는, 방법.
제1항에 있어서, 상기 늦은 반향 생성기는 상기 다운믹스에 상기 공통의 늦은 반향을 적용하는 피드백 지연 네트워크들의 뱅크를 포함하고, 상기 뱅크의 각 피드백 지연 네트워크는 상기 다운믹스의 다른 주파수 밴드에 늦은 반향을 적용하는, 방법.
제3항에 있어서, 상기 피드백 지연 네트워크들의 각각은 복소 직교 미러 필터 도메인에서 구현되는, 방법.
제1항에 있어서, 상기 늦은 반향 생성기는 상기 세트의 상기 채널들의 상기 다운믹스에 상기 공통의 늦은 반향을 적용하기 위한 단일의 피드백 지연 네트워크를 포함하고, 상기 피드백 지연 네트워크는 시간 도메인에서 구현되는, 방법.
다채널 오디오 입력 신호의 채널들의 세트에 응답하여 바이노럴 신호를 생성하기 위한 시스템으로서, 상기 시스템은, 상기 세트의 각각의 채널에 바이노럴 룸 임펄스 응답(BRIR)을 적용하여 필터링된 신호들을 생성하고; 상기 필터링된 신호들을 결합하여 상기 바이노럴 신호를 생성하는 하나 이상의 프로세서들을 포함하고, 상기 세트의 각각의 채널에 상기 BRIR을 적용하는 것은, 늦은 반향 생성기를 사용하여, 상기 늦은 반향 생성기에 어써팅되는(asserted) 제어 값들에 응답하여, 공통의 늦은 반향을 상기 세트의 상기 채널들의 다운믹스에 도입하는 것을 포함하고, 상기 공통의 늦은 반향은 상기 세트의 적어도 일부 채널들에 걸쳐서 공유되는 단일-채널 BRIR들의 늦은 반향 부분들의 집합적 매크로 속성들을 에뮬레이팅하고, 콘텐츠 의존적인 에너지 등화 인자가 상기 다운믹스에 적용되고, 상기 다채널 오디오 입력 신호의 중앙 채널은 상기 다운믹스의 좌측 채널 및 상기 다운믹스의 우측 채널 둘 다에 팬닝되는, 시스템.
제6항에 있어서, 상기 세트의 각각의 채널에 BRIR을 적용하는 것은, 상기 채널을 위한 상기 단일-채널 BRIR의 직접 응답 및 이른 반사 부분을 상기 세트의 각각의 채널에 적용하는 것을 포함하는, 시스템.
제6항에 있어서, 상기 늦은 반향 생성기는 상기 다운믹스에 상기 공통의 늦은 반향을 적용하도록 구성되는 피드백 지연 네트워크들의 뱅크를 포함하고, 상기 뱅크의 각 피드백 지연 네트워크는 상기 다운믹스의 다른 주파수 밴드에 늦은 반향을 적용하는, 시스템.
제8항에 있어서, 상기 피드백 지연 네트워크들의 각각은 복소 직교 미러 필터 도메인에서 구현되는, 시스템.
제6항에 있어서, 상기 늦은 반향 생성기는 시간 도메인에서 구현되는 피드백 지연 네트워크를 포함하고, 상기 늦은 반향 생성기는, 상기 다운믹스에 상기 공통의 늦은 반향을 적용하기 위하여 상기 피드백 지연 네트워크에서 상기 다운믹스를 시간 도메인에서 처리하도록 구성되는, 시스템.
명령어들의 시퀀스를 포함하는 비일시적 컴퓨터 판독가능 저장 매체로서, 오디오 신호 처리 디바이스가 상기 명령어들의 시퀀스를 실행할 때, 상기 오디오 신호 처리 디바이스는 제1항의 방법을 수행하는, 비일시적 컴퓨터 판독가능 저장 매체.

Description

다채널 오디오에 응답하여 적어도 하나의 피드백 지연 네트워크를 이용한 바이노럴 오디오의 생성{GENERATING BINAURAL AUDIO IN RESPONSE TO MULTI-CHANNEL AUDIO USING AT LEAST ONE FEEDBACK DELAY NETWORK} 관련 출원에 대한 상호참조 본 출원은, 참조로 그 전체내용을 본 명세서에 포함하는, 2014년 4월 29일 출원된 중국 특허 출원 제201410178258.0호; 2014년 1월 3일 출원된 미국 가출원 제61/923,579호; 2014년 5월 5일 출원된 미국 가출원 제61/988,617호의 우선권을 주장한다. 발명의 분야 본 발명은, 입력 신호의 한 세트의 채널들의 각 채널에(예를 들어, 모든 채널에) 바이노럴 룸 임펄스 응답(BRIR; binaural room impulse response)을 적용함으로써, 다채널 오디오 입력 신호에 응답하여 바이노럴 신호(binaural signal)를 발생시키기 위한 (때때로 헤드폰 가상화 방법이라고 하는) 방법 및 시스템에 관한 것이다. 일부 실시예에서, 적어도 하나의 피드백 지연 네트워크(FDN; feedback delay network)는 다운믹스 BRIR의 늦은 반향 부분(late reverberation portion)을 채널들의 다운믹스에 적용한다. 헤드폰 가상화(또는 바이노럴 렌더링)는, 표준 스테레오 헤드폰을 이용하여 서라운드 사운드 경험 또는 몰입 음장감을 전달하는 것을 목적으로 하는 기술이다. 초기 헤드폰 가상화기는 머리 관련 전달 함수(HRTF; head-related transfer function)를 적용하여 바이노럴 렌더링에서 공간 정보를 전달하였다. HRTF는, 공간 내의 특정한 지점(사운드 소스 위치)으로부터 무반향 환경(anechoic environment) 내의 청취자의 양쪽 귀에 사운드가 어떻게 전달되는지를 특징짓는 한 세트의 방향- 및 거리-의존 필터 쌍들이다. 이간 시간차(ITD; interaural time difference), 이간 레벨차(ILD; interaural level difference), 헤드 새도잉 효과(head shadowing effect), 어깨 및 귓바퀴 반사에 기인한 스펙트럼 피크 및 노치(peak and notch) 등의, 필수 공간적 단서(spatial cue)들이 렌더링된 HRTF-필터링된 바이노럴 콘텐츠에서 인지될 수 있다. 인간의 머리 크기의 제약으로 인해, HRTF는 대략 1 미터를 넘는 소스 거리에 관한 충분한 또는 확실한 단서를 제공하지 않는다. 그 결과, HRTF에만 기초하는 가상화기는 대개 양호한 외부화(externalization) 또는 인지된 거리를 달성하지 못한다. 우리의 일상 생활에서 대부분의 음향 이벤트는, HRTF에 의해 모델링된 (소스로부터 귀까지의) 직접적 경로 외에도, 다양한 반사 경로를 통해 오디오 신호들이 청취자의 귀에 도달하는, 반향 환경에서 발생한다. 반사는, 거리, 룸 크기, 및 공간의 기타의 속성들 등의, 청각적 인지에 심대한 영향을 미친다. 바이노럴 렌더링에서 이 정보를 운반하기 위해, 가상화기는 직접 경로 HRTF에서의 단서들 외에 룸 반향을 적용할 필요가 있다. 바이노럴 룸 임펄스 응답(BRIR)은 공간 내의 특정한 지점으로부터 특정한 음향 환경 내의 청취자의 귀까지의 오디오 신호들의 변형을 특징으로 한다. 이론적으로, BRIR은 공간적 인지에 관한 모든 음향적 단서를 포함한다. 도 1은, 바이노럴 룸 임펄스 응답(BRIR)을 다채널 오디오 입력 신호의 각각의 전체 주파수 범위 채널(X1, ..., XN)에 적용하도록 구성된 종래의 헤드폰 가상화기의 한 유형의 블록도이다. 채널들(X1, ..., XN) 각각은 추정된 청취자에 관한 상이한 소스 방향(즉, 대응하는 스피커의 추정된 위치로부터 추정된 청취자 위치까지의 직접 경로의 방향)에 대응하는 스피커 채널이고, 각각의 이러한 채널은 대응하는 소스 방향에 대해 BRIR에 의해 컨벌브(convolve)된다. 각 채널로부터의 음향 경로는 각각의 귀에 대해 시뮬레이션될 필요가 있다. 따라서, 본 문서의 나머지에서, 용어 BRIR이란 하나의 임펄스 응답, 또는 좌측 및 우측 귀와 연관된 한 쌍의 임펄스 응답을 말한다. 따라서, 서브시스템(2)은 채널 X1을 BRIR1(대응하는 소스 방향에 대한 BRIR)과 컨벌브하도록 구성되고, 서브시스템(4)은 채널 XN을 BRIRN(대응하는 소스 방향에 대한 BRIR)과 컨벌브하도록 구성된다. 각각의 BRIR 서브시스템(서브시스템들 2, ..., 4의 각각)의 출력은 좌측 채널과 우측 채널을 포함하는 시간-도메인 신호이다. BRIR 서브시스템들의 좌측 채널 출력들은 가산 요소(6)에서 믹싱되고, BRIR 서브시스템들의 우측 채널 출력들은 가산 요소(8)에서 믹싱된다. 요소(6)의 출력은 가상화기로부터 출력된 바이노럴 오디오 신호의 좌측 채널 L이고, 요소(8)의 출력은 가상화기로부터 출력된 바이노럴 오디오 신호의 우측 채널 R이다. 다채널 오디오 입력 신호는 또한, 도 1에서 "LFE" 채널로서 식별된, 저주파 효과(LFE) 또는 서브우퍼 채널을 포함할 수 있다. 종래의 방식에서, LFE 채널은 BRIR과 컨벌브되지 않지만, 대신에 도 1의 이득단(5)에서 (예를 들어, -3dB 이상만큼) 감쇠되고 이득단(5)의 출력은 가상화기의 바이노럴 출력 신호의 각 채널 내로 (요소 6 및 8에 의해) 동등하게 믹싱된다. 단(5)의 출력을 BRIR 서브시스템들(2, ..., 4)의 출력들과 시간-정렬하기 위하여 LFE 경로에서 추가 지연단이 필요할 수 있다. 대안으로서, LFE 채널은 단순히 무시될(즉, 가상화기에 어써팅(assert)되거나 가상화기에 의해 처리되지 않을) 수 있다. 예를 들어, (이하에서 설명되는) 본 발명의 도 2 실시예는 이와 같이 처리된 다채널 오디오 입력 신호의 임의의 LFE 채널을 단순히 무시한다. 많은 소비자 헤드폰들은 LFE 채널을 정확히 재생할 수 없다. 일부 종래의 가상화기들에서, 입력 신호는, 직교 미러 필터(quadrature mirror filter)(QMF) 도메인으로의 시간 도메인-주파수 도메인 변환을 겪어 QMF 도메인 주파수 성분들의 채널들을 발생시킨다. 이들 주파수 성분들은 (예를 들어, 도 1의 서브시스템들(2, ... , 4)의 QMF-도메인 구현들에서) QMF 도메인으로 필터링을 거치고, 그 다음, 결과적인 주파수 성분들은 통상적으로 (예를 들어, 도 1의 서브시스템들(2, ... , 4) 각각의 최종단에서) 시간 도메인으로 다시 변환되어 가상화기의 오디오 출력이 시간-도메인 신호(예를 들어, 시간-도메인 바이노럴 신호)가 되게 한다. 일반적으로, 헤드폰 가상화기에 입력되는 다채널 오디오 신호의 각각의 전체 주파수 범위 채널은, 청취자의 귀에 대해 알려진 장소의 사운드 소스로부터 방출된 오디오 콘텐츠를 나타내는 것으로 가정된다. 헤드폰 가상화기는 입력 신호의 각각의 이러한 채널에 바이노럴 룸 임펄스 응답(BRIR)을 적용하도록 구성된다. 각각의 BRIR은 2개의 부분: 직접 응답과 반사로 분해될 수 있다. 직접 응답은 사운드 소스의 도달 방향(DOA; direction of arrival)에 대응하는 HRTF이며, (사운드 소스와 청취자 사이의) 거리에 기인한 적절한 이득과 지연으로 조절되며, 선택사항으로서 작은 거리의 경우 시차 효과로 강화된다. BRIR의 나머지 부분은 반사를 모델링한다. 이른 반사(early reflection)는 대개 일차 또는 이차 반사이고 비교적 드문드문한 시간적 분포를 가진다. 각각의 일차 또는 이차 반사의 마이크로 구조(예를 들어, ITD 및 ILD)가 중요하다. 더 늦은 반사들(청취자에게 입사되기 이전에 2개보다 많은 표면으로부터 반사된 사운드)의 경우, 에코 밀도는 반사수 증가에 따라 증가하고, 개별 반사의 마이크로 속성은 관측하기 어렵게 된다. 더욱 더 늦은 반사의 경우, 매크로 구조(예를 들어, 반향 감쇠율, 이간 코히어런스, 및 전체 반향의 스펙트럼 분포)는 더욱 중요하게 된다. 이 때문에, 반사는 2개의 부분으로 추가로 분할될 수 있다: 이른 반사 및 늦은 반향. 직접 응답의 지연은 청취자로부터의 소스 거리를 사운드의 속도로 나눈 값이고, 그 레벨은 (소스 위치에 가까운 벽이나 큰 표면의 부재시에) 소스 거리에 반비례한다. 반면, 늦은 반향의 지연 및 레벨은 일반적으로 소스 위치에는 민감하지 않다. 실제적 고려사항으로 인해, 가상화기는 상이한 거리들의 소스들로부터의 직접 응답들을 시간-정렬, 및/또는 그들의 동적 범위를 압축할 것을 선택할 수 있다. 그러나, BRIR 내에서 직접 응답, 이른 반사, 및 늦은 반향들간의 시간 및 레벨 관계가 유지되어야 한다. 전형적인 BRIR의 유효 길이는 대부분의 음향 환경에서 수백 밀리초 또는 그 이상까지 연장된다. BRIR의 직접적인 적용은 수 천개의 탭을 갖는 필터와의 콘볼루션을 요구하고, 이것은 계산적으로 값비싸다. 또한, 파라미터화가 없다면, 충분한 공간적 해상도를 달성하기 위하여 상이한 소스 위치에 대해 BRIR들을 저장하는 것은 큰 메모리 공간을 요구할 것이다. 마지막으로, 사운드 소스 위치는 시간에 따라 변할 수 있고, 및/또는 청취자의 위치 및 배향은 시간에 따라 변할 수 있다. 이러한 움직임의 정확한 시뮬레이션은 시변동 BRIR 임펄스 응답을 요구한다. 이러한 시변동 필터들의 적절한 보간 및 적용은 이들 필터들의 임펄스 응답이 많은 탭들을 가질 경우 해결과제가 될 수 있다. 다채널 오디오 입력 신호의 하나 이상의 채널에 시뮬레이션된 반향을 적용하도록 구성된 공간 반향기를 구현하기 위해 피드백 지연 네트워크(FDN; feedback delay network)라고 알려진 널리 공지된 필터 구조를 갖는 필터가 이용될 수 있다. FDN의 구조는 간단하다. 이것은 수 개의 반향 탱크(예를 들어, 도 4의 FDN에서, 이득 요소 g1과 지연 라인 z-n1을 포함하는 방향 탱크)를 포함하고, 각각의 반향 탱크는 지연 및 이득을 가진다. FDN의 전형적인 구현에서, 모든 반향 탱