DE-112022007568-B4 - SCHALLRAUMKONSTRUKTIONSEINRICHTUNG, SCHALLRAUMKONSTRUKTIONSSYSTEM, PROGRAMM UND SCHALLRAUMKONSTRUKTIONSVERFAHREN

DE112022007568B4DE 112022007568 B4DE112022007568 B4DE 112022007568B4DE-112022007568-B4

Abstract

Schallraumkonstruktionseinrichtung (100, 200, 300), umfassend: eine Audiobeschaffungseinheit (101, 201), die Audiodaten beschafft, die Audio von einer Vielzahl von Schallquellen aufweisen; eine Schallquellenbestimmungseinheit (102, 202), die auf der Grundlage der Audiodaten eine Vielzahl von Schallquellenpositionen als Positionen der Vielzahl von Schallquellen bestimmt; eine Audioextraktionseinheit (103), die eine Vielzahl von Stücken von Extraktionsaudiodaten erzeugt, indem Audio, das durch die Audiodaten repräsentiert wird, in Bezug auf jede Schallquelle extrahiert wird und die Extraktionsaudiodaten, die das extrahierte Audio repräsentieren, erzeugt werden; eine Formatumwandlungseinheit (104), die eine Vielzahl von stereophonen Tönen erzeugt, die der Vielzahl von Schallquellen entsprechen, indem ein Format der Vielzahl von Stücken von Extraktionsaudiodaten in ein stereophones Audioformat umgewandelt wird; eine Positionsbeschaffungseinheit (105), die eine Hörposition als eine Position, an der Audio angehört wird, beschafft; eine Bewegungsverarbeitungseinheit (106), die einen Winkel und einen Abstand zwischen der Hörposition und jeder der Vielzahl von Schallquellenpositionen berechnet; eine Winkel-Abstand-Einstelleinheit (107), die jeden der Vielzahl von stereophonen Tönen unter Verwendung des Winkels und des Abstands entsprechend jeder der Vielzahl von Schallquellenpositionen einstellt und dadurch eine Vielzahl von eingestellten stereophonen Tönen als eine Vielzahl von stereophonen Tönen an der Hörposition erzeugt; und eine Überlagerungseinheit (108, 308), die die Vielzahl von eingestellten stereophonen Tönen miteinander überlagert.

Inventors

Kosuke Hosoya
Isamu Ogawa
Tomoharu Awano

Assignees

MITSUBISHI ELECTRIC CORPORATION

Dates

Publication Date: 20260507
Application Date: 20220928

Claims (8)

Schallraumkonstruktionseinrichtung (100, 200, 300), umfassend: eine Audiobeschaffungseinheit (101, 201), die Audiodaten beschafft, die Audio von einer Vielzahl von Schallquellen aufweisen; eine Schallquellenbestimmungseinheit (102, 202), die auf der Grundlage der Audiodaten eine Vielzahl von Schallquellenpositionen als Positionen der Vielzahl von Schallquellen bestimmt; eine Audioextraktionseinheit (103), die eine Vielzahl von Stücken von Extraktionsaudiodaten erzeugt, indem Audio, das durch die Audiodaten repräsentiert wird, in Bezug auf jede Schallquelle extrahiert wird und die Extraktionsaudiodaten, die das extrahierte Audio repräsentieren, erzeugt werden; eine Formatumwandlungseinheit (104), die eine Vielzahl von stereophonen Tönen erzeugt, die der Vielzahl von Schallquellen entsprechen, indem ein Format der Vielzahl von Stücken von Extraktionsaudiodaten in ein stereophones Audioformat umgewandelt wird; eine Positionsbeschaffungseinheit (105), die eine Hörposition als eine Position, an der Audio angehört wird, beschafft; eine Bewegungsverarbeitungseinheit (106), die einen Winkel und einen Abstand zwischen der Hörposition und jeder der Vielzahl von Schallquellenpositionen berechnet; eine Winkel-Abstand-Einstelleinheit (107), die jeden der Vielzahl von stereophonen Tönen unter Verwendung des Winkels und des Abstands entsprechend jeder der Vielzahl von Schallquellenpositionen einstellt und dadurch eine Vielzahl von eingestellten stereophonen Tönen als eine Vielzahl von stereophonen Tönen an der Hörposition erzeugt; und eine Überlagerungseinheit (108, 308), die die Vielzahl von eingestellten stereophonen Tönen miteinander überlagert.
Schallraumkonstruktionseinrichtung (100, 200, 300) nach Anspruch 1 , wobei die Audioextraktionseinheit (103) die Extraktionsaudiodaten, die einer in der Vielzahl von Schallquellen enthaltenen Schallquelle entsprechen, aus der Vielzahl von Stücken von Extraktionsaudiodaten erzeugt, indem Daten, die nach dem Trennen des Audios von der einen Schallquelle von den Audiodaten verbleiben, von den Audiodaten subtrahiert werden.
Schallraumkonstruktionseinrichtung (100, 200, 300) nach Anspruch 1 oder 2 , wobei die Schallquellenbestimmungseinheit (102, 202) die Vielzahl von Schallquellenpositionen unter Verwendung eines Bildes bestimmt, das durch Fotografieren eines Raumes, der die Vielzahl von Schallquellen aufweist, erhalten wird.
Schallraumkonstruktionseinrichtung (200) nach einem der Ansprüche 1 bis 3 , wobei die Audiodaten Daten sind, die von einer Schallerfassungseinrichtung (240), die über ein Netzwerk (231) mit der Schallraumkonstruktionseinrichtung (200) verbunden ist, aufgenommene Audiodaten darstellen.
Schallraumkonstruktionseinrichtung (300) nach einem der Ansprüche 1 bis 4 , ferner umfassend: eine Anderes-Audio-Beschaffungseinheit (321), die überlagerungsspezifische Audiodaten beschafft, die überlagerungsspezifischen stereophonen Ton als stereophonen Ton repräsentieren, der erzeugt wird durch Umwandeln von Audiodaten von Audio, das sich von dem Audio unterscheidet, das in den Audiodaten enthalten ist, die von der Audiobeschaffungseinheit (101) in mindestens einem einer Zeit und einer Position der Aufnahme beschafft wurden, in das Format von stereophonem Audio; und eine überlagerungsspezifische Winkel-Abstand-Einstelleinheit (322), die aus dem überlagerungsspezifischen stereophonen Ton überlagerungsspezifischen eingestellten stereophonen Ton als stereophonen Ton an der Hörposition erzeugt, wobei die Überlagerungseinheit (308) die Vielzahl von eingestellten stereophonen Tönen und die überlagerungsspezifischen eingestellten stereophonen Tönen miteinander überlagert.
Schallraumkonstruktionssystem, umfassend eine Schallraumkonstruktionseinrichtung (100, 200, 300) und eine Schallerfassungseinrichtung (240), die durch ein Netzwerk (231) mit der Schallraumkonstruktionseinrichtung (100, 200, 300) verbunden ist und Audiodaten erzeugt, die ein Audio von einer Vielzahl von Schallquellen aufweisen, wobei die Schallraumkonstruktionseinrichtung (100, 200, 300) aufweist: eine Kommunikationseinheit (243), die Kommunikation mit der Schallerfassungseinrichtung (240) ausführt; eine Audiobeschaffungseinheit (101, 201), die die Audiodaten über die Kommunikationseinheit (240) beschafft; eine Schallquellenbestimmungseinheit (102, 202), die auf der Grundlage der Audiodaten eine Vielzahl von Schallquellenpositionen als Positionen der Vielzahl von Schallquellen bestimmt; eine Audioextraktionseinheit (103), die eine Vielzahl von Stücken von Extraktionsaudiodaten erzeugt, indem Audio, das durch die Audiodaten repräsentiert wird, in Bezug auf jede Schallquelle extrahiert wird und die Extraktionsaudiodaten, die das extrahierte Audio repräsentieren, erzeugt werden; eine Formatumwandlungseinheit (104), die eine Vielzahl von stereophonen Tönen erzeugt, die der Vielzahl von Schallquellen entsprechen, indem ein Format der Vielzahl von Stücken von Extraktionsaudiodaten in ein stereophones Audioformat umgewandelt wird; eine Positionsbeschaffungseinheit (105), die eine Hörposition als eine Position, an der Audio angehört wird, beschafft; eine Bewegungsverarbeitungseinheit (106), die einen Winkel und einen Abstand zwischen der Hörposition und jeder der Vielzahl von Schallquellenpositionen berechnet; eine Winkel-Abstand-Einstelleinheit (107), die jeden der Vielzahl von stereophonen Tönen unter Verwendung des Winkels und des Abstands entsprechend jeder der Vielzahl von Schallquellenpositionen einstellt und dadurch eine Vielzahl von eingestellten stereophonen Tönen als eine Vielzahl von stereophonen Tönen an der Hörposition erzeugt; und eine Überlagerungseinheit (108, 308), die die Vielzahl von eingestellten stereophonen Tönen miteinander überlagert.
Programm, das einen Computer (10) veranlasst, zu arbeiten als: eine Audiobeschaffungseinheit (101, 201), die Audiodaten beschafft, die ein Audio von einer Vielzahl von Schallquellen aufweisen; eine Schallquellenbestimmungseinheit (102, 202), die auf der Grundlage der Audiodaten eine Vielzahl von Schallquellenpositionen als Positionen der Vielzahl von Schallquellen bestimmt; eine Audioextraktionseinheit (103), die eine Vielzahl von Stücken von Extraktionsaudiodaten erzeugt, indem Audio, das durch die Audiodaten repräsentiert wird, in Bezug auf jede Schallquelle extrahiert wird und die Extraktionsaudiodaten, die das extrahierte Audio repräsentieren, erzeugt werden; eine Formatumwandlungseinheit (104), die eine Vielzahl von stereophonen Tönen erzeugt, die der Vielzahl von Schallquellen entsprechen, indem ein Format der Vielzahl von Stücken von Extraktionsaudiodaten in ein stereophones Audioformat umgewandelt wird; eine Positionsbeschaffungseinheit (105), die eine Hörposition als eine Position, an der Audio angehört wird, beschafft; eine Bewegungsverarbeitungseinheit (106), die einen Winkel und einen Abstand zwischen der Hörposition und jeder der Vielzahl von Schallquellenpositionen berechnet; eine Winkel-Abstand-Einstelleinheit (107), die jeden der Vielzahl von stereophonen Tönen unter Verwendung des Winkels und des Abstands entsprechend jeder der Vielzahl von Schallquellenpositionen einstellt und dadurch eine Vielzahl von eingestellten stereophonen Tönen als eine Vielzahl von stereophonen Tönen an der Hörposition erzeugt; und eine Überlagerungseinheit (108, 308), die die Vielzahl von eingestellten stereophonen Tönen miteinander überlagert.
Schallraumkonstruktionsverfahren, umfassend: Beschaffen von Audiodaten, die ein Audio von einer Vielzahl von Schallquellen aufweisen; Bestimmen einer Vielzahl von Schallquellenpositionen als Positionen der Vielzahl von Schallquellen auf Grundlage der Audiodaten; Erzeugen einer Vielzahl von Stücken von Extraktionsaudiodaten, indem Audio, das durch die Audiodaten repräsentiert wird, in Bezug auf jede Schallquelle extrahiert wird und die Extraktionsaudiodaten, die das extrahierte Audio repräsentieren, erzeugt werden; Erzeugen einer Vielzahl von stereophonen Tönen, die der Vielzahl von Schallquellen entsprechen, indem ein Format der Vielzahl von Stücken von Extraktionsaudiodaten in ein stereophones Audioformat umgewandelt wird; Beschaffen einer Hörposition als eine Position, an der Audio angehört wird; Berechnen eines Winkels und eines Abstands zwischen der Hörposition und jeder der Vielzahl von Schallquellenpositionen; Einstellen jedes der Vielzahl von stereophonen Tönen unter Verwendung des Winkels und des Abstands entsprechend jeder der Vielzahl von Schallquellenpositionen und dadurch Erzeugen einer Vielzahl von eingestellten stereophonen Tönen als eine Vielzahl von stereophonen Tönen an der Hörposition; und Überlagern der Vielzahl von eingestellten stereophonen Tönen miteinander.

Description

TECHNISCHES GEBIET Die vorliegende Offenbarung bezieht sich auf eine Schallraumkonstruktionseinrichtung, ein Schallraumkonstruktionssystem, ein Programm und ein Schallraumkonstruktionsverfahren. TECHNISCHER HINTERGRUND Die Entwicklung der stereophonen Technologie ist derzeit im Gange. Unter Verwendung des Ambisonics-Verfahrens kann zum Beispiel ein Schallfeld in 360-Grad-Richtungen an einer Mikrofonposition wiedergegeben werden. Für die Implementierung des Ambisonics-Verfahrens wird in der Regel ein Ambisonics-Mikrofon verwendet. Wenn das Ambisonics-Mikrofon fest ist, kann das Schallfeld, wenn sich ein Hörer frei im virtuellen Raum bewegt, an der Stelle nach der Bewegung nicht reproduziert werden. Im Hinblick auf diese Frage offenbart Patentreferenz 1 eine Einrichtung, die geeignet ist, Richtcharakteristiken von aufgenommenem gerichteten Audio als Reaktion auf räumliche Daten eines Mikrofonsystems, das das gerichtete Audio aufnimmt, zu korrigieren. Mit dieser Einrichtung können die Richtcharakteristiken des gerichteten Audios in Abhängigkeit von der Bewegung einer Betrachtungs-/Hörposition korrigiert werden. WO 2021 / 111 030 A1 beschreibt Vorrichtungen und Verfahren zum Signalisieren von Audioszenenänderungen in Bezug auf Audioobjekte innerhalb einer Audioszene. US 2017 / 0 127 035 A1 beschreibt ein Informationswiedergabeverfahren sowie ein Informationsaufzeichnungsverfahren. REFERENZEN ZUM STAND DER TECHNIK PATENTREFERENZ Patentreferenz 1: Veröffentlichung der japanischen Patentanmeldung Nr. 2022-509761 KURZFASSUNG DER ERFINDUNG DURCH DIE ERFINDUNG ZU LÖSENDE AUFGABE Bei der herkömmlichen Technologie kann jedoch bei zwei oder mehr Schallquellen keine Raumverfolgung im Ambisonics-B-Format in Bezug auf die Bewegung der Betrachtungs-/Hörposition durchgeführt werden. Ein Ziel eines oder einer Vielzahl von Aspekten der vorliegenden Offenbarung ist es daher, die Wiedergabe des Schallfeldes an einer freien Position in dem Zustand zu ermöglichen, in dem eine Schallerfassungseinrichtung fest ist. MITTEL ZUM LÖSEN DES PROBLEMS Eine Schallraumkonstruktionseinrichtung gemäß einem Aspekt der vorliegenden Offenbarung umfasst eine Audiobeschaffungseinheit, die Audiodaten beschafft, die Audio von einer Vielzahl von Schallquellen aufweisen, eine Schallquellenbestimmungseinheit, die auf der Grundlage der Audiodaten eine Vielzahl von Schallquellenpositionen als Positionen der Vielzahl von Schallquellen bestimmt, eine Audioextraktionseinheit, die eine Vielzahl von Stücken von Extraktionsaudiodaten erzeugt, indem Audio, das durch die Audiodaten repräsentiert wird, in Bezug auf jede Schallquelle extrahiert wird und die Extraktionsaudiodaten, die das extrahierte Audio repräsentieren, erzeugt werden, eine Formatumwandlungseinheit, die eine Vielzahl von stereophonen Tönen (englisch: „sounds“) erzeugt, die der Vielzahl von Schallquellen entsprechen, indem ein Format der Vielzahl von Stücken von Extraktionsaudiodaten in ein stereophones Audioformat umgewandelt wird, eine Positionsbeschaffungseinheit, die eine Hörposition als eine Position, an der Audio angehört wird, beschafft, eine Bewegungsverarbeitungseinheit, die einen Winkel und einen Abstand zwischen der Hörposition und jeder der Vielzahl von Schallquellenpositionen berechnet, eine Winkel-Abstand-Einstelleinheit, die jeden der Vielzahl von stereophonen Tönen unter Verwendung des Winkels und des Abstands entsprechend jeder der Vielzahl von Schallquellenpositionen einstellt und dadurch eine Vielzahl von eingestellten stereophonen Tönen als eine Vielzahl von stereophonen Tönen an der Hörposition erzeugt, und eine Überlagerungseinheit, die die Vielzahl von eingestellten stereophonen Tönen miteinander überlagert. Ein Schallraumkonstruktionssystem gemäß einem Aspekt der vorliegenden Offenbarung ist ein Schallraumkonstruktionssystem, aufweisend eine Schallraumkonstruktionseinrichtung und eine Schallerfassungseinrichtung, die durch ein Netzwerk mit der Schallraumkonstruktionseinrichtung verbunden ist und Audiodaten erzeugt, die Audio aus einer Vielzahl von Schallquellen aufweisen, wobei die Schallraumkonstruktionseinrichtung eine Kommunikationseinheit, die Kommunikation mit der Schallerfassungseinrichtung ausführt, aufweist, eine Audiobeschaffungseinheit, die die Audiodaten über die Kommunikationseinheit beschafft, eine Schallquellenbestimmungseinheit, die auf der Grundlage der Audiodaten eine Vielzahl von Schallquellenpositionen als Positionen der Vielzahl von Schallquellen bestimmt, eine Audioextraktionseinheit, die eine Vielzahl von Stücken von Extraktionsaudiodaten erzeugt, indem Audio, das durch die Audiodaten repräsentiert wird, in Bezug auf jede Schallquelle extrahiert wird und die Extraktionsaudiodaten, die das extrahierte Audio repräsentieren, erzeugt werden, eine Formatumwandlungseinheit, die eine Vielzahl von stereophonen Tönen erzeugt, die der Vielzahl von Schallquellen entsprechen, indem ein Format der Vielzahl von Stücken von Extraktionsaudiodaten in ein stereophones Au