EP-4738834-A2 - DECODING SPHERICAL COORDINATES USING OPTIMIZED SPHERICAL QUANTIZATION DICTIONARY
Abstract
L'invention se rapporte à un procédé de décodage d'une direction spatiale d'une source sonore, dans lequel un dictionnaire de quantification sphérique est défini sur une sphère 3D par un nombre de niveau ( N ϕ ) d'élévation et par un nombre de points par niveau d'élévation ( N θ ( i )) , ce nombre de points par niveau étant déterminé en fonction de deux valeurs de cardinalité cumulative successives, le décodage comprenant les étapes de réception d'au moins un indice de quantification de la direction spatiale à décoder, d'estimation de l'indice d'élévation à partir de l'indice de quantification reçu, à l'aide d'une approximation polynomiale, de détermination de l'indice d'azimut à partir de la valeur de cardinalité cumulative définie pour l'indice d'élévation estimé et d'obtention des coordonnées sphériques de la direction spatiale à partir des indices d'élévation et d'azimut ainsi obtenues.
Inventors
- RAGOT, Stéphane
- YAOUMI, Mohamed
Assignees
- ORANGE
Dates
- Publication Date
- 20260506
- Application Date
- 20230213
Claims (7)
- Procédé de décodage d'une direction spatiale d'une source sonore, cette direction étant défini par des coordonnées sphériques comprenant une coordonnée d'élévation et une coordonnée d'azimut, dans lequel un dictionnaire de quantification sphérique est défini sur une sphère 3D par un nombre de niveau ( N ϕ ) d'élévation et par un nombre de points par niveau d'élévation ( N θ ( i )), ce nombre de points par niveau étant déterminé en fonction de deux valeurs de cardinalité cumulative successives ( cumN ( i ), cumN ( i - 1)), - la valeur de cardinalité cumulative ( cumN ( i )) pour un indice d'élévation i étant représentative d'un nombre de points proportionnel à un nombre total de points et selon l'aire d'une zone sphérique comprenant au moins une zone délimitée par le plan horizontal supérieur ( ϕ = i + 1 2 δ ϕ ) du niveau d'élévation positive de l'indice d'élévation i et un plan horizontal inférieur de la sphère ; le nombre total de points étant obtenu en soustrayant à un nombre de points cible correspondant à un budget de bits donné, un nombre de points donné pour le niveau d'élévation correspondant à l'équateur et un nombre de points donné et pour le niveau d'élévation correspondant à chacun des pôles de la sphère 3D, le décodage comprenant les étapes suivantes : - réception (E700) d'au moins un indice de quantification de la direction spatiale à décoder ; - estimation (E708) de l'indice d'élévation à partir de l'indice de quantification reçu, à l'aide d'une approximation polynomiale ; - détermination (E710) de l'indice d'azimut à partir de la valeur de cardinalité cumulative définie pour l'indice d'élévation estimé ; - obtention (E711) des coordonnées sphériques de la direction spatiale à partir des indices d'élévation et d'azimut ainsi obtenues.
- Procédé selon la revendication 1, dans lequel le nombre total de points ( N tot ′ ) est obtenu en soustrayant à un nombre de points cible ( N tot ) le nombre de points donné correspondant à l'équateur et chacun des pôles nord et sud de la sphère selon l'expression suivante: N tot ′ = N tot − N θ 0 − 2 N θ N ϕ − 1 , N tot étant le nombre de points cible de la sphère pour un budget de bits donné, N θ (0), le nombre de points prédéterminé pour le niveau d'élévation correspondant à l'équateur ; et 2 N θ ( N ϕ - 1) le nombre de points prédéterminé pour les pôles nord et sud de la sphère.
- Procédé selon la revendication 1, dans lequel la valeur de cardinalité cumulative ( cumN ( i )) pour un indice d'élévation i est représentative d'un nombre de points proportionnel au nombre total de points selon l'aire (A i ) d'une zone sphérique délimitée par le plan horizontal supérieur ( ϕ = i + 1 2 δ ϕ ) du niveau d'élévation positive de l'indice d'élévation i et ce même plan de la sphère symétrique par rapport à l'équateur ( ϕ = − i + 1 2 δ ϕ ) auquel on retranche l'aire (A 0 ) correspondant au niveau d'élévation de l'équateur, selon le rapport suivant: A i − A 0 A N ϕ − 2 − A 0 N tot ′ N ϕ - 2 étant le nombre de niveaux de quantification de l'élévation sans l'équateur et les pôles nord et sud de la sphère et A Nϕ -2 , l'aire de la zone sphérique correspondant à un indice d'élévation N ϕ - 2.
- Procédé selon la revendication 3, dans lequel l'expression de la valeur de cardinalité cumulative est la suivante : cumN i = 2 Arr i N tot ′ 2 sin i + 1 2 δ ϕ − sin δ ϕ 2 sin N ϕ − 1 2 δ ϕ − sin δ ϕ 2 avec i = 1, ... , N ϕ - 2, N ϕ - 2 étant le nombre de niveaux de quantification de l'élévation sans l'équateur et les pôles nord et sud de la sphère, Arr i () étant un arrondi à l'entier le plus proche dépendant de i, 2 Arr i x 2 correspondant à un arrondi à un entier pair et δ ϕ un pas de quantification de l'élévation donné.
- Procédé selon l'une des revendications 1 à 4, dans lequel le décodage de l'élévation donne un indice d'élévation décodée (i) sur un nombre de niveau ( N ϕ ) d'élévation et une information de signe.
- Dispositif de décodage comportant un circuit de traitement pour la mise en œuvre des étapes du procédé de décodage selon l'une des revendications 1 à 5.
- Support de stockage, lisible par un processeur, mémorisant un programme informatique comportant des instructions pour l'exécution du procédé de décodage selon l'une des revendications 1 à 5.
Description
La présente invention concerne la quantification vectorielle sphérique appliquée au codage/décodage de données sonores, pour le codage de directions d'arrivée de source (abrégées comme « DoA » pour Direction of Arrival en anglais) qui sont en général représentées par des coordonnées sphériques (par exemple azimut et élévation, à une distance pré-déterminée). Les codeurs/décodeurs (ci-après appelés « codecs ») qui sont utilisés actuellement en téléphonie mobile sont mono (un seul canal de signal pour une restitution sur un seul haut-parleur). Le codec 3GPP EVS (pour « Enhanced Voice Services ») permet d'offrir une qualité « Super-HD » (aussi appelée voix « Haute Définition Plus » ou HD+) avec une bande audio en bande super-élargie (SWB pour « super-wideband » en anglais) pour des signaux échantillonnés à 32 ou 48 kHz ou pleine bande (FB pour « Fullband ») pour des signaux échantillonnés à 48 kHz ; la largeur de bande audio est de 14,4 à 16 kHz en mode SWB (de 9,6 à 128 kbit/s) et de 20 kHz en mode FB (de 16,4 à 128 kbit/s). La prochaine évolution de qualité dans les services conversationnels proposés par les opérateurs devrait être constituée par les services immersifs, en utilisant des terminaux tels que des smartphones équipés de plusieurs microphones ou des équipements de conférence audio spatialisée ou de visioconférence de type télé-présence ou vidéo 360°, ou encore des équipements de partage de contenus audio « live », avec un rendu sonore spatialisé en 3D autrement plus immersif qu'une simple restitution stéréo 2D. Avec les usages de plus en plus répandus d'écoute sur téléphone mobile avec un casque audio et l'apparition d'équipements audio avancés (accessoires tels qu'un microphone 3D, assistants vocaux avec antennes acoustiques, casques de réalité virtuelle ou augmentée, etc.) la captation et le rendu de scènes sonores spatialisées sont désormais assez répandus pour offrir une expérience de communication immersive. A ce titre, la future norme 3GPP « IVAS » (pour « Immersive Voice And Audio Services ») propose l'extension du codec EVS à l'audio immersif en acceptant comme format d'entrée du codec au moins les formats de son spatialisé listés ci-dessous (et leurs combinaisons): Format multicanal (channel-based en anglais) de type stéréo ou 5.1 où chaque canal vient alimenter un haut-parleur (par exemple L et R en stéréo ou L, R, Ls, Rs et C en 5.1) ;Format objet (object-based en anglais) où des objets sonores sont décrits comme un signal audio (en général mono) associé à des métadonnées décrivant les attributs de cet objet (position dans l'espace, largeur spatiale de la source, etc.),Format ambisonique (scene-based en anglais) qui décrit le champ sonore en un point donné, en général capté par un microphone sphérique ou synthétisé dans le domaine des harmoniques sphériques. Il est également question de considérer potentiellement d'autres formats d'entrée tels que le format appelé MASA (Metadata assisted Spatial Audio en anglais) qui correspond à une représentation paramétrique d'une prise de son sur téléphone mobile équipés de plusieurs microphones. Ce format est étudié plus en détails ci-après. Les signaux à traiter par le codeur/décodeur se présentent comme des successions de blocs d'échantillons sonores appelés « trames » ou « sous-trames » ci-après. En outre, ci-après, les notations mathématiques suivent la convention suivante : Scalaire : s ou N (minuscule pour les variables ou majuscule pour les constantes)Vecteur : q (minuscule, gras et italique)Matrice : M (majuscule, gras et italique) Par la suite, on notera la sphère Sn de rayon r en dimension n+1 définie comme Sn=x=x1,…,xn+1∈ℝn+1x=x12+⋯+xn+12=r où ||. || désigne la norme euclidienne. Quand le rayon r ne sera pas précisé, on supposera que r = 1 (sphère unité). On se focalise ici sur le cas de la dimension 3 où n=2. On rappelle ici la définition des coordonnées sphériques en dimension 3. Pour un point (x,y,z) en dimension 3 on a en général au moins deux conventions classiques de coordonnées sphériques notées (r,ϕ,θ): la convention géographique : x = r cos ϕ cos θ, y = r cos ϕ sin θ, z = r sin ϕ avec r ≥ 0, -π/2 ≤ ϕ ≤ π/2 et -π ≤ θ ≤ πla convention physique : x = r sin ϕ cos θ, y = r sin ϕ sin θ, z = r cos ϕ avec r ≥ 0, 0 ≤ ϕ ≤ π et -π ≤ θ ≤ π Les angles ϕ,θ sont ici définis en radians, sans perte de généralité. Le rayon r et l'azimut (ou longitude) θ sont identiques dans ces deux définitions, mais l'angle ϕ diffère selon qu'il est défini par rapport au plan horizontal 0xy (élévation ou latitude sur l'intervalle [-π/2, π/2]) ou à partir de l'axe 0z (co-latitude ou angle polaire sur l'intervalle [0, π]). L'azimut θ peut être défini sur un intervalle [-π,π] de façon équivalente on pourra le définir sur [0,2π] par simple opération de modulo 2π. Par la suite, on représentera de façon préférentielle les mêmes coordonnées angulaires en degrés, mais d'autres unités pourront être utilisées. On notera que les symboles peuvent être différents dans la lit