DE-102022126455-B4 - SYSTEM UND VERFAHREN FÜR DIE VERARBEITUNG EINES AUDIOEINGANGSSIGNALS

DE102022126455B4DE 102022126455 B4DE102022126455 B4DE 102022126455B4DE-102022126455-B4

Abstract

System (100) zum Verarbeiten eines Audioeingangssignals (15), wobei das System (100) umfasst: ein Mikrofon (20), einen Controller (10), einen Datenspeicher (50) und eine Kommunikationsverbindung (60) mit einem entfernt befindlichen Audiolautsprecher (70); wobei das Mikrofon (20) dafür konfiguriert ist, das Audioeingangssignal (15) zu erfassen und zu erzeugen und das Audioeingangssignal (15) an den Controller (10) zu übermitteln; wobei der Controller (10) mit der Kommunikationsverbindung (60) funktional verbunden ist; und wobei der Datenspeicher (50) Anweisungen enthält, die durch den Controller (10) ausführbar sind, wobei die Anweisungen enthalten: Erzeugen einer ersten Resultierenden (235) auf der Grundlage des Audioeingangssignals (15) über einen linearen Rauschminderungs-Filterungsalgorithmus; Erzeugen einer zweiten Resultierenden (245) auf der Grundlage der ersten Resultierenden (235) über einen nichtlinearen Nachfilterungsalgorithmus; Erzeugen eines Audioausgangssignals auf der Grundlage der zweiten Resultierenden (245) über einen Merkmalswiederherstellungsalgorithmus (300); und Übermitteln des Audioausgangssignals an den entfernt befindlichen Audiolautsprecher (70) über die Kommunikationsverbindung (60); dadurch gekennzeichnet, dass der Merkmalswiederherstellungsalgorithmus (300) ein Modul auf der Grundlage eines tiefen neuronalen Netzes (DNN-basiertes Modul) umfasst, das enthält: eine STFT (Kurzzeit-Fourier-Transformation) (310); mehrere Faltungsschichten (320); eine erste LSTM-Schicht (Lang-Kurzzeit-Speicherschicht) (330); eine zweite LSTM-Schicht (332); eine dichte Schicht (340); mehrere transponierte Faltungsschichten (350); und eine inverse STFT (ISTFT) (370).

Inventors

Amos Schreibman

Assignees

GM Global Technology Operations LLC

Dates

Publication Date: 20260507
Application Date: 20221012
Priority Date: 20220203

Claims (9)

System (100) zum Verarbeiten eines Audioeingangssignals (15), wobei das System (100) umfasst: ein Mikrofon (20), einen Controller (10), einen Datenspeicher (50) und eine Kommunikationsverbindung (60) mit einem entfernt befindlichen Audiolautsprecher (70); wobei das Mikrofon (20) dafür konfiguriert ist, das Audioeingangssignal (15) zu erfassen und zu erzeugen und das Audioeingangssignal (15) an den Controller (10) zu übermitteln; wobei der Controller (10) mit der Kommunikationsverbindung (60) funktional verbunden ist; und wobei der Datenspeicher (50) Anweisungen enthält, die durch den Controller (10) ausführbar sind, wobei die Anweisungen enthalten: Erzeugen einer ersten Resultierenden (235) auf der Grundlage des Audioeingangssignals (15) über einen linearen Rauschminderungs-Filterungsalgorithmus; Erzeugen einer zweiten Resultierenden (245) auf der Grundlage der ersten Resultierenden (235) über einen nichtlinearen Nachfilterungsalgorithmus; Erzeugen eines Audioausgangssignals auf der Grundlage der zweiten Resultierenden (245) über einen Merkmalswiederherstellungsalgorithmus (300); und Übermitteln des Audioausgangssignals an den entfernt befindlichen Audiolautsprecher (70) über die Kommunikationsverbindung (60); dadurch gekennzeichnet , dass der Merkmalswiederherstellungsalgorithmus (300) ein Modul auf der Grundlage eines tiefen neuronalen Netzes (DNN-basiertes Modul) umfasst, das enthält: eine STFT (Kurzzeit-Fourier-Transformation) (310); mehrere Faltungsschichten (320); eine erste LSTM-Schicht (Lang-Kurzzeit-Speicherschicht) (330); eine zweite LSTM-Schicht (332); eine dichte Schicht (340); mehrere transponierte Faltungsschichten (350); und eine inverse STFT (ISTFT) (370).
System (100) nach Anspruch 1 , wobei die STFT (310) das Audioeingangssignal (15) aus einem Amplitudenbereich in einen Frequenzbereich transformiert.
System (100) nach Anspruch 2 , wobei die STFT (310) das Audioeingangssignal (15) mit einer 2-Kanal-Folge mit einem Realteil und mit einem Imaginärteil in den Frequenzbereich transformiert.
System (100) nach Anspruch 1 , wobei die mehreren Faltungsschichten (320) umfassen: eine erste Faltungsschicht (321) mit einer 2-Kanal-Eingabe mit 256 Merkmalen und mit einer 32-Kanal-Ausgabe mit 128 Merkmalen; eine zweite Faltungsschicht (322) mit einer 32-Kanal-Eingabe mit 128 Merkmalen und mit einer 64-Kanal-Ausgabe mit 64 Merkmalen; eine dritte Faltungsschicht (323) mit einer 64-Kanal-Eingabe mit 64 Merkmalen und mit einer 128-Kanal-Ausgabe mit 32 Merkmalen; eine vierte Faltungsschicht (324) mit einer 128-Kanal-Eingabe mit 32 Merkmalen und mit einer 128-Kanal-Ausgabe mit 16 Merkmalen; eine fünfte Faltungsschicht (325) mit einer 128-Kanal-Eingabe mit 16 Merkmalen und mit einer 256-Kanal-Ausgabe mit 8 Merkmalen; und eine sechste Faltungsschicht (326) mit einer 256-Kanal-Eingabe mit 8 Merkmalen und mit einer 256-Kanal-Ausgabe mit 4 Merkmalen.
System (100) nach Anspruch 4 , wobei die 256-Kanal-Ausgabe mit 4 Merkmalen, die von der sechsten Faltungsschicht (326) ausgegeben wird, als eine Eingabe in die erste LSTM-Schicht (330) bereitgestellt wird.
System (100) nach Anspruch 4 , wobei jede der mehreren Faltungsschichten (320) einen Kern der Größe (2, 9) und eine Schrittweite der Größe (1, 2) aufweist.
System (100) nach Anspruch 4 , wobei eine Ausgabe der ersten Faltungsschicht (321) als eine Eingabe in die ISTFT (370) bereitgestellt wird.
System (100) nach Anspruch 4 , wobei die Ausgabe der sechsten Faltungsschicht (326) als Eingabe in die erste LSTM-Schicht (330) bereitgestellt wird.
Verfahren zum Verarbeiten eines Audioeingangssignals (15), wobei das Verfahren umfasst: dass ein Audioeingangssignal (15) über ein Mikrofon (20) erfasst wird; dass das Audioeingangssignal (15) einem linearen Rauschminderungs-Filterungsalgorithmus ausgesetzt wird, um eine erste Resultierende (235) zu erzeugen; dass die erste Resultierende (235) einem nichtlinearen Nachfilterungsalgorithmus ausgesetzt wird, um eine zweite Resultierende (245) zu erzeugen; dass dadurch, dass die zweite Resultierende (245) einem Merkmalswiederherstellungsalgorithmus (300) ausgesetzt wird, ein Audioausgangssignal erzeugt wird; und dass ein Lautsprecher in Ansprechen auf das Audioausgangssignal gesteuert wird; dadurch gekennzeichnet , dass der Merkmalswiederherstellungsalgorithmus (300) ein Modul auf der Grundlage eines tiefen neuronalen Netzes (DNN-basiertes Modul) umfasst, das enthält: eine STFT (Kurzzeit-Fourier-Transformation) (310); mehrere Faltungsschichten (320); eine erste LSTM-Schicht (Lang-Kurzzeit-Speicherschicht) (330); eine zweite LSTM-Schicht (332); eine dichte Schicht (340); mehrere transponierte Faltungsschichten (350); und eine inverse STFT (ISTFT) (370).

Description

Die vorliegende Erfindung betrifft ein System gemäß dem Oberbegriff des Anspruchs 1 und ein Verfahren gemäß dem Oberbegriff des Anspruchs 9 zum Verarbeiten eines Audioeingangssignals, wie der Art nach im Wesentlichen aus der US 2019 / 0 122 689 A1 bekannt. EINLEITUNG Sprachverarbeitungssysteme umfassen die Verwendung von Systemen des Typs Lautsprecher-Freihandtelefon wie etwa Smartphones, Videokonferenzsysteme, Laptops und Tablets. In einigen Systemen kann sich der Lautsprecher in einem geschlossenen Raum und in einer verhältnismäßig großen Entfernung von einem Mikrofon entfernt befinden. Derartige Anordnungen können Umgebungsrauschen, einschließlich Nebengeräuschen, Störungen und Nachhall, einführen. Derartige Anordnungen können zu akustischen Signalverarbeitungsherausforderungen führen, die die Schallqualität und ein zugeordnetes Signal-Rausch-Verhältnis (SNR) beeinträchtigen. Sprachverarbeitungstechnologien wie etwa automatische Spracherkennung (ASR) und Telekonferenzen enthalten häufig Rauschminderungsstrategien und Rauschminderungssysteme, um den hörbaren Umgebungsrauschpegel zu verringern und die Sprachverständlichkeit zu verbessern. Rauschminderungssysteme können lineare Rauschminderungsalgorithmen, nichtlineare Nachfilterungsalgorithmen usw. enthalten. Die Leistungsfähigkeit linearer Rauschminderungsalgorithmen kann nicht ausreichen, um ein gewünschtes Signal-Rausch-Ziel (SNR-Ziel) zu erzielen. Ein nichtlinearer Nachfilterungsalgorithmus (PF), der mit einem linearen Rauschminderungsalgorithmus in Reihe geschaltet ist, kann Rauschminderungspegel verbessern, wobei es aber Abwägungen zwischen Restrauschen und Sprachstörpegeln gibt. Durch die Entfernung von Sprachmerkmalen aus dem Signal wegen spektraler Subtraktionsalgorithmen, die in einem PF-Module genutzt werden können, kann eine Klangverzerrung verursacht werden. Um ein Ziel-SNR bei minimaler Sprachverzerrung zu erreichen, erfordert ein derartiges System eine genaue Abstimmung, was schwierig zu erzielen sein kann. Somit besteht ein Bedarf an einem verbesserten Verfahren und System für die Sprachverarbeitung, die Rauschminderungsstrategien enthalten, die hörbare Nebengeräuschpegel verringern, die Sprachverständlichkeit verbessern und eine Notwendigkeit einer genauen Abstimmung verringern. ZUSAMMENFASSUNG Erfindungsgemäß werden ein System mit den Merkmalen des Anspruchs 1 und ein Verfahren mit den Merkmalen des Anspruchs 9 zum Verarbeiten eines Audioeingangssignals vorgestellt. Die hier beschriebenen Konzepte schaffen Verfahren und Systeme für die Sprachverarbeitung, die Rauschminderungsstrategien enthalten, um hörbare Nebengeräuschpegel zu verringern und die Sprachverständlichkeit zu verbessern. Die Konzepte enthalten ein System zum Verarbeiten eines Audioeingangssignals, wobei das System ein Mikrofon, einen Controller und eine Kommunikationsverbindung, die mit einem entfernt befindlichen Audiolautsprecher gekoppelt sein kann, nutzt. Das Mikrofon ist dafür konfiguriert, das Audioeingangssignal zu erfassen und zu erzeugen und das Audioeingangssignal an den Controller zu übermitteln, und der Controller ist mit der Kommunikationsverbindung gekoppelt. Der Controller enthält ausführbaren Code zum Erzeugen einer ersten Resultierenden auf der Grundlage des Audioeingangssignals über einen linearen Rauschminderungs-Filterungsalgorithmus und zum Erzeugen einer zweiten Resultierenden auf der Grundlage der ersten Resultierenden über einen nichtlinearen Nachfilterungsalgorithmus. Auf der Grundlage der zweiten Resultierenden wird unter Nutzung eines Merkmalswiederherstellungsalgorithmus ein Audioausgangssignal erzeugt. Das Audioausgangssignal wird über die Kommunikationsverbindung an einen Lautsprecher übermittelt, der an einem entfernten Ort sein kann. Der Merkmalswiederherstellungsalgorithmus umfasst ein Modul auf der Grundlage eines tiefen neuronalen Netzes (DNN-basiertes Modul) ist, das enthält: eine STFT (Kurzzeit-Fourier-Transformation); mehrere Faltungsschichten; eine erste LSTM-Schicht (Lang-Kurzzeit-Speicherschicht); eine zweite LSTM-Schicht; eine dichte Schicht; mehrere transponierte Faltungsschichten; und eine ISTFT-Schicht (Schicht für eine inverse Kurzzeit-Fourier-Transformation). Ein anderer Aspekt der Erfindung enthält, dass die STFT das Audioeingangssignal aus einem Amplitudenbereich in einen Frequenzbereich transformiert. Ein anderer Aspekt der Erfindung enthält, dass die STFT das Audioeingangssignal als eine 2-Kanal-Folge mit einem Realteil und mit einem Imaginärteil in den Frequenzbereich transformiert. Ein anderer Aspekt der Erfindung enthält, dass die mehreren Faltungsschichten eine erste Faltungsschicht mit einer 2-Kanal-Eingabe mit 256 Merkmalen und mit einer 32-Kanal-Ausgabe mit 128 Merkmalen; eine zweite Faltungsschicht mit einer 32-Kanal-Eingabe mit 128 Merkmalen und mit einer 64-Kanal-Ausgabe mit 64 Merkmalen; eine dritte Faltungsschicht mit einer 64-Kanal-Eingabe mit 64 Merkmalen und mit einer 128-Kanal-Ausgabe mit 32 Merkmalen; eine v