KR-20260061997-A - ELECTRONIC DEVICE AND METHOD FOR IMPROVING VOICE RECOGNITION RATE THEREOF

KR20260061997AKR 20260061997 AKR20260061997 AKR 20260061997AKR-20260061997-A

Abstract

본 문서의 다양한 실시예에 따른 전자 장치는, 적어도 하나의 프로세서, 및 메모리를 포함할 수 있다. 상기 메모리는, 적어도 하나의 프로세서에 의해 실행될 수 있고, 실행 시에 상기 전자 장치가, 사용자의 음성을 포함하는 제1마이크 신호 및 제2마이크 신호를 획득하고, 상기 제1마이크 신호에 기초하여 생성된 제1입력 신호 및 상기 제2마이크 신호에 기초하여 생성된 제2입력 신호를 제1믹싱 파라미터에 기초하여 믹싱(mixing)하여 제1믹싱 신호를 생성하고, 상기 제1믹싱 신호에서 잡음을 제거하여 잡음 제거 신호를 생성하고, 상기 잡음 제거 신호 및 상기 제1믹싱 신호를 제2믹싱 파라미터에 기초하여 믹싱하여 제2믹싱 신호를 생성하고, 및 상기 제2믹싱 신호를 출력하도록 하는 인스트럭션들을 저장할 수 있다. 그 외에 다양한 실시예가 가능하다.

Inventors

김민승
김보성
김지연
문한길
방경호
백순호
이건우

Assignees

삼성전자주식회사

Dates

Publication Date: 20260506
Application Date: 20241209
Priority Date: 20241028

Claims (20)

전자 장치에 있어서, 적어도 하나의 프로세서; 및 메모리를 포함하고, 상기 메모리는, 적어도 하나의 프로세서에 의해 실행될 수 있고, 실행 시에 상기 전자 장치가, 사용자의 음성을 포함하는 제1마이크 신호 및 제2마이크 신호를 획득하고, 상기 제1마이크 신호에 기초하여 생성된 제1입력 신호 및 상기 제2마이크 신호에 기초하여 생성된 제2입력 신호를 제1믹싱 파라미터에 기초하여 믹싱(mixing)하여 제1믹싱 신호를 생성하고, 상기 제1믹싱 신호에서 잡음을 제거하여 잡음 제거 신호를 생성하고, 상기 잡음 제거 신호 및 상기 제1믹싱 신호를 제2믹싱 파라미터에 기초하여 믹싱하여 제2믹싱 신호를 생성하고, 및 상기 제2믹싱 신호를 출력하도록 하는 인스트럭션들을 저장하는 전자 장치.
제 1항에 있어서, 상기 메모리는, 상기 전자 장치가, 음성 통화 중 실시간 번역 기능이 실행 중인 경우, 상기 제1믹싱 신호를 생성하는 동작, 및/또는 상기 제2믹싱 신호를 생성하는 동작을 수행하도록 하는 인스트럭션들을 저장하는 전자 장치.
제 1항 또는 제 2항에 있어서, 상기 메모리는, 상기 전자 장치가, 사용자의 음성을 포함하는 제3마이크 신호를 더 획득하고, 상기 제2마이크 신호 및 상기 제3마이크 신호에 빔포밍을 적용하여 빔포밍 신호를 생성하고, 상기 빔포밍 신호 및 상기 제2마이크 신호를 제3믹싱 파라미터에 기초하여 믹싱하여 제3믹싱 신호를 생성하고, 및 상기 제1입력 신호 및 상기 제3믹싱 신호를 상기 제1믹싱 파라미터에 기초하여 믹싱(mixing)하여 상기 제1믹싱 신호를 생성하도록 하는 인스트럭션들을 저장하는 전자 장치.
제 3항 있어서, 상기 메모리는, 상기 전자 장치가, 상기 제2마이크 신호 및 상기 제3마이크 신호를 단시간 푸리에 변환(short-time Fourier transform)한 신호에 대해 정해진 전처리 과정을 수행한 후 빔포밍을 적용하도록 하는 인스트럭션들을 저장하는 전자 장치.
제 1항 내지 제 4항 중 어느 한 항에 있어서, 상기 메모리는, 상기 전자 장치가, 상기 제1마이크 신호를 단시간 푸리에 변환한 신호에 대해 정해진 전처리 과정을 수행하여 상기 제1입력 신호를 생성하도록 하는 인스트럭션들을 저장하는 전자 장치.
제 1항 내지 제 5항 중 어느 한 항에 있어서, 상기 메모리는, 상기 전자 장치가, 상기 제1믹싱 신호를 머신 러닝 모델에 입력하고, 상기 머신 러닝 모델의 출력 값으로 상기 잡음 제거 신호를 생성하도록 하는 인스트럭션들을 저장하는 전자 장치.
제 1항 내지 제 6항 중 어느 한 항에 있어서, 상기 제1믹싱 파라미터는 상기 제1입력 신호에 적용되는 제1가중치 및 상기 제2입력 신호에 적용되는 제2가중치를 포함하고, 및 상기 제1마이크 신호 및/또는 상기 제2마이크 신호에서 확인되는 잡음의 강도가 높을수록 상기 제1가중치는 낮은 값을 갖고 상기 제2가중치는 높은 값을 갖는 전자 장치.
제 1항 내지 제 7항 중 어느 한 항에 있어서, 상기 제1믹싱 파라미터, 상기 제2믹싱 파라미터, 또는 상기 제3믹싱 파라미터 중 적어도 하나는 파라미터 튜닝 모델을 통해 결정되는 전자 장치.
제 8항에 있어서, 상기 파라미터 튜닝 모델은, 상기 제1믹싱 파라미터, 상기 제2믹싱 파라미터, 또는 상기 제3믹싱 파라미터 중 적어도 하나를 결정하기 위해, 정해진 잡음 강도를 갖는 테스트 벡터에 대해 복수의 파라미터들을 적용하여 음성 인식률 및 음성 품질을 측정하고, 및 상기 측정된 음성 인식률 및 음성 품질에 기초하여, 상기 복수의 파라미터들 중 어느 하나를 선택하는 전자 장치.
제 9항에 있어서, 상기 파라미터 튜닝 모델은, 상기 측정된 음성 인식률 및 음성 품질을 사용자의 선택에 따라 결정된 가중치에 기초하여 가중 평균하고, 상기 복수의 파라미터들 중 가중 평균 값이 가장 높게 계산되는 경우에 적용된 파라미터를 선택하는 전자 장치.
제 1항 내지 제 10항 중 어느 한 항에 있어서, 상기 제1마이크 신호는 내부 마이크에 의해 획득된 신호를 포함하고, 상기 제2마이크 신호는 외부 마이크에 의해 획득된 신호를 포함하는 전자 장치.
제 1항 내지 제 11항 중 어느 한 항에 있어서, 상기 전자 장치는, 사용자에 의해 착용 가능한 오디오 장치이고, 사용자에 의해 착용 시 사용자의 귀에 접촉하고, 상기 제1마이크 신호를 획득하는 제1마이크로 폰, 및 사용자에 의해 착용 시 사용자의 귀의 반대 방향에 위치하고, 상기 제2마이크 신호를 획득하는 제2마이크로 폰을 포함하는 전자 장치.
제 1항 내지 제 11항 중 어느 한 항에 있어서, 상기 전자 장치는, 음성 통화를 제공하는 모바일 장치이고, 외부의 오디오 장치로부터 상기 제1마이크 신호 및 상기 제2마이크 신호를 수신하기 위한 통신 회로를 포함하는 전자 장치.
전자 장치에 의해 수행되는 방법에 있어서, 사용자의 음성을 포함하는 제1마이크 신호 및 제2마이크 신호를 획득하는 동작; 상기 제1마이크 신호에 기초하여 생성된 제1입력 신호 및 상기 제2마이크 신호에 기초하여 생성된 제2입력 신호를 제1믹싱 파라미터에 기초하여 믹싱(mixing)하여 제1믹싱 신호를 생성하는 동작; 상기 제1믹싱 신호에서 잡음을 제거하여 잡음 제거 신호를 생성하는 동작; 상기 잡음 제거 신호 및 상기 제1믹싱 신호를 제2믹싱 파라미터에 기초하여 믹싱하여 제2믹싱 신호를 생성하는 동작; 및 상기 제2믹싱 신호를 출력하도록 하는 인스트럭션들을 저장하는 전자 장치.
제 14항에 있어서, 음성 통화 중 실시간 번역 기능이 실행 중인지 확인하는 동작을 더 포함하며, 상기 제1믹싱 신호를 생성하는 동작, 및/또는 상기 제2믹싱 신호를 생성하는 동작은 상기 실시간 번역 기능이 실행 중인 경우 수행되는 방법.
제 14항 또는 제 15항에 있어서, 사용자의 음성을 포함하는 제3마이크 신호를 더 획득하는 동작; 상기 제2마이크 신호 및 상기 제3마이크 신호에 빔포밍을 적용하여 빔포밍 신호를 생성하는 동작; 상기 빔포밍 신호 및 상기 제2마이크 신호를 제3믹싱 파라미터에 기초하여 믹싱하여 제3믹싱 신호를 생성하는 동작; 및 상기 제1입력 신호 및 상기 제3믹싱 신호를 상기 제1믹싱 파라미터에 기초하여 믹싱(mixing)하여 상기 제1믹싱 신호를 생성하는 동작을 포함하는 방법.
제 14항 내지 제 16항 중 어느 한 항에 있어서, 상기 잡음 제거 신호를 생성하는 동작은, 상기 제1믹싱 신호를 머신 러닝 모델에 입력하고, 상기 머신 러닝 모델의 출력 값으로 상기 잡음 제거 신호를 생성하는 동작을 포함하는 방법.
제 14항 내지 제 17항 중 어느 한 항에 있어서, 상기 제1믹싱 파라미터는 상기 제1입력 신호에 적용되는 제1가중치 및 상기 제2입력 신호에 적용되는 제2가중치를 포함하고, 및 상기 제1마이크 신호 및/또는 상기 제2마이크 신호에서 확인되는 잡음의 강도가 높을수록 상기 제1가중치는 낮은 값을 갖고 상기 제2가중치는 높은 값을 갖는 방법.
제 14항 내지 제 18항 중 어느 한 항에 있어서, 상기 파라미터 튜닝 모델을 이용하여, 상기 제1믹싱 파라미터, 상기 제2믹싱 파라미터, 또는 상기 제3믹싱 파라미터 중 적어도 하나를 결정하기 위해, 정해진 잡음 강도를 갖는 테스트 벡터에 대해 복수의 파라미터들을 적용하여 음성 인식률 및 음성 품질을 측정하는 동작; 및 상기 측정된 음성 인식률 및 음성 품질에 기초하여, 상기 복수의 파라미터들 중 어느 하나를 선택하는 동작을 더 포함하는 방법.
컴퓨터로 판독 가능한 비-일시적 기록 매체에 있어서, 사용자의 음성을 포함하는 제1마이크 신호 및 제2마이크 신호를 획득하는 동작; 상기 제1마이크 신호에 기초하여 생성된 제1입력 신호 및 상기 제2마이크 신호에 기초하여 생성된 제2입력 신호를 제1믹싱 파라미터에 기초하여 믹싱(mixing)하여 제1믹싱 신호를 생성하는 동작; 상기 제1믹싱 신호에서 잡음을 제거하여 잡음 제거 신호를 생성하는 동작; 상기 잡음 제거 신호 및 상기 제1믹싱 신호를 제2믹싱 파라미터에 기초하여 믹싱하여 제2믹싱 신호를 생성하는 동작; 및 상기 제2믹싱 신호를 출력하도록 하는 인스트럭션들을 저장하는 기록 매체.

Description

전자 장치 및 오디오 신호의 음성 인식률을 향상 시키기 위한 방법 {ELECTRONIC DEVICE AND METHOD FOR IMPROVING VOICE RECOGNITION RATE THEREOF} 본 문서는 전자 장치에 관한 것이며, 예를 들어, 마이크로 폰을 통해 획득한 사용자 음성을 포함하는 오디오 신호의 음성 인식률을 향상 시키기 위한 방법에 관한 것이다. 스마트 폰과 같은 모바일 장치(mobile device)는 오디오 입출력 기능을 제공할 수 있는 외부 오디오 장치를 이용하여 음성 통화와 같은 오디오 기능을 수행할 수 있다. 모바일 장치가 음성 통화 시에, 배경 잡음은 음성의 품질 및 명료도를 저하시키는 요인이 될 수 있다. 이에, 사용자의 음성 신호와 함께 획득되는 잡음을 제거하면서도 음성은 최대한 보존할 수 있는 음성 향상 기술이 요구된다. 모바일 장치가 외부 오디오 장치를 통해 음성 통화를 수행 중인 경우에는 외부 오디오 장치의 환경적, 구조적 조건에 대한 고려가 필요할 수 있다. 모바일 장치는 음성 통화 시 음성 인식 기능을 제공할 수 있다. 예를 들어, 통화 중 실시간 번역을 수행하는 경우와 같이 입력되는 오디오 신호에서 사용자의 음성을 추출하여 텍스트 정보로 변환하는 기능이 요구될 수 있다. 이와 같이, 모바일 장치가 음성 통화 중에 실시간 음성 인식이 필요한 경우, 안정적인 통화 품질을 제공하면서도 음성 인식률을 높이는 방식으로 음성 신호를 처리할 필요가 있다. 외부 오디오 장치를 이용한 통화 솔루션은 입력된 오디오 신호에 대한 음성 왜곡 및 잔여 잡음을 최소화하여 고품질의 음성을 확보하는 방향으로 설계되고 있다. 이와 같은 통화 솔루션은 음성 인식률을 고려하지 않기 때문에 높은 잠음 환경에서는 높은 음성 인식률을 제공하기 어려울 수 있다. 또한, 통화 솔루션이 오디오 신호에서 잡음을 강하게 제거하도록 설계된 경우, 이에 동반되는 음성 왜곡으로 인해 오디오 신호를 그대로 음성 인식기에 통과 시킨 경우보다 음성 인식률이 더 저하될 수도 있다. 본 문서(disclosure)(또는 명세서(specification), 발명(invention))의 다양한 실시예에 따른 전자 장치는 적어도 하나의 프로세서, 및 메모리를 포함할 수 있다. 일 실시예에 따르면, 상기 메모리는, 적어도 하나의 프로세서에 의해 실행될 수 있고, 실행 시에 상기 전자 장치가, 사용자의 음성을 포함하는 제1마이크 신호 및 제2마이크 신호를 획득하고, 상기 제1마이크 신호에 기초하여 생성된 제1입력 신호 및 상기 제2마이크 신호에 기초하여 생성된 제2입력 신호를 제1믹싱 파라미터에 기초하여 믹싱(mixing)하여 제1믹싱 신호를 생성하고, 상기 제1믹싱 신호에서 잡음을 제거하여 잡음 제거 신호를 생성하고, 상기 잡음 제거 신호 및 상기 제1믹싱 신호를 제2믹싱 파라미터에 기초하여 믹싱하여 제2믹싱 신호를 생성하고, 및 상기 제2믹싱 신호를 출력하도록 하는 인스트럭션들을 저장할 수 있다. 본 문서의 다양한 실시예에 따른 전자 장치에 의해 수행되는 방법은, 사용자의 음성을 포함하는 제1마이크 신호 및 제2마이크 신호를 획득하는 동작, 상기 제1마이크 신호에 기초하여 생성된 제1입력 신호 및 상기 제2마이크 신호에 기초하여 생성된 제2입력 신호를 제1믹싱 파라미터에 기초하여 믹싱(mixing)하여 제1믹싱 신호를 생성하는 동작, 상기 제1믹싱 신호에서 잡음을 제거하여 잡음 제거 신호를 생성하는 동작, 상기 잡음 제거 신호 및 상기 제1믹싱 신호를 제2믹싱 파라미터에 기초하여 믹싱하여 제2믹싱 신호를 생성하는 동작, 및 상기 제2믹싱 신호를 출력하도록 하는 인스트럭션들을 저장할 수 있다. 본 문서의 다양한 실시예에 따르면, 외부 오디오 장치의 마이크로 폰을 이용하여 음성 통화 중 실시간 번역 기능이 실행되는 경우, 통화 품질을 유지하면서도 음성 인식률을 향상 시킬 수 있는 전자 장치 및 전자 장치 및 오디오 신호의 음성 인식률을 향상 시키기 위한 방법을 제공할 수 있다. 도 1은 다양한 실시예들에 따른, 네트워크 환경 내의 전자 장치의 블록도이다. 도 2는 일 실시예에 따른 모바일 장치 및 오디오 장치를 도시한 것이다. 도 3은 일 실시예에 따른 모바일 장치의 블록도이다. 도 4는 일 실시예에 따른 오디오 장치의 블록도이다. 도 5는 일 실시예에 따른 전자 장치가 오디오 신호를 처리하는 과정을 나타낸 블록도이다. 도 6은 일 실시예에 따른 전자 장치가 오디오 신호를 처리하는 과정을 나타낸 블록도이다. 도 7은 일 실시예에 따른 전자 장치의 음성 신호를 향상시키기 위한 방법의 흐름도이다. 도 8은 일 실시예에 따른 믹싱 파라미터를 결정하는 모델들을 도시한 것이다. 도 9a, 도 9b 및 도 9c는 일 실시예에 따른 폴더블 장치를 도시한 것이다. 도 10a, 도 10b, 도 10c 및 도 10d는 일 실시예에 따른 멀티 폴더블 장치를 도시한 것이다. 이하에서는 도면을 참조하여 본 개시의 실시예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 도면의 설명과 관련하여, 동일하거나 유사한 구성요소에 대해서는 동일하거나 유사한 참조 부호가 사용될 수 있다. 또한, 도면 및 관련된 설명에서는, 잘 알려진 기능 및 구성에 대한 설명이 명확성과 간결성을 위해 생략될 수 있다. 도 1은, 다양한 실시예들에 따른, 네트워크 환경(100) 내의 전자 장치(101)의 블록도이다. 도 1을 참조하면, 네트워크 환경(100)에서 전자 장치(101)는 제 1 네트워크(198)(예: 근거리 무선 통신 네트워크)를 통하여 전자 장치(102)와 통신하거나, 또는 제 2 네트워크(199)(예: 원거리 무선 통신 네트워크)를 통하여 전자 장치(104) 또는 서버(108) 중 적어도 하나와 통신할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 서버(108)를 통하여 전자 장치(104)와 통신할 수 있다. 일 실시예에 따르면, 전자 장치(101)는 프로세서(120), 메모리(130), 입력 모듈(150), 음향 출력 모듈(155), 디스플레이 모듈(160), 오디오 모듈(170), 센서 모듈(176), 인터페이스(177), 연결 단자(178), 햅틱 모듈(179), 카메라 모듈(180), 전력 관리 모듈(188), 배터리(189), 통신 모듈(190), 가입자 식별 모듈(196), 또는 안테나 모듈(197)을 포함할 수 있다. 어떤 실시예에서는, 전자 장치(101)에는, 이 구성요소들 중 적어도 하나(예: 연결 단자(178))가 생략되거나, 하나 이상의 다른 구성요소가 추가될 수 있다. 어떤 실시예에서는, 이 구성요소들 중 일부들(예: 센서 모듈(176), 카메라 모듈(180), 또는 안테나 모듈(197))은 하나의 구성요소(예: 디스플레이 모듈(160))로 통합될 수 있다. 프로세서(120)는, 예를 들면, 소프트웨어(예: 프로그램(140))를 실행하여 프로세서(120)에 연결된 전자 장치(101)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)를 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 일 실시예에 따르면, 데이터 처리 또는 연산의 적어도 일부로서, 프로세서(120)는 다른 구성요소(예: 센서 모듈(176) 또는 통신 모듈(190))로부터 수신된 명령 또는 데이터를 휘발성 메모리(132)에 저장하고, 휘발성 메모리(132)에 저장된 명령 또는 데이터를 처리하고, 결과 데이터를 비휘발성 메모리(134)에 저장할 수 있다. 일 실시예에 따르면, 프로세서(120)는 메인 프로세서(121)(예: 중앙 처리 장치 또는 어플리케이션 프로세서) 또는 이와는 독립적으로 또는 함께 운영 가능한 보조 프로세서(123)(예: 그래픽 처리 장치, 신경망 처리 장치(NPU: neural processing unit), 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서)를 포함할 수 있다. 예를 들어, 전자 장치(101)가 메인 프로세서(121) 및 보조 프로세서(123)를 포함하는 경우, 보조 프로세서(123)는 메인 프로세서(121)보다 저전력을 사용하거나, 지정된 기능에 특화되도록 설정될 수 있다. 보조 프로세서(123)는 메인 프로세서(121)와 별개로, 또는 그 일부로서 구현될 수 있다. 보조 프로세서(123)는, 예를 들면, 메인 프로세서(121)가 인액티브(예: 슬립) 상태에 있는 동안 메인 프로세서(121)를 대신하여, 또는 메인 프로세서(121)가 액티브(예: 어플리케이션 실행) 상태에 있는 동안 메인 프로세서(121)와 함께, 전자 장치(101)의 구성요소들 중 적어도 하나의 구성요소(예: 디스플레이 모듈(160), 센서 모듈(176), 또는 통신 모듈(190))와 관련된 기능 또는 상태들의 적어도 일부를 제어할 수 있다. 일 실시예에 따르면, 보조 프로세서(123)(예: 이미지 시그널 프로세서 또는 커뮤니케이션 프로세서)는 기능적으로 관련 있는 다른 구성요소(예: 카메라 모듈(180) 또는 통신 모듈(190))의 일부로서 구현될 수 있다. 일 실시예에 따르면, 보조 프로세서(123)(예: 신경망 처리 장치)는 인공지능 모델의 처리에 특화된 하드웨어 구조를 포함할 수 있다. 인공지능 모델은 기계 학습을 통해 생성될 수 있다. 이러한 학습은, 예를 들어, 인공지능 모델이 수행되는 전자 장치(101) 자체에서 수행될 수 있고, 별도의 서버(예: 서버(108))를 통해 수행될 수도 있다. 학습 알고리즘은, 예를 들어, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)을 포함할 수 있으나, 전술한 예에 한정되지 않는다. 인공지능 모델은, 복수의 인공 신경망 레이어들을 포함할 수 있다. 인공 신경망은 심층 신경망(DNN: deep neural network), CNN(convolutional neural network), RNN