Search

KR-20260062051-A - METHOD

KR20260062051AKR 20260062051 AKR20260062051 AKR 20260062051AKR-20260062051-A

Abstract

대화 내용을 분석하기 위한 기술을 개선하는 것을 과제로 한다. 제어부(10)와, 촬영부(11)와, 입력부(12)를 구비하는 정보 처리 장치(1)가 실행하는 방법이며, 제어부(10)는, 고객 대응의 녹음에 관한 고객의 동의를, 입력부(12)를 통해 취득하는 것과, 동의가 취득된 후, 녹음을 개시하는 것과, 촬영부(11)의 화상으로부터 스태프를 검출하는 것과, 소정 조건이 충족된 경우에, 녹음을 중단하는 것을 포함하는 동작을 실행하고, 소정 조건은, 촬영부(11)의 화상으로부터 스태프가 소실되었다고 하는 제1 조건을 포함한다.

Inventors

  • 소노하라 유키코
  • 모리시타 히로후미

Assignees

  • 도요타지도샤가부시키가이샤

Dates

Publication Date
20260506
Application Date
20251023
Priority Date
20241028

Claims (5)

  1. 제어부와, 촬영부와, 입력부를 구비하는 정보 처리 장치가 실행하는 방법이며, 상기 제어부는, 고객 대응의 녹음에 관한 고객의 동의를, 상기 입력부를 통해 취득하는 것과, 상기 동의가 취득된 후, 녹음을 개시하는 것과, 상기 촬영부의 화상으로부터 스태프를 검출하는 것과, 소정 조건이 충족된 경우에, 녹음을 중단하는 것을 포함하는 동작을 실행하고, 상기 소정 조건은, 상기 촬영부의 화상으로부터 상기 스태프가 소실되었다고 하는 제1 조건을 포함하는, 방법.
  2. 제1항에 있어서, 상기 동작은, 녹음을 중단한 후에 상기 촬영부의 화상으로부터 상기 스태프가 검출된 경우에, 녹음을 재개하는 것을 더 포함하는, 방법.
  3. 제1항에 있어서, 상기 소정 조건은, 상기 입력부에 입력된 발화로부터, 상기 고객의 이석을 시사하는 이석 프레이즈가 검출되었다고 하는 제2 조건을 더 포함하는, 방법.
  4. 제3항에 있어서, 상기 동작은, 녹음을 중단한 후에, 상기 제어부가 상기 입력부로부터 백그라운드에서 음성을 취득 가능한 상태로 하는 것과, 상기 입력부에 입력된 발화로부터, 상기 고객이 돌아온 것을 시사하는 귀환 프레이즈가 검출된 경우에, 녹음을 재개하는 것을 더 포함하는, 방법.
  5. 제1항에 있어서, 상기 동의를 취득하는 것은, 상기 입력부에 입력된 발화로부터, 상기 동의를 시사하는 동의 프레이즈를 검출하는 것을 포함하는, 방법.

Description

방법{METHOD} 본 개시는 방법에 관한 것이다. 종래, 대화 내용을 분석하기 위한 기술이 알려져 있다. 예를 들어 특허문헌 1에는, 대화 내용을 녹음한 음성 데이터에 기초한 대화 데이터를 기록하고, 유저에 의해 지정된 조건에 매칭되는 대화를 대화 데이터로부터 추출하여 일람 표시하는 대화 분석 시스템이 개시되어 있다. 도 1은 본 개시의 일 실시 형태에 관한 정보 처리 장치의 개략 구성을 나타내는 블록도이다. 도 2는 본 개시의 일 실시 형태에 관한 정보 처리 장치의 동작을 나타내는 흐름도이다. 이하, 본 개시의 실시 형태에 대하여, 도면을 참조하여 설명한다. (본 실시 형태의 개요) 도 1을 참조하여, 본 개시의 실시 형태에 관한 정보 처리 장치(1)의 개요에 대하여 설명한다. 본 실시 형태에 있어서, 정보 처리 장치(1)는, 랩톱 컴퓨터, 태블릿 등의 컴퓨터이다. 정보 처리 장치(1)는, 예를 들어 점포의 스태프에 의해 사용된다. 정보 처리 장치(1)는, 고객 및 스태프의 음성을 녹음 가능하다. 먼저, 본 실시 형태의 개요에 대하여 설명하고, 상세는 후술한다. 본 실시 형태에 관한 방법은, 제어부(10)와, 촬영부(11)와, 입력부(12)를 구비하는 정보 처리 장치(1)에 의해 실행된다. 제어부(10)는, 고객 대응의 녹음에 관한 고객의 동의를, 입력부(12)를 통해 취득한다. 제어부(10)는, 동의가 취득된 후, 녹음을 개시한다. 제어부(10)는, 촬영부(11)의 화상으로부터 스태프를 검출한다. 제어부(10)는, 소정 조건이 충족된 경우에, 녹음을 중단한다. 소정 조건은, 촬영부(11)의 화상으로부터 스태프가 소실되었다고 하는 제1 조건을 포함한다. 본 실시 형태에 따르면, 소정 조건이 충족되면, 녹음이 자동적으로 중단된다. 이에 의해, 스태프가 녹음의 중단 조작을 하지 않고도, 녹음이 확실하게 중단되도록 된다. (정보 처리 장치(1)의 구성) 도 1에 나타내는 바와 같이, 정보 처리 장치(1)는, 제어부(10)와, 촬영부(11)와, 입력부(12)와, 표시부(13)와, 통신부(14)와, 기억부(15)를 구비한다. 제어부(10)는, 1개 이상의 프로세서, 1개 이상의 프로그래머블 회로, 1개 이상의 전용 회로, 또는 이들의 조합을 포함한다. 프로세서는, 예를 들어 CPU(Central Processing Unit) 혹은 GPU(Graphics Processing Unit) 등의 범용 프로세서, 또는 특정 처리에 특화된 전용 프로세서이지만 이들에 한정되지 않는다. 프로그래머블 회로는, 예를 들어 FPGA(Field-Programmable Gate Array)이지만 이에 한정되지 않는다. 전용 회로는, 예를 들어 ASIC(Application Specific Integrated Circuit)이지만 이에 한정되지 않는다. 제어부(10)는, 정보 처리 장치(1)의 동작에 관한 다양한 처리를 실행함과 함께, 정보 처리 장치(1)의 각 부를 제어한다. 촬영부(11)는, 정보 처리 장치(1)의 주위를 촬영 가능한 임의의 촬영 모듈을 포함한다. 촬영 모듈은 1 이상의 카메라를 포함한다. 각 카메라는, 정보 처리 장치(1)의 주위를 촬영할 수 있도록, 정보 처리 장치(1)의 적절한 위치에 배치된다. 본 실시 형태에서는, 촬영부(11)는, 정보 처리 장치(1)의 유저 측의 피사체(예를 들어 스태프)를 촬영 가능한 인 카메라를 포함한다. 촬영부(11)는, 유저와 반대 측의 피사체(예를 들어 고객)를 촬영 가능한 아웃 카메라를 더 포함해도 된다. 입력부(12)는 1개 이상의 입력 인터페이스를 구비한다. 입력 인터페이스는, 고객 및 스태프의 음성 입력을 접수하기 위한 마이크를 포함한다. 입력 인터페이스는, 예를 들어 물리 키, 정전 용량 키, 포인팅 디바이스, 또는 표시부(13)의 디스플레이와 일체적으로 마련된 터치 스크린을 포함해도 된다. 입력부(12)는, 정보 처리 장치(1)의 동작에 사용되는 정보를 입력하는 조작을 접수한다. 입력부(12)는, 정보 처리 장치(1)에 마련되는 대신에, 외부의 입력 기기로서 정보 처리 장치(1)에 접속되어도 된다. 접속 방식으로서, USB(Universal Serial Bus), HDMI(등록상표)(High-Definition Multimedia Interface), 또는 Bluetooth(등록상표) 등의 임의의 방식을 사용할 수 있다. 표시부(13)는, 1개 이상의 표시용 인터페이스를 포함한다. 표시용 인터페이스는, 예를 들어 정보를 화상으로서 표시하는 디스플레이이다. 디스플레이는, 예를 들어 LCD(Liquid Crystal Display) 또는 유기 EL(Electro Luminescence) 디스플레이이다. 표시부(13)는, 정보 처리 장치(1)의 동작에 의해 얻어진 정보를 표시한다. 표시부(13)는, 정보 처리 장치(1)에 마련되는 대신에, 외부의 표시 기기로서 정보 처리 장치(1)에 접속되어도 된다. 접속 방식으로서, USB, HDMI(등록상표), 또는 Bluetooth(등록상표) 등의 임의의 방식을 사용할 수 있다. 통신부(14)는, 네트워크에 접속하는 적어도 하나의 통신용 인터페이스를 포함한다. 통신용 인터페이스는, 예를 들어 4G(4th generation) 혹은 5G(5th generation) 등의 이동 통신 규격, 또는 유선 LAN(Local Area Network) 통신 규격 혹은 무선 LAN 통신 규격에 대응하지만, 이들에 한정되지 않고 임의의 통신 규격에 대응해도 된다. 기억부(15)는, 1개 이상의 메모리를 포함한다. 기억부(15)에 포함되는 각 메모리는, 예를 들어 주기억 장치, 보조 기억 장치, 또는 캐시 메모리로서 기능해도 된다. 기억부(15)는, 정보 처리 장치(1)의 동작에 사용되는 임의의 정보를 기억한다. 기억부(15)는, 예를 들어 시스템 프로그램, 애플리케이션 프로그램 및 임베디드 소프트웨어를 기억해도 된다. 본 실시 형태에 있어서, 기억부(15)는, 상담 등의 고객 대응에 관한 임의의 데이터를 기억해도 된다. 기억부(15)에 기억된 정보는, 예를 들어 통신부(14)를 통해 네트워크로부터 취득되는 정보에 기초하여 갱신되어도 된다. (정보 처리 장치(1)의 동작 플로) 도 2를 참조하여, 본 실시 형태에 관한 정보 처리 장치(1)의 동작에 대하여 설명한다. 이하에서는, 정보 처치 장치의 각 부 사이의 통신은, 통신부(14)를 통해 행해진다. S101: 정보 처리 장치(1)의 제어부(10)는, 고객 대응의 녹음에 관한 고객의 동의를, 입력부(12)를 통해 취득한다. 본 실시 형태에 있어서, 제어부(10)는, 입력부(12)(예를 들어, 마이크)에 입력된 발화로부터, 녹음에 관한 고객의 동의를 시사하는 동의 프레이즈를 검출함으로써, 동의를 취득한다. 제어부(10)는, 기억부(15)에 기억된 프레이즈와, 발화 내용에 포함되는 프레이즈의 비교에 의해, 동의 프레이즈를 검출해도 된다. 비교에는, 형태소 해석, 구문 분석, 의미 해석, 문맥 해석, 및 조응 해석 등의 자연 언어 처리와, 미리 기계 학습에 의해 훈련된 학습 모델이 이용되어도 된다. 학습 모델은, 발화 내용을 입력으로 하여, 기억부(15)에 기억된 프레이즈와, 발화 내용에 포함되는 프레이즈의 비교 결과를 출력으로 하도록 훈련되어도 된다. 학습 모델의 특징량은, 특정 단어 또는 프레이즈, 예를 들어 「녹음」, 「동의」여도 된다. 동의 프레이즈는, 예를 들어 「고객 대응의 녹음에 동의합니다.」와 같은, 고객 대응의 녹음에 대한 동의를 나타내는 프레이즈를 포함해도 된다. 동의 프레이즈는, 동의에 관한 스태프의 질문 및 당해 질문에 대한 고객의 회답, 예를 들어 「고객 대응의 녹음에 동의합니까?」, 「네」와 같은 프레이즈를 포함해도 된다. 동의 프레이즈는, 상기의 예에 한정되지 않고, 임의의 프레이즈를 포함해도 된다. 제어부(10)는, 스태프에게 당해 질문의 발화를 촉구하기 위해, 표시부(13) 상에 당해 질문을 표시시켜도 된다. 이에 의해, 스태프가 질문을 하는 것을 잊은 경우 또는 질문 내용을 잊은 경우에도, 스태프가 동의에 관한 질문을 확실하게 행하여, 동의를 확실하게 취득할 수 있다. 제어부(10)는, 입력부(12)(예를 들어, 터치 스크린)에 입력된 고객의 서명을 취득함으로써, 동의를 취득해도 된다. 혹은, 제어부(10)는, 정보 처리 장치(1)의 표시부(13)에 동의를 구하는 화면을 표시시키고, 고객에 의한 입력부(12)를 통한 동의의 선택(예를 들어, 동의를 나타내는 버튼의 선택)을 접수함으로써, 동의를 취득해도 된다. S102: 제어부(10)는, 동의가 취득된 후, 녹음을 개시한다. 구체적으로는, 제어부(10)는, 입력부(12)의 마이크에 입력된 스태프 및 고객의 음성을 녹음한다. S103: 제어부(10)는, 촬영부(11)의 화상으로부터 스태프를 검출한다. 화상은, 예를 들어 촬영부(11)의 인 카메라에 의해 촬영되어도 된다. 대체적으로, 제어부(10)는, 촬영부(11)의 화상으로부터 고객을 검출해도 된다. 화상은, 예를 들어 촬영부(11)의 아웃 카메라에 의해 촬영되어도 된다. 제어부(10)는, YOLO(You Only Look Once) 및 CNN(Convolutional Neural Network) 등의 임의의 물체 검출 기술을 사용하여, 화상으로부터 스태프 또는 고객을 검출해도 된다. S104: 제어부(10)는, 소정 조건이 충족되는지 판정한다. 소정 조건이 충족되는 경우(S104-"예"), 프로세스는 S105로 진행한다. 소정 조건이 충족되지 않는 경우, 프로세스는 종료된다. 본 실시 형태에 있어서, 소정 조건은, 촬영부(11)(예를 들어, 인 카메라)의 화상으로부터 스태프가 소실되었다고 하는 제1 조건을 포함한다. S103에 있어서 제어부(10)가 화상으로부터 고객을 검출한 경우, 대체적으로, 제1 조건은, 촬영부(11)(예를 들어, 아웃 카메라)의 화상으로부터 고객이 소실되었다고 하는 조건이어도 된다. 이에 의해, 고객이 이석한 경우에도, 녹음을 중단할 수 있다. 제어부(10)는, YOLO 및 CNN 등의 임의의 물체 검출 기술을 사용하여, 화상으로부터 스