Search

KR-20260062052-A - METHOD

KR20260062052AKR 20260062052 AKR20260062052 AKR 20260062052AKR-20260062052-A

Abstract

대화 내용을 분석하기 위한 기술을 개선하는 것을 과제로 한다. 제어부(200)와, 촬영부(201)와, 입력부(202)를 구비하는 단말 장치(20)가 실행하는 방법이며, 제어부(200)는, 고객 대응의 녹음에 관한 고객의 동의를, 입력부(202)를 통해 취득하는 것과, 동의가 취득된 후, 녹음을 개시하는 것과, 소정 조건이 충족된 경우에, 녹음을 종료하는 것을 포함하는 동작을 실행한다.

Inventors

  • 소노하라 유키코
  • 모리시타 히로후미

Assignees

  • 도요타지도샤가부시키가이샤

Dates

Publication Date
20260506
Application Date
20251023
Priority Date
20241028

Claims (5)

  1. 제어부와, 촬영부와, 입력부를 구비하는 단말 장치가 실행하는 방법이며, 상기 제어부는, 고객 대응의 녹음에 관한 고객의 동의를, 상기 입력부를 통해 취득하는 것과, 상기 동의가 취득된 후, 녹음을 개시하는 것과, 상기 촬영부의 화상으로부터 스태프를 검출하는 것과, 소정 조건이 충족된 경우에, 녹음을 종료하는 것을 포함하는 동작을 실행하는, 방법.
  2. 제1항에 있어서, 상기 소정 조건은, 상기 입력부에 입력된 발화로부터 상기 고객 대응의 종료를 시사하는 종료 프레이즈가 검출되고, 또한 상기 촬영부의 화상으로부터 상기 스태프가 소실되었다고 하는 제1 조건을 포함하는, 방법.
  3. 제2항에 있어서, 상기 소정 조건은, 상기 스태프 및 상기 고객의 발화가 상기 입력부를 통해 검출되지 않고 또한 상기 촬영부의 화상으로부터 상기 스태프가 검출되지 않는 상태가 일정 시간 경과했다고 하는 제2 조건을 더 포함하는, 방법.
  4. 제1항에 있어서, 상기 동작은, 상기 입력부에 입력된 발화로부터 상기 고객 대응의 종료를 시사하는 종료 프레이즈가 검출되고, 또한 상기 촬영부의 화상으로부터 상기 스태프가 소실되었다고 하는 제1 조건이 충족된 경우에, 녹음을 중단하는 것을 더 포함하고, 상기 소정 조건은, 상기 스태프 및 상기 고객의 발화가 상기 입력부를 통해 검출되지 않고 또한 상기 촬영부의 화상으로부터 상기 스태프가 검출되지 않는 상태가 일정 시간 경과했다고 하는 제2 조건을 포함하는, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 동작은, 생성된 녹음 데이터를 정보 처리 장치에 송신하는 것을 더 포함하는, 방법.

Description

방법{METHOD} 본 개시는 방법에 관한 것이다. 종래, 대화 내용을 분석하기 위한 기술이 알려져 있다. 예를 들어, 특허문헌 1에는, 대화 내용을 녹음한 음성 데이터에 기초한 대화 데이터를 기록하고, 유저에 의해 지정된 조건에 매칭되는 대화를 대화 데이터로부터 추출하여 일람 표시하는 대화 분석 시스템이 개시되어 있다. 도 1은 본 개시의 일 실시 형태에 관한 시스템의 개략 구성을 나타내는 블록도이다. 도 2는 본 개시의 일 실시 형태에 관한 단말 장치의 동작을 나타내는 흐름도이다. 이하, 본 개시의 실시 형태에 대하여, 도면을 참조하여 설명한다. (본 실시 형태의 개요) 도 1을 참조하여, 본 개시의 실시 형태에 관한 시스템(1)의 개요에 대하여 설명한다. 본 실시 형태에 있어서, 시스템(1)은, 정보 처리 장치(10)와, 단말 장치(20)를 구비한다. 정보 처리 장치(10) 및 단말 장치(20)는, 인터넷 또는 이동체 통신 등의 네트워크(30)를 통하여 통신 가능하게 접속된다. 본 실시 형태에 있어서, 정보 처리 장치(10)는, 서버 장치 등의 1개 또는 서로 통신 가능한 복수의 컴퓨터를 포함한다. 본 실시 형태에 있어서, 단말 장치(20)는, 랩톱 컴퓨터, 태블릿 및 스마트폰 등의 컴퓨터이다. 단말 장치(20)는, 예를 들어 점포의 스태프에 의해 사용된다. 단말 장치(20)는, 고객 및 스태프의 음성을 녹음 가능하다. 먼저, 본 실시 형태의 개요에 대하여 설명하고, 상세에 대해서는 후술한다. 본 실시 형태에 관한 방법은, 제어부(200)와, 촬영부(201)와, 입력부(202)를 구비하는 단말 장치(20)에 의해 실행된다. 제어부(200)는, 고객 대응의 녹음에 관한 고객의 동의를, 입력부(202)를 통해 취득한다. 제어부(200)는, 동의가 취득된 후, 녹음을 개시한다. 제어부(200)는, 촬영부(201)의 화상으로부터 스태프를 검출한다. 제어부(200)는, 소정 조건이 충족된 경우에, 녹음을 종료한다. 본 실시 형태에 따르면, 소정 조건이 충족되면, 녹음이 자동적으로 종료된다. 이에 의해, 스태프가 녹음의 종료 조작을 하지 않고도, 녹음이 확실하게 종료되도록 된다. (정보 처리 장치(10)의 구성) 도 1에 나타내는 바와 같이, 정보 처리 장치(10)는, 제어부(100)와, 통신부(101)와, 기억부(102)를 구비한다. 제어부(100)는, 1개 이상의 프로세서, 1개 이상의 프로그래머블 회로, 1개 이상의 전용 회로, 또는 이들의 조합을 포함한다. 프로세서는, 예를 들어 CPU(Central Processing Unit) 혹은 GPU(Graphics Processing Unit) 등의 범용 프로세서, 또는 특정 처리에 특화된 전용 프로세서이지만 이들에 한정되지 않는다. 프로그래머블 회로는, 예를 들어 FPGA(Field-Programmable Gate Array)이지만 이들 한정되지 않는다. 전용 회로는, 예를 들어 ASIC(Application Specific Integrated Circuit)이지만 이들 한정되지 않는다. 제어부(100)는, 정보 처리 장치(10)의 동작에 관한 다양한 처리를 실행함과 함께, 정보 처리 장치(10)의 각 부를 제어한다. 통신부(101)는, 네트워크(30)에 접속하는 적어도 하나의 통신용 인터페이스를 포함한다. 통신용 인터페이스는, 예를 들어 4G(4th generation) 혹은 5G(5th generation) 등의 이동 통신 규격, 또는 유선 LAN(Local Area Network) 통신 규격 혹은 무선 LAN 통신 규격에 대응하지만, 이들에 한정되지 않고 임의의 통신 규격에 대응해도 된다. 기억부(102)는, 1개 이상의 메모리를 포함한다. 기억부(102)에 포함되는 각 메모리는, 예를 들어 주기억 장치, 보조 기억 장치, 또는 캐시 메모리로서 기능해도 된다. 기억부(102)는, 정보 처리 장치(10)의 동작에 사용되는 임의의 정보를 기억한다. 기억부(102)는, 예를 들어 시스템 프로그램, 애플리케이션 프로그램 및 임베디드 소프트웨어를 기억해도 된다. 기억부(102)는, 상담 등의 고객 대응에 관한 임의의 데이터를 기억해도 된다. 기억부(102)에 기억된 정보는, 예를 들어 통신부(101)를 통해 네트워크(30)로부터 취득되는 정보에 기초하여, 갱신 가능하다. (단말 장치(20)의 구성) 도 1에 나타내는 바와 같이, 단말 장치(20)는, 제어부(200)와, 촬영부(201)와, 입력부(202)와, 표시부(203)와, 통신부(204)와, 기억부(205)를 구비한다. 제어부(200)는, 1개 이상의 프로세서, 1개 이상의 프로그래머블 회로, 1개 이상의 전용 회로, 또는 이들의 조합을 포함한다. 프로세서는, 예를 들어 CPU 혹은 GPU 등의 범용 프로세서, 또는 특정 처리에 특화된 전용 프로세서이지만 이들에 한정되지 않는다. 프로그래머블 회로는, 예를 들어 FPGA이지만 이들 한정되지 않는다. 전용 회로는, 예를 들어 ASIC이지만 이들 한정되지 않는다. 제어부(200)는, 단말 장치(20)의 동작에 관한 다양한 처리를 실행함과 함께, 단말 장치(20)의 각 부를 제어한다. 촬영부(201)는, 단말 장치(20)의 주위를 촬영 가능한 임의의 촬영 모듈을 포함한다. 촬영 모듈은 1 이상의 카메라를 포함한다. 각 카메라는, 단말 장치(20)의 주위를 촬영할 수 있도록, 단말 장치(20)의 적절한 위치에 배치된다. 본 실시 형태에서는, 촬영부(201)는, 단말 장치(20)의 유저 측의 피사체(예를 들어 스태프)를 촬영 가능한 인 카메라를 포함한다. 촬영부(201)는, 유저와 반대 측의 피사체(예를 들어 고객)를 촬영 가능한 아웃 카메라를 더 포함해도 된다. 입력부(202)는 1개 이상의 입력 인터페이스를 구비한다. 입력 인터페이스는, 고객 및 스태프의 음성 입력을 접수하기 위한 마이크를 포함한다. 입력 인터페이스는, 예를 들어 물리 키, 정전 용량 키, 포인팅 디바이스, 또는 표시부(203)의 디스플레이와 일체적으로 마련된 터치 스크린을 포함해도 된다. 입력부(202)는, 단말 장치(20)의 동작에 사용되는 정보를 입력하는 조작을 접수한다. 입력부(202)는, 단말 장치(20)에 마련되는 대신에, 외부의 입력 기기로서 단말 장치(20)에 접속되어도 된다. 접속 방식으로서, USB(Universal Serial Bus), HDMI(등록상표)(High-Definition Multimedia Interface), 또는 Bluetooth(등록상표) 등의 임의의 방식을 사용할 수 있다. 표시부(203)는, 1개 이상의 표시용 인터페이스를 포함한다. 표시용 인터페이스는, 예를 들어 정보를 화상으로서 표시하는 디스플레이이다. 디스플레이는, 예를 들어 LCD 또는 유기 EL 디스플레이이다. 표시부(203)는, 단말 장치(20)의 동작에 의해 얻어진 정보를 표시한다. 표시부(203)는, 단말 장치(20)에 마련되는 대신에, 외부의 표시 기기로서 단말 장치(20)에 접속되어도 된다. 접속 방식으로서, USB, HDMI(등록상표), 또는 Bluetooth(등록상표) 등의 임의의 방식을 사용할 수 있다. 통신부(204)는, 네트워크(30)에 접속하는 적어도 하나의 통신용 인터페이스를 포함한다. 통신용 인터페이스는, 예를 들어 4G 혹은 5G 등의 이동 통신 규격, 또는 유선 LAN 통신 규격 혹은 무선 LAN 통신 규격에 대응하지만, 이들에 한정되지 않고 임의의 통신 규격에 대응해도 된다. 기억부(205)는, 1개 이상의 메모리를 포함한다. 기억부(205)에 포함되는 각 메모리는, 예를 들어 주기억 장치, 보조 기억 장치, 또는 캐시 메모리로서 기능해도 된다. 기억부(205)는, 단말 장치(20)의 동작에 사용되는 임의의 정보를 기억한다. 기억부(205)는, 예를 들어 시스템 프로그램, 애플리케이션 프로그램 및 임베디드 소프트웨어를 기억해도 된다. 기억부(205)는, 상담 등의 고객 대응에 관한 임의의 데이터를 기억해도 된다. 기억부(205)에 기억된 정보는, 예를 들어 통신부(204)를 통해 네트워크(30)로부터 취득되는 정보에 기초하여 갱신되어도 된다. (단말 장치(20)의 동작 플로) 도 2를 참조하여, 본 실시 형태에 관한 단말 장치(20)의 동작에 대하여 설명한다. 이하에서는, 정보 처리 장치(10)와 단말 장치(20) 사이의 통신은, 통신부(101, 204) 및 네트워크(30)를 통해 행해진다. S101: 단말 장치(20)의 제어부(200)는, 고객 대응의 녹음에 관한 고객의 동의를, 입력부(202)를 통해 취득한다. 본 실시 형태에서는, 제어부(200)는, 입력부(202)(예를 들어 마이크)에 입력된 발화로부터, 녹음에 관한 고객의 동의를 시사하는 동의 프레이즈를 검출함으로써, 동의를 취득한다. 제어부(200)는, 기억부(102 또는 205)에 기억된 프레이즈와, 발화 내용의 비교에 의해, 동의 프레이즈를 검출해도 된다. 비교에는, 형태소 해석, 구문 분석, 의미 해석, 문맥 해석 및 조응 해석 등의 자연 언어 처리와, 미리 기계 학습에 의해 훈련된 학습 모델이 이용되어도 된다. 학습 모델은, 예를 들어 발화 내용을 입력으로 하여, 기억부(205)에 기억된 프레이즈와, 발화 내용의 비교 결과를 출력으로 하도록 훈련되어도 된다. 학습 모델의 특징량은, 특정 단어 또는 프레이즈, 예를 들어 「녹음」, 「동의」여도 된다. 동의 프레이즈는, 예를 들어 「고객 대응의 녹음에 동의합니다.」와 같은, 고객 대응의 녹음에 대한 동의를 나타내는 프레이즈를 포함해도 된다. 동의 프레이즈는, 동의에 관한 스태프의 질문 및 당해 질문에 대한 고객의 회답, 예를 들어 「고객 대응의 녹음에 동의합니까?」, 「네」와 같은 프레이즈를 포함해도 된다. 동의 프레이즈는, 상기의 예에 한정되지 않고, 임의의 프레이즈를 포함해도 된다. 제어부(200)는, 스태프에게 당해 질문의 발화를 촉구하기 위해, 표시부(203)에 당해 질문을 표시시켜도 된다. 이에 의해, 스태프가 질문을 하는 것을 잊은 경우 또는 질문 내용을 잊은 경우에도, 스태프가 동의에 관한 질문을 확실하게 행하여, 동의를