KR-20260062053-A - METHOD

KR20260062053AKR 20260062053 AKR20260062053 AKR 20260062053AKR-20260062053-A

Abstract

제어부와, 촬영부와, 입력부를 구비하는 정보 처리 장치가 실행하는 방법이며, 제어부는, 고객 대응의 녹음에 관한 고객의 동의를, 입력부를 통해 취득하는 것과, 동의가 취득된 후, 촬영부에 의한 촬영을 개시하는 것과, 소정 조건이 충족되면, 녹음을 개시하는 것을 포함하는 동작을 실행하고, 소정 조건은, 촬영부의 화상 내에 스태프가 비치고 있다고 하는 제1 조건을 포함한다.

Inventors

소노하라 유키코
모리시타 히로후미

Assignees

도요타지도샤가부시키가이샤

Dates

Publication Date: 20260506
Application Date: 20251023
Priority Date: 20241028

Claims (5)

제어부와, 촬영부와, 입력부를 구비하는 정보 처리 장치가 실행하는 방법이며, 상기 제어부는, 고객 대응의 녹음에 관한 고객의 동의를, 상기 입력부를 통해 취득하는 것과, 상기 동의가 취득된 후, 상기 촬영부에 의한 촬영을 개시하는 것과, 소정 조건이 충족되면, 녹음을 개시하는 것을 포함하는 동작을 실행하고, 상기 소정 조건은, 상기 촬영부의 화상 내에 스태프가 비치고 있다고 하는 제1 조건을 포함하는, 방법.
제1항에 있어서, 상기 소정 조건은, 상기 제어부가 백그라운드에서 음성을 상기 입력부로부터 취득 가능하고, 또한 상기 입력부에 입력된 발화로부터, 상기 고객에 대한 대응의 개시를 시사하는 개시 프레이즈가 검출되었다고 하는, 제2 조건을 포함하는, 방법.
제2항에 있어서, 상기 개시 프레이즈는, 상기 고객에 대한 인사 또는 자기 소개를 나타내는 프레이즈를 포함하는, 방법.
제2항에 있어서, 상기 정보 처리 장치는 표시부를 더 구비하고, 상기 동작은, 상기 표시부에 상기 개시 프레이즈를 표시시키는 것을 더 포함하는, 방법.
제1항에 있어서, 상기 동의를 취득하는 것은, 상기 입력부에 입력된 발화로부터, 상기 동의를 시사하는 동의 프레이즈를 검출하는 것을 포함하는, 방법.

Description

방법{METHOD} 본 출원은 2024년 10월 28일에 일본에서 제출된 일본 특허 출원 제2024-189208호의 우선권을 주장하는 것이며, 이 앞의 출원의 개시 전체를, 여기에 참조를 위해 도입한다. 본 개시는 방법에 관한 것이다. 종래, 대화 내용을 분석하기 위한 기술이 알려져 있다. 예를 들어, 특허문헌 1에는, 대화 내용을 녹음한 음성 데이터에 기초한 대화 데이터를 기록하고, 유저에 의해 지정된 조건에 매칭되는 대화를 대화 데이터로부터 추출하여 일람 표시하는 대화 분석 시스템이 개시되어 있다. 도 1은 본 개시의 일 실시 형태에 관한 정보 처리 장치의 개략 구성을 나타내는 블록도이다. 도 2는 본 개시의 일 실시 형태에 관한 정보 처리 장치의 동작을 나타내는 흐름도이다. 이하, 본 개시의 실시 형태에 대하여, 도면을 참조하여 설명한다. (본 실시 형태의 개요) 도 1을 참조하여, 본 개시의 실시 형태에 관한 정보 처리 장치(1)의 개요에 대하여 설명한다. 본 실시 형태에 있어서, 정보 처리 장치(1)는, 랩톱 컴퓨터, 태블릿 및 스마트폰 등의 컴퓨터이다. 정보 처리 장치(1)는, 예를 들어 점포의 스태프에 의해 사용된다. 정보 처리 장치(1)는, 고객 및 스태프의 음성을 녹음 가능하다. 먼저, 본 실시 형태의 개요에 대하여 설명하고, 상세에 대해서는 후술한다. 본 실시 형태에 관한 방법은, 제어부(10)와, 촬영부(11)와, 입력부(12)를 구비하는 정보 처리 장치(1)에 의해 실행된다. 제어부(10)는, 고객 대응의 녹음에 관한 고객의 동의를, 입력부(12)를 통해 취득한다. 제어부(10)는, 동의가 취득된 후, 촬영부(11)에 의한 촬영을 개시한다. 제어부(10)는, 소정 조건이 충족되면, 녹음을 개시한다. 소정 조건은, 촬영부(11)의 화상 내에 스태프가 비치고 있다고 하는 제1 조건을 포함한다. 본 실시 형태에 따르면, 소정 조건이 충족되면, 녹음이 자동적으로 개시된다. 이에 의해, 스태프가 녹음의 개시 조작을 하지 않고도, 녹음 데이터가 확실하게 취득되도록 된다. (정보 처리 장치(1)의 구성) 도 1에 나타내는 바와 같이, 정보 처리 장치(1)는, 제어부(10)와, 촬영부(11)와, 입력부(12)와, 표시부(13)와, 통신부(14)와, 기억부(15)를 구비한다. 제어부(10)는, 1개 이상의 프로세서, 1개 이상의 프로그래머블 회로, 1개 이상의 전용 회로, 또는 이들의 조합을 포함한다. 프로세서는, 예를 들어 CPU(Central Processing Unit) 혹은 GPU(Graphics Processing Unit) 등의 범용 프로세서, 또는 특정 처리에 특화된 전용 프로세서이지만 이들에 한정되지 않는다. 프로그래머블 회로는, 예를 들어 FPGA(Field-Programmable Gate Array)이지만 이에 한정되지 않는다. 전용 회로는, 예를 들어 ASIC(Application Specific Integrated Circuit)이지만 이에 한정되지 않는다. 제어부(10)는, 정보 처리 장치(1)의 동작에 관한 다양한 처리를 실행함과 함께, 정보 처리 장치(1)의 각 부를 제어한다. 촬영부(11)는, 정보 처리 장치(1)의 주위를 촬영 가능한 임의의 촬영 모듈을 포함한다. 촬영 모듈은 1 이상의 카메라를 포함한다. 각 카메라는, 정보 처리 장치(1)의 주위를 촬영할 수 있도록, 정보 처리 장치(1)의 적절한 위치에 배치된다. 본 실시 형태에서는, 촬영부(11)는, 정보 처리 장치(1)의 유저 측의 피사체(예를 들어 스태프)를 촬영 가능한 인 카메라를 포함한다. 촬영부(11)는, 유저와 반대 측의 피사체(예를 들어 고객)를 촬영 가능한 아웃 카메라를 더 포함해도 된다. 입력부(12)는, 1개 이상의 입력 인터페이스를 구비한다. 입력 인터페이스는, 고객 및 스태프의 음성 입력을 접수하기 위한 마이크를 포함한다. 입력 인터페이스는, 예를 들어 물리 키, 정전 용량 키, 포인팅 디바이스, 또는 표시부(13)의 디스플레이와 일체적으로 마련된 터치 스크린을 포함해도 된다. 입력부(12)는, 정보 처리 장치(1)의 동작에 사용되는 정보를 입력하는 조작을 접수한다. 입력부(12)는, 정보 처리 장치(1)에 마련되는 대신에, 외부 입력 기기로서 정보 처리 장치(1)에 접속되어도 된다. 접속 방식으로서, USB(Universal Serial Bus), HDMI(등록상표)(High-Definition Multimedia Interface), 또는 Bluetooth(등록상표) 등의 임의의 방식을 사용할 수 있다. 표시부(13)는, 1개 이상의 표시용 인터페이스를 포함한다. 표시용 인터페이스는, 예를 들어 정보를 화상으로서 표시하는 디스플레이이다. 디스플레이는, 예를 들어 LCD(Liquid Crystal Display) 또는 유기 EL(Electro Luminescence) 디스플레이이다. 표시부(13)는, 정보 처리 장치(1)의 동작에 의해 얻어진 정보를 표시한다. 표시부(13)는, 정보 처리 장치(1)에 마련되는 대신에, 외부의 표시 기기로서 정보 처리 장치(1)에 접속되어도 된다. 접속 방식으로서, USB, HDMI(등록상표), 또는 Bluetooth(등록상표) 등의 임의의 방식을 사용할 수 있다. 통신부(14)는, 네트워크에 접속하는 적어도 하나의 통신용 인터페이스를 포함한다. 통신용 인터페이스는, 예를 들어 4G(4th generation) 혹은 5G(5th generation) 등의 이동 통신 규격, 또는 유선 LAN(Local Area Network) 통신 규격 혹은 무선 LAN 통신 규격에 대응하지만, 이들에 한정되지 않고 임의의 통신 규격에 대응해도 된다. 기억부(15)는, 1개 이상의 메모리를 포함한다. 기억부(15)에 포함되는 각 메모리는, 예를 들어 주기억 장치, 보조 기억 장치, 또는 캐시 메모리로서 기능해도 된다. 기억부(15)는, 정보 처리 장치(1)의 동작에 사용되는 임의의 정보를 기억한다. 기억부(15)는, 예를 들어 시스템 프로그램, 애플리케이션 프로그램 및 임베디드 소프트웨어를 기억해도 된다. 본 실시 형태에 있어서, 기억부(15)는, 상담 등의 고객 대응에 관한 임의의 데이터를 기억해도 된다. 기억부(15)에 기억된 정보는, 예를 들어 통신부(14)를 통해 네트워크로부터 취득되는 정보에 기초하여 갱신되어도 된다. (정보 처리 장치(1)의 동작 플로) 도 2를 참조하여, 본 실시 형태에 관한 정보 처리 장치(1)의 동작에 대하여 설명한다. 이하에서는, 정보 처치 장치의 각 부 사이의 통신은, 통신부(14)를 통해 행해진다. S101: 정보 처리 장치(1)의 제어부(10)는, 고객 대응의 녹음에 관한 고객의 동의를, 입력부(12)를 통해 취득한다. 본 실시 형태에 있어서, 제어부(10)는, 입력부(12)(예를 들어, 마이크)에 입력된 발화로부터, 녹음에 관한 고객의 동의를 시사하는 동의 프레이즈를 검출함으로써, 동의를 취득한다. 제어부(10)는, 기억부(15)에 기억된 프레이즈와, 발화 내용의 비교에 의해, 동의 프레이즈를 검출해도 된다. 비교에는, 형태소 해석, 구문 분석, 의미 해석, 문맥 해석, 및 조응 해석 등의 자연 언어 처리와, 미리 기계 학습에 의해 훈련된 학습 모델이 이용되어도 된다. 학습 모델은, 예를 들어 발화 내용을 입력으로 하여, 기억부(15)에 기억된 프레이즈와, 발화 내용의 비교 결과를 출력으로 하도록 훈련되어도 된다. 학습 모델의 특징량은, 특정 단어 또는 프레이즈, 예를 들어 「녹음」, 「동의」여도 된다. 동의 프레이즈는, 예를 들어 「고객 대응의 녹음에 동의합니다.」와 같은, 고객 대응의 녹음에 대한 동의를 나타내는 프레이즈를 포함해도 된다. 동의 프레이즈는, 동의에 관한 스태프의 질문 및 당해 질문에 대한 고객의 회답, 예를 들어 「고객 대응의 녹음에 동의합니까?」, 「네」와 같은 프레이즈를 포함해도 된다. 동의 프레이즈는, 상기의 예에 한정되지 않고, 임의의 프레이즈를 포함해도 된다. 제어부(10)는, 스태프에게 당해 질문의 발화를 촉구하기 위해, 표시부(13) 상에 당해 질문을 표시시켜도 된다. 이에 의해, 스태프가 질문을 하는 것을 잊은 경우 또는 질문 내용을 잊은 경우에도, 스태프가 동의에 관한 질문을 확실하게 행하여, 동의를 확실하게 취득할 수 있다. 제어부(10)는, 입력부(12)(예를 들어, 터치 스크린)에 입력된 고객의 서명을 취득함으로써, 동의를 취득해도 된다. 혹은, 제어부(10)는, 정보 처리 장치(1)의 표시부(13)에, 동의를 구하는 화면을 표시시키고, 고객에 의한 입력부(12)를 통한 동의의 선택(예를 들어, 동의를 나타내는 버튼의 선택)을 접수함으로써, 동의를 취득해도 된다. S102: 제어부(10)는, 녹음에 관한 고객의 동의가 취득된 후에, 촬영부(11)에 의한 촬영을 개시한다. S103: 제어부(10)는, 소정 조건이 충족되는지 판정한다. 소정 조건이 충족되는 경우(S103-"예"), 프로세스는 S104로 진행된다. 소정 조건이 충족되지 않는 경우(S103-"아니오"), 프로세스는 종료된다. 본 실시 형태에 있어서, 소정 조건은, 촬영부(11)의 화상 내에 스태프가 비치고 있다고 하는 제1 조건을 포함한다. 화상은, 예를 들어 촬영부(11)의 인 카메라에 의해 촬영되어도 된다. 제어부(10)는, YOLO(You Only Look Once) 및 CNN(Convolutional Neural Network) 등의 임의의 물체 검출 기술을 사용하여, 제1 조건의 판정을 실행해도 된다. 대체적으로, 제1 조건은, 촬영부(11)의 화상 내에 고객이 비치고 있다는 조건이어도 된다. 화상은, 예를 들어 촬영부(11)의 아웃 카메라에 의해 촬영되어도 된다. 소정 조건은, 입력부(12)가 백그라운드에서 음성을 취득 가능하고, 또한 입력부(12)에 입력된 발화로부터, 고객에 대한 대응의 개시를 시사하는 개시 프레이즈가 검출되었다고 하는, 제2 조건을 더 포함해도 된다. 제1 조건 및 제2 조건이 충족되는 경우에, 프로세스가 S104로 진행되어도 된다. 백그라운드에서 음성을 취득하고 있는 동안에는, 제어부(10