KR-20260060618-A - INTEGRATED SEARCH SYSTEM AND METHOD CAPABLE OF PROVIDING ANSWARS INCLUDING MULTIMEDIA DATA

KR20260060618AKR 20260060618 AKR20260060618 AKR 20260060618AKR-20260060618-A

Abstract

본 문서에 개시되는 일 실시 예에 따른 통합 검색 시스템은, 입력 장치; 출력 장치; 및 제어 모듈, AI 모듈 및 검색 모듈을 포함하는 프로세서를 포함하고, 상기 제어 모듈은, 상기 입력 장치를 통해 입력된 사용자 프롬프트를 확인하면, 상기 사용자 프롬프트에 관련된 멀티미디어 표지를 요청하는 제1 지시 프롬프트를 상기 사용자 프롬프트와 함께 상기 AI 모듈에 입력하고, 상기 AI 모듈로부터 상기 사용자 프롬프트에 대응하는 응답으로 멀티미디어 표지를 포함하는 1차 답변을 획득하고, 상기 멀티미디어 표지는, 상기 응답에 포함된 멀티미디어 자료에 관련된 텍스트이고, 상기 검색 모듈을 이용하여 상기 1차 답변의 멀티미디어 표지를 상기 멀티미디어 자료의 적어도 일부로 대체한 2차 답변을 생성하고, 상기 생성된 2차 답변을 상기 출력 장치를 통해 출력할 수 있다.

Inventors

김유나
김유빈
김덕우

Assignees

김유나
김유빈
김덕우

Dates

Publication Date: 20260506
Application Date: 20241025

Claims (19)

통합 검색 시스템에 있어서, 입력 장치; 출력 장치; 및 제어 모듈, AI 모듈 및 검색 모듈을 포함하는 프로세서를 포함하고, 상기 제어 모듈은, 상기 입력 장치를 통해 입력된 사용자 프롬프트를 확인하면, 상기 사용자 프롬프트에 관련된 멀티미디어 표지를 요청하는 제1 지시 프롬프트를 상기 사용자 프롬프트와 함께 상기 AI 모듈에 입력하고, 상기 AI 모듈로부터 상기 사용자 프롬프트에 대응하는 응답으로 멀티미디어 표지를 포함하는 1차 답변을 획득하고, 상기 검색 모듈을 이용하여 상기 1차 답변의 상기 멀티미디어 표지에 대응하는 멀티미디어 자료를 DB나 인터넷에서 검색하여 획득하고, 획득한 상기 멀티미디어 자료의 적어도 일부를 포함하거나 대체한 2차 답변을 생성하고, 상기 생성된 2차 답변을 상기 출력 장치를 통해 출력하고, 상기 멀티미디어 표지는, 상기 응답에 포함된 멀티미디어 자료에 관련된 텍스트로 구성되는 것인 통합 검색 시스템.
청구항 1에 있어서, 상기 제어 모듈은, 상기 제1 지시 프롬프트를 통해 상기 AI 모듈에 각 멀티미디어 자료의 종류와 제목을 구분 가능한 지정된 형식의 상기 멀티미디어 표지를 생성하도록 요청하는 것인 통합 검색 시스템.
청구항 2에 있어서, 상기 제어 모듈은, 상기 제1 지시 프롬프트를 통해 상기 AI 모듈에 상기 각 멀티미디어 자료가 획득되면 답변의 이해를 향상시킬 위치에 상기 종류와 상기 제목을 포함하는 상기 멀티미디어 표지를 생성하도록 요청하는 것인 통합 검색 시스템.
청구항 1에 있어서, 상기 멀티미디어 자료는, 정지영상(이미지), 동영상, 소리 또는 문서 중 적어도 한 종류의 멀티미디어 자료를 포함하는 통합 검색 시스템.
청구항 4에 있어서, 상기 제어 모듈은, 상기 멀티미디어 자료가 정지영상인 경우, 사진, 지도, 도표, 그림, 도면 또는 기타 중 적어도 하나의 세부 종류를 구분할 수 있는 상기 멀티미디어 표지를 요청하는 상기 제1 지시 프롬프트를 생성하는 것인 통합 검색 시스템.
청구항 4에 있어서, 상기 제어 모듈은, 상기 멀티미디어 자료가 문서인 경우, 기사, 서적, 보고서, 설명서, 설계서, 법률, 규칙, 조례, 공고, 또는 안내문 중 적어도 하나의 세부 종류를 구분할 수 있는 상기 멀티미디어 표지를 요청하는 상기 제1 지시 프롬프트를 생성하는 것인 통합 검색 시스템.
청구항 2에 있어서, 상기 제어 모듈은, 상기 제1 지시 프롬프트와 함께 또는 별개로, 상기 1차 답변에 포함될 예정이거나 상기 제1 답변에 포함된 상기 멀티미디어 표지를 상기 멀티미디어 자료에 관련된 언어(language)로 요청하는 제2 지시 프롬프트를 생성하는 것인 통합 검색 시스템.
청구항 1에 있어서, 상기 제어 모듈은, 상기 1차 답변에 포함된 상기 멀티미디어 표지 중 적어도 일부를 이용하여 키워드를 생성하고, 상기 키워드를 상기 검색 모듈에 입력하여 멀티미디어 자료를 검색하고, 상기 1차 답변 내 상기 멀티미디어 표지의 위치에 상기 검색된 멀티미디어 자료의 적어도 일부를 추가함에 따라 상기 2차 답변을 생성하는 것인 통합 검색 시스템.
청구항 8에 있어서, 상기 검색 모듈은, 복수의 검색 모듈들을 포함하고, 상기 제어 모듈은, 상기 복수의 검색 모듈들 중에서 상기 멀티미디어 표지에 관련된 멀티미디어 자료의 종류에 대응하는 검색 모듈을 이용하여 상기 멀티미디어 자료를 검색하는 것인 통합 검색 시스템.
청구항 1에 있어서, 상기 멀티미디어 자료의 적어도 일부는, 상기 멀티미디어 자료 또는 상기 멀티미디어 자료가 포함된 링크 중 적어도 하나인 통합 검색 시스템.
청구항 1에 있어서, 상기 검색 모듈은, 상기 멀티미디어 자료를 저장하는 DB 또는 상기 DB의 API(Application Program Interface)로 구현되는 것인 통합 검색 시스템.
청구항 1에 있어서, 상기 제어 모듈은, 상기 멀티미디어 자료가 구매 가능한 것이면, 상기 멀티미디어 자료의 구매 관련 정보를 포함하는 3차 답변을 생성하고, 상기 출력 장치를 통해 상기 3차 답변을 출력하는 것인 통합 검색 시스템.
청구항 12에 있어서, 상기 제어 모듈은, 오프라인 상점의 주소, 온라인 상점의 링크 주소, 구매/구독 링크 중 적어도 하나의 구매 관련 정보를 포함하는 상기 3차 답변을 생성하는 것인 통합 검색 시스템.
청구항 13에 있어서, 상기 제어 모듈은, 상기 입력 장치를 통해 상기 3차 답변에 포함된 단어 또는 문자열이 선택된 경우, 상기 AI 모듈 또는 상기 검색 모듈 중 적어도 하나의 모듈을 이용하여 상기 선택된 단어 또는 문자열에 기반한 추가 검색을 수행하고, 상기 출력 장치를 통해 상기 추가 검색의 결과를 제공하는 것인 통합 검색 시스템.
청구항 1에 있어서, 상기 제어 모듈은, 상기 입력 장치를 통해 상기 2차 답변에 포함된 단어 또는 문자열이 선택된 경우, 상기 AI 모듈 또는 상기 검색 모듈 중 적어도 하나의 모듈을 이용하여 상기 선택된 단어 또는 문자열에 기반한 추가 검색을 수행하고, 상기 출력 장치를 통해 상기 추가 검색의 결과를 제공하는 것인 통합 검색 시스템.
청구항 15에 있어서, 상기 제어 모듈은, 상기 AI 모듈 및 상기 검색 모듈을 이용하여 상기 멀티미디어 표지를 포함하도록 상기 추가 검색의 결과를 제공하는 것인 통합 검색 시스템.
청구항 15에 있어서, 상기 제어 모듈은, 상기 멀티미디어 표지의 적어도 일부에 기반하여 멀티미디어 검색어 생성을 요청하는 제4 지시 프롬프트를 상기 AI 모듈에 입력하고, 상기 제4 지시 프롬프트에 대한 응답으로 상기 AI 모듈로부터 적어도 하나의 검색어를 획득하고, 상기 획득된 검색어를 이용하여 상기 멀티미디어 자료를 검색하는 것인 통합 검색 시스템.
적어도 하나의 프로세서에 의한 통합 검색 방법으로서, 입력 장치를 통해 입력된 사용자 프롬프트를 확인하면, 상기 사용자 프롬프트에 관련된 멀티미디어 표지를 요청하는 제1 지시 프롬프트를 상기 사용자 프롬프트와 함께 AI 모듈에 제공하는 동작; 상기 AI 모듈로부터 상기 사용자 프롬프트에 대응하는 응답으로 멀티미디어 표지를 포함하는 1차 답변을 획득하는 동작; 상기 멀티미디어 표지는, 상기 응답에 포함된 멀티미디어 자료에 관련된 텍스트로 구성되고, 검색 모듈을 통해 상기 1차 답변의 상기 멀티미디어 표지에 대응하는 멀티미디어 자료를 DB나 인터넷에서 검색하여 획득하고 상기 획득된 멀티미디어 자료의 적어도 일부를 포함하거나, 대체한 2차 답변을 생성하는 동작; 및 상기 생성된 2차 답변을 출력 장치를 통해 출력하는 동작을 포함하는 통합 검색 방법.
청구항 18에 있어서, 상기 제공하는 동작은, 상기 제1 지시 프롬프트를 통해 상기 AI 모듈에 각 멀티미디어 자료가 획득되면, 상기 1차 답변의 이해를 향상시킬 위치에 종류와 제목을 포함하는 상기 멀티미디어 표지를 생성하도록 요청하는 동작을 포함하는 것인 통합 검색 방법.

Description

멀티미디어 자료가 포함된 답변을 제공할 수 있는 통합 검색 시스템 및 방법{INTEGRATED SEARCH SYSTEM AND METHOD CAPABLE OF PROVIDING ANSWARS INCLUDING MULTIMEDIA DATA} 본 문서에서 개시되는 다양한 실시 예들은, AI 기반 검색 서비스와 관련된다. 최근, 다양한 형태의 LLM 기반 대화형 AI가 출시되어, 많은 사람들에 의해 사용되고 있다. 예를 들어, 대화형 AI에는 ChatGPT4o, Claude3.5, Gemini 1.5 pro가 있다. 그런데, 종래의 대화형 AI는 언어 모델이므로, 질문과 답변이 기본적으로 텍스트를 기반으로 이루어진다. 말하자면 사용자는 텍스트로 질문을 하고 AI는 텍스트로 답변을 출력하게 된다. 때문에 대화형 AI가 사진이나 영상을 입력 받는 것도 사진이나 영상을 텍스트로 변환하는 과정을 거치게 되고, 사용자의 요청에 따라 그림이나 동영상을 생성하는 경우에도 AI의 텍스트출력을 그림이나 동영상으로 변환하는 과정을 거치게 된다. 따라서 대화형 AI를 이용한 일반적인 질문 과정에서는 멀티미디어자료가 포함될 수도 있으나 답변과정에서는 자신이 직접 생성한 사진이나 영상, 문서, 도표, 그래프 등의 자료를 제외하고, 외부DB 연결이나 포털 검색을 통해 획득된 멀티미디어 자료는 포함되지 않는다. 예를 들어 대화형 AI에게 새소리의 차이를 설명해달라고 하면 대화형 AI의 생성형 답변에는 멀티미디어 자료가 포함되지 않으므로 답변 내용은 텍스트로만 구성된다. 또한 최근에 음성으로 질문하고 답변을 제시하는 대화형 AI서비스가 출시되었으나 새소리의 차이를 물으면 텍스트기반 AI와 마찬가지로 새소리의 차이점을 말로만 설명한다. 즉 다양하고 방대한 멀티미디어자료를 답변에 추가하여 제시하는 것은 LLM과 대화형AI에서는 속성상 불가능한 것이 현실이다. 도 1은 일 실시예에 따른 통합 검색 시스템의 구성도를 나타낸다. 도 2는 기존방식에 따른 검색결과를 나타낸다. 도 3은 일 실시예에 따른 '모습'을 질의하는 제1 사용자 프롬프트에 일 실시예에 따른 지시 프롬프트가 더해져 만들어진 검색 프롬프트와 이에 대한 AI 모듈의 1차 답변을 나타낸다. 도 4는 일 실시예에 따른 '소리'를 질의하는 제2 사용자 프롬프트에 일 실시예에 따른 지시 프롬프트가 더해져 만들어진 검색 프롬프트와 이에 대한 AI모듈의 1차 답변을 나타낸다. 도 5a는 일 실시예에 따른 전자 제품 사용법을 질의하는 제3 사용자 프롬프트에 일 실시예에 따른 지시 프롬프트가 더해져 만들어진 검색 프롬프트를, 도 5b는 이에 대한 AI 모듈의 1차 답변을, 도 5c는 지시 프롬프트의 확장에 따른 1차 답변을 각각 나타낸다. 도 6은 일 실시예에 따른 통합 검색 방법의 흐름도를 나타낸다 도 7a 및 도 7b는 도 3의 변형 실시예를 나타낸다. 도면의 설명과 관련하여, 동일 또는 유사한 구성요소에 대해서는 동일 또는 유사한 참조 부호가 사용될 수 있다. 도 1은 일 실시예에 따른 통합 검색 시스템의 구성도를 나타낸다. 도 1을 참조하면, 일 실시예에 따른 통합 검색 시스템(100)은 입력 장치(110), 출력 장치(120), 메모리(130) 및 프로세서(140)를 포함할 수 있다. 일 실시 예에서, 통합 검색 시스템(100)는 일부 구성요소가 생략되거나, 추가적인 구성요소를 더 포함할 수 있다. 또한, 통합 검색 시스템(100)의 구성요소들 중 일부가 결합되어 하나의 개체로 구성되되, 결합 이전의 해당 구성요소들의 기능을 동일하게 수행할 수 있다. 일 실시예에서, 통합 검색 시스템(100)은 휴대 단말, 스마트폰, 스마트패드, 랩탑, 노트북, PC 중 적어도 하나의 컴퓨팅 장치이거나 이를 포함할 수 있다. 통합 검색 시스템(100)은 예를 들면, 통합 검색 서비스를 이용하는 사용자 단말일 수 있다. 입력 장치(110)는 통합 검색 시스템(100)을 사용하는 사용자 입력을 수신할 수 있다. 입력 장치(110)는 예를 들어, 키패드, 버튼, 터치스크린, 마이크 중 적어도 하나의 입력 감지 회로를 포함할 수 있다. 출력 장치(120)는 프로세서(140)의 제어에 따라 기호, 숫자 또는 문자 중 적어도 하나의 데이터를 시각 또는 청각적으로 출력할 수 있다. 출력 장치(120)는 예를 들면, 액정 디스플레이, OLED, 터치스크린 디스플레이, 스피커 중 적어도 하나의 출력 장치를 포함할 수 있다. 메모리(130)는 다양한 형태의 휘발성 메모리 또는 비휘발성 메모리를 포함할 수 있다. 예를 들어, 메모리(130)는 ROM(read only memory) 및 RAM(random access memory), SSD(Solid State Drive)를 포함할 수 있다. 일 실시예에서, 메모리(130)는 프로세서(140)의 내부 또는 외부에 위치할 수 있고, 메모리(130)는 이미 알려진 다양한 수단을 통해 프로세서(140)와 연결될 수 있다. 메모리(130)는 통합 검색 시스템(100)의 적어도 하나의 구성요소(예: 프로세서(140))에 의해 사용되는 다양한 데이터를 저장할 수 있다. 데이터는 예를 들어, 소프트웨어 및 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 예를 들어, 메모리(130)는 통합 검색 서비스 제공을 위한 적어도 하나의 인스트럭션 및 데이터를 저장할 수 있다. 메모리(130)는 예를 들면, 제어 모듈(141), AI 모듈(143) 및 검색 모듈(145) 각각의 동작 수행을 위한 인스트럭션 및 데이터를 저장할 수 있다. 메모리(130)는 예를 들면, 제1 지시 프롬프트, 제2 지시 프롬프트 및 제3 지시 프롬프트 생성을 위한 인스트럭션 및 데이터를 저장할 수 있다. 프로세서(140)는 통합 검색 시스템(100)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)를 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 프로세서(140)는 예를 들어, 중앙처리장치(CPU), 그래픽처리장치(GPU), 마이크로프로세서, 애플리케이션 프로세서(application processor), 주문형 반도체(ASIC(application specific integrated circuit), FPGA(field programmable gate arrays)) 중 적어도 하나를 포함할 수 있으며, 복수의 코어를 가질 수 있다. 일 실시예에 따르면, 프로세서(140)는 제어 모듈(141), AI 모듈(143) 및 검색 모듈(145)을 포함할 수 있다. 제어 모듈(141), AI 모듈(143) 및 검색 모듈(145)은 프로세서(140)에 포함되거나, 프로세서(140)에 의해 실행되는 소프트웨어/하드웨어 모듈일 수 있다. 다양한 실시예에 따르면, 프로세서(140)는 통합 검색 시스템(100)에 설치되어 통합 검색 기능을 제공하는 전용 앱 또는 범용 앱에 해당하는 지정된 앱을 더 포함할 수 있다. 이 경우, 제어 모듈(141), AI 모듈(143) 및 검색 모듈(145)은 지정된 앱에 포함되거나, 지정된 앱의 요청에 따라 각기 지정된 기능을 수행할 수 있다. 일 실시예에 따르면, AI 모듈(143)은 제어 모듈(141)에 의해 입력(또는, 제공)된 프롬프트에 응답하는 답변을 제공할 수 있다. 예를 들어, AI 모듈(143)은 LLM(large language model) 그 자체, LLM과 메시지 관리 모듈(예: 랭체인(LangChain))이 결합된 대화형 AI, 또는 LLM에 몇 가지 기능이 부가된 AI 플랫폼(OpenAI의 AI어시스턴트) 중 적어도 하나의 AI 모듈일 수 있다. 추가적으로 또는 대체적으로, AI 모듈(143)은 RPA(Robotic Process Automation) 모듈로 접근가능한 대화형 AI 웹서비스일 수도 있다. AI 모듈(143)은 통신망으로 연결되는 AI서비스 서버 연결을 위한 API(Application Program Interface)모듈일 수 있다. 일 실시예에 따르면, 검색 모듈(145)은 제어 모듈(141)의 명령에 따라 포털 사이트나, 지정된 다른 사이트를 이용하여 키워드에 대응하는 검색을 수행할 수 있다. 예를 들어, 검색 모듈(145)은 멀티미디어 자료를 저장하는 데이터베이스 또는 데이터베이스의 API(Application Program Interface)로 구현될 수 있다. 일 실시예에 따르면, 제어 모듈(141)은 입력 장치(110)를 통해 사용자에 의해 입력된 사용자 프롬프트를 획득할 수 있다. 상기 사용자 프롬프트는 예를 들면, 검색할 내용을 질의하는 단어, 문자열 또는 문장, 멀티미디어자료를 포함할 수 있다. 멀티미디어자료가 문서인 경우에는 RAG(Retrieval Augmented Generation)방식으로 프롬프트에 포함시킬수 있다. 예를 들어, 제어 모듈(141)은 지정된 앱의 입력 페이지를 통해 텍스트 또는, 음성으로 사용자가 입력한 사용자 프롬프트를 획득할 수 있다. 일 실시예에 따르면, 제어 모듈(141)은 사용자 프롬프트를 획득하면, 사용자 프롬프트 및 제1 지시 프롬프트를 포함하는 질의를 AI 모듈(143)에 입력(또는, 제공)할 수 있다. 예를 들어, 제어 모듈(141)은 사용자 프롬프트에 관련된 멀티미디어 표지를 요청하는 제1 지시 프롬프트를 사용자 프롬프트에 덧붙여 AI 모듈(143)에 입력할 수 있다. 상기 제1 지시 프롬프트는 사용자 프롬프트에 대응하는 응답 내 멀티미디어 표지의 삽입 대상, 삽입 위치, 또는 형식 중 적어도 하나의 정의를 포함할 수 있다. 상기 멀티미디어 표지는 정지영상 표지, 동영상 표지, 소리 표지 및 문서 표지 중 적어도 하나를 포함할 수 있다. 한 실시예에 따르면, 제어 모듈(141)은 사용자 프롬프트에 대응하는 답변에 멀티미디어 자료를 포함시키기 위하여, AI모듈에 이를 지시하기 위한 지시 프롬프트를 생성할 수 있다. 예를 들면, 제어 모듈(141)은 멀티미디어 자료가 삽입될 위치를 지정하고(예: 멀티미디어 자료가 포함되면 이해에 도움이 될만한 부분에 삽입) 각 멀티미디어 자료의 종류와 제목(또는, 이름)을 구분 가능하도록 멀티미디어 표지를 요청하는 제1 지시 프롬프트를 생성할 수 있다. 상기 멀티미디어 자료는