KR-20260061819-A - METHOD, DEVICE AND PROGRAM OF ITERATIVE SELF-REFINEMENT FOR LONG CONTEXT QUESTION-ANSWERING USING RETRIEVAL BASED FACTUALITY SCORES

KR20260061819AKR 20260061819 AKR20260061819 AKR 20260061819AKR-20260061819-A

Abstract

일 실시예에 따른 거대 언어 모델을 이용하여 텍스트 콘텐츠로부터 요약을 생성하는 방법은, 텍스트 콘텐츠를 하나 이상의 조각(chunk)으로 분할하는 단계; 거대 언어 모델에서, 상기 하나 이상의 조각(chunk) 각각에 대해 노드와 엣지를 포함하는 인물 관계 그래프를 출력하는 단계; 상기 거대 언어 모델에서, 상기 하나 이상의 조각(chunk) 각각에 대해 제1의 요약 조각을 출력하는 단계; 상기 거대 언어 모델에서, 각각의 제1의 요약 조각을 분해하여 제1의 분해된 요약을 출력하는 단계; 각각의 제1의 분해된 요약에 대해 리트리벌을 수행하여 제1의 검색된 장면을 출력하는 단계; 각각의 제1의 분해된 요약에 대해 리트리벌을 수행하여 제1의 검색된 인물 지식 그래프를 출력하는 단계; 상기 거대 언어 모델에서, 각각의 제1의 분해된 요약에 대하여, 대응되는 제1의 검색된 장면 및 대응되는 제1의 검색된 인물 지식 그래프에 의해 뒷받침되는지 여부를 판단하는 단계; 대응되는 제1의 검색된 장면 및 대응되는 제1의 검색된 인물 지식 그래프에 의해 뒷받침되지 않는 제1의 분해된 요약을 수정하거나 삭제하는 단계; 및 상기 수정 또는 상기 삭제가 수행된 후의 각각의 제1의 분해된 요약들에 기초하여 제2의 요약 조각을 생성하는 단계를포함할 수 있다.

Inventors

박세운
정연석
김병학
김현탁
신동일

Assignees

씨제이올리브네트웍스 주식회사

Dates

Publication Date: 20260506
Application Date: 20241028

Claims (11)

거대 언어 모델을 이용하여 텍스트 콘텐츠로부터 요약을 생성하는 장치가 수행하는 방법에 있어서, 상기 요약을 생성하는 장치의 제어부가, 텍스트 콘텐츠를 하나 이상의 조각(chunk)으로 분할하는 단계; 거대 언어 모델에서, 상기 하나 이상의 조각 각각에 대해 노드와 엣지를 포함하는 인물 관계 그래프를 출력하는 단계; 상기 거대 언어 모델에서, 상기 하나 이상의 조각 각각에 대해 제1의 요약 조각을 출력하는 단계; 상기 거대 언어 모델에서, 각각의 제1의 요약 조각을 분해하여 제1의 분해된 요약을 출력하는 단계; 각각의 제1의 분해된 요약에 대해 리트리벌을 수행하여 제1의 검색된 장면을 출력하는 단계; 각각의 제1의 분해된 요약에 대해 리트리벌을 수행하여 제1의 검색된 인물 지식 그래프를 출력하는 단계; 상기 거대 언어 모델에서, 각각의 제1의 분해된 요약에 대하여, 대응되는 제1의 검색된 장면 및 대응되는 제1의 검색된 인물 지식 그래프에 의해 뒷받침되는지 여부를 판단하는 단계; 대응되는 제1의 검색된 장면 및 대응되는 제1의 검색된 인물 지식 그래프에 의해 뒷받침되지 않는 제1의 분해된 요약을 수정하거나 삭제하는 단계; 및 상기 수정 또는 상기 삭제가 수행된 후의 각각의 제1의 분해된 요약들에 기초하여 제2의 요약 조각을 생성하는 단계를 수행하는, 요약을 생성하는 방법.
청구항 1에 있어서, 상기 제어부는, 상기 거대 언어 모델에서, 대응되는 제1의 검색된 장면 및 대응되는 제1의 검색된 인물 지식 그래프에 의해 뒷받침되지 않는 제1의 분해된 요약에 대한 제1의 피드백을 출력하도록 하고, 상기 제1의 분해된 요약의 수정은 상기 출력된 제1의 피드백에 기반하여 수행되는, 요약을 생성하는 방법.
청구항 1에 있어서, 상기 제어부는, 상기 거대 언어 모델에서, 각각의 제2의 요약 조각을 분해하여 제2의 분해된 요약을 출력하는 단계; 각각의 제2의 분해된 요약에 대해 리트리벌을 수행하여 제2의 검색된 장면을 출력하는 단계; 각각의 제2의 분해된 요약에 대해 리트리벌을 수행하여 제2의 검색된 인물 지식 그래프를 출력하는 단계; 상기 거대 언어 모델에서, 각각의 제2의 분해된 요약에 대하여, 대응되는 제2의 검색된 장면 및 대응되는 제2의 검색된 인물 지식 그래프에 의해 뒷받침되는지 여부를 판단하는 단계; 대응되는 제2의 검색된 장면 및 대응되는 제2의 검색된 인물 지식 그래프에 의해 뒷받침되지 않는 제2의 분해된 요약을 수정하거나 삭제하는 단계; 및 상기 수정 또는 상기 삭제가 수행된 후의 각각의 제2의 분해된 요약들에 기초하여 제3 요약 조각을 생성하는 단계를 더 수행하는, 요약을 생성하는 방법.
청구항 3에 있어서, 상기 제어부는, 상기 거대 언어 모델에서, 대응되는 제2의 검색된 장면 및 대응되는 제2의 검색된 인물 지식 그래프에 의해 뒷받침되지 않는 제2의 분해된 요약에 대한 제2의 피드백을 출력하도록 하고, 상기 제2의 분해된 요약의 수정은 상기 출력된 제2의 피드백에 기반하여 수행되는, 요약을 생성하는 방법.
청구항 1에 있어서, 상기 제1의 요약 조각은, 하나의 문장이 포함하는 하나 이상의 사실 중의 하나를 포함하는, 요약을 생성하는 방법.
거대 언어 모델을 이용하여 텍스트 콘텐츠로부터 요약을 생성하는 장치가, 텍스트 콘텐츠를 하나 이상의 조각(chunk)으로 분할하고, 거대 언어 모델에서, 상기 하나 이상의 조각 각각에 대해 노드와 엣지를 포함하는 인물 관계 그래프를 출력하고, 상기 거대 언어 모델에서, 상기 하나 이상의 조각 각각에 대해 제1의 요약 조각을 출력하고. 상기 거대 언어 모델에서, 각각의 제1의 요약 조각을 분해하여 제1의 분해된 요약을 출력하고, 각각의 제1의 분해된 요약에 대해 리트리벌을 수행하여 제1의 검색된 장면을 출력하고, 각각의 제1의 분해된 요약에 대해 리트리벌을 수행하여 제1의 검색된 인물 지식 그래프를 출력하고, 상기 거대 언어 모델에서, 각각의 제1의 분해된 요약에 대하여, 대응되는 제1의 검색된 장면 및 대응되는 제1의 검색된 인물 지식 그래프에 의해 뒷받침되는지 여부를 판단하고, 대응되는 제1의 검색된 장면 및 대응되는 제1의 검색된 인물 지식 그래프에 의해 뒷받침되지 않는 제1의 분해된 요약을 수정하거나 삭제하고, 상기 수정 또는 상기 삭제가 수행된 후의 각각의 제1의 분해된 요약들에 기초하여 제2의 요약 조각을 생성하는, 제어부를 포함하는, 요약을 생성하는 장치.
청구항 6에 있어서, 상기 제어부는, 상기 거대 언어 모델에서, 대응되는 제1의 검색된 장면 및 대응되는 제1의 검색된 인물 지식 그래프에 의해 뒷받침되지 않는 제1의 분해된 요약에 대한 제1의 피드백을 출력하도록 하고, 상기 제1의 분해된 요약의 수정은 상기 출력된 제1의 피드백에 기반하여 수행되는, 요약을 생성하는 장치.
청구항 6에 있어서, 상기 제어부는, 상기 거대 언어 모델에서, 각각의 제2의 요약 조각을 분해하여 제2의 분해된 요약을 출력하고, 각각의 제2의 분해된 요약에 대해 리트리벌을 수행하여 제2의 검색된 장면을 출력하고, 각각의 제2의 분해된 요약에 대해 리트리벌을 수행하여 제2의 검색된 인물 지식 그래프를 출력하고, 상기 거대 언어 모델에서, 각각의 제2의 분해된 요약에 대하여, 대응되는 제2의 검색된 장면 및 대응되는 제2의 검색된 인물 지식 그래프에 의해 뒷받침되는지 여부를 판단하고, 대응되는 제2의 검색된 장면 및 대응되는 제2의 검색된 인물 지식 그래프에 의해 뒷받침되지 않는 제2의 분해된 요약을 수정하거나 삭제하고, 상기 수정 또는 상기 삭제가 수행된 후의 각각의 제2의 분해된 요약들에 기초하여 제3 요약 조각을 생성하는 것을 더 수행하는, 요약을 생성하는 장치.
청구항 8에 있어서, 상기 제어부는, 상기 거대 언어 모델에서, 대응되는 제2의 검색된 장면 및 대응되는 제2의 검색된 인물 지식 그래프에 의해 뒷받침되지 않는 제2의 분해된 요약에 대한 제2의 피드백을 출력하도록 하고, 상기 제2의 분해된 요약의 수정은 상기 출력된 제2의 피드백에 기반하여 수행되는, 요약을 생성하는 장치.
청구항 6에 있어서, 상기 제1의 요약 조각은, 하나의 문장이 포함하는 하나 이상의 사실 중의 하나를 포함하는, 요약을 생성하는 장치.
거대 언어 모델을 이용하여 텍스트 콘텐츠로부터 요약을 생성하기 위한, 기록매체에 저장된 프로그램에 있어서, 상기 프로그램은, 텍스트 콘텐츠를 하나 이상의 조각(chunk)으로 분할하는 동작; 거대 언어 모델에서, 상기 하나 이상의 조각 각각에 대해 노드와 엣지를 포함하는 인물 관계 그래프를 출력하는 동작; 상기 거대 언어 모델에서, 상기 하나 이상의 조각 각각에 대해 제1의 요약 조각을 출력하는 동작; 상기 거대 언어 모델에서, 각각의 제1의 요약 조각을 분해하여 제1의 분해된 요약을 출력하는 동작; 각각의 제1의 분해된 요약에 대해 리트리벌을 수행하여 제1의 검색된 장면을 출력하는 동작; 각각의 제1의 분해된 요약에 대해 리트리벌을 수행하여 제1의 검색된 인물 지식 그래프를 출력하는 동작; 상기 거대 언어 모델에서, 각각의 제1의 분해된 요약에 대하여, 대응되는 제1의 검색된 장면 및 대응되는 제1의 검색된 인물 지식 그래프에 의해 뒷받침되는지 여부를 판단하는 동작; 대응되는 제1의 검색된 장면 및 대응되는 제1의 검색된 인물 지식 그래프에 의해 뒷받침되지 않는 제1의 분해된 요약을 수정하거나 삭제하는 동작; 및 상기 수정 또는 상기 삭제가 수행된 후의 각각의 제1의 분해된 요약들에 기초하여 제2의 요약 조각을 생성하는 동작;을 컴퓨터에 실행시키는, 기록매체에 저장된 프로그램.

Description

검색 기반 사실성 점수를 활용한 긴 문맥 질문-응답을 위한 반복적 자기 개선 방법, 장치, 및 프로그램{METHOD, DEVICE AND PROGRAM OF ITERATIVE SELF-REFINEMENT FOR LONG CONTEXT QUESTION-ANSWERING USING RETRIEVAL BASED FACTUALITY SCORES} 본 발명은 검색 기반 사실성 점수를 활용한 긴 문맥 질문-응답을 위한 반복적 자기 개선 방법, 장치, 및 프로그램에 관한 것이다. 또한, 본 발명은 거대 언어 모델을 이용하여 텍스트 콘텐츠로부터 요약을 생성하는 방법, 장치, 및 프로그램에 관한 것이다. 또한, 본 발명은 검색 기반 사실성 점수를 활용한 긴 문맥 질문-응답 및 요약 생성을 위한 반복적 자기 개선 방법, 장치, 및 프로그램에 관한 것이다. 대규모(거대) 언어 모델(Large Language Model, LLM)은 주어진 프롬프트에 대해 인간과 유사한 응답을 생성하기 위해 방대한 양의 텍스트 데이터로 훈련된 인공지능 모델이다. LLM은 기존의 머신러닝 모델과는 달리, 인간의 언어를 이해하고, 사용자로부터 제공받은 지시사항에 따라 인간과 유사하게 작업을 수행하는 능력을 갖추고 있다. 이는 기계학습 알고리즘을 통해 구현되며, 텍스트 형태의 입력을 통해 사용자의 의도를 파악하고 적절한 반응을 생성한다. LLM에 텍스트를 제공하는 것을 프롬프트(Prompt)라고 한다. 프롬프트는 사용자의 지시사항, 질문, 요청 등이 될 수 있으며, 모델이 이를 해석하고 처리해 원하는 출력을 얻게 된다. 관계 추출(Relation Extraction)은 텍스트에서 인식된 개체들 간의 관계를 식별하고 추출하는 기술이다. 본 발명의 다양한 실시예에서 관계 추출 기술은 특정 개체들 사이의 상호작용이나 연결 고리를 파악하는 데 사용된다. 예를 들어, '홍길동은 서울에 산다'라는 문장에서 '홍길동'과 '서울' 사이의 '거주' 관계를 추출해 내는 것이다. 본 발명의 다양한 실시예에서는, 관계 추출 기술을 통해 개체들 간의 복잡한 관계를 구조화된 정보로 변환할 수 있다. 지식 그래프(Knowledge Graph, KG)란 정보나 지식을 노드(점)과 엣지(선)로 연결하여 표현한 그래프이다. 지식 그래프는 LLM의 사전학습단계나 추론 단계에 통합되어 외부 지식을 제공할 수도 있고, LLM을 분석하고 해석을 제공하는 데에도 사용될 수 있다. 반대로 LLM을 사용하여 지식 그래프의 완성도를 더 높이는 것도 가능하다. 도 1은 일 실시예에 따른 요약 생성 장치의 구성을 나타낸다. 도 2는 일 실시예에 따라 드라마 대본을 조각들로 분할하는 과정을 나타낸다. 도 3은 일 실시예에 따라 분할된 조각으로부터 인물 관계 정보를 추출하는 과정을 나타낸다. 도 4은 일 실시예에 따라 초기 인물 관계도를 생성하는 예시를 나타낸다. 도 5는 일 실시예에 따른 대본으로부터 요약을 생성하는 흐름을 도시한다. 도 6은 일 실시예에 따른 대본으로부터 요약을 생성하는 흐름을 도시한다. 도 7은 일 실시예에 따른 거대 언어 모델을 이용하여 텍스트 콘텐츠로부터 요약을 생성하는 흐름을 도시한다. 도 8은 일 실시예에 따른 요약 생성 시스템의 구성도를 나타낸다. 이하, 본 개시의 일부 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성 요소들에 참조부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면 상에 표시되더라도 가능한 한 동일한 부호를 가질 수 있다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 기술 사상의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 수 있다. 본 명세서 상에서 언급된 "포함한다", "갖는다", "이루어진다" 등이 사용되는 경우 "~만"이 사용되지 않는 이상 다른 부분이 추가될 수 있다. 구성 요소를 단수로 표현한 경우에 특별한 명시적인 기재 사항이 없는 한 복수를 포함하는 경우를 포함할 수 있다. 또한, 본 개시의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질, 차례, 순서 또는 개수 등이 한정되지 않는다. 구성 요소들의 위치 관계에 대한 설명에 있어서, 둘 이상의 구성 요소가 "연결", "결합" 또는 "접속" 등이 된다고 기재된 경우, 둘 이상의 구성 요소가 직접적으로 "연결", "결합" 또는 "접속" 될 수 있지만, 둘 이상의 구성 요소와 다른 구성 요소가 더 "개재"되어 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다. 여기서, 다른 구성 요소는 서로 "연결", "결합" 또는 "접속" 되는 둘 이상의 구성 요소 중 하나 이상에 포함될 수도 있다. 구성 요소들이나, 동작 방법이나 제작 방법 등과 관련한 시간적 흐름 관계에 대한 설명에 있어서, 예를 들어, "~후에", "~에 이어서", "~다음에", "~전에" 등으로 시간적 선후 관계 또는 흐름적 선후 관계가 설명되는 경우, "바로" 또는 "직접"이 사용되지 않는 이상 연속적이지 않은 경우도 포함할 수 있다. 한편, 구성 요소에 대한 수치 또는 그 대응 정보가 언급된 경우, 별도의 명시적 기재가 없더라도, 수치 또는 그 대응 정보는 각종 요인에 의해 발생할 수 있는 오차 범위를 포함하는 것으로 해석될 수 있다. 본 발명의 다양한 실시예에서, 대본은 드라마의 대본인 것으로 예시되어 있으나, 대본의 용도가 드라마에 한정되는 것은 아니며, 영화 또는 연극 등에 이용되는 대본에도 본 발명의 다양한 실시예가 적용될 수 있다. 본 발명의 다양한 실시예에서, LLM의 예시로 특정 LLM(예를 들어, GPT-4)가 사용되고 있으나, LLM의 범위가 이에 한정되는 것은 아니다. 도 1은 일 실시예에 따른 요약 생성 장치의 구성을 나타낸다. 도 1의 요약 생성 장치는 제어부(110), 표시부(120), 통신부(130), 및 저장부(140)를 포함하고 있다. 제어부(110)는 요약 생성 장치의 전반적인 제어 기능을 수행하고, 다른 부들을 제어할 수 있다. 제어부(110)는 예를 들어 프로세서(CPU 또는 GPU) 또는 엔진일 수 있다. 본 개시의 다양한 실시예에서 제어부(110)는 외부 장치(예를 들어 서버)에 위치할 수도 있다. 제어부(110)는 저장부(140)에 저장된 프로그램 및 데이터를 이용하여 요약 생성 장치의 다양한 동작을 수행할 수 있다. 본 발명의 다양한 실시예에서 제어부(110)는, 리트리버 및 대규모(거대) 언어 모델을 포함할 수도 있고, 리트리버 및 대규모 언어 모델을 호출할 수도 있다. 표시부(120)는 제어부(110)의 제어에 의해, 저장부(140)에 저장된 사용자 인터페이스 및/또는 그래픽 사용자 인터페이스를 이용하여 다양한 콘텐츠를 표시할 수 있다. 여기서, 표시부(120)에 표시되는 콘텐츠는 다양한 텍스트 또는 이미지 데이터(각종 정보 데이터 포함)와 아이콘, 리스트 메뉴, 콤보 박스 등의 데이터를 포함하는 메뉴 화면 등을 포함할 수 있다. 또한, 표시부(120)는 터치 스크린일 수 있다. 표시부(120)는 액정 디스플레이(Liquid Crystal Display: LCD), 박막 트랜지스터 액정 디스플레이(Thin Film Transistor-Liquid Crystal Display: TFT LCD), 유기 발광 다이오드(Organic Light-Emitting Diode: OLED), 플렉시블 디스플레이(Flexible Display), 3차원 디스플레이(3D Display), 전자잉크 디스플레이(e-ink display) 등이 포함될 수 있으며, 표시부(120)에 사용되는 기술이 상기 예시된 것에 한정되는 것은 아니다. 통신부(130)는 유/무선 통신망을 통해 내부의 임의의 구성 요소 또는 외부의 임의의 적어도 하나의 장치와 통신 연결할 수 있다. 여기서, 무선 인터넷 기술로는 무선랜(Wireless LAN: WLAN), DLNA(Digital Living Network Alliance), 와이브로(Wireless Broadband: Wibro), 와이맥스(World Interoperability for Microwave Access: Wimax), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), IEEE 802.16, 롱 텀 에볼루션(Long Term Evolution: LTE), LTE-A(Long Term Evolution-Advanced), 광대역 무선 이동 통신 서비스(Wireless Mobile Broadband Service: WMBS), 5G 이동통신 서비스, 블루투스 (Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association: IrDA), UWB(Ultra Wide band), 지그비(ZigBee), 인접 자장 통신(Near Field Communication: NFC), 초음파 통신(Ultra Sound Communication: USC), 가시광 통신(Visible Light Communication: VLC), 와이 파이(Wi-Fi), 와이 파이 다이렉트(Wi-Fi Direct), LoRa(Long Range) 등이 포함될 수 있으며, 통신부(130)에 사용되는 기술이 상기 예시된 것에 한정되는 것은 아니다. 한편, 유선 통신 기술로는 전력선 통신(Power Line Communication: PLC), USB 통신, 이더넷(Ethernet), 시리얼 통신 (serial communication), 광/동축 케이블 등이 포함될 수 있다. 저장부(140)는 본 개시의 다양한 실시예에 따른 프로그램 및 데이터를 저장할 수 있다. 즉, 저장부(140)는 요약 생성 장치에서 구동되는 다수의 응용 프로그램(application program), 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 응용 프로그램 중 적어도 일부는 무선 통신을 통해 외부 장치로부터 다운로드될