Search

KR-20260061950-A - APPARATUS AND METHOD FOR QUESTION-AND-ANSWER-BASED TABLE INSIGHT INFERENCE

KR20260061950AKR 20260061950 AKR20260061950 AKR 20260061950AKR-20260061950-A

Abstract

본 발명은 질의응답 기반 표 인사이트 추론 장치 및 방법에 관한 것으로, 상기 장치는 기준 요약문과 구조화된 데이터를 나타내는 표에서 전체적인 관점(이하, 거친 지식)에서부터 세부적인 지식(이하, 세밀 지식)까지 점차적으로 구체화하여 지식을 추출하는 지식 추출부; 상기 추출된 지식에 대한 사실 확인(Factuality Verification) 기반의 정제를 수행하고 중요도 평가(Importance Scoring) 기반의 선택을 통해 특정 기준 이상의 중요한 지식을 선별하는 지식 품질 향상부; 상기 기준 요약문과 상기 표의 데이터를 분석하여 상기 중요한 지식을 찾기 위한 질문을 생성하는 질문 생성 훈련과 상기 질문에 대해 특정 기준 이상의 신뢰도를 가지는 답변을 도출하는 증거통찰 생성 훈련을 수행하는 추론기 학습부; 및 상기 중요한 지식에 대한 질문 및 답변을 통찰 요약문에 반영하는 요약문 생성부를 포함한다.

Inventors

  • 이동하
  • 서광욱

Assignees

  • 연세대학교 산학협력단

Dates

Publication Date
20260506
Application Date
20241028

Claims (9)

  1. 기준 요약문과 구조화된 데이터를 나타내는 표에서 전체적인 관점(이하, 거친 지식)에서부터 세부적인 지식(이하, 세밀 지식)까지 점차적으로 구체화하여 지식을 추출하는 지식 추출부; 상기 추출된 지식에 대한 사실 확인(Factuality Verification) 기반의 정제를 수행하고 중요도 평가(Importance Scoring) 기반의 선택을 통해 특정 기준 이상의 중요한 지식을 선별하는 지식 품질 향상부; 상기 기준 요약문과 상기 표의 데이터를 분석하여 상기 중요한 지식을 찾기 위한 질문을 생성하는 질문 생성 훈련과 상기 질문에 대해 특정 기준 이상의 신뢰도를 가지는 답변을 도출하는 증거통찰 생성 훈련을 수행하는 추론기 학습부; 및 상기 중요한 지식에 대한 질문 및 답변을 통찰 요약문에 반영하는 요약문 생성부를 포함하는 질의응답 기반 표 인사이트 추론 장치.
  2. 제1항에 있어서, 상기 지식 추출부는 상기 거친 지식 기반 상기 레퍼런스 요약문의 분석을 통한 상기 표의 데이터에 대한 관점 식별 과정, 상기 표의 데이터에서 답변을 얻기 위한 관점별 질문 생성 과정 및 상기 관점별 질문에 대해 상기 세밀 지식 기반의 분석을 통한 상기 표의 특정 셀에 기반한 증거를 도출하는 증거 명시 과정을 수행하는 것을 특징으로 하는 질의응답 기반 표 인사이트 추론 장치.
  3. 제2항에 있어서, 상기 지식 추출부는 상기 관점, 상기 질문 및 상기 증거를 수집하여 상기 지식을 생성하는 것을 특징으로 하는 질의응답 기반 표 인사이트 추론 장치.
  4. 제1항에 있어서, 상기 지식 품질 향상부는 상기 추출된 지식이 상기 표의 데이터와 일치하는지 여부를 검증하여 상기 추출된 지식에서 불확실 또는 오류 정보를 가지는 지식을 제거하여 정제된 지식을 결정하는 것을 특징으로 하는 질의응답 기반 표 인사이트 추론 장치.
  5. 제4항에 있어서, 상기 지식 품질 향상부는 상기 정제된 지식을 기초로 요약문을 생성하고 상기 기준 요약문과 의미론적 유사도를 측정하고 상기 중요도 평가를 수행하여 상위 K (상기 K는 자연수) 개의 중요한 지식을 선별하는 것을 특징으로 하는 질의응답 기반 표 인사이트 추론 장치.
  6. 제1항에 있어서, 상기 추론기 학습부는 상기 질문 생성 훈련 과정을 통해 상기 표의 데이터에서 필요한 정보를 찾기 위한 관점 중심 질문(Aspect-focused Question)을 생성하는 것을 특징으로 하는 질의응답 기반 표 인사이트 추론 장치.
  7. 제6항에 있어서, 상기 추론기 학습부는 상기 증거통찰 생성 훈련을 통해 상기 표의 데이터를 분석하고 증거를 바탕으로 신뢰 가능한 통찰을 생성하기 위한 증거 중심 통찰(Evidence-focused Insight)을 생성하는 것을 특징으로 하는 질의응답 기반 표 인사이트 추론 장치.
  8. 제1항에 있어서, 상기 요약문 생성부는 상기 중요한 지식에 대한 질문 및 답변을 기초로 상기 표의 데이터 간의 암묵적인 관계나 패턴을 도출하고 향후의 추세를 예측하여 상기 통찰 요약문에 반영하는 것을 특징으로 하는 질의응답 기반 표 인사이트 추론 장치.
  9. 질의응답 기반 표 인사이트 추론 장치에서 수행되는 질의응답 기반 표 인사이트 추론 방법에 있어서, 기준 요약문과 구조화된 데이터를 나타내는 표에서 전체적인 관점(이하, 거친 지식)에서부터 세부적인 지식(이하, 세밀 지식)까지 점차적으로 구체화하여 지식을 추출하는 지식 추출단계; 상기 추출된 지식에 대한 사실 확인(Factuality Verification) 기반의 정제를 수행하고 중요도 평가(Importance Scoring) 기반의 선택을 통해 특정 기준 이상의 중요한 지식을 선별하는 지식 품질 향상단계; 상기 기준 요약문과 상기 표의 데이터를 분석하여 상기 중요한 지식을 찾기 위한 질문을 생성하는 질문 생성 훈련과 상기 질문에 대해 특정 기준 이상의 신뢰도를 가지는 답변을 도출하는 증거통찰 생성 훈련을 수행하는 추론기 학습단계; 및 상기 중요한 지식에 대한 질문 및 답변을 통찰 요약문에 반영하는 요약문 생성단계를 포함하는 질의응답 기반 표 인사이트 추론 방법.

Description

질의응답 기반 표 인사이트 추론 장치 및 방법{APPARATUS AND METHOD FOR QUESTION-AND-ANSWER-BASED TABLE INSIGHT INFERENCE} 본 발명은 질의응답 기반 추론을 제공하는 기술에 관한 것으로, 보다 상세하게는 표에서 지식을 추출하고 중요 지식을 선별하여 중요 지식에 대한 질문 및 답변을 통찰 요약문에 반영할 수 있는 질의응답 기반 표 인사이트 추론 장치 및 방법에 관한 것이다. 표 데이터는 데이터 분석을 용이하게 하는 핵심 지식 저장소로 부상하고 있으며, 사용자에게 간결하고 체계적인 정보 표현을 제공하고 있다. 이중 복잡한 표 데이터를 이해하는 것은 시간이 많이 소요될 수 있으므로, 제공된 표 데이터에 대해 정확하게 요약할 수 있는 텍스트 생성 시스템이 요구되고 있다. 표 데이터 요약 작업을 해결하기 위한 방법에는 신경망 모델을 엔드투엔드 요약 생성기로 사용하는 방법이 있다. 그러나, 이 모델은 엔드투엔드 접근 방식에서 모든 필요한 정보를 식별하기 어려운 문제가 있다. 또한, 표 데이터에 대한 질의 및 질의응답 기반 답변을 제공하는 과제는 답변을 제공하기 위한 명시적 지침(즉, 입력 쿼리)이 주어지지만, 표 데이터를 요약하는 과제는 표 데이터에서 어떤 정보를 검색해야 하는지에 대한 직접적인 제어가 부족하다는 문제점이 있다. 따라서, 표 데이터로부터 요약에 필요한 증거를 선택하는 방법은 여전히 어려운 문제로 여겨지고 있다. 도 1은 본 발명의 일 실시예에 따른 표 인사이트 추론 장치를 설명하는 도면이다. 도 2는 도 1의 표 인사이트 추론 장치의 기능적 구성을 설명하는 도면이다. 도 3은 도 1의 표 인사이트 추론 장치의 시스템 구성을 설명하는 도면이다. 도 4는 본 발명에 따른 표 인사이트 추론 방법을 설명하는 순서도이다. 도 5는 도 1의 표 인사이트 추론 장치의 일 실시예에 따른 표의 예시를 설명하는 도면이다. 도 6은 도 1의 표 인사이트 추론 장치의 일 실시예에 따른 중요도 평가 알고리즘을 설명하는 도면이다. 도 7은 도 1의 표 인사이트 추론 장치의 일 실시예에 따른 지식 추출 예시를 설명하는 도면이다. 도 8은 도 1의 표 인사이트 추론 장치의 지식 추출 효과를 측정하기 위한 실험 과정을 설명하는 도면이다. 도 9는 도 8의 실험 결과에 따른 요약 품질의 비교 결과를 나타내는 도면이다. 도 10은 도 8의 실험 결과에 따른 도메인 외부에서의 요약 결과를 나타내는 도면이다. 도 11은 도 1의 표 인사이트 추론 장치로부터 생성된 지식 품질에 대한 인적 평가를 나타내는 도면이다. 도 12는 지식 정제에 따른 지식 품질 향상 효과를 나타내는 도면이다. 본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다. 한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다. "제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다. 본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다. 도 1은 본 발명의 일 실시예에 따른 표 인사이트 추론 장치를 설명하는 도면이다. 도 1을 참조하면, 표 인사이트 추론 장치(100)는 지식 추출부(110), 지식 품질 향상부(120), 추론기 학습부(130) 및 요약문 생성부(170)를 포함할 수 있다. 표 인사이트 추론 장치(100)는 표 데이터의 요약으로부터 추론을 수행할 수 있는 표 추론기를 구축하는 표 추론 프레임워크 Question-Then-Pinpoint를 제안할 수 있다. 여기에서, 표 추론기는 구조화된 표 데이터로부터 유의미한 정보를 추출하고 정보로부터 질문을 생성하거나 답변을 도출하는 시스템에 해당될 수 있다. 표 인사이트 추론 장치(100)는 지식 추출부(110)에서 대규모 언어모델(LLM, Large Language Model)을 기반으로 표로부터 다양한 측면의 지식을 수집할 수 있다. 여기에서, 표 인사이트 추론 장치(100)는 대규모 언어모델을 기반으로 표로부터 레퍼런스 요약문(111)을 추출하여 분석하고 표 데이터(112)로부터 표로부터 심층적인 지식을 생성하기 위한 세부적 추론 경로를 제공하는 체크포인트를 생성할 수 있다. 구체적으로, 표 인사이트 추론 장치(100)는 표를 수신하고 대규모 언어 모델을 기반으로 표 데이터(112)에 대한 관점 식별 과정을 수행할 수 있다. 구체적으로, 표 인사이트 추론 장치(100)는 표와 표에 대한 요약을 포함하는 레퍼런스 요약문(111)을 수신하고 대규모 언어 모델을 기반으로 표의 다양한 측면에서 하나의 추상적인 주제를 나타내는 추상적인 항목을 추출할 수 있다. 여기에서, 추상적인 항목은 다음과 같은 수학식으로 표현될 수 있다. [수학식 1] 여기에서, 은 표 내의 다양한 측면에서의 하나의 추상적인 주제에 해당될 수 있다. 그 다음, 표 인사이트 추론 장치(100)는 수학식 1의 추상적인 항목에 기반하여 각 항목 에 대한 세부 질문 세트를 생성할 수 있다. 여기에서, 세부 질문 세트는 다음과 같은 수학식으로 표현될 수 있다. [수학식 2] 여기에서, 은 표에서 포착해야 할 정보를 질의하기 위한 세부 질문들에 해당될 수 있다. 표 인사이트 추론 장치(100)는 표와 표에 대한 요약 내용을 기반으로 세부 질문을 생성하고 각 질문에 대응하는 통찰을 답변으로 생성할 수 있다. 여기에서, 표 인사이트 추론 장치(100)는 수학식 3을 통해 대규모 언어 모델을 기반으로 표의 다양한 측면에서 하나의 추상적인 주제를 나타내는 추상적인 항목을 추출할 수 있다. [수학식 3] 여기에서, 표 인사이트 추론 장치(100)는 대규모 언어 모델을 기반으로 주어진 질문에 답변하도록 하여 질문에 대응하는 통찰을 생성할 수 있다. 여기에서, 통찰은 다음과 같은 수학식으로 표현될 수 있다. [수학식 4] 여기에서, 통찰은 질문에 답변하기 위해 표에서 명시적인 증거를 제공하는 관련 셀 정보를 기반으로 획득될 수 있다. 관련 셀 정보는 다음과 같은 수학식으로 표현될 수 있다. [수학식 5] 여기에서, 는 질문에 대한 답변을 제공하는 명시적인 증거에 해당될 수 있다. 표 인사이트 추론 장치(100)는 다음과 같은 수학식을 기반으로 표로부터 관련 없는 정보를 배제하고 질문에 대한 통찰을 식별할 수 있다. [수학식 6] 표 인사이트 추론 장치(100)는 지식 품질 향상부(120)에서 대규모 언어 모델에서 생성된 지식으로부터 저품질 지식을 배제하고 고품질 지식을 선택적으로 증류하기 위해 사실 검증 수행 및 중요도 점수 부여를 통한 지식 품질 향상 프로세스를 수행할 수 있다. 예를 들어, 표 인사이트 추론 장치(100)는 통찰을 검증하기 위해 Tab-FACT 데이터 세트에서 훈련된 TAPEX를 비평 모델로 활용할 수 있다. 여기에서, 표 인사이트 추론 장치(100)는 비평 모델을 기반으로 표와 통찰력 세트에 대한 이진 분류를 수행하여 각 표 및 통찰력 세트에 대한 일관성을 평가하고 통찰에 대한 필터링을 수행할 수 있다. 또한,