KR-20260060853-A - MULTIMODAL LANGUAGE PROCESSING DEVICE AND METHOD BASED ON VISION-LANGUAGE MODEL

KR20260060853AKR 20260060853 AKR20260060853 AKR 20260060853AKR-20260060853-A

Abstract

본 발명은 시각적-언어 모델 기반의 멀티모달 언어 장치에 관한 것으로, 이미지와 텍스트로 구성된 질문을 텍스트 전용 언어 모델과 비전-언어 모델을 통해 입력받고 질문에 대한 텍스트 응답과 멀티모달 응답을 생성하는 응답 생성부, 멀티모달 응답을 기초로 이미지와 텍스트 간의 상관성을 나타내는 점별 상호 정보(Pointwise Mutual Information, PMI)를 계산하는 PMI 계산부 및 점별 상호 정보를 기초로 중요도 가중치를 생성하고 중요도 가중치를 기초로 텍스트 응답의 토큰 가능성을 조정하여 최종 텍스트 응답을 생성하는 중요도 샘플링부를 포함한다.

Inventors

유영재

Assignees

연세대학교 산학협력단

Dates

Publication Date: 20260506
Application Date: 20241025

Claims (12)

이미지와 텍스트로 구성된 질문을 텍스트 전용 언어 모델과 비전-언어 모델을 통해 입력받고 상기 질문에 대한 텍스트 응답과 멀티모달 응답을 생성하는 응답 생성부; 상기 멀티모달 응답을 기초로 상기 이미지와 상기 텍스트 간의 상관성을 나타내는 점별 상호 정보(Pointwise Mutual Information, PMI)를 계산하는 PMI 계산부; 및 상기 점별 상호 정보를 기초로 중요도 가중치를 생성하고 상기 중요도 가중치를 기초로 상기 텍스트 응답의 토큰 가능성을 조정하여 최종 텍스트 응답을 생성하는 중요도 샘플링부를 포함하는 시각적-언어 모델 기반의 멀티모달 언어 처리 장치.
제1항에 있어서, 상기 응답 생성부는 상기 비전-언어 모델을 통해 상기 이미지의 맥락을 상기 텍스트에 반영하여 상기 멀티모달 응답을 생성하는 것을 특징으로 하는 시각적-언어 모델 기반의 멀티모달 언어 처리 장치.
제1항에 있어서, 상기 PMI 계산부는 상기 이미지의 상황에서 상기 텍스트의 토큰 중요성을 결정하기 위해 상기 이미지와 상기 텍스트 간의 상호 의존도를 상기 점별 상호 정보로 산출하는 것을 특징으로 하는 시각적-언어 모델 기반의 멀티모달 언어 처리 장치.
제3항에 있어서, 상기 PMI 계산부는 상기 이미지와 상기 텍스트의 토큰이 주어졌을 때 특정 텍스트가 생성될 확률과 상기 텍스트만 주어졌을 때 상기 텍스트의 토큰 이전에 있는 텍스트 맥락에서 상기 텍스트의 토큰이 발생할 확률을 기초로 상기 점별 상호 정보로 산출하는 것을 특징으로 하는 시각적-언어 모델 기반의 멀티모달 언어 처리 장치.
제1항에 있어서, 상기 중요도 샘플링부는 상기 텍스트 응답의 토큰 가능성에 상기 중요도 가중치를 곱하여 상기 텍스트 응답에서 중요 토큰을 선택하는 것을 특징으로 하는 시각적-언어 모델 기반의 멀티모달 언어 처리 장치.
제5항에 있어서, 상기 중요도 샘플링부는 상기 중요 토큰을 선택하여 상기 이미지의 시각적 맥락을 상기 최종 텍스트 응답에 반영하는 것을 특징으로 하는 시각적-언어 모델 기반의 멀티모달 언어 처리 장치.
시각적-언어 모델 기반의 멀티모달 언어 처리 장치에서 수행되는 시각적-언어 모델 기반의 멀티모달 언어 처리 방법에 있어서, 이미지와 텍스트로 구성된 질문을 텍스트 전용 언어 모델과 비전-언어 모델을 통해 입력받고 상기 질문에 대한 텍스트 응답과 멀티모달 응답을 생성하는 응답 생성단계; 상기 멀티모달 응답을 기초로 상기 이미지와 상기 텍스트 간의 상관성을 나타내는 점별 상호 정보(Pointwise Mutual Information, PMI)를 계산하는 PMI 계산단계; 및 상기 점별 상호 정보를 기초로 중요도 가중치를 생성하고 상기 중요도 가중치를 기초로 상기 텍스트 응답의 토큰 가능성을 조정하여 최종 텍스트 응답을 생성하는 중요도 샘플링단계를 포함하는 시각적-언어 모델 기반의 멀티모달 언어 처리 방법.
제7항에 있어서, 상기 응답 생성단계는 상기 비전-언어 모델을 통해 상기 이미지의 맥락을 상기 텍스트에 반영하여 상기 멀티모달 응답을 생성하는 단계를 포함하는 것을 특징으로 하는 시각적-언어 모델 기반의 멀티모달 언어 처리 방법.
제7항에 있어서, 상기 PMI 계산단계는 상기 이미지의 상황에서 상기 텍스트의 토큰 중요성을 결정하기 위해 상기 이미지와 상기 텍스트 간의 상호 의존도를 상기 점별 상호 정보로 산출하는 단계를 포함하는 것을 특징으로 하는 시각적-언어 모델 기반의 멀티모달 언어 처리 방법.
제9항에 있어서, 상기 PMI 계산단계는 상기 이미지와 상기 텍스트의 토큰이 주어졌을 때 특정 텍스트가 생성될 확률과 상기 텍스트만 주어졌을 때 상기 텍스트의 토큰 이전에 있는 텍스트 맥락에서 상기 텍스트의 토큰이 발생할 확률을 기초로 상기 점별 상호 정보로 산출하는 단계를 더 포함하는 것을 특징으로 하는 시각적-언어 모델 기반의 멀티모달 언어 처리 방법.
제7항에 있어서, 상기 중요도 샘플링단계는 상기 텍스트 응답의 토큰 가능성에 상기 중요도 가중치를 곱하여 상기 텍스트 응답에서 중요 토큰을 선택하는 단계를 포함하는 것을 특징으로 하는 시각적-언어 모델 기반의 멀티모달 언어 처리 방법.
제11항에 있어서, 상기 중요도 샘플링단계는 상기 중요 토큰을 선택하여 상기 이미지의 시각적 맥락을 상기 최종 텍스트 응답에 반영하는 단계를 더 포함하는 것을 특징으로 하는 시각적-언어 모델 기반의 멀티모달 언어 처리 방법.

Description

시각적-언어 모델 기반의 멀티모달 언어 처리 장치 및 방법{MULTIMODAL LANGUAGE PROCESSING DEVICE AND METHOD BASED ON VISION-LANGUAGE MODEL} 본 발명은 시각적-언어 모델 기반의 멀티모달 언어 처리 기술에 관한 것으로, 보다 상세하게는 이미지와 텍스트로 구성된 질문을 텍스트 전용 언어 모델과 비전-언어 모델을 통해 입력받고 질문에 대한 텍스트 응답과 멀티모달 응답을 생성할 수 있는 시각적-언어 모델 기반의 멀티모달 언어 처리 장치 및 방법에 관한 것이다. 시각적-언어 모델(Vision-Language Model, VLM) 기술은 이미지(시각적 정보)와 텍스트(언어적 정보)를 동시에 처리할 수 있는 인공지능 모델로 주어진 이미지를 분석하고, 그 이미지와 관련된 텍스트 데이터를 처리하여 두 정보를 함께 활용할 수 있도록 한다. 시각적-언어 모델(Vision-Language Model, VLM) 기술은 이미지에 대한 설명을 자동으로 생성하는 이미지 캡셔닝, 이미지를 보고 그와 관련된 질문에 답변하는 VQA(Visual Question Answering), 텍스트에 맞는 이미지를 찾거나, 이미지에 맞는 설명을 생성하는 이미지-텍스트 매칭에 응용할 수 있다. 한국공개특허 제10-2022-0176260호 (2022.12.15)는 학습장치는 학습데이터 중 이미지 및 텍스트 쌍을 선택하고, 상기 이미지를 이미지 인코더에 입력하고, 상기 텍스트를 텍스트 인코더에 입력하는 단계, 상기 학습장치는 상기 이미지 인코더와 상기 텍스트 인코더에 대한 ITC(image-text contrastive learning)를 수행하는 단계, 상기 학습장치는 상기 이미지 인코더가 출력하는 이미지 임베딩을 입력받는 제1 크로스 모달 인코더에 대한 MIM(Masked Image Modeling)을 수행하는 단계, 상기 학습장치는 상기 텍스트 인코더가 출력하는 텍스트 임베딩을 입력받는 제2 크로스 모달 인코더에 대한 MLM(Masked Language Modeling)을 수행하는 단계 및 상기 학습장치는 상기 제1 크로스 모달 인코더가 출력하는 이미지 임베딩과 상기 제2 크로스 모달 인코더가 출력하는 텍스트 임베딩에 대한 ITM (Image-Text Matching) 학습을 수행하는 단계를 포함한다. 도 1은 본 발명의 일 실시예에 따른 시각적-언어 모델 기반의 멀티모달 언어 처리 장치를 설명하는 도면이다. 도 2는 도 1의 시각적-언어 모델 기반의 멀티모달 언어 처리 장치의 기능적 구성을 설명하는 도면이다. 도 3은 도 1의 시각적-언어 모델 기반의 멀티모달 언어 처리 장치의 시스템 구성을 설명하는 도면이다. 도 4는 본 발명에 따른 시각적-언어 모델 기반의 멀티모달 언어 처리 방법을 설명하는 순서도이다. 도 5는 WHOOPS(Bitton Guetta et al., 2023) 실험에서의 질적 샘플이다. 도 6은 OK-VQA 데이터셋(Marino et al., 2019)에서의 생성 결과이다. 본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다. 한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다. "제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다. 본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다. * *도 1은 본 발명의 일 실시예에 따른 시각적-언어 모델 기반의 멀티모달 언어 처리 장치를 설명하는 도면이다. 도 1을 참조하면, 시각적-언어 모델 기반의 멀티모달 언어 처리 장치(100)는 응답 생성부(110), PMI(Pointwise Mutual Information) 계산부(120) 및 중요도 샘플링부(130)를 포함할 수 있다. 응답 생성부(110)는 이미지와 텍스트로 구성된 질문을 텍스트 전용 언어 모델과 비전-언어 모델을 통해 입력받아 질문에 대한 텍스트 응답과 멀티모달 응답을 생성할 수 있다. 일 실시예에서, 응답 생성부(110)는 비전-언어 모델을 통해 이미지의 맥락을 텍스트에 반영하여 멀티모달 응답을 생성할 수 있다. 보다 구체적으로, 응답 생성부(110)의 동작은 다음과 같다. 응답 생성부(110)는 입력 처리 과정에서, 이미지 입력을 위해 사용자가 제공한 이미지 데이터를 비전-언어 모델(VLM)에 입력하고, 텍스트 입력을 위해 이미지와 함께 제공된 질문 텍스트를 텍스트 전용 언어 모델과 비전-언어 모델 모두에 입력한다. 텍스트 전용 언어 모델은 텍스트 응답 생성을 위해, 주어진 텍스트 질문을 바탕으로 언어적 맥락을 이해하고, 그 질문에 대한 텍스트 기반 응답을 생성한다. 예를 들어, 텍스트 전용 언어 모델은 시각적 정보를 사용하지 않으며, 텍스트 자체의 의미와 맥락을 바탕으로 답변을 도출할 수 있다. 보다 구체적으로, 텍스트 전용 언어 모델은 "이 차의 색깔은 무엇인가요?"라는 질문에 대해 시각적 정보 없이 텍스트 맥락만으로 답을 시도할 수 있다. 비전-언어 모델은 멀티모달 응답 생성을 위해, 이미지와 텍스트 질문을 함께 처리하여 시각적 정보와 텍스트 간의 연관성을 분석하고, 이미지 속에 있는 객체나 장면의 정보를 기반으로 질문에 대한 보다 구체적이고 시각적으로 관련된 응답을 생성할 수 있다. 예를 들어, 비전-언어 모델은 "이 차의 색깔은 무엇인가요?"라는 질문에 대해 이미지에서 확인된 "녹색"이라는 답변을 생성할 수 있다. 응답 생성부(110)는 응답 통합 및 선택 과정에서, 텍스트 전용 모델이 생성한 텍스트 응답과 비전-언어 모델이 생성한 멀티모달 응답을 비교하거나 통합하여 최종 응답을 결정할 수 있다. 이 과정에서, 응답 생성부(110)는 시각적 정보가 더 중요한 경우 멀티모달 응답을 선택할 수 있으며, 시각적 정보가 필요 없는 경우 텍스트 전용 모델의 응답을 선택할 수 있다. 응답 생성부(110)는 최종 응답 출력 과정에서, 최종적으로 선택된 응답(텍스트 응답 또는 멀티모달 응답)을 사용자에게 출력할 수 있는데 질문의 성격과 주어진 시각적 정보의 중요도에 따라 달라질 수 있다. 결론적으로 응답 생성부(110)는 텍스트 전용 언어 모델과 비전-언어 모델을 모두 활용하여 사용자의 질문에 대해 텍스트 및 멀티모달 응답을 생성하며, 이를 통합하여 최종 응답을 결정하는 중요한 역할을 통해 질문의 성격에 맞는 보다 정확하고 관련성 있는 답변을 제공할 수 있다. PMI 계산부(120)는 이미지의 상황에서 텍스트의 토큰 중요성을 결정하기 위해 이미지와 텍스트 간의 상호 의존도를 점별 상호 정보로 산출할 수 있다. 일 실시예에서, PMI 계산부(120)는 이미지와 텍스트의 토큰이 주어졌을 때 특정 텍스트가 생성될 확률과 텍스트만 주어졌을 때 텍스트의 토큰 이전에 있는 텍스트 맥락에서 텍스트의 토큰이 발생할 확률을 기초로 점별 상호 정보로 산출할 수 있다. 보다 구체적으로, PMI 계산부(120)의 동작은 다음과 같다. 시각적-언어 모델 기반의 멀티모달 언어 처리 장치(100)는 사용