KR-102962048-B1 - METHOD AND APPARATUS FOR GENERATING VARIOUS VISUAL COMMONSENSE INFERENCE DATA FOR IMAGES

KR102962048B1KR 102962048 B1KR102962048 B1KR 102962048B1KR-102962048-B1

Abstract

시각 상식 추론 데이터를 생성하는 방법 및 장치가 개시된다. 본 개시의 일 실시예에 따른, 장치에 의해 수행되는, 시각 상식 추론 데이터를 생성하는 방법은, 시각 상식 그래프에 포함된 복수의 추론 문장 각각의 출현 빈도 및 관련성 점수를 획득하는 단계; 상기 복수의 추론 문장 각각의 출현 빈도 및 관련성 점수에 기초하여, 상기 복수의 추론 문장 중 제1 추론 문장에 연결된 제1 이미지를 필터링하는 단계; 상기 제1 이미지를 인공지능 모델에 입력하여 획득된 상기 제1 이미지에 대한 추론 문장에 기초하여, 상기 제1 이미지 내의 주요 객체 및 적어도 하나의 보조 객체를 식별하는 단계; 상기 주요 객체 및 상기 적어도 하나의 보조 객체 각각의 이미지에 기초하여 상기 인공지능 모델에 대해 대조 학습(contrastive learning)을 수행하는 단계; 및 제2 이미지를 상기 학습된 인공지능 모델에 입력하여 상기 제2 이미지의 추론 문장을 획득하는 단계를 포함할 수 있다.

Inventors

이상근
박현태

Assignees

고려대학교 산학협력단

Dates

Publication Date: 20260506
Application Date: 20230822

Claims (14)

장치에 의해 수행되는, 시각 상식 추론 데이터를 생성하는 방법에 있어서, 상기 방법은: 시각 상식 그래프에 포함된 복수의 추론 문장 각각의 출현 빈도 및 관련성 점수를 획득하는 단계; 상기 복수의 추론 문장 각각의 출현 빈도 및 관련성 점수에 기초하여, 상기 복수의 추론 문장 중 제1 추론 문장에 연결된 제1 이미지를 필터링하는 단계; 상기 제1 이미지를 인공지능 모델에 입력하여 획득된 상기 제1 이미지에 대한 추론 문장에 기초하여, 상기 제1 이미지 내의 주요 객체 및 적어도 하나의 보조 객체를 식별하는 단계; 상기 주요 객체 및 상기 적어도 하나의 보조 객체 각각의 이미지에 기초하여 상기 인공지능 모델에 대해 대조 학습(contrastive learning)을 수행하는 단계; 및 제2 이미지를 상기 학습된 인공지능 모델에 입력하여 상기 제2 이미지의 추론 문장을 획득하는 단계를 포함하되, 상기 제1 추론 문장은, 상기 복수의 추론 문장 중 출현 빈도가 제1 임계값을 초과하는 추론 문장이고, 상기 제1 추론 문장의 출현 빈도는, 상기 제1 추론 문장에 연결된 복수의 이미지의 개수에 기초하고, 상기 제1 추론 문장의 관련성 점수는, 상기 제1 추론 문장에 연결된 복수의 이미지 간의 코사인 유사도의 평균 값인, 방법.
삭제
삭제
제1항에 있어서, i) 상기 제1 추론 문장에 연결된 복수의 이미지 중 상기 제1 이미지를 제외한 나머지 이미지 및 ii) 상기 제1 이미지 간의 코사인 유사도 값이 상기 제1 추론 문장에 연결된 복수의 이미지 간의 코사인 유사도의 평균 값보다 낮은, 방법.
제1항에 있어서, 상기 제1 이미지에 대한 추론 문장에 기초하여, 상기 제1 이미지에 포함된 적어도 하나의 객체 별 집중 점수가 획득되고, 상기 적어도 하나의 객체 별 집중 점수에 기초하여 상기 적어도 하나의 객체를 상기 주요 객체 및 상기 적어도 하나의 보조 객체로 분류되는, 방법.
제5항에 있어서, 상기 인공지능 모델은, 상기 대조 학습을 통해, 상기 주요 객체 및 상기 적어도 하나의 보조 객체 간의 관계에 기초하여 상기 제1 이미지에 대한 추론 문장을 출력하도록 학습되는, 방법.
제1항에 있어서, 상기 제2 이미지의 추론 문장에 기초하여 상기 시각 상식 그래프가 업데이트되는, 방법.
시각 상식 추론 데이터를 생성하는 장치에 있어서, 상기 장치는: 메모리; 및 프로세서를 포함하고, 상기 프로세서는, 시각 상식 그래프에 포함된 복수의 추론 문장 각각의 출현 빈도 및 관련성 점수를 획득하고, 상기 복수의 추론 문장 각각의 출현 빈도 및 관련성 점수에 기초하여, 상기 복수의 추론 문장 중 제1 추론 문장에 연결된 제1 이미지를 필터링하는 추론 필터링 모듈; 상기 제1 이미지를 인공지능 모델에 입력하여 획득된 상기 제1 이미지에 대한 추론 문장에 기초하여, 상기 제1 이미지 내의 주요 객체 및 적어도 하나의 보조 객체를 식별하고, 상기 주요 객체 및 상기 적어도 하나의 보조 객체 각각의 이미지에 기초하여 상기 인공지능 모델에 대해 대조 학습(contrastive learning)을 수행하는 반사실적 대조 학습 모듈; 및 제2 이미지를 상기 학습된 인공지능 모델에 입력하여 상기 제2 이미지의 추론 문장을 획득하는 반사실적 추론 생성 모듈을 포함하되, 상기 제1 추론 문장은, 상기 복수의 추론 문장 중 출현 빈도가 제1 임계값을 초과하는 추론 문장이고, 상기 제1 추론 문장의 출현 빈도는, 상기 제1 추론 문장에 연결된 복수의 이미지의 개수에 기초하고, 상기 제1 추론 문장의 관련성 점수는, 상기 제1 추론 문장에 연결된 복수의 이미지 간의 코사인 유사도의 평균 값인, 장치.
삭제
삭제
제8항에 있어서, i) 상기 제1 추론 문장에 연결된 복수의 이미지 중 상기 제1 이미지를 제외한 나머지 이미지 및 ii) 상기 제1 이미지 간의 코사인 유사도 값이 상기 제1 추론 문장에 연결된 복수의 이미지 간의 코사인 유사도의 평균 값보다 낮은, 장치.
제8항에 있어서, 상기 제1 이미지에 대한 추론 문장에 기초하여, 상기 제1 이미지에 포함된 적어도 하나의 객체 별 집중 점수가 획득되고, 상기 적어도 하나의 객체 별 집중 점수에 기초하여 상기 적어도 하나의 객체를 상기 주요 객체 및 상기 적어도 하나의 보조 객체로 분류되는, 장치.
제12항에 있어서, 상기 인공지능 모델은, 상기 대조 학습을 통해, 상기 주요 객체 및 상기 적어도 하나의 보조 객체 간의 관계에 기초하여 상기 제1 이미지에 대한 추론 문장을 출력하도록 학습되는, 장치.
제8항에 있어서, 상기 제2 이미지의 추론 문장에 기초하여 상기 시각 상식 그래프가 업데이트되는, 장치.

Description

이미지에 대한 다양한 시각 상식 추론 데이터를 생성하는 방법 및 장치{METHOD AND APPARATUS FOR GENERATING VARIOUS VISUAL COMMONSENSE INFERENCE DATA FOR IMAGES} 본 개시는 시각-언어 인공지능 모델을 활용하여 이미지에 해당하는 상식 추론 문장을 생성하는 방법 및 장치에 관한 것이다. 보다 상세하게는 본 개시는 이미지 및 해당 이미지를 설명하는 문장을 분석하여 해당 이미지가 내포하고 있는 다양한 이야기에 관한 상식 수준의 다양한 문장을 생성하는 방법 및 장치에 관한 것이다. 알파고의 등장 이후, 사람 수준에 근접한 인공지능 모델을 설계하고자 하는 연구가 급속도로 진행되고 있다. 일 예로, 인공지능 모델이 사람이 일반적으로 지니고 있는 상식 지식을 활용할 수 있게 하는 AI2 (Allen institute for artificial intelligent) 기반의 연구가 진행되고 있다. 특히, 언어에 담긴 상식 지식 뿐만 아니라 이미지에 담긴 상식 지식까지 활용하기 위하여, 시각 정보를 추가적으로 활용하는 연구가 진행되고 있다. 예로, 상식 지식을 명시적으로 표현할 수 있도록, Microsoft AI 등 다양한 글로벌 인공지능 연구소에서 시각 상식 인공지능 모델 연구를 수행해왔다. 다만, 여전히 최신 모델들은 이미지의 사소한 부분에 집중하지 못한다는 한계가 존재하였으며, 이에 따라, 해당 모델들의 추론 능력은 사람 수준에 미치지 못한다는 문제가 있다. 일반적으로 시각 상식 인공지능 모델은 이미지 및 사람이 작성한 이미지에 해당하는 상식 추론 문장을 이용해 학습을 진행하고 있다. 다만, 해당 모델은 이미지를 세부적으로 표현한 상식 추론 문장보다, 표현하지 못한 상식 추론 문장을 더욱 빈번히 학습하여, 서로 다른 이미지에 대해 동일한 문장을 생성하는 경향을 보이고 있다. 반면, 사람은 각 이미지의 사소하지만 중요한 부분을 파악하여 서로 다른 이미지에 대해 서로 다른 문장을 생성한다. 도 1a는 시각 상식 추론 데이터를 생성하는 장치의 구성을 도시한 블록도이다. 도 1b는 본 개시에 적용될 수 있는 시각 상식 그래프를 예시한다. 도 2는 본 개시의 일 실시예에 따른, 이미지에 대한 다양한 시각 상식 추론 데이터를 생성하는 방법을 설명하기 위한 순서도이다. 도 3은 본 개시의 일 실시예에 따른, 이미지에 대한 다양한 시각 상식 추론 데이터를 생성하는 방법을 설명하기 위한 블록도이다. 도 4a, 도 4b, 및 도 4c는 본 개시의 일 실시예에 따른, 이미지에 대한 다양한 시각 상식 추론 데이터를 생성하는 방법을 설명하기 위한 도면이다. 도 5는 본 개시의 일 실시예에 따른, 이미지에 대해 생성된 다양한 시각 상식 추론 데이터를 예시한다. 본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 개시는 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 개시의 개시가 완전하도록 하고, 본 개시가 속하는 기술 분야의 통상의 기술자에게 본 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시는 청구항의 범주에 의해 정의될 뿐이다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 개시를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 개시의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다. 다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 공간적으로 상대적인 용어인 "아래(below)", "아래(beneath)", "하부(lower)", "위(above)", "상부(upper)" 등은 도면에 도시되어 있는 바와 같이 하나의 구성요소와 다른 구성요소과의 상관관계를 용이하게 기술하기 위해 사용될 수 있다. 공간적으로 상대적인 용어는 도면에 도시되어 있는 방향에 더하여 사용시 또는 동작 시 구성요소들의 서로 다른 방향을 포함하는 용어로 이해되어야 한다. 예를 들어, 도면에 도시되어 있는 구성요소를 뒤집을 경우, 다른 구성요소의 "아래(below)"또는 "아래(beneath)"로 기술된 구성요소는 다른 구성요소의 "위(above)"에 놓여질 수 있다. 따라서, 예시적인 용어인 "아래"는 아래와 위의 방향을 모두 포함할 수 있다. 구성요소는 다른 방향으로도 배향될 수 있으며, 이에 따라 공간적으로 상대적인 용어들은 배향에 따라 해석될 수 있다. 이하에서는 이미지에 대한 다양한 시각 상식 추론 데이터를 생성하는 방법 및 장치에 대해 구체적으로 설명하도록 한다. 상술한 바와 같이, 이미지에 기초하여 상식 문장을 출력하도록 학습된 기존의 인공지능 모델은 이미지의 세부적인 부분을 명확히 검출 및 식별하지 못한다는 한계가 존재하였다. 이에 따라, 기존의 인공지능 모델은 여러 이미지들의 세부적인 차이를 인식하지 못하고 동일한 문장 데이터(즉, 동일한 추론 결과)를 출력하는 경우가 빈번하였다. 예를 들어, 기존의 인공지능 모델은 두 사람이 단순히 얘기하고 있는 이미지 및 두 사람이 운동하고 있는 이미지를 구분하지 못하고, "talk to person" 추론 문장을 생성하도록 학습될 수 있다. 이는 기존의 인공지능 모델이 세부적인 차이의 구분 없이 포괄적인 추론 결과 데이터를 출력하도록 더욱 빈번히 학습했기 때문이다. 이를 해결하기 위하여, 이하에서는 인공지능 모델이 이미지의 세부적인 부분을 묘사하고 있는 부분에 보다 집중하도록 인공지능 모델을 학습시키는 방법 등을 설명하도록 한다. 본 개시의 일 실시예로, 도 1a는 시각 상식 추론 데이터를 생성하는 장치의 구성을 도시한 블록도이다. 도 1a에서 설명하는 장치는 스마트 폰, 태블릿 PC, 웨어러블 장치, 노트북 등을 포함할 수 있으나 이에 제한되는 것은 아니다. 도 1a에 도시된 바와 같이, 장치(10)는 메모리(11), 통신 모듈(12), 디스플레이(13), 및 프로세서(14)를 포함할 수 있다. 다만, 이에 국한되는 것은 아니며, 장치(10)는 필요한 동작에 따라 당업자 관점에서 자명한 범위 내에서 소프트웨어 및 하드웨어 구성이 수정/추가/생략될 수 있다. 메모리(11)는 본 장치(10)의 다양한 기능을 지원하는 데이터와, 제어부의 동작을 위한 프로그램을 저장할 수 있고, 입/출력되는 데이터들을 저장할 있고, 본 장치에서 구동되는 다수의 응용 프로그램(application program 또는 애플리케이션(application)), 본 장치의 동작을 위한 데이터들, 명령어들을 저장할 수 있다. 이러한 응용 프로그램 중 적어도 일부는, 무선 통신을 통해 외부 장치로부터 다운로드 될 수 있다. 이러한, 메모리(11)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), SSD 타입(Solid State Disk type), SDD 타입(Silicon Disk Drive type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(random access memory; RAM), SRAM(static random access memory), 롬(read-only memory; ROM), EEPROM(electrically erasable programmable read-only memory), PROM(programmable read-only memory), 자기 메모리, 자기 디스크 및 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 또한, 메모리(11)는 본 장치와는 분리되어 있으나, 유선 또는 무선으로 연결된 데이터베이스가 될 수도 있다. 통신 모듈(12)은 외부 장치(예로, 복수의 노드에 대응되는 복수의 센서)와 통신을 가능하게 하는 하나 이상의 구성 요소를 포함할 수 있다. 예를 들어, 통신 모듈(12)은 무선통신 모듈, 유선통신 모듈 또는 위치정보 모듈 중 적어도 하나를 포함할 수 있다. 여기서, 무선 통신 모듈은 와이파이(Wi-Fi) 모듈, 와이브로(Wireless broadband) 모듈 외에도, GSM(global System for Mobile Communication), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), UMTS(universal mobile telecommunications system), TDMA(Time Division Multiple Access), LTE(Long Term Evolution), 4G, 5G, 6G 등 다양한 무선 통신 방식을 지원하는 무선 통신 모듈을 포함할 수 있다. 디스플레이(13)는 본 장치(10)에서 처리되는 정보(예를 들어, 복수의 센서로부터 수신된 다변량 시계열 데이터 등)를 표시(출력)한다. 예를 들어, 디스플레이는 본 장치(10)에서 구동되는 응용 프로그램(일 예로, 어플리케이션)의 실행화면 정보, 또는 이러한 실행화면 정보에 따른 UI(User In