KR-20260061990-A - ELECTRONIC DEVICE FOR GENERATING VIDEO AND PLANNING VIDEO BASED ON ARTIFICIAL INTELLIGENCE MODEL, AND OPERATION METHOD OF THE SAME

KR20260061990AKR 20260061990 AKR20260061990 AKR 20260061990AKR-20260061990-A

Abstract

다양한 실시예들에 따르면, 서버의 동작 방법에 있어서, 사용자 장치로부터 생성될 영상과 연관된 제작 정보를 획득하는 동작; 상기 제작 정보 및 제1 AI 모델에 기반하여, 기획 정보를 생성하는 동작;을 포함하고, 상기 기획 정보는 상기 영상에 대한 제목 정보, 상기 영상에 대한 캡션 정보, 또는 상기 영상에 대한 내용 정보 중 적어도 하나를 포함하고, 상기 내용 정보는 복수의 영상 구간들 별 자막과 연관된 자막 정보, 및 장면을 설명하는 장면 정보를 포함하고, 상기 사용자 장치로부터 복수의 컨텐츠들을 획득하는 동작; 상기 영상에 대한 상기 내용 정보와 상기 복수의 컨텐츠들을 비교하는 것에 기반하여, 상기 복수의 영상 구간들 별로 대응하는 상기 복수의 컨텐츠들 중 일부를 식별하는 동작; 및 상기 복수의 영상 구간들 별로 식별된 복수의 컨텐츠들 중 일부를 포함하는 영상을 생성하는 동작;을 포함하는, 동작 방법이 제공될 수 있다.

Inventors

김하나

Assignees

김하나

Dates

Publication Date: 20260506
Application Date: 20241028

Claims (10)

서버의 동작 방법에 있어서, 사용자 장치로부터 생성될 영상과 연관된 제작 정보를 획득하는 동작; 상기 제작 정보 및 제1 AI 모델에 기반하여, 기획 정보를 생성하는 동작;을 포함하고, 상기 기획 정보는 상기 영상에 대한 제목 정보, 상기 영상에 대한 캡션 정보, 또는 상기 영상에 대한 내용 정보 중 적어도 하나를 포함하고, 상기 내용 정보는 복수의 영상 구간들 별 자막과 연관된 자막 정보, 및 장면을 설명하는 장면 정보를 포함하고, 상기 사용자 장치로부터 복수의 컨텐츠들을 획득하는 동작; 상기 영상에 대한 상기 내용 정보와 상기 복수의 컨텐츠들을 비교하는 것에 기반하여, 상기 복수의 영상 구간들 별로 대응하는 상기 복수의 컨텐츠들 중 일부를 식별하는 동작; 및 상기 복수의 영상 구간들 별로 식별된 복수의 컨텐츠들 중 일부를 포함하는 영상을 생성하는 동작;을 포함하는, 동작 방법.
제1 항에 있어서, 상기 제1 AI 모델은 상기 제작 정보와 함께 제1 텍스트 프롬프트가 입력되는 경우, 상기 기획 정보를 출력하도록 학습되고, 상기 제1 텍스트 프롬프트는 상기 영상에 대한 제목 정보, 상기 영상에 대한 캡션 정보, 또는 상기 영상에 대한 내용 정보 중 적어도 하나의 분석을 지시하는 텍스트를 포함하는, 동작 방법.
제2 항에 있어서, 상기 복수의 컨텐츠들에 기반하여, 복수의 소스들을 생성하는 동작;을 포함하고, 상기 복수의 소스들 각각은 특정 구간의 복수의 이미지 프레임들 및 상기 복수의 이미지 프레임들에 연관된 특징 정보를 포함하고, 상기 복수의 소스들의 상기 특징 정보와 상기 내용 정보에 포함된 상기 복수의 영상 구간들 별 상기 장면 정보를 비교한 것에 기반하여, 상기 복수의 영상 구간들 별로 대응하는 특정 소스를 식별하는 동작; 및 상기 특정 소스를 상기 영상 구간들 별로 할당함에 기반하여, 상기 영상을 생성하는 동작;을 포함하는, 동작 방법.
제3 항에 있어서, 상기 특징 정보는, 상기 복수의 이미지 프레임들에 대한 벡터 값 또는 상기 복수의 이미지 프레임들에 포함된 객체 정보 중 적어도 하나를 포함하는, 동작 방법.
제2 항에 있어서, 지정된 기간 동안의 인기 컨텐츠를 수집하는 동작; 상기 인기 컨텐츠 및 제2 AI 모델에 기반하여, 이해 정보를 획득하는 동작; 및 상기 제작 정보 및 상기 제1 텍스트 프롬프트와 함께, 상기 이해 정보를 상기 제1 AI 모델에 더 입력한 것에 기반하여, 제1 기획 정보를 생성하는 동작;을 더 포함하는, 동작 방법.
제5 항에 있어서, 상기 제1 기획 정보는 상기 기획 정보와 비교하여, 상기 인기 컨텐츠와의 더 높은 유사도를 갖는, 동작 방법.
제6 항에 있어서, 상기 이해 정보는 상기 인기 컨텐츠에 대한 영상 길이, 영상 주제, 영상 비례, 영상 목적, 영상 제목, 영상 캡션, 또는 영상 내용 중 적어도 하나를 포함하는, 동작 방법.
제6 항에 있어서, 상기 인기 컨텐츠는 상기 지정된 기간 동안 수집되는 복수의 컨텐츠들 중에서 임계치 이상의 인기도를 갖는 것을 특징으로 하는, 동작 방법.
제2 항에 있어서, 상기 복수의 소스들의 상기 특징 정보와 상기 내용 정보에 포함된 상기 복수의 영상 구간들 별 상기 장면 정보를 비교한 것에 기반하여, 식별되는 유사도를 식별하는 동작; 특정 영상 구간에 대한 상기 유사도가 임계치 이상인 특정 장면 정보가 부존재하는 것을 식별하는 동작; 상기 특정 영상 구간에 대한 특정 내용 정보를 생성형 AI에 입력한 것에 기반하여, 새로운 영상을 생성하는 동작; 및 상기 새로운 영상을 상기 특정 영상 구간에 할당하는 동작;을 포함하는, 동작 방법.
서버로서, 통신 회로; 및 적어도 하나의 프로세서;를 포함하고, 상기 적어도 하나의 프로세서는: 상기 통신 회로를 통해, 사용자 장치로부터 생성될 영상과 연관된 제작 정보를 획득하고, 상기 제작 정보 및 제1 AI 모델에 기반하여, 기획 정보를 생성하고, 상기 기획 정보는 상기 영상에 대한 제목 정보, 상기 영상에 대한 캡션 정보, 또는 상기 영상에 대한 내용 정보 중 적어도 하나를 포함하고, 상기 내용 정보는 복수의 영상 구간들 별 자막과 연관된 자막 정보, 및 장면을 설명하는 장면 정보를 포함하고, 상기 통신 회로를 통해 상기 사용자 장치로부터 복수의 컨텐츠들을 획득하고, 상기 영상에 대한 상기 내용 정보에 기반하여, 상기 복수의 영상 구간들 별로 대응하는 상기 복수의 컨텐츠들 중 일부를 식별하고, 상기 복수의 영상 구간들 별로 식별된 복수의 컨텐츠들 중 일부를 포함하는 영상을 생성하도록 설정된, 서버.

Description

인공 지능 모델에 기반한 영상 기획 및 영상 생성을 위한 전자 장치, 및 그 동작 방법{ELECTRONIC DEVICE FOR GENERATING VIDEO AND PLANNING VIDEO BASED ON ARTIFICIAL INTELLIGENCE MODEL, AND OPERATION METHOD OF THE SAME} 본 개시는 인공 지능 모델에 기반한 영상 기획 및 영상 생성을 위한 전자 장치, 및 그 동작 방법에 관한 것으로서, 사용자로부터 입력된 제작 의도에 따라 제1 AI 모델을 기반으로 기획 정보를 생성하고, 생성된 기획 정보에 따라 사용자가 보유한 영상 소스를 할당(예: 컷 편집)하여 영상을 생성하는 실시예를 개시한다. 현재, 유튜브(YouTube), 틱톡(TikTok)과 같은 영상 공유 플랫폼(platform) 또는 인스타그램(Instagram), 페이스북(Facebook)과 같은 영상 공유 기능을 포함하는 SNS(Social Network Service) 플랫폼에서, 상대적으로 짧은 듀레이션(duration)을 갖는 숏폼(short-form) 컨텐츠가 다수의 사용자에 의해 소비되고 있다. 숏폼 컨텐츠 뿐만 아니라, 다양한 영상 컨텐츠가 다수의 사용자에 의해 소비되고 있다. 이에 상기한 플랫폼 및 기타 영상 공유 기능을 포함하는 플랫폼 등에서 영상 컨텐츠를 업로드하고, 공유하는 기능을 강화하고 있으며, 이러한 기능을 예능 프로그램의 하이라이트 부분을 트림(trim)하여 공유해 프로그램에 대한 시청을 유도하거나, 동영상 강의의 요점 부분을 트림하여 시청자로 하여금 핵심 내용의 파악이 용이하게끔 하는 데 이용하는 경우도 존재한다. 그러나, 종래의 영상 컨텐츠 생성 방법은 사용자가 직접 원본 영상을 편집(edit)하여 중요 구간을 간추려 낸뒤, 간추려 낸 영상을 별도로 인코딩(encoding) 하여 별도의 영상으로써 업로드 하여야 했다. 이러한 종래의 숏폼 컨텐츠 생성 방법의 경우, 일반적인 사용자가 동영상 편집 프로그램에 접근하기도 어려울 뿐 아니라, 간추려낸 영상을 별도로 인코딩 하는 컴퓨팅 및 시간적 비용이 비교적 높다는 문제점이 있었다. 따라서 효율적으로 영상을 기획하고 영상을 생성하는 기술에 대한 구현이 필요한 시점이다. 도 1은, 다양한 실시예들에 따른 영상 생성 시스템의 구성의 일 예를 설명하기 위한 도면이다. 도 2는, 다양한 실시예들에 따른, 서버의 구성 요소의 예를 나타내는 블록도이다. 도 3은, 다양한 실시예들에 따른, 영상 기획 모델에 기반하여 영상을 생성하기 위한 소프트웨어 모듈들의 동작의 예를 설명하기 위한 도면이다. 도 4는, 다양한 실시예들에 따른, 영상 이해 모델에 기반하여 기획 정보를 생성하기 위한 소프트웨어 모듈들의 동작의 예를 설명하기 위한 도면이다. 도 5는, 다양한 실시예들에 따른, 사용자 장치의 구성 요소의 예를 나타내는 블록도이다. 도 6은, 다양한 실시예들에 따른, 영상 기획 및 영상 생성을 위한 서버의 동작 방법의 예를 설명하기 위한 흐름도이다. 도 7은, 다양한 실시예들에 따른, 서버로부터 제공되는 제작 정보의 입력을 위한 인터페이스 및 결과적으로 출력되는 기획 정보를 포함하는 인터페이스의 예이다. 도 8은, 다양한 실시예들에 따른, 서버의 제작 정보에 기반하여 기획 정보(P)를 생성하는 동작의 예를 설명하기 위한 도면이다. 도 9 내지 도 10은, 다양한 실시예들에 따른, 기획 정보에 기반하여 소스가 할당됨에 따라 영상이 생성되는 동작의 예를 설명하기 위한 도면이다. 도 11은, 다양한 실시예들에 따른, 인기 컨텐츠 기반 영상 기획을 위한 서버의 동작 방법의 예를 설명하기 위한 흐름도이다. 도 12는, 다양한 실시예들에 따른, 서버(10)의 영상 이해 모델에 기반하여 이해 정보를 생성하는 동작의 예를 설명하기 위한 도면이다. 도 13은, 다양한 실시예들에 따른, 제작 정보에 기반하여 생성되는 내용 정보와 이해 정보에 더 기반하여 생성되는 내용 정보의 예를 나타내는 도면이다. 도 14는, 다양한 실시예들에 따른, 제1 모드(예: 신규 영상 생성 모드)에 기반한 서버의 동작 방법의 예를 설명하기 위한 흐름도이다. 도 15는, 다양한 실시예들에 따른, 제2 모드(예: 보유 영상 생성 모드)에 기반한 서버의 동작 방법의 예를 설명하기 위한 흐름도이다. 다양한 실시예들에 대해서 특정한 구조적 내지 기능적 설명들은 단지 다양한 실시예들에 따른 설명을 위한 목적으로 예시된 것으로, 다양한 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서 또는 출원에 설명된 실시 예들에 한정되는 것으로 해석되어서는 아니 된다. 다양한 실시예들은 다양한 변경을 가할 수 있고 여러가지 형태를 가질 수 있으므로 다양한 실시예들을 도면에 예시하고 본 명세서 또는 출원에 상세하게 설명하고자 한다. 그러나, 도면으로부터 개시되는 사항은 다양한 실시예들을 특정하거나 또는 한정하려는 것이 아니며, 다양한 실시예들의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 제1 및/또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 개시의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다. 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다. 본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 다양한 실시예들을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 개시이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미이다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미인 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 이하, 첨부한 도면을 참조하여 본 개시의 바람직한 실시 예를 설명함으로써, 본 개시에 대해서 상세히 설명한다. 각 도면에 제시된 동일한 참조부호는 동일한 부재를 나타낸다. 다양한 실시예들에 따르면, 서버의 동작 방법에 있어서, 사용자 장치로부터 생성될 영상과 연관된 제작 정보를 획득하는 동작; 상기 제작 정보 및 제1 AI 모델에 기반하여, 기획 정보를 생성하는 동작;을 포함하고, 상기 기획 정보는 상기 영상에 대한 제목 정보, 상기 영상에 대한 캡션 정보, 또는 상기 영상에 대한 내용 정보 중 적어도 하나를 포함하고, 상기 내용 정보는 복수의 영상 구간들 별 자막과 연관된 자막 정보, 및 장면을 설명하는 장면 정보를 포함하고, 상기 사용자 장치로부터 복수의 컨텐츠들을 획득하는 동작; 상기 영상에 대한 상기 내용 정보와 상기 복수의 컨텐츠들을 비교하는 것에 기반하여, 상기 복수의 영상 구간들 별로 대응하는 상기 복수의 컨텐츠들 중 일부를 식별하는 동작; 및 상기 복수의 영상 구간들 별로 식별된 복수의 컨텐츠들 중 일부를 포함하는 영상을 생성하는 동작;을 포함하는, 동작 방법이 제공될 수 있다. 다양한 실시예들에 따르면, 상기 제1 AI 모델은 상기 제작 정보와 함께 제1 텍스트 프롬프트가 입력되는 경우, 상기 기획 정보를 출력하도록 학습되고, 상기 제1 텍스트 프롬프트는 상기 영상에 대한 제목 정보, 상기 영상에 대한 캡션 정보, 또는 상기 영상에 대한 내용 정보 중 적어도 하나의 분석을 지시하는 텍스트를 포함하는, 동작 방법이 제공될 수 있다. 다양한 실시예들에 따르면, 상기 복수의 컨텐츠들에 기반하여, 복수의 소스들을 생성하는 동작;을 포함하고, 상기 복수의 소스들 각각은 특정 구간의 복수의 이미지 프레임들 및 상기 복수의 이미지 프레임들에 연관된 특징 정보를 포함하고, 상기 복수의 소스들의 상기 특징 정보와 상기 내용 정보에 포함된 상기 복수의 영상 구간들 별 상기 장면 정보를 비교한 것에 기반하여, 상기 복수의 영상 구간들 별로 대응하는 특정 소스를 식별하는 동작; 및 상기 특정 소스를 상기 영상 구간들 별로 할당함에 기반하여, 상기 영상을 생성하는 동작;을 포함하는, 동작 방법이 제공될 수 있다. 다양한 실시예들에 따르면, 상기 특징 정보는, 상기 복수의 이미지 프레임들에 대한 벡터 값 또는 상기 복수의 이미지 프레임들에 포함된 객체 정보 중 적어도 하나를 포함하는, 동작 방법이 제공될 수 있다. 다양한 실시예들에 따르면, 지정된 기간 동안의 인기 컨텐츠를 수집하는 동작; 상기 인기 컨텐츠 및 제2 AI 모델에 기반하여, 이해 정보를 획득하는 동작; 및 상기 제작 정보 및 상기 제1 텍스트 프롬프트와 함께, 상기 이해 정보를 상기 제1 AI 모델에 더 입력한 것에 기반하여, 제1 기획 정보를 생성하는 동작;을 더 포함하는, 동작 방법이 제공될 수 있다. 다양한 실시예들에 따르면, 상기 제1 기획 정보는 상기 기획 정