KR-102960815-B1 - AI-BASED MULTIMODAL CONTENT AUTOMATIC GENERATION SYSTEM AND METHOD THEREOF

KR102960815B1KR 102960815 B1KR102960815 B1KR 102960815B1KR-102960815-B1

Abstract

본 발명은 AI 기반 멀티모달 콘텐츠 자동 생성 시스템 및 그 방법에 관한 것으로, 입력부터 최종 게시까지 전 과정을 완전 자동화함으로써, 콘텐츠 제작에 소요되는 시간과 비용을 크게 절감할 수 있다. 또한, 단일한 원본 콘텐츠로부터 여러 형태의 파생 콘텐츠를 자동으로 생성하고 이를 여러 플랫폼에 동시에 배포함으로써, 콘텐츠의 활용도와 도달률(Reach)을 극대화할 수 있다. 나아가, 각 기능이 표준화된 모듈 구조를 가짐으로써, 특정 AI 기술을 보다 우수한 기술로 손쉽게 교체하거나 새로운 플랫폼 연동 모듈을 추가하는 등 시스템 확장이 용이하며 새로운 미디어 플랫폼이나 향상된 AI 모델이 등장하더라도 본 발명의 시스템에 원활히 통합할 수 있는 효과가 있다.

Inventors

채원석

Assignees

주식회사 키즈팩토리

Dates

Publication Date: 20260506
Application Date: 20250730

Claims (18)

멀티모달 콘텐츠를 자동으로 생성하고 게시하는 AI 기반 시스템에 있어서, 음성, 영상 및 텍스트를 포함한 다양한 유형의 입력 데이터를 수신하여 미리 정의된 표준 중간 데이터 포맷으로 변환하는 입력 처리부; 상기 입력 데이터의 유형과 사용자 설정에 기초하여, 복수의 AI 처리 모듈의 실행 순서 및 조합으로 구성되는 처리 파이프라인을 동적으로 결정하는 흐름 제어부; 및 상기 결정된 처리 파이프라인을 통해 생성된 하나 이상의 최종 콘텐츠를 각기 다른 API 사양을 갖는 복수의 외부 플랫폼으로 병렬 전송하여 자동 게시하는 자동 게시부를 포함하되, 상기 흐름 제어부는 상기 복수의 AI 처리 모듈 각각에 대해 표준화된 입출력 인터페이스를 정의하고, 상기 복수의 AI 처리 모듈 중 하나가 동일한 기능을 수행하는 다른 모듈로 교체되더라도 전체 파이프라인이 정상 동작하도록 제어하는 것을 특징으로 하는 AI 기반 멀티모달 콘텐츠 자동 생성 시스템.
삭제
제 1 항에 있어서, 상기 자동 게시부는 각 외부 플랫폼별 인증 정보와 API 요청 템플릿을 미리 저장하고, 생성된 콘텐츠를 상기 템플릿에 자동으로 적용하여 해당 플랫폼의 요구 형식으로 포맷을 변환하는 것을 특징으로 하는 AI 기반 멀티모달 콘텐츠 자동 생성 시스템.
제 1 항에 있어서, 상기 복수의 AI 처리 모듈에는 입력된 텍스트를 기반으로 음성 합성(Text-to-Speech, TTS) 및 이미지 생성을 통해 영상 콘텐츠를 생성하는 콘텐츠 영상화 모듈을 포함하는 것을 특징으로 하는 AI 기반 멀티모달 콘텐츠 자동 생성 시스템.
제 1 항에 있어서, 상기 입력 처리부는 상기 입력 데이터의 유형을 판별하여, 상기 입력 데이터가 음성 또는 영상인 경우 음성 인식 모듈을 통해 상기 입력 데이터를 텍스트로 변환하고, 상기 입력 데이터가 텍스트인 경우 상기 음성 인식 모듈을 통해 텍스트로 변환하는 단계를 생략하게 구성된 것을 특징으로 하는 AI 기반 멀티모달 콘텐츠 자동 생성 시스템.
제 1 항에 있어서, 상기 복수의 AI 처리 모듈에는 텍스트 콘텐츠의 문체 및 어조를 미리 정해진 스타일로 변환하는 스타일링 모듈을 포함하는 것을 특징으로 하는 AI 기반 멀티모달 콘텐츠 자동 생성 시스템.
제 1 항에 있어서, 상기 흐름 제어부는 사전 학습된 머신러닝 모델을 이용하여 상기 복수의 AI 처리 모듈의 최적 조합을 추론함으로써 상기 처리 파이프라인을 결정하는 것을 특징으로 하는 AI 기반 멀티모달 콘텐츠 자동 생성 시스템.
제 1 항에 있어서, 상기 복수의 AI 처리 모듈에는 상기 입력 데이터가 영상 콘텐츠인 경우 상기 영상 콘텐츠의 음성으로부터 대본을 추출하는 음성 인식 모듈 및 상기 추출된 대본을 기반으로 하나 이상의 텍스트 콘텐츠와 하나 이상의 숏폼 영상 콘텐츠를 생성하는 콘텐츠 생성 모듈을 포함하는 것을 특징으로 하는 AI 기반 멀티모달 콘텐츠 자동 생성 시스템.
제 1 항에 있어서, 사용자 선호 설정을 입력받기 위한 사용자 설정부를 더 포함하고, 상기 흐름 제어부는 상기 사용자 선호 설정에 따라 상기 처리 파이프라인의 구성 및 동작을 맞춤 설정하는 것을 특징으로 하는 AI 기반 멀티모달 콘텐츠 자동 생성 시스템.
제 1 항의 AI 기반 멀티모달 콘텐츠 자동 생성 시스템으로 멀티모달 콘텐츠를 자동으로 생성하여 게시하는 콘텐츠 처리 방법에 있어서, 다양한 유형의 입력 데이터를 수신하여 표준 중간 데이터 포맷으로 변환하는 제 1 단계; 상기 입력 데이터의 유형과 사용자 설정에 기초하여, 복수의 AI 처리 모듈의 실행 순서 및 조합으로 구성되는 처리 파이프라인을 동적으로 결정하는 제 2 단계; 상기 결정된 처리 파이프라인에 따라 상기 복수의 AI 처리 모듈을 순차적으로 실행하여 하나 이상의 최종 콘텐츠를 생성하는 제 3 단계; 및 상기 생성된 최종 콘텐츠를 복수의 외부 플랫폼으로 병렬 전송하여 자동으로 게시하는 제 4 단계를 포함하는 것을 특징으로 하는 콘텐츠 처리 방법.
제 10 항에 있어서, 상기 제 2 단계는 사전 학습된 머신러닝 모델을 더 이용하여 최적의 모듈 조합을 추론하는 것을 특징으로 하는 콘텐츠 처리 방법.
제 10 항에 있어서, 상기 제 3 단계는 상기 입력 데이터가 텍스트 콘텐츠인 경우 상기 텍스트의 문체 및 어조를 미리 정해진 프로필에 따라 상기 최종 콘텐츠를 조정하는 것을 특징으로 하는 콘텐츠 처리 방법.
제 10 항에 있어서, 상기 제 3 단계에는 텍스트 데이터를 기반으로 음성 합성 및 이미지 생성을 수행하여 영상 콘텐츠를 상기 최종 콘텐츠 중 하나로 생성하는 단계를 포함하는 것을 특징으로 하는 콘텐츠 처리 방법.
제 10 항에 있어서, 상기 제 3 단계에는 상기 표준 중간 데이터 포맷의 텍스트로부터 시간 정보(timestamp)가 포함된 블로그 포스트와 숏폼 영상용 스크립트를 상기 최종 콘텐츠와 동시에 생성하는 단계를 포함하는 것을 특징으로 하는 콘텐츠 처리 방법.
제 10 항에 있어서, 상기 4 단계에는 상기 병렬 전송 전에 각 외부 플랫폼별로 사전에 정의된 API 요청 템플릿에 생성된 콘텐츠를 적용하여 해당 플랫폼의 요구 형식으로 자동 변환하는 단계를 먼저 진행하는 것을 특징으로 하는 콘텐츠 처리 방법.
제 10 항에 있어서, 상기 제 1 단계는 상기 표준 중간 데이터 포맷으로 변환하기 전에, 사용자로부터 콘텐츠 출력 형식, 스타일 또는 대상 플랫폼에 관한 선호 설정을 입력받는 단계를 먼저 진행하고, 상기 제 2 단계는 상기 선호 설정에 따라 상기 처리 파이프라인을 결정하는 것을 특징으로 하는 콘텐츠 처리 방법.
제 10 항에 있어서, 상기 4 단계는 상기 복수의 외부 플랫폼 각각에 대한 게시 요청을 별도의 스레드로 병렬 수행함으로써 상기 복수 외부 플랫폼에 상기 최종 콘텐츠와 함께 동시에 게시하는 것을 특징으로 하는 콘텐츠 처리 방법.
제 10 항의 콘텐츠 처리 방법을 실행하기 위한 명령어가 기록된 컴퓨터로 읽을 수 있는 기록매체.

Description

AI 기반 멀티모달 콘텐츠 자동 생성 시스템 및 그 방법{AI-BASED MULTIMODAL CONTENT AUTOMATIC GENERATION SYSTEM AND METHOD THEREOF} 본 발명은 콘텐츠 생성 및 관리 기술에 관한 것으로, 더욱 상세하게는 인공지능(AI) 기술을 활용하여 음성, 텍스트, 영상 등 다양한 형태(모달리티)의 입력 데이터를 처리함으로써 복수의 파생 콘텐츠를 자동으로 생성하고, 생성된 콘텐츠를 다수의 온라인 플랫폼에 최적화된 형태로 자동 게시하는 시스템 및 그 방법에 관한 것이다. 특히, 음성·텍스트·영상 등 여러 종류의 원본 데이터를 원하는 형태의 콘텐츠로 변환하여 블로그나 동영상 공유 서비스 등의 복수 플랫폼에 자동 배포하는 기술에 관한 것이다. 최근 다양한 AI 도구의 등장으로 콘텐츠 제작 및 배포 과정의 일부 단계가 자동화되었으나, 여전히 전체 워크플로우가 분산되고 단편화되어 있어 엔드-투-엔드(End-to-End) 자동화를 달성하지 못하고 있다. 예를 들어, 미국 특허 US10949880B2는 콘텐츠 제작 워크플로우를 자동화하지만 생성된 콘텐츠를 최종 게시하기 전에 사용자 검토 및 승인을 요구하여 완전한 자동 게시로 이어지지 못한다. 또한, 대한민국 특허 KR102105646B1은 분산 처리 구조만을 제시할 뿐, 본 발명과 달리 입력 데이터의 유형이나 사용자 목적에 따라 복수의 AI 모듈 처리 순서(파이프라인)를 동적으로 재구성하는 기능은 포함하지 않는다. 지금까지 종래 기술은 음성 인식, 텍스트 요약 등 개별 기능만 제공하거나 워크플로우의 일부만 자동화할 뿐이며, 중요한 단계에서는 여전히 사용자 개입을 필요로 했다. 그 결과, 서로 이기종의 AI 모듈들을 지능적으로 조합하여 입력부터 최종 게시까지의 전 과정을 사용자 개입 없이 유기적으로 연결하는 통합 자동화 시스템은 현재까지 존재하지 않았다. 도 1은 본 발명의 일 실시예에 따른 AI 기반 멀티모달 콘텐츠 자동 생성 시스템의 구성을 보여주는 블록도이다. 도 2는 본 발명의 일 실시예에 따른 멀티모달 콘텐츠를 자동으로 생성하여 게시하는 콘텐츠 처리 방법을 보여주는 순서도이다. 도 3은 본 발명의 일 실시예에 따른 전체 콘텐츠 자동화 과정을 나타낸 흐름도이다. 도 4는 본 발명의 구체적 실시예로, 기 생성된 영상 콘텐츠를 재가공하여 새로운 콘텐츠를 생성하는 과정을 나타낸 흐름도이다. 하나의 영상으로부터 텍스트 콘텐츠와 숏폼(short-form) 영상 콘텐츠를 생성하여 배포하는 과정을 예시한다. 이하, 첨부된 도면을 참조하며 본 발명의 바람직한 실시예에 대하여 설명한다. 본 발명의 일 실시예에 따른 AI 기반 멀티모달 콘텐츠 자동 생성 시스템은, 도 1로 참조되는 바와 같이, 음성, 영상 및 텍스트를 포함한 다양한 유형의 입력 데이터를 수신하여 미리 정의된 표준 중간 데이터 포맷으로 변환하는 입력 처리부(10); 상기 입력 데이터의 유형 등에 기초하여, 복수의 AI 처리 모듈(20)의 실행 순서 및 조합으로 구성되는 처리 파이프라인을 동적으로 결정하는 흐름 제어부(30); 및 상기 결정된 처리 파이프라인을 통해 생성된 하나 이상의 최종 콘텐츠를 각기 다른 API(Application Programming Interface) 사양을 갖는 복수의 외부 플랫폼(40)으로 병렬 전송하여 자동 게시하는 자동 게시부(50)를 포함한다. 상기 흐름 제어부(30)는 상기 복수의 AI 처리 모듈(20) 각각에 대해 표준화된 입출력 인터페이스를 정의하고, 상기 복수의 AI 처리 모듈 중 하나가 동일한 기능을 수행하는 다른 모듈로 교체되더라도 전체 파이프라인이 정상 동작하도록 제어하도록 구성될 수 있다. 상기 자동 게시부(50)는 각 외부 플랫폼별 인증 정보와 API 요청 템플릿을 미리 저장하고, 생성된 콘텐츠를 상기 템플릿에 자동으로 적용하여 해당 플랫폼의 요구 형식으로 포맷을 변환하는 것으로 구성될 수 있다. 상기 복수의 AI 처리 모듈(20)은, 도 1과 같이, 복수의 기능 처리모듈로 구성되는데, 여기에 입력된 텍스트를 기반으로 음성 합성(Text-to-Speech, TTS) 및 이미지 생성을 통해 영상 콘텐츠를 생성하는 콘텐츠 영상화 모듈을 포함하는 것이 바람직하다. 상기 입력 처리부(10)는 입력 데이터의 유형을 판별하여, 상기 입력 데이터가 음성 또는 영상인 경우 음성 인식 모듈을 통해 상기 입력 데이터를 텍스트로 변환하고, 상기 입력 데이터가 텍스트인 경우 상기 음성 인식 모듈을 통해 텍스트로 변환하는 단계를 생략하게 구성될 수 있다. 상기 복수의 AI 처리 모듈(20)에는 텍스트 콘텐츠의 문체 및 어조를 미리 정해진 스타일로 변환하는 스타일링 모듈을 포함할 수 있다. 상기 흐름 제어부(30)는 사전 학습된 머신러닝 모델을 이용하여 상기 복수의 AI 처리 모듈(20)의 최적 조합을 추론함으로써 상기 처리 파이프라인을 결정하도록 구성될 수 있다. 상기 복수의 AI 처리 모듈(20)에는 상기 입력 데이터가 영상 콘텐츠인 경우 상기 영상 콘텐츠의 음성으로부터 대본을 추출하는 음성 인식 모듈 및 상기 추출된 대본을 기반으로 하나 이상의 텍스트 콘텐츠와 하나 이상의 숏폼 영상 콘텐츠를 생성하는 콘텐츠 생성 모듈을 포함할 수 있다. 실시예에 따라, 도 1과 같이, 사용자 선호 설정을 입력받기 위한 사용자 설정부(60)를 더 포함하고, 상기 흐름 제어부(30)는 상기 사용자 선호 설정에 따라 상기 처리 파이프라인의 구성 및 동작을 맞춤 설정하는 것으로 구성될 수 있다. 다음은, 도 2 내지 도 4를 참조하며, 상술한 시스템으로 멀티모달 콘텐츠를 자동으로 생성하여 게시하는 콘텐츠 처리 방법에 대하여 설명한다. 도 2를 참조하면, 다양한 유형의 입력 데이터를 수신하여 표준 중간 데이터 포맷으로 변환하는 제 1 단계(S10); 상기 입력 데이터의 유형과 사용자 설정에 기초하여, 복수의 AI 처리 모듈(20)의 실행 순서 및 조합으로 구성되는 처리 파이프라인을 동적으로 결정하는 제 2 단계(S20); 상기 결정된 처리 파이프라인에 따라 상기 복수의 AI 처리 모듈(20)을 순차적으로 실행하여 하나 이상의 최종 콘텐츠를 생성하는 제 3 단계(S30); 및 상기 생성된 최종 콘텐츠를 복수의 외부 플랫폼(40)으로 병렬 전송하여 자동으로 게시하는 제 4 단계(S40)를 포함하여 실시될 수 있다. 상기 제 2 단계(S20)는 사전 학습된 머신러닝 모델을 더 이용하여 최적의 모듈 조합을 추론해서 처리 파이프라인을 동적으로 결정하는 것으로 진행될 수 있다. 상기 제 3 단계(S30)는 상기 입력 데이터가 텍스트 콘텐츠인 경우 상기 텍스트의 문체 및 어조를 미리 정해진 프로필에 따라 상기 최종 콘텐츠를 조정할 수 있다. 실시예에 따라, 상기 제 3 단계(S30)에는 텍스트 데이터를 기반으로 음성 합성 및 이미지 생성을 수행하여 영상 콘텐츠를 상기 최종 콘텐츠 중 하나로 생성하는 단계를 포함할 수 있다. 상기 제 3 단계(S30)에는 상기 표준 중간 데이터 포맷의 텍스트로부터 시간 정보(timestamp)가 포함된 블로그 포스트와 숏폼 영상용 스크립트를 상기 최종 콘텐츠와 동시에 생성하는 단계를 포함할 수 있다. 상기 4 단계(S40)에는 상기 병렬 전송 전에 각 외부 플랫폼별로 사전에 정의된 API 요청 템플릿에 생성된 콘텐츠를 적용하여 해당 플랫폼의 요구 형식으로 자동 변환하는 단계를 먼저 진행할 수 있다. 상기 제 1 단계(S10)는 상기 표준 중간 데이터 포맷으로 변환하기 전에, 사용자로부터 콘텐츠 출력 형식, 스타일 또는 대상 플랫폼에 관한 선호 설정을 입력받는 단계를 먼저 진행하고, 상기 제 2 단계(S20)는 상기 선호 설정에 따라 상기 처리 파이프라인을 결정하는 것으로 진행될 수 있다. 상기 4 단계(S40)는 상기 복수의 외부 플랫폼(40) 각각에 대한 게시 요청을 별도의 스레드로 병렬 수행함으로써 상기 복수 외부 플랫폼에 상기 최종 콘텐츠와 함께 동시에 게시하는 것으로 수행될 수 있다. 본 발명의 다른 실시 모습은, 상술한 콘텐츠 처리 방법을 실행하기 위한 명령어가 기록된 컴퓨터로 읽을 수 있는 기록매체일 수 있다. 도 3은 본 발명의 일 실시예에 따른 시스템을 통한 전체 콘텐츠 자동화 과정을 나타낸 흐름도이다. 이를 참조하며, 본 발명의 구체적 실시예에 대하여 설명한다. 먼저, 입력 콘텐츠가 수신되면(S100), 흐름 제어부(30)는 사용자로부터 입력 콘텐츠를 전달받아 그 데이터 유형을 판별한다(S200). 예를 들어 입력 데이터가 음성 또는 영상인 경우, 복수의 AI 처리 모듈(20) 중 사전 학습된 음성 인식 모델 기반 AI 모듈, 즉 Speech-to-Text (STT) 모듈을 호출하여(S210) 해당 콘텐츠의 음성 트랙을 텍스트 데이터로 변환한다. 변환된 텍스트 데이터는 시스템의 표준화된 중간 데이터 형식으로 변환되어 다음 단계의 모듈로 전달된다. 반면 입력이 이미 텍스트 형태인 경우에는(S220) 이러한 음성 인식 과정을 생략하고 바로 다음 단계로 진행한다. 다음으로, 텍스트 요약 및 문체 변환을 수행하는 자연어 처리 기반 AI 모듈을 호출하여(S230), 상기 중간 포맷의 텍스트를 입력받아, 사용자 설정에 따라 요약, 재구성 또는 문체(스타일) 변환 등의 처리를 수행한다. 예를 들어 텍스트 내용을 간략하게 요약하거나 원하는 문체와 어조(예: 캐주얼체 또는 격식체)로 변경할 수 있다. 이어, 사용자가 최종 출력을 영상 형태로 받기 원하지 여부를 판별하여(S300), 이 결정 노드에서 '예'로 평가될 경우, 텍스트를 기반으로 TTS(Text-to-Speech)와 이미지 생성을 수행하여 영상 콘텐츠를 자동 구성하는 멀티모달 콘텐츠 생성 모듈이 호출된다(S310). 이 모듈은 앞서 가공된 텍스트를 기반으로 음성 합성을 수행하여 내레이션 오디오를 생성하고, 해당 내용에 적합한 이미지를 생성 또는 선택하여 이를 조합함으로써 최종 영상 콘텐츠를 자동으로 제작한다. 마지막으로, 플랫폼 포맷 변환 및 병렬 전송 기능을 갖춘 자동 게시부(50, 모듈 형태일 수 있음)를 호출하여(S320) 이렇게 생성된 최종 콘텐츠(텍스트 또는 영상)를 각 플랫폼의 API 사양에 맞게 자동으로 포맷 변환한 후, 복수의 외부 대상 플랫