KR-20260061357-A - METHOD AND SYSTEM FOR SPECIFYING MODEL BASED ON ARTIFICIAL INTELLIGENCE MODEL CONTAINING MULTIPLE MODELS
Abstract
본 개시의 일 실시예에 따른 방법은, 컴퓨터에 의해 실행되는 방법에 있어서, 상기 컴퓨터의 적어도 하나의 프로세서가, 적어도 하나의 유저 단말로부터 적어도 하나의 태스크 처리를 요청하는 입력 데이터를 획득하는 단계; 상기 적어도 하나의 프로세서가, 상기 획득된 입력 데이터를 분석하여 상기 입력 데이터에 대응하는 도메인을 판단하는 단계; 상기 적어도 하나의 프로세서가, 적어도 하나의 마스터 모델을 통해 상기 판단된 도메인에 기초하여 복수의 세컨더리 모델 중에서 상기 도메인에 최적화된 데이터 처리를 수행하는 적어도 하나의 적용 모델을 결정하는 단계; 및 - 여기서, 상기 마스터 모델은, 상기 복수의 세컨더리 모델에 대한 태스크 할당을 수행하는 라우터 및 전체 시스템의 데이터 플로우를 제어 및 관리하는 오케스트레이터 중 적어도 하나를 포함하고, 상기 복수의 세컨더리 모델은, 외부 서버에 의해 제공되는 적어도 하나의 외부 모델을 포함하며, 상기 마스터 모델은, 상기 판단된 도메인에 따라 상기 복수의 세컨더리 모델 중 상기 적어도 하나의 외부 모델을 상기 적용 모델로 선택하는 것을 특징으로 하고, 상기 적어도 하나의 프로세서가, 상기 결정된 적용 모델을 통해 상기 입력 데이터에 대한 데이터 처리를 수행하여 출력 데이터를 생성하고 상기 유저 단말로 제공하는 단계를 포함한다.
Inventors
- 최예묵
Assignees
- 주식회사 LG 경영개발원
Dates
- Publication Date
- 20260506
- Application Date
- 20260402
Claims (12)
- 컴퓨터에 의해 실행되는 방법에 있어서, 상기 컴퓨터의 적어도 하나의 프로세서가, 적어도 하나의 유저 단말로부터 적어도 하나의 태스크 처리를 요청하는 입력 데이터를 획득하는 단계; 상기 적어도 하나의 프로세서가, 상기 획득된 입력 데이터를 분석하여 상기 입력 데이터에 대응하는 도메인을 판단하는 단계; 상기 적어도 하나의 프로세서가, 적어도 하나의 마스터 모델을 통해 상기 판단된 도메인에 기초하여 복수의 세컨더리 모델 중에서 상기 도메인에 최적화된 데이터 처리를 수행하는 적어도 하나의 적용 모델을 결정하는 단계; 및 - 여기서, 상기 마스터 모델은, 상기 복수의 세컨더리 모델에 대한 태스크 할당을 수행하는 라우터 및 전체 시스템의 데이터 플로우를 제어 및 관리하는 오케스트레이터 중 적어도 하나를 포함하고, 상기 복수의 세컨더리 모델은, 외부 서버에 의해 제공되는 적어도 하나의 외부 모델을 포함하며, 상기 마스터 모델은, 상기 판단된 도메인에 따라 상기 복수의 세컨더리 모델 중 상기 적어도 하나의 외부 모델을 상기 적용 모델로 선택하는 것을 특징으로 하고, 상기 적어도 하나의 프로세서가, 상기 결정된 적용 모델을 통해 상기 입력 데이터에 대한 데이터 처리를 수행하여 출력 데이터를 생성하고 상기 유저 단말로 제공하는 단계를 포함하는 방법.
- 제1 항에 있어서, 상기 적용 모델을 결정하는 단계에서, 상기 마스터 모델은 상기 판단된 도메인에 따라 상기 복수의 세컨더리 모델 중 복수의 모델을 상기 적용 모델로 결정하고, 상기 입력 데이터에 대한 데이터 처리를 수행하여 출력 데이터를 생성하고 상기 유저 단말로 제공하는 단계에서, 상기 마스터 모델은 상기 결정된 복수의 적용 모델 각각에 상기 입력 데이터의 전체 또는 일부를 분배하여 전달하며, 상기 적어도 하나의 프로세서는 상기 복수의 적용 모델 각각으로부터 반환된 처리 결과를 연계하여 상기 출력 데이터를 생성하는 것을 특징으로 하는 방법.
- 제1 항에 있어서, 상기 마스터 모델은, 상기 판단된 도메인 정보와, 상기 복수의 세컨더리 모델 각각의 성능, 전문성 또는 이전 경험에 기초한 데이터와, 현재의 시스템 부하 상태를 종합적으로 고려하여 상기 적용 모델을 결정하는 것을 특징으로 하는 방법.
- 제1 항에 있어서, 상기 마스터 모델은, 유저 피드백, 강화학습, LLM 기반 자가 피드백(Self-feedback), RLHF(Reinforcement Learning from Human Feedback) 및 RLAIF(Reinforcement Learning from AI Feedback) 중 적어도 하나에 기초하여, 자체적으로 최적의 적용 모델을 판단하고, 상기 판단된 적용 모델로 상기 입력 데이터를 전달하도록 학습된 것을 특징으로 하는 방법.
- 제1 항에 있어서, 상기 복수의 세컨더리 모델은, 서로 다른 외부 서버들에 의해 각각 제공되는 복수의 외부 모델을 포함하고, 상기 마스터 모델은, 상기 판단된 도메인에 따라 상기 복수의 외부 모델 중 상기 태스크 처리에 최적화된 특정 외부 모델을 상기 적용 모델로 선택하는 것을 특징으로 하는 방법.
- 제1 항에 있어서, 상기 라우터는, 실시간 시스템 변화에 유동적으로 대응하여 상기 적용 모델로 결정된 모델에 할당된 태스크를 조정하는 것을 특징으로 하는 방법.
- 제1 항에 있어서, 상기 라우터는, 상기 획득된 입력 데이터에 따른 목표 성능 및 데이터 처리 속도 중 적어도 하나를 기초로, 상기 복수의 세컨더리 모델 중 어떤 모델에 상기 입력 데이터를 전달할지를 판단하도록 학습된 것을 특징으로 하는 방법.
- 제1 항에 있어서, 상기 오케스트레이터는, 전체 시스템의 성능을 모니터링하고, 사용 가능한 모델 및 하드웨어 리소스를 고려하여 상기 복수의 세컨더리 모델 간의 연동을 관리하며 상기 데이터 플로우를 제어하는 것을 특징으로 하는 방법.
- 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서에 의해 실행될 시 다음을 수행시키는 적어도 하나의 명령어를 저장하는 적어도 하나의 메모리;를 포함하고, 상기 적어도 하나의 명령어는, 상기 적어도 하나의 프로세서가, 적어도 하나의 유저 단말로부터 적어도 하나의 태스크 처리를 요청하는 입력 데이터를 획득하는 단계; 상기 적어도 하나의 프로세서가, 상기 획득된 입력 데이터를 분석하여 상기 입력 데이터에 대응하는 도메인을 판단하는 단계; 상기 적어도 하나의 프로세서가, 적어도 하나의 마스터 모델을 통해 상기 판단된 도메인에 기초하여 복수의 세컨더리 모델 중에서 상기 도메인에 최적화된 데이터 처리를 수행하는 적어도 하나의 적용 모델을 결정하는 단계; 및 - 여기서, 상기 마스터 모델은, 상기 복수의 세컨더리 모델에 대한 태스크 할당을 수행하는 라우터 및 전체 시스템의 데이터 플로우를 제어 및 관리하는 오케스트레이터 중 적어도 하나를 포함하고, 상기 복수의 세컨더리 모델은, 외부 서버에 의해 제공되는 적어도 하나의 외부 모델을 포함하며, 상기 마스터 모델은, 상기 판단된 도메인에 따라 상기 복수의 세컨더리 모델 중 상기 적어도 하나의 외부 모델을 상기 적용 모델로 선택하는 것을 특징으로 하고, 상기 적어도 하나의 프로세서가, 상기 결정된 적용 모델을 통해 상기 입력 데이터에 대한 데이터 처리를 수행하여 출력 데이터를 생성하고 상기 유저 단말로 제공하는 단계를 수행하는 명령어를 포함하는 시스템.
- 제9 항에 있어서, 적어도 하나의 레지스터, 적어도 하나의 프로그래머블 로직 및 적어도 하나의 입력 인터페이스를 포함하는 배열로 구성된 복수의 뉴런; 상기 복수의 뉴런 간 연결 강도를 조절하는 시냅스 가중치를 저장하는 복수의 시냅스 회로; 및 상기 복수의 뉴런 간 데이터 흐름을 제어하는 적어도 하나의 라우팅 네트워크;를 포함하고, 상기 복수의 뉴런 각각은, 상기 라우팅 네트워크를 통해 적어도 다른 하나의 뉴런과 연결되어 상기 가중치의 전달 경로를 설정하는, 소정의 인공신경망을 위한 필드 프로그래머블 게이트 배열(Field Programmable Gate Array, FPGA) 구현체를 더 포함하는 시스템.
- 제9 항에 있어서, 적어도 하나의 레지스터, 적어도 하나의 마이크로프로세서 및 적어도 하나의 입력을 포함하는 배열로 조직된 복수의 뉴런; 및 상기 복수의 뉴런 간 연결 강도를 조절하는 시냅스 가중치를 저장하는 복수의 시냅스 회로;를 포함하고, 상기 복수의 뉴런 각각은, 상기 복수의 시냅스 회로 중 어느 하나를 통해 적어도 다른 하나의 뉴런과 연결되는, 소정의 인공신경망을 위한 애플리케이션 전용 집적 회로(Application Specific Integrated Circuit, ASIC)를 더 포함하는 시스템.
- 제9 항에 있어서, 적어도 하나의 레지스터, 적어도 하나의 마이크로프로세서 및 적어도 하나의 입력을 포함하는 배열로 조직된 복수의 뉴런; 및 상기 복수의 뉴런 간 연결 강도를 조절하는 시냅스 가중치를 저장하는 복수의 시냅스 회로;를 포함하고, 상기 복수의 뉴런 각각은, 상기 복수의 시냅스 회로 중 어느 하나를 통해 적어도 다른 하나의 뉴런과 연결되는, 소정의 인공신경망을 위한 뉴로모픽 회로 (Neuromorphic Circuit)를 더 포함하는 시스템.
Description
복수의 모델을 포함하는 인공지능 모델 기반의 모델 특정 방법 및 그 시스템{METHOD AND SYSTEM FOR SPECIFYING MODEL BASED ON ARTIFICIAL INTELLIGENCE MODEL CONTAINING MULTIPLE MODELS} 본 개시는 복수의 모델을 포함하는 인공지능 모델 기반의 모델 특정 방법 및 그 시스템에 관한 것이다. 보다 상세하게는, MoE(Mixture of Experts) 모델 내 소정의 전문 모델에 대한 모듈화를 구현하는 MoE 기반의 모델 특정 방법 및 그 시스템에 관한 것이다. 일반적으로 인공지능(Artificial Intelligence, AI)은, 다수의 AI 모델과 이에 기초한 딥러닝 학습을 통해 구현된다. 이러한 인공지능은, 유저의 컨텍스트(예컨대, 맥락, 환경 및/또는 의도 등)를 고려하여 다양한 서비스를 제공하고자 개발되고 있다. 그러나 대용량 데이터를 기반으로 특정 태스크(Task)를 처리하려는 경우, 이에 요구되는 연산 비용이나 소요 시간이 상당하다는 한계가 있다. 이로 인해, 최근 들어 주목받는 온디바이스(On-Device) 환경에서의 AI 모델의 사용에도 소정의 제약이 존재하는 상황이다. 이를 해결하기 위해 종래에는, MoE(Mixture of Experts)와 같은 모델 아키텍처를 활용하고 있다. 여기서, MoE란, 다수의 전문가 모델(Expert Models)을 조합하여 복잡한 문제를 해결하는 머신러닝 모델의 아키텍처를 의미할 수 있다. 이러한 MoE는, 소정의 데이터의 다른 부분 및/또는 서로 다른 특성을 학습하도록 설계되고 그에 따른 데이터 처리 동작을 수행하는 여러 개의 작은 네트워크인 전문가 모델과, 각 전문가 모델의 성능을 평가하고 이에 기초해 소정의 데이터에 따른 특정 태스크를 어떤 전문가 모델로 할당하는 것이 가장 적합한지 결정하는 게이팅 네트워크(Gating Network)를 포함할 수 있다. 그리하여 MoE 아키텍처에 따르면, 소정의 입력 데이터를 획득한 게이팅 네트워크가 각 전문가 모델에 대한 확률적 또는 결정적 작업 할당을 결정하고, 선택된 전문가 모델들은 각자의 작업을 수행해 그 결과를 반환함으로써 특정 태스크를 위한 데이터 처리를 수행할 수 있다. 이와 같은 MoE를 활용함에 따라서 AI 모델은, 복잡한 태스크나 대량의 데이터 셋을 다루는 등의 경우에 특정 부분만을 활성화하여 계산 리소스를 집중함으로써 전체적인 효율성 및 성능을 증진시킬 수 있다. 그러나 종래와 같은 MoE의 경우, 높은 수준의 VRAM이 필요할 뿐만 아니라 파인 튜닝(Fine Tuning) 과정에서 해결해야할 과제 또한 상당한 실정이다. 이에 더해, 종래의 MoE 방식은 큰 사이즈의 모델을 효율적으로 관리하기 위한 것으로서, 주어진 태스크에 따라 활성화되지 못한 나머지 자원들의 효율성을 지원하는 부분에 있어서는 한계를 가지고 있다. 또한, 종래의 본 기술분야에서는, 대부분 범용적으로 구현된 AI 모델을 이용하여 서비스를 제공하는데, 주어진 컨텍스트에 가장 적합한 AI 분석 성능을 빠르고 용이하게 확보하기 어렵다는 문제를 가진다. 도 1은 본 개시의 일 실시예에 따른 MoE 아키텍처 기반 모델 제공 서비스를 구현하는 컴퓨팅 시스템의 블록도의 예시를 도시한다. 도 2는 본 개시의 일 실시예에 따른 MoE 아키텍처 기반 모델 제공 서비스를 구현하는 컴퓨팅 디바이스의 블록도의 예시를 도시한다. 도 3은 본 개시의 일 실시예에 따른 MoE 아키텍처 기반 모델 제공 서비스를 구현하는 컴퓨팅 디바이스에 대한 다른 측면에서의 블록도의 예시를 도시한다. 도 4는 본 개시의 일 실시예에 따른 AI 에이전트 모델의 내부 블록도를 도시한다. 도 5는 본 개시의 일 실시예에 따른 MoE 모델 제공 방법을 설명하기 위한 흐름도를 도시한다. 도 6은 본 개시의 일 실시예에 따른 MoE 모델 제공 방법을 설명하기 위한 개념도를 도시한다. 도 7은 본 개시의 일 실시예에 따른 MoE 기반의 모델 특정 방법을 설명하기 위한 흐름도를 도시한다. 도 8은 본 개시의 일 실시예에 따른 MoE 기반의 모델 특정 방법을 설명하기 위한 개념도를 도시한다. 도 9는 본 개시의 일 실시예에 따른 전문 모델 특성정보의 예시를 도시한다. 도 10은 본 개시의 일 실시예에 따른 MoE 응용 LLM 기반의 AI 에이전트 제공 방법을 설명하기 위한 흐름도를 도시한다. 도 11은 본 개시의 일 실시예에 따른 MoE 응용 LLM 기반의 AI 에이전트 제공 방법을 설명하기 위한 개념도를 도시한다. 본 개시는 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 개시의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다. 이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다. 또한, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다. 또한, 도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 개시가 반드시 도시된 바에 한정되지 않는다. 이하, 첨부된 도면을 참조하여 본 개시의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. [MoE 아키텍처 기반 모델 제공 서비스를 구현하는 예시적인 시스템] 이하, MoE(Mixture of Experts) 모델 내 소정의 전문 모델에 대한 모듈화를 구현하는 MoE 아키텍처 기반 모델 제공 서비스를 구현하는 예시적인 시스템을 첨부된 도면을 참조하여 상세히 설명한다. 도 1은 본 개시의 일 실시예에 따른 MoE 아키텍처 기반 모델 제공 서비스를 구현하는 컴퓨팅 시스템의 블록도의 예시를 도시한다. 도 1을 참조하면, 본 개시의 MoE 아키텍처 기반 모델 제공 서비스를 구현하는 컴퓨팅 시스템(1000)은, 유저 컴퓨팅 디바이스(110), 서버 컴퓨팅 시스템(130) 및 트레이닝 컴퓨팅 시스템(150)을 포함하며, 디바이스들은 네트워크(170)를 통해 통신 가능하다. 본 개시의 일 실시예에 따른 MoE 모델 내 소정의 전문 모델에 대한 모듈화를 구현하는 MoE 아키텍처 기반 모델 제공 서비스는, 1) 유저 컴퓨팅 디바이스(110)가 로컬에서 구현 및 제공할 수도 있고, 2) 유저 컴퓨팅 디바이스(110)와 통신하는 서버 컴퓨팅 시스템(130)이 웹 서비스 형태로 구현 및 제공할 수도 있고, 3) 유저 컴퓨팅 디바이스(110)와 서버 컴퓨팅 시스템(130)이 서로 연계하여 구현 및 제공할 수도 있다. 이때, 실시예에서 유저 컴퓨팅 디바이스(110) 및/또는 서버 컴퓨팅 시스템(130)은, 네트워크(170)를 통해 통신적으로 연결된 트레이닝 컴퓨팅 시스템(150)과의 인터렉션을 통해 머신 러닝 모델(120 및/또는 140)을 학습시킬 수 있다. 트레이닝 컴퓨팅 시스템(150)은, 서버 컴퓨팅 시스템(130)과 별개이거나 서버 컴퓨팅 시스템(130)의 일부일 수 있다. 그리고 이때, 인공지능 모델은, 1) 유저 컴퓨팅 디바이스(110)가 로컬에서 직접 학습시킬 수 있고, 2) 서버 컴퓨팅 시스템(130)과 유저 컴퓨팅 디바이스(110)가 네트워크(170)를 통해 서로 인터랙션하며 학습시킬 수 있고, 3) 별도의 트레이닝 컴퓨팅 시스템(150)이 다양한 트레이닝 기법과 학습 기법을 사용하여 학습시킬 수 있다. 그리고 트레이닝 컴퓨팅 시스템(150)이 학습시킨 인공지능 모델을 네트워크(170)를 통해 유저 컴퓨팅 디바이스(110) 및/또는 서버 컴퓨팅 시스템(130)에 전송하여 제공/업데이트 하는 방식으로 구현될 수도 있다. 일부 실시예에서 트레이닝 컴퓨팅 시스템(150)은, 서버 컴퓨팅 시스템(130)의 일부이거나, 유저 컴퓨팅 디바이스(110)의 일부일 수 있다. 유저 컴퓨팅 디바이스(110)는, 스마트 폰(smart phone), 휴대폰, 디지털방송용 디바이스, PDA(personal digital assistants), PMP(portable multimedia player), 데스크 탑, 웨어러블 디바이스, 임베디드 컴퓨팅 장치 및/또는 태블릿 PC(tablet PC) 등 기타 모든 유형의 컴퓨팅 장치를 포함할 수 있다. 이러한 유저 컴퓨팅 디바이스(110)는, 적어도 하나 이상의 프로세서(111) 및 메모리(112)를 포함한다. 여기서, 프로세서(111)는, 중앙처리장치(CPU), 그래픽처리장치(GPU), ASICs (application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 제어기(controllers), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세스(microprocessors) 및/또는 기타 기능 수행을 위한 전기적 유닛 중 적어도 하나 또는 전기적으로 연결된 복수의 프로세서들로 구성될 수 있다. 메모리(112)는, RAM, ROM, EEPROM, EPROM, 플래시 메모리 디바이스, 자기 디스크 등 같은 하나 이상의 비일시적/일시적 컴퓨터 판독가능한 저장 매체 및 이들의 조합을 포함할 수 있고, 인터넷(internet) 상에서 메모리의 저장 기능을 수행하는 서버의 웹 스토리지(web storage)를 포함할 수 있다.