Search

KR-20260060658-A - METHOD AND SYSTEM FOR DYNAMIC DATA CHUNKING AND RESOURCE OPTIMIZATION BASED ON TEXT RECOGNITION

KR20260060658AKR 20260060658 AKR20260060658 AKR 20260060658AKR-20260060658-A

Abstract

컨텍스트 인식 기반의 동적 데이터 청킹과 리소스 최적화 방법 및 시스템이 개시된다. 입력 데이터에 대해 애플리케이션 컨텍스트와 시스템 상태를 분석하여 데이터 청크 크기를 결정하고, 상기 데이터 청크 크기를 바탕으로 상기 입력 데이터에 대한 데이터 처리 및 리소스 할당을 수행할 수 있다.

Inventors

  • 양진홍

Assignees

  • 인제대학교 산학협력단

Dates

Publication Date
20260506
Application Date
20241025

Claims (15)

  1. 컴퓨터 장치에서 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서 를 포함하고, 상기 적어도 하나의 프로세서는, 입력 데이터에 대해 애플리케이션 컨텍스트와 시스템 상태를 분석하여 데이터 청크 크기를 결정하는 과정; 및 상기 데이터 청크 크기를 바탕으로 상기 입력 데이터에 대한 데이터 처리 및 리소스 할당을 수행하는 과정 을 처리하는 컴퓨터 장치.
  2. 제1항에 있어서, 상기 적어도 하나의 프로세서는, 상기 입력 데이터의 구조, 분포, 및 접근 패턴을 분석하고, 기계학습 알고리즘과 통계적 방법을 사용하여 상기 입력 데이터의 특성을 추출하는 것 을 특징으로 하는 컴퓨터 장치.
  3. 제1항에 있어서, 상기 적어도 하나의 프로세서는, 다차원 컨텍스트 모델링 기법을 사용하여 현재 컨텍스트를 파악하는 것 을 특징으로 하는 컴퓨터 장치.
  4. 제1항에 있어서, 상기 적어도 하나의 프로세서는, 복수 개의 센서와 로그 분석 기술을 활용하여 시스템 전반의 데이터를 수집하고, 상기 수집된 데이터를 다차원 벡터 공간에 매핑하여 현재 컨텍스트를 모델링하고, 모델링된 컨텍스트 데이터에서 의미 있는 패턴을 식별하는 것 을 특징으로 하는 컴퓨터 장치.
  5. 제1항에 있어서, 상기 적어도 하나의 프로세서는, 다목적 최적화 기법을 통해 처리 속도, 메모리 사용량, 및 디스크 I/O를 고려하여 상기 데이터 청크 크기를 결정하는 것 을 특징으로 하는 컴퓨터 장치.
  6. 제1항에 있어서, 상기 적어도 하나의 프로세서는, 시스템 리소스 한계와 서비스 수준 협약(SLA) 요구사항을 제약 조건으로 설정하고, 동적으로 변화하는 상기 제약 조건을 실시간으로 반영하여 상기 데이터 청크 크기를 결정하는 것 을 특징으로 하는 컴퓨터 장치.
  7. 제1항에 있어서, 상기 적어도 하나의 프로세서는, 데이터의 구조와 접근 패턴에 따라 그래프 파티셔닝 기법과 동적 인덱싱을 통해 데이터 분할을 수행하는 것 을 특징으로 하는 컴퓨터 장치.
  8. 제1항에 있어서, 상기 적어도 하나의 프로세서는, 상기 입력 데이터의 스키마와 관계 및 분포를 포함한 구조적 특성을 분석하고, 데이터 항목별 접근 빈도와 접근 패턴을 분석하여 핫 데이터와 콜드 데이터를 구분하고, 상기 접근 빈도에 따라 데이터를 다른 저장 계층에 배치하고 상기 접근 패턴에 따라 데이터 재분할을 수행하는 것 을 특징으로 하는 컴퓨터 장치.
  9. 제1항에 있어서, 상기 적어도 하나의 프로세서는, 현재 시스템에 가해지는 워크로드의 특성을 분석하고, 상기 워크로드의 특성에 따라 데이터 분할 전략을 선택하는 것 을 특징으로 하는 컴퓨터 장치.
  10. 제1항에 있어서, 상기 적어도 하나의 프로세서는, LSTM 네트워크와 강화학습을 통해 미래의 데이터 접근 패턴을 예측하여 상기 입력 데이터를 로드하는 것 을 특징으로 하는 컴퓨터 장치.
  11. 제1항에 있어서, 상기 적어도 하나의 프로세서는, 과거의 데이터 접근 패턴을 분석하여 미래의 접근 시퀀스를 예측하고, 현재 애플리케이션 상태와 시스템 컨텍스트에 따라 상기 예측된 시퀀스에 가중치를 부여하고, 상기 부여된 가중치를 통해 프리페칭 우선순위를 결정하는 것 을 특징으로 하는 컴퓨터 장치.
  12. 제1항에 있어서, 상기 적어도 하나의 프로세서는, 시스템의 현재 리소스 상태와 프리페칭 중요도를 고려하여 프리페칭 스케줄을 결정하는 것 을 특징으로 하는 컴퓨터 장치.
  13. 제1항에 있어서, 상기 적어도 하나의 프로세서는, 현재 컨텍스트와 워크로드 특성에 따라 시스템 리소스를 할당하여 청크 단위의 리소스 관리를 수행하는 것 을 특징으로 하는 컴퓨터 장치.
  14. 제1항에 있어서, 상기 적어도 하나의 프로세서는, 각 청크 처리에 필요한 CPU, 메모리, 및 I/O 요구사항을 프로파일링하고, 프로파일링 결과를 기초로 리소스 풀을 구성하고 리소스 할당 우선순위를 결정하는 것 을 특징으로 하는 컴퓨터 장치.
  15. 적어도 하나의 프로세서를 포함하는 컴퓨터 장치의 동적 데이터 청킹과 리소스 최적화 방법에 있어서, 상기 적어도 하나의 프로세서에 의해, 입력 데이터에 대해 애플리케이션 컨텍스트와 시스템 상태를 분석하여 데이터 청크 크기를 결정하는 단계; 및 상기 적어도 하나의 프로세서에 의해, 상기 데이터 청크 크기를 바탕으로 상기 입력 데이터에 대한 데이터 처리 및 리소스 할당을 수행하는 단계 를 포함하는 동적 데이터 청킹과 리소스 최적화 방법.

Description

컨텍스트 인식 기반의 동적 데이터 청킹과 리소스 최적화 방법 및 시스템{METHOD AND SYSTEM FOR DYNAMIC DATA CHUNKING AND RESOURCE OPTIMIZATION BASED ON TEXT RECOGNITION} 아래의 설명은 동적 데이터 청킹(chunking)과 리소스 최적화를 위한 기술에 관한 것이다. 본 특허는 스마트 항만물류 CFS 구축을 위한 고신뢰 지능형 관제 플랫폼 개발 연구과제(P0026190)로 산업통상자원부의 지원을 받아 수행하였다. 이메일, 전자상거래 등과 같은 다양한 네트워크 기반 응용에 의해 생성되는 방대한 양의 데이터가 급격하게 증가함에 따라 기업에서는 상기와 같이 급격히 증가하는 대량의 데이터를 가능한 많이 지속적으로 축적하기 위해 스토리지 시스템(storage system) 구축에 심혈을 기울이고 있다. 이는 기업의 중요한 비즈니스 프로세스를 지원하기 위한 데이터 관리가 조직 역량의 중추적인 요소로 평가되고 있기 때문이다. 하지만, 기업에서 활용되고 있는 스토리지 시스템 관련 기술은 여러 문제에 직면해 있다. 즉, 기업이 이미 보유하고 있는 이질적인 인터넷 환경으로 인해 기업에서는 여러 곳에 산재하고 있는 스토리지 저장소들에 존재하는 정보들을 관리 및 활용하기가 매우 어렵다. 이에 따라, 대용량 데이터 처리 시스템에서는 효율적인 데이터 관리를 위해 데이터를 작은 단위(즉, 청크)로 분할하여 처리한다. 대용량 데이터 처리 기술의 일례로, 한국 공개특허 제10-2019-0093802호(공개일 2019년 08월 12일)에는 복수의 클라이언트에서 빅데이터를 청크 단위로 분할하고 각 데이터 청크에 대해 순차적으로 다변량 분석을 수행하여 중간값을 산출한 후 산출된 데이터 청크의 중간값을 중앙서버로 전송하고, 중앙서버에서 복수의 클라이언트로부터 수신한 중간값에 기초하여 계수를 추정하고 추정된 계수를 복수의 클라이언트로 전송하는 기술이 개시되어 있다. 도 1은 본 발명의 일실시예에 있어서 컴퓨터 장치의 내부 구성의 일례를 설명하기 위한 블록도이다. 도 2는 본 발명의 일실시예에 있어서 동적 데이터 청킹과 리소스 최적화 시스템의 전체 아키텍처를 도시한 것이다. 도 3은 본 발명의 일실시예에 있어서 컨텍스트 분석 엔진의 세부 구성을 도시한 것이다. 도 4는 본 발명의 일실시예에 있어서 동적 청크 크기 최적화 모듈의 세부 구성을 도시한 것이다. 도 5는 본 발명의 일실시예에 있어서 적응형 데이터 분할 모듈의 세부 구성을 도시한 것이다. 도 6은 본 발명의 일실시예에 있어서 예측적 데이터 프리페칭 모듈의 세부 구성을 도시한 것이다. 도 7은 본 발명의 일실시예에 있어서 컨텍스트 기반 리소스 할당 모듈의 세부 구성을 도시한 것이다. 이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 본 발명의 실시예들은 동적 데이터 청킹과 리소스 최적화를 위한 기술에 관한 것이다. 본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 실시간으로 애플리케이션 컨텍스트와 시스템 상태를 분석하여 최적의 데이터 청크 크기를 동적으로 결정하고, 이를 바탕으로 효율적인 데이터 처리 및 리소스 할당을 수행할 수 있다. 본 발명의 실시예들에 따른 동적 데이터 청킹과 리소스 최적화 시스템은 적어도 하나의 컴퓨터 장치에 의해 구현될 수 있으며, 본 발명의 실시예들에 따른 동적 데이터 청킹과 리소스 최적화 방법은 동적 데이터 청킹과 리소스 최적화 시스템에 포함되는 적어도 하나의 컴퓨터 장치를 통해 수행될 수 있다. 이때, 컴퓨터 장치에는 본 발명의 일실시예에 따른 컴퓨터 프로그램이 설치 및 구동될 수 있고, 컴퓨터 장치는 구동된 컴퓨터 프로그램의 제어에 따라 본 발명의 실시예들에 따른 동적 데이터 청킹과 리소스 최적화 방법을 수행할 수 있다. 상술한 컴퓨터 프로그램은 컴퓨터 장치와 결합되어 동적 데이터 청킹과 리소스 최적화 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장될 수 있다. 도 1은 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다. 예를 들어, 본 발명의 실시예들에 따른 동적 데이터 청킹과 리소스 최적화 시스템은 도 1을 통해 도시된 컴퓨터 장치(100)에 의해 구현될 수 있다. 도 1에 도시된 바와 같이 컴퓨터 장치(100)는 본 발명의 실시예들에 따른 동적 데이터 청킹과 리소스 최적화 방법을 실행하기 위한 구성요소로서, 메모리(110), 프로세서(120), 통신 인터페이스(130) 그리고 입출력 인터페이스(140)를 포함할 수 있다. 메모리(110)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 디스크 드라이브와 같은 비소멸성 대용량 기록장치는 메모리(110)와는 구분되는 별도의 영구 저장 장치로서 컴퓨터 장치(100)에 포함될 수도 있다. 또한, 메모리(110)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(110)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리(110)로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스(130)를 통해 메모리(110)에 로딩될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크(160)를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 컴퓨터 장치(100)의 메모리(110)에 로딩될 수 있다. 프로세서(120)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(110) 또는 통신 인터페이스(130)에 의해 프로세서(120)로 제공될 수 있다. 예를 들어, 프로세서(120)는 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다. 통신 인터페이스(130)는 네트워크(160)를 통해 컴퓨터 장치(100)가 다른 장치와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 컴퓨터 장치(100)의 프로세서(120)가 메모리(110)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스(130)의 제어에 따라 네트워크(160)를 통해 다른 장치들로 전달될 수 있다. 역으로, 다른 장치로부터의 신호나 명령, 데이터, 파일 등이 네트워크(160)를 거쳐 컴퓨터 장치(100)의 통신 인터페이스(130)를 통해 컴퓨터 장치(100)로 수신될 수 있다. 통신 인터페이스(130)를 통해 수신된 신호나 명령, 데이터 등은 프로세서(120)나 메모리(110)로 전달될 수 있고, 파일 등은 컴퓨터 장치(100)가 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다. 통신 방식은 제한되지 않으며, 네트워크(160)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들 간의 근거리 유선/무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(160)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(160)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다. 입출력 인터페이스(140)는 입출력 장치(150)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 마이크, 키보드, 카메라 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(140)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치(150)는 컴퓨터 장치(100)와 하나의 장치로 구성될 수도 있다. 또한, 다른 실시예들에서 컴퓨터 장치(100)는 도 1의 구성요소들보다 더 적은 혹은 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 장치(100)는 상술한 입출력 장치(150) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), 카메라, 각종 센서, 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다. 이하에서는 컨텍스트 인식 기반의 동적 데이터 청킹과 리소스 최적화 기술의 구체적인 실시예를 설명하기로 한다. 대용량 데이터 처리 시스템에서는 효율적인 데이터 관리를 위해 데이터를 고정된 크기의 청크로 분할하여 처리한다. 이러한 정적 청킹 방식은 다음과 같은 한계를 가지고 있다. 고정된 청크 크기로 인한 비효율성 문제로, 기존 데이터 처리 시스템은 대부분 미리 정의된 고정 크기의 청크를 사용하여 데이터를 관리한다. 이러한 고정 크기 방식은 다양한 데이터 유형과 변화하는 시스템 상태를 효과적으로 반영하지 못하며, 결과적으로 데이터 처리 효율성이 저하되고, 시스템 성능 최적화에 제한이 발생한다. 또한, 리소스 활용의 불균형 문제로, 기존 시스템은 CPU, 메모리, 스토리지 등 다양한 리소스 간의 균형을 동적으로 조절하는 능력이 부족하다. 이로 인해 특정 리소스는 과도하게 사용되는 반면, 다른 리소스는 충분히 활용되지 못하는 불균형 상태가 발생한다. 이러한 불