KR-20260061852-A - APPARATUS FOR GENERATING ANOMALY TIME SERIES DATA AND METHOD THEREOF

KR20260061852AKR 20260061852 AKR20260061852 AKR 20260061852AKR-20260061852-A

Abstract

본 개시는 이상 시계열 데이터를 생성하는 기술에 관한 것으로, 시계열 데이터를 수신하고, 시계열 데이터를 미리 설정된 기준에 따라 분할하고, 분할된 시계열 데이터 각각에 대한 확률 밀도 함수를 포함하는 잠재 벡터를 산출하고, 복수의 확률 밀도 함수를 통합한 통합 확률 밀도 함수에서 특정 확률에 대한 상기 각 확률 밀도 함수 별 확률 변수 값을 산출하고, 각 확률 밀도 함수 별 확률 변수 값을 잠재 벡터에 반영한 수정 잠재 벡터 및 미리 설정된 제 1 알고리즘을 통해 학습된 인공지능 모델에 기초하여 이상 시계열 데이터를 생성하는 것을 포함하는 이상 시계열 데이터 생성 장치 및 방법을 제공한다.

Inventors

정경채
이장우
나지훈
김현중
박성우

Assignees

포스코홀딩스 주식회사

Dates

Publication Date: 20260506
Application Date: 20241028

Claims (20)

시계열 데이터를 수신하는 데이터 수신부; 상기 시계열 데이터를 미리 설정된 기준에 따라 분할하고, 상기 분할된 시계열 데이터 각각에 대한 확률 밀도 함수를 포함하는 잠재 벡터를 산출하는 잠재 벡터 산출부; 상기 복수의 확률 밀도 함수를 통합한 통합 확률 밀도 함수에서 특정 확률에 대한 상기 각 확률 밀도 함수 별 확률 변수 값을 산출하는 확률 변수 값 산출부; 및 상기 각 확률 밀도 함수 별 확률 변수 값을 상기 잠재 벡터에 반영한 수정 잠재 벡터 및 미리 설정된 제 1 알고리즘을 통해 학습된 인공지능 모델에 기초하여 이상 시계열 데이터를 생성하는 이상 시계열 데이터 생성부를 포함하는 이상 시계열 데이터 생성 장치.
제 1 항에 있어서, 상기 시계열 데이터는, 정상 데이터만을 포함하는 것을 특징으로 하는 이상 시계열 데이터 생성 장치.
제 1 항에 있어서, 상기 시계열 데이터는, 신경망 네트워크, 1D(1Dimensional) Convolution 연산, 2D(2Dimensional) Convolution 연산 중 적어도 하나에 기초하여 전처리된 데이터인 것을 특징으로 하는 이상 시계열 데이터 생성 장치.
제 1 항에 있어서, 상기 미리 설정된 기준은, 데이터 개수에 대한 기준 및 단위 시간에 대한 기준 중 적어도 하나를 포함하는 것을 특징으로 하는 이상 시계열 데이터 생성 장치.
제 1 항에 있어서, 상기 인공지능 모델은, 적어도 하나의 오토인코더를 포함하고, 상기 미리 설정된 제 1 알고리즘은, 상기 인공지능 모델의 학습 과정에서 발생되는 손실을 최소화하는 경사 하강 알고리즘(Gradient Descent Algorithm)을 포함하는 것을 특징으로 하는 이상 시계열 데이터 생성 장치.
제 1 항에 있어서, 상기 잠재 벡터 산출부는, 상기 분할된 시계열 데이터 각각에 대한 평균 및 분산을 산출하고, 미리 설정된 제 2 알고리즘에 기초하여 상기 분할된 시계열 데이터 각각에 대한 노이즈를 산출하되, 상기 미리 설정된 제 2 알고리즘은 가우시안 필터를 포함하는 것을 특징으로 하는 이상 시계열 데이터 생성 장치.
제 6 항에 있어서, 상기 잠재 벡터 산출부는, 상기 분할된 시계열 데이터 각각에 대한 상기 평균 및 상기 분산에 기초하여 상기 복수의 확률 밀도 함수를 산출하고, 상기 복수의 확률 밀도 함수는, 정규 분포(Normal distribution) 및 균등 분포(Uniform distribution) 중 적어도 하나를 포함하는 것을 특징으로 하는 이상 시계열 데이터 생성 장치.
제 6 항에 있어서, 상기 잠재 벡터 산출부는, 상기 분할된 시계열 데이터 각각에 대한 상기 평균, 상기 분산 및 상기 노이즈에 기초하여 상기 잠재 벡터를 산출하는 것을 특징으로 하는 이상 시계열 데이터 생성 장치.
제 1 항에 있어서, 상기 잠재 벡터 산출부는, 상기 시계열 데이터가 입력된 인공지능 모델을 통하여 상기 잠재 벡터를 산출하고, 상기 인공지능 모델을 통해 출력되는 데이터는, 상기 시계열 데이터와 동일한 것을 특징으로 하는 이상 시계열 데이터 생성 장치.
제 1 항에 있어서, 상기 통합 확률 밀도 함수는, 상기 복수의 확률 밀도 함수의 합에 기초하여 통합되는 것을 특징으로 하는 이상 시계열 데이터 생성 장치.
제 1 항에 있어서, 상기 확률 변수 값 산출부는, 상기 복수의 확률 밀도 함수를 미리 설정된 공간에 표시하고, 상기 공간에 표시된 상기 복수의 확률 밀도 함수의 중심 위치 및 미리 설정된 제 3 알고리즘에 기초하여 상기 통합 확률 밀도 함수를 산출하되, 상기 미리 설정된 제 3 알고리즘은, 상기 수신된 시계열 데이터에 포함된 각 데이터가 상기 복수의 확률 밀도 함수 각각에 속할 확률에 기초하여 상기 통합 확률 밀도 함수를 산출하는 기댓값 최대화 알고리즘(Expectation-Maximization algorithm, EM algorithm)을 포함하는 것을 특징으로 하는 이상 시계열 데이터 생성 장치.
시계열 데이터를 수신하는 데이터 수신 단계; 상기 시계열 데이터를 미리 설정된 기준에 따라 분할하고, 상기 분할된 시계열 데이터 각각에 대한 확률 밀도 함수를 포함하는 잠재 벡터를 산출하는 잠재 벡터 산출 단계; 상기 복수의 확률 밀도 함수를 통합한 통합 확률 밀도 함수에서 특정 확률에 대한 상기 각 확률 밀도 함수 별 확률 변수 값을 산출하는 확률 변수 값 산출 단계; 및 상기 각 확률 밀도 함수 별 확률 변수 값을 상기 잠재 벡터에 반영한 수정 잠재 벡터 및 미리 설정된 제 1 알고리즘을 통해 학습된 인공지능 모델에 기초하여 이상 시계열 데이터를 생성하는 이상 시계열 데이터 생성 단계를 포함하는 이상 시계열 데이터 생성 방법.
제 12 항에 있어서, 상기 시계열 데이터는, 정상 데이터만을 포함하는 것을 특징으로 하는 이상 시계열 데이터 생성 방법.
제 12 항에 있어서, 상기 시계열 데이터는, 신경망 네트워크, 1D(1Dimensional) Convolution 연산, 2D(2Dimensional) Convolution 연산 중 적어도 하나에 기초하여 전처리된 데이터인 것을 특징으로 하는 이상 시계열 데이터 생성 방법.
제 12 항에 있어서, 상기 미리 설정된 기준은, 데이터 개수에 대한 기준 및 단위 시간에 대한 기준 중 적어도 하나를 포함하는 것을 특징으로 하는 이상 시계열 데이터 생성 방법.
제 12 항에 있어서, 상기 인공지능 모델은, 적어도 하나의 오토인코더를 포함하고, 상기 미리 설정된 제 1 알고리즘은, 상기 인공지능 모델의 학습 과정에서 발생되는 손실을 최소화하는 경사 하강 알고리즘(Gradient Descent Algorithm)을 포함하는 것을 특징으로 하는 이상 시계열 데이터 생성 방법.
제 12 항에 있어서, 상기 잠재 벡터 산출 단계는, 상기 분할된 시계열 데이터 각각에 대한 평균 및 분산을 산출하고, 미리 설정된 제 2 알고리즘에 기초하여 상기 분할된 시계열 데이터 각각에 대한 노이즈를 산출하되, 상기 미리 설정된 제 2 알고리즘은 가우시안 필터를 포함하는 것을 특징으로 하는 이상 시계열 데이터 생성 방법.
제 12 항에 있어서, 상기 잠재 벡터 산출 단계는, 상기 시계열 데이터가 입력된 인공지능 모델을 통하여 상기 잠재 벡터를 산출하고, 상기 인공지능 모델을 통해 출력되는 데이터는, 상기 시계열 데이터와 동일한 것을 특징으로 하는 이상 시계열 데이터 생성 방법.
제 12 항에 있어서, 상기 통합 확률 밀도 함수는, 상기 복수의 확률 밀도 함수의 합에 기초하여 통합되는 것을 특징으로 하는 이상 시계열 데이터 생성 방법.
제 12 항에 있어서, 상기 확률 변수 산출 단계는, 상기 복수의 확률 밀도 함수를 미리 설정된 공간에 표시하고, 상기 공간에 표시된 상기 복수의 확률 밀도 함수의 중심 위치 및 미리 설정된 제 3 알고리즘에 기초하여 상기 통합 확률 밀도 함수를 산출하되, 상기 미리 설정된 제 3 알고리즘은, 상기 수신된 시계열 데이터에 포함된 각 데이터가 상기 복수의 확률 밀도 함수 각각에 속할 확률에 기초하여 상기 통합 확률 밀도 함수를 산출하는 기댓값 최대화 알고리즘(Expectation-Maximization algorithm, EM algorithm)을 포함하는 것을 특징으로 하는 이상 시계열 데이터 생성 방법.

Description

이상 시계열 데이터 생성 장치 및 방법{APPARATUS FOR GENERATING ANOMALY TIME SERIES DATA AND METHOD THEREOF} 본 개시는 이상 시계열 데이터를 생성하는 기술에 관한 것이다. 인공 지능은 인간의 지능과 유사한 방식으로 반복적으로 학습을 수행하고, 학습 결과에 기초하여 판단을 수행하는 분야이다. 인공지능은 머신러닝 및 딥러닝을 포함하는 광의의 개념으로, 머신러닝은 딥러닝을 포함하는 광의의 개념으로 사용된다. 머신러닝(Machine Learning)은 AI(Artificial intelligence)의 한 분야로 데이터를 바탕으로 컴퓨터가 학습할 수 있도록 하는 알고리즘 및 기술을 개발하는 분야이며, 이미지 처리, 영상 인식, 음성 인식, 인터넷 검색 등의 다양한 분야의 핵심 기술로 예측(prediction) 및 이상 탐지(anomaly detection) 등에 탁월한 성과를 나타낸다. 최근 제조업 설비의 이상 여부를 탐지하기 위해 인공지능 모델을 활용하는 기술에 대한 연구가 활발히 진행되고 있다. 이상 탐지에 이용되는 인공지능 모델의 학습 또는 성능 개선을 위하여 다양한 데이터를 활용할 필요가 있는데, 종래에는 원본 데이터를 변환하는 방법으로 데이터 증대를 수행하여 왔다. 하지만, 원본 데이터를 단순히 변환하는 방식만으로는 설비의 이상 상황을 탐지하는데 필요한 이상 시계열 데이터를 충분히 획득하기 어렵고, 설비에 적용된 인공지능 모델이 정상 데이터 위주로 학습이 수행되어, 이상 상황을 정확히 감지하지 못하는 문제가 있다. 도 1은 일 실시예에 따른 이상 시계열 데이터를 생성하는 장치의 구성에 관하여 설명하기 위한 도면이다. 도 2는 일 실시예에 따른 이상 시계열 데이터를 생성하는 과정을 개략적으로 설명하기 위한 순서도이다. 도 3은 일 실시예에 따른 단변량 시계열 데이터에 대한 전처리 방식을 설명하기 위한 도면이다. 도 4 및 도 5는 일 실시예에 따른 다변량 시계열 데이터에 대한 전처리 방식을 설명하기 위한 도면이다. 도 6은 일 실시예에 따른 잠재 벡터 산출에 대하여 설명하기 위한 예시 도면이다. 도 7은 일 실시예에 따른 잠재 벡터의 산출 수식에 대하여 설명하기 위한 도면이다. 도 8은 일 실시예에 따른 통합 확률 밀도 함수에 대하여 설명하기 위한 도면이다. 도 9는 일 실시예에 따른 수정 잠재 벡터의 산출 방식에 대하여 설명하기 위한 그래프이다. 도 10은 일 실시예에 따른 이상 시계열 데이터를 생성하는 방법에 관하여 설명하기 위한 순서도이다. 이하, 본 개시의 일부 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성 요소들에 참조부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가질 수 있다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 기술 사상의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 수 있다. 본 명세서 상에서 언급된 "포함한다", "갖는다", "이루어진다" 등이 사용되는 경우 "~만"이 사용되지 않는 이상 다른 부분이 추가될 수 있다. 구성 요소를 단수로 표현한 경우에 특별한 명시적인 기재 사항이 없는 한 복수를 포함하는 경우를 포함할 수 있다. 또한, 본 개시의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질, 차례, 순서 또는 개수 등이 한정되지 않는다. 구성 요소들의 위치 관계에 대한 설명에 있어서, 둘 이상의 구성 요소가 "연결", "결합" 또는 "접속" 등이 된다고 기재된 경우, 둘 이상의 구성 요소가 직접적으로 "연결", "결합" 또는 "접속" 될 수 있지만, 둘 이상의 구성 요소와 다른 구성 요소가 더 "개재"되어 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다. 여기서, 다른 구성 요소는 서로 "연결", "결합" 또는 "접속" 되는 둘 이상의 구성 요소 중 하나 이상에 포함될 수도 있다. 구성 요소들이나, 동작 방법이나 제작 방법 등과 관련한 시간적 흐름 관계에 대한 설명에 있어서, 예를 들어, "~후에", "~에 이어서", "~다음에", "~전에" 등으로 시간적 선후 관계 또는 흐름적 선후 관계가 설명되는 경우, "바로" 또는 "직접"이 사용되지 않는 이상 연속적이지 않은 경우도 포함할 수 있다. 한편, 구성 요소에 대한 수치 또는 그 대응 정보(예: 레벨 등)가 언급된 경우, 별도의 명시적 기재가 없더라도, 수치 또는 그 대응 정보는 각종 요인(예: 공정상의 요인, 내부 또는 외부 충격, 노이즈 등)에 의해 발생할 수 있는 오차 범위를 포함하는 것으로 해석될 수 있다. 이하 도면을 참조하여 실시예들을 상세히 설명한다. 도 1은 일 실시예에 따른 이상 시계열 데이터를 생성하는 장치의 구성에 관하여 설명하기 위한 도면이다. 도 1을 참조하면, 본 개시의 이상 시계열 데이터를 생성하는 장치(100)는 시계열 데이터를 수신하는 데이터 수신부(110)를 포함한다. 제조업과 같이 미리 설정된 공정에 따라 순차적으로 작업이 수행되는 분야에서 사용되는 정보는 주로 시계열 데이터(Time Series Data)의 형태를 가질 수 있다. 또한, 시계열 데이터를 오토인코더를 포함하는 인공지능 모델에 입력하여 제조 공정이 수행될 수도 있다. 인공지능 모델이 이용되는 공정상의 문제점을 파악하기 위하여는 이상 시계열 데이터를 포함한 다양한 데이터를 이용하여 인공지능 모델의 성능을 미리 검증할 필요가 있다. 하지만, 일반적으로 실제 공정에서 확인할 수 있는 데이터는 이상 시계열 데이터보다는 정상 데이터가 많기 때문에, 이상 시계열 데이터만을 대량으로 획득하기는 쉽지 않다. 이에 본 개시는 이상 시계열 데이터를 생성할 수 있는 방안을 제안한다. 일 예로, 본 개시의 데이터 수신부(110)를 통해 수신되는 시계열 데이터는 정상 데이터만을 포함할 수 있다. 시계열 데이터는 시간의 흐름에 따라 일정한 시간 동안 수집될 수 있는 데이터 셋(Data Set)의 집합이다. 시계열 데이터가 가지는 규칙이나 분포도를 통해 미래의 데이터 변화를 예측할 수도 있다. 본 개시는 정상 데이터로만 구성된 시계열 데이터를 가지고도, 확률 밀도 함수 및 잠재 벡터 등을 활용하여 이상 시계열 데이터를 생성하는 방안을 제안한다. 다른 예로, 본 개시의 데이터 수신부(110)를 통해 수신되는 시계열 데이터는 신경망 네트워크, 1D(1Dimensional) Convolution 연산, 2D(2Dimensional) Convolution 연산 중 적어도 하나에 기초하여 전처리된 데이터를 포함할 수 있다. 본 개시의 데이터 수신부(110)를 통해 수신되는 시계열 데이터는 전처리된 단변량 데이터일 수 있다. 구체적으로, 본 개시의 데이터 수신부(110)는 단일 차원 벡터를 시계열 데이터로 수신하거나, 미리 설정된 신경망 네트워크를 통과시켜 출력된 데이터를 시계열 데이터로 수신할 수도 있다. 전술한 신경망 네트워크는 LSTM(Long Short-Term Memory), CNN(Convolution Neural Network), RNN(Recurrent Neural Network), DNN(Deep Neural Network) 중 적어도 하나를 포함할 수 있다. 또한, 본 개시의 데이터 수신부(110)를 통해 수신되는 시계열 데이터는 전처리된 다변량 데이터일 수도 있다. 구체적으로, 1D Convolution 또는 2D Convolution 연산을 통하여 시계열 데이터를 출력하는 방식, RNN 계열 아키텍처를 통하여 시계열 데이터를 출력하는 방식, 그리고 트랜스포머 계열 아키텍처를 통하여 시계열 데이터를 출력하는 방식을 통하여 시계열 데이터의 전처리가 수행될 수 있다. 다만, 전술한 모델은 시계열 데이터를 전처리하는 대상으로서 하나의 예시일 뿐이고, 이에 한하지 않고 필요에 따라 다양하게 설정될 수 있다. 본 개시의 이상 시계열 데이터를 생성하는 장치(100)는 시계열 데이터를 미리 설정된 기준에 따라 분할하고, 분할된 시계열 데이터 각각에 대한 확률 밀도 함수를 포함하는 잠재 벡터를 산출하는 잠재 벡터 산출부(120)를 포함한다. 일 예로, 미리 설정된 기준은 데이터 개수에 대한 기준 및 단위 시간에 대한 기준 중 적어도 하나를 포함할 수 있다. 예를 들어, 데이터 수신부(110)를 통해 수신된 시계열 데이터가 10초 동안 생성된 10개의 데이터인 경우에, 본 개시의 잠재 벡터 산출부(120)는 5개 단위 기준으로 시계열 데이터를 2개의 그룹으로 분할하거나, 5초 단위 기준으로 시계열 데이터를 2개의 그룹으로 분할할 수 있다. 전술한 시간 및 개수에 따른 시계열 데이터의 분할 기준은 예시일 뿐이고, 필요에 따라 다양하게 설정될 수 있다. 다른 예로, 본 개시의 잠재 벡터 산출부(120)는 분할된 시계열 데이터 각각에 대한 평균 및 분산을 산출하고, 미리 설정된 제 2 알고리즘에 기초하여 분할된 시계열 데이터 각각에 대한 노이즈(Noise)를 산출할 수 있다. 시계열 데이터에서 노이즈란 다른 외부 요인의 간섭과 같은 의도하지 않은 데이터의 왜곡을 불러오는 것을 의미한다. 다시 말해, 시계열 데이터 중 일부 데이터를 왜곡되게 만드는 요인이라고 할 수 있다. 예를 들어, 센서와 같은 물체에서 출력되는 신호 데이터에 대한 간섭, 특정 프로그램에서 종종 발견되는 버그를 노이즈라 할 수 있다. 본 개시의 이상 시계열 데이터 생성 장치(100)는 시계열 데이터를 미리 설정된 기준에 따라 분할된 그룹별 분포에 기초하여 수치화된 잠재 벡터를 산출함으로써 이상 시계열 데이터를 생성할 수 있다. 시계열 데이터의 노이즈를 산출하는 방법으로 가우시안 필터링, 쌍방 필터, 칼만 필터 중 적어도 하나를 포함하는 제 2 알고리즘이 사용될 수 있다. 다른 예로, 본 개시의 잠재 벡터 산출부(120)는 분할된 시계열 데이터 각각에 대한 평균 및 분산에 기초하여 복수의 확률 밀도 함수를 산출하고, 복수의 확률 밀도 함수는 정규 분포(Normal d