KR-20260061627-A - DEEP Q-NETWORK-BASED PATH TRACKING METHOD AND SYSTEM IN UNTRAINED DRIVING ENVIRONMENTS USING TRANSFER LEARNING

KR20260061627AKR 20260061627 AKR20260061627 AKR 20260061627AKR-20260061627-A

Abstract

전이 학습을 활용한 미학습 환경에서의 DQN 기반 자율 주행 경로 추적 방법 및 시스템이 개시된다. 일 실시예에 따른 경로 추적 시스템에 의해 수행되는 경로 추적 방법은, 전이 학습 기법에 따라 선택된 사전 학습된 모델 또는 사전 학습된 모델의 데이터셋 중 적어도 하나 이상의 사전 학습 데이터를 새로운 환경에 전이하는 단계; 및 상기 새로운 환경에 전이된 적어도 하나 이상의 사전 학습 데이터를 이용한 자율주행 무인 이동체의 경로를 추적하는 단계를 포함할 수 있다.

Inventors

양승건
임승찬
박현철

Assignees

한경국립대학교 산학협력단
한국과학기술원

Dates

Publication Date: 20260506
Application Date: 20241028

Claims (11)

경로 추적 시스템에 의해 수행되는 경로 추적 방법에 있어서, 전이 학습 기법에 따라 선택된 사전 학습된 모델 또는 사전 학습된 모델의 데이터셋 중 적어도 하나 이상의 사전 학습 데이터를 새로운 환경에 전이하는 단계; 및 상기 새로운 환경에 전이된 적어도 하나 이상의 사전 학습 데이터를 이용하여 자율주행 무인 이동체의 경로를 추적하는 단계 를 포함하는 경로 추적 방법.
제1항에 있어서, 상기 추적하는 단계는, 상기 전이 학습 기법에 따른 미세 조정의 수행 여부를 결정하고, 상기 결정된 미세 조정의 수행 여부에 따라 상기 새로운 환경에 전이된 적어도 하나 이상의 사전 학습 데이터를 이용한 미세 조정을 수행 또는 미수행하여 상기 새로운 환경에서 자율주행 무인 이동체의 경로를 추적하는 단계 를 포함하는 경로 추적 방법.
제1항에 있어서, 상기 전이 학습 기법은, 심층 Q-네트워크와 심층 Q-네트워크의 데이터셋을 동시에 전이하는 결합 전이(combined transfer of model parameters and replay buffer, CT) 기법; 심층 Q-네트워크를 전이하는 모델 전이(model transfer, MT) 기법; 심층 Q-네트워크의 데이터셋을 전이하는 재생 메모리 전이(replay buffer transfer, RBT) 기법; 심층 Q-네트워크를 전이한 후 새로운 환경에서 미세 조정 없이 시스템을 구동하는 직접 전이(direct model transfer without fine-tuning, DMT) 기법 중 어느 하나를 포함하는 것을 특징으로 하는 경로 추적 방법.
제2항에 있어서, 상기 추적하는 단계는, 상기 미세 조정을 통해 업데이트된 모델을 이용하여 새로운 환경에서 자율주행 무인 이동체의 경로를 추적하고, 상기 미세 조정을 수행하는 과정에서, 하이퍼파라미터를 조정하는 단계 를 포함하는 경로 추적 방법.
제1항에 있어서, 상기 사전 학습된 모델은, 심층 Q-네트워크를 기반으로 구성된 것을 특징으로 하는 경로 추적 방법.
경로 추적 시스템에 의해 수행되는 경로 추적 방법을 실행시키기 위해 컴퓨터 판독 가능한 저장매체에 저장된 컴퓨터 프로그램에 있어서, 상기 경로 추적 방법은, 전이 학습 기법에 따라 선택된 사전 학습된 모델 또는 사전 학습된 모델의 데이터셋 중 적어도 하나 이상의 사전 학습 데이터를 새로운 환경에 전이하는 단계; 및 상기 새로운 환경에 전이된 적어도 하나 이상의 사전 학습 데이터를 이용하여 자율주행 무인 이동체의 경로를 추적하는 단계 를 실행하는 컴퓨터 판독 가능한 저장매체에 저장된 컴퓨터 프로그램.
경로 추적 시스템에 있어서, 전이 학습 기법에 따라 선택된 사전 학습된 모델 또는 사전 학습된 모델의 데이터셋 중 적어도 하나 이상의 사전 학습 데이터를 새로운 환경에 전이하는 데이터 전이부; 및 상기 새로운 환경에 전이된 적어도 하나 이상의 사전 학습 데이터를 이용하여 자율주행 무인 이동체의 경로를 추적하는 경로 추적부 를 포함하는 경로 추적 시스템.
제7항에 있어서, 상기 경로 추적부는, 상기 전이 학습 기법에 따른 미세 조정의 수행 여부를 결정하고, 상기 결정된 미세 조정의 수행 여부에 따라 상기 새로운 환경에 전이된 적어도 하나 이상의 사전 학습 데이터를 이용한 미세 조정을 수행 또는 미수행하여 상기 새로운 환경에서 자율주행 무인 이동체의 경로를 추적하는 것을 특징으로 하는 경로 추적 시스템.
제7항에 있어서, 상기 전이 학습 기법은, 심층 Q-네트워크와 심층 Q-네트워크의 데이터셋을 동시에 전이하는 결합 전이(combined transfer of model parameters and replay buffer, CT) 기법; 심층 Q-네트워크를 전이하는 모델 전이(model transfer, MT) 기법; 심층 Q-네트워크의 데이터셋을 전이하는 재생 메모리 전이(replay buffer transfer, RBT) 기법; 심층 Q-네트워크를 전이한 후 새로운 환경에서 미세 조정 없이 시스템을 구동하는 직접 전이(direct model transfer without fine-tuning, DMT) 기법 중 어느 하나를 포함하는 것을 특징으로 하는 경로 추적 시스템.
제8항에 있어서, 상기 경로 추적부는, 상기 미세 조정을 통해 업데이트된 모델을 이용하여 새로운 환경에서 자율주행 무인 이동체의 경로를 추적하고, 상기 미세 조정을 수행하는 과정에서, 하이퍼파라미터를 조정하는 것을 특징으로 하는 경로 추적 시스템.
제7항에 있어서, 상기 사전 학습된 모델은, 심층 Q-네트워크를 기반으로 구성된 것을 특징으로 하는 경로 추적 시스템.

Description

전이 학습을 활용한 미학습 환경에서의 DQN 기반 자율 주행 경로 추적 방법 및 시스템{DEEP Q-NETWORK-BASED PATH TRACKING METHOD AND SYSTEM IN UNTRAINED DRIVING ENVIRONMENTS USING TRANSFER LEARNING} 아래의 설명은 경로 추적 기술에 관한 것이다. 자율주행 기술의 급속한 발전으로 차량이 미리 정의된 경로를 정확하게 추적하는 능력이 중요해졌다. 경로 추적은 자율주행 차량의 움직임을 정확하게 제어하고 지정된 경로를 유지함으로써 자율주행 차량의 안전하고 안정적인 작동을 보장한다. 기존 기술들은 특정 경로에 대해 학습된 모델을 바탕으로 경로 추적 기법을 개발했으나, 새로운 경로에 대한 적응을 위한 추가 학습을 수행하지 않아 다양한 환경에서의 경로 추적 성능이 제한적이었다. 한편, 대한민국공개특허 제 10-2024-0105824호(2024.07.08.공개일)에 전이학습 기반의 에이전트 학습 시스템 및 방법이 개시되어 있다. 도 1은 일 실시예에 있어서, 사전 학습 데이터를 새로운 환경에 전이 학습하는 동작을 설명하기 위한 도면이다. 도 2는 일 실시예에 있어서, 새로운 주행 환경에 적응하기 위한 미세 조정 동작을 설명하기 위한 도면이다. 도 3은 일 실시예에 있어서, 경로 추적 시스템을 설명하기 위한 블록도이다. 도 4는 일 실시예에 있어서, 경로 추적 방법을 설명하기 위한 흐름도이다. 도 5는 일 실시예에 있어서, 기존 환경에서 학습한 데이터를 실시예에서 제안된 전이 학습 기법에 따라 새로운 환경에 적용하였을 때의 학습 에피소드 단위 평균 횡방향 오차(average lateral error)를 나타낸 그래프이다. 이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다. 실시예에서는 전이 학습을 기반으로 다양한 경로에서 높은 경로 추적 정확도를 달성하는 동작에 대해 설명하기로 한다. 이에, 사전 학습된 모델이 새로운 경로에 신속하게 적응할 수 있도록 전이 학습 기법을 도입하여 새로운 경로에 대한 경로 추적 성능을 지속적으로 향상시킨다. 따라서, 기존 기술들이 해결하지 못했던 다양한 경로에서의 적응 문제를 효과적으로 해결할 수 있다. 도 1은 일 실시예에 있어서, 사전 학습 데이터를 새로운 환경에 전이 학습하는 동작을 설명하기 위한 도면이다. 경로 추적 시스템은 전이 학습 기법에 따라 선택된 사전 학습된 모델 또는 사전 학습된 모델의 데이터셋 중 적어도 하나 이상의 사전 학습 데이터를 새로운 환경(미학습 환경)에 전이할 수 있다. 이때. 사전 학습 데이터는 사전 학습된 모델 및 사전 학습된 모델의 데이터셋으로 구성될 수 있다. 여기서, 사전 학습된 모델의 데이터셋은 재생 메모리에 저장될 수 있다. 사전 학습된 모델은 심층 Q-네트워크를 기반으로 구성된 것일 수 있다. 도 1에서 전이된 사전 학습 데이터인 심층 Q-네트워크 및 재생 메모리는 회색 음영으로 표시되어 있다. 경로 추적 시스템은 사전 학습된 모델과 사전 학습된 모델의 데이터셋을 새로운 환경에 전이한 후, 미세 조정할 수 있다. 또는, 경로 추적 시스템은 사전 학습된 모델을 새로운 환경에 전이한 후, 미세 조정할 수 있다. 또는, 경로 추적 시스템은 재생 메모리를 새로운 환경에 전이한 후, 미세 조정을 수행할 수 있다. 또는, 경로 추적 시스템은 사전 학습된 모델을 새로운 환경에 전이한 후, 미세 조정을 미수행할 수 있다. 경로 추적 시스템은 전이된 사전 학습된 모델 또는 데이터 셋을 이용하여 새로운 환경에서 미세 조정을 수행할 수 있다. 경로 추적 시스템은 이 과정에서 학습 과정의 하이퍼파라미터를 조정하여 경로 추적 문제를 해결할 수 있다. 경로 추적 시스템은 자율주행 무인 이동체(예를 들면, 자율주행 차량)가 다양한 환경에서 실시간으로 최적의 경로를 추적하여, 경로 추적의 정확도와 안정성을 향상시킬 수 있다. 보다 상세하게는, 경로 추적 시스템은 횡방향 오차가 최소화되도록 주행 정보(예를 들면, 조향각)를 제어하는 마르코프 의사결정 프로세스를 설계하고, 설계된 마르코프 의사결정 프로세스를 기반으로 심층 Q-네트워크(DQN)의 학습을 통해 재생 메모리에 데이터셋을 수집하며, Q-네트워크를 학습(훈련)시킬 수 있다. 심층 Q-네트워크는 상태를 입력으로, 행동을 출력하는 신경망이다. 일례로, 경로 추적 시스템은 심층 Q-네트워크를 활용하여 자율주행 무인 이동체(에이전트)가 환경과의 상호작용을 통해 주행 정보(예를 들면, 조향각)을 최적화하는 정책을 학습할 수 있다. 이에, 경로 추적 시스템은 주어진 기존 주행 환경에 대해 경로 추적을 잘 수행하는 사전 학습된 모델을 확보할 수 있다. 사전 학습된 모델을 그대로 새로운 주행 환경에 적용하게 되면 정확도가 떨어질 수 있기 때문에, 전이 학습의 아이디어를 적용하여 적응성을 확보하고자 한다. 이때, 경로 추적 시스템은 기존에 설계된 의사 결정 프로세스와 심층 Q-네트워크의 Q-네트워크 구조를 동일하게 적용할 수 있다. 대신, 경로 추적 시스템은 사전 학습된 모델 또는 데이터셋을 일종의 초기 조건으로 하여 미세 조정을 수행할 수 있다. 경로 추적 시스템은 사전 학습된 모델 또는 데이터셋을 포함하는 사전 학습 데이터의 활용 유무에 따라 복수 개의 전이 학습 기법을 제공할 수 있다. 복수 개의 전이 학습 기법은 Q-네트워크와 Q-네트워크의 데이터셋(재생 메모리)을 동시에 전이하는 결합 전이(Combined Transfer of model parameters and replay buffer, CT)(110) 기법, Q-네트워크를 전이하는 모델 전이(Model Transfer, MT)(120) 기법, Q-네트워크의 데이터셋(재생 메모리)을 전이하는 재생 메모리 전이(Replay Buffer Transfer, RBT)(130) 기법, Q-네트워크를 전이한 후 새로운 환경에서 미세 조정 없이 시스템을 구동하는 직접 전이(direct model transfer without fine-tuning, DMT)(140) 기법을 포함할 수 있다. 결합 전이(110) 기법, 모델 전이(120) 기법 및 재생 메모리 전이(130) 기법은 전이 후, 미세 조정을 수행하는 반면, 직접 전이(140) 기법은 사전 학습된 모델을 그대로 사용하므로 미세 조정을 수행하지 않는다. 예를 들면, 경로 추적 시스템은 전이 학습 기법에 따라 사전 학습된 모델 또는 사전 학습된 모델의 데이터셋 중 적어도 하나 이상의 학습 데이터를 선택할 수 있다. 일례로, 경로 추적 시스템은 결합 전이(110) 기법의 경우, Q-네트워크와 Q-네트워크의 데이터셋을 선택하여 새로운 환경으로 전이할 수 있고, 모델 전이(120) 기법 및 직접 전이 기법의 경우, Q-네트워크를 선택하여 새로운 환경으로 전이할 수 있고, 재생 메모리 전이(130) 기법의 경우, Q-네트워크의 데이터셋을 새로운 환경으로 전이할 수 있다. 이와 같이, 경로 추적 시스템은 전이 기법에 따라 선택된 사전 학습 데이터를 새로운 환경으로 전이 학습할 수 있다. 경로 추적 시스템은 결합 전이(110) 기법을 통해 사전 학습된 모델(Q-네트워크)과 사전 학습에 활용되었던 재생 메모리를 모두 전이받아, 새로운 환경에서 미세 조정을 수행할 수 있다. 학습 알고리즘이 진행됨에 따라 새로운 경험 데이터들이 재생 메모리에 저장될 수 있다. 경로 추적 시스템은 재생 메모리에 저장된 새로운 경험 데이터를 이용하여 사전 학습된 모델(Q-네트워크)를 업데이트하여 새로운 주행 환경에 적응된 경로 추적 정책을 도출할 수 있다. 경로 추적 시스템은 모델 전이(120) 기법을 통해 사전 학습된 모델(Q-네트워크)만 전이받아, 미세 조정을 수행할 수 있다. 학습 알고리즘이 진행됨에 따라 빈 재생 메모리에 새로운 경험 데이터들이 처음부터 수집될 수 있다. 경로 추적 시스템은 처음부터 수집된 새로운 경험 데이터들을 이용하여 전이된 사전 학습된 모델(Q-네트워크)의 학습을 진행하며, 새로운 주행 환경에 적응된 경로 추적 정책을 도출할 수 있다. 경로 추적 시스템은 재생 메모리 전이(130) 기법을 통해 사전 학습에 활용되었던 재생 메모리(데이터셋)를 전이받아, 랜덤하게 초기화된 네트워크(Q-네트워크)를 학습시킬 수 있다. 경로 추적 시스템은 학습 알고리즘이 진행됨에 따라, 기존 주행 환경에서 수집되었던 경험 데이터들과 새롭게 수집되는 데이터들을 활용하여 추가 학습을 진행하며 적응된 경로 추적 정책을 도출할 수 있다. 경로 추적 시스템은 직접 전이(150) 기법을 통해 사전 학습된 모델(Q-네트워크)만 전이받고, 미세 조정을 수행하지 않는다. 따라서, 추가적인 학습에 대한 부담이 없으나, 새로운 주행 환경에 적응된 경로 추적이 수행될 것이라는 보장이 없다. 경로 추적 시스템은 미세 조정을 수행하는 과정에서, 하이퍼파라미터를 조정할 수 있다. 하이퍼파라미터란 학습 과정에서 사용되는 매개변수이다. 전이 전 환경에서 심층 Q-네트워크는 해당 환경에 맞게 설정된 학습률, 타겟 네트워크의 업데이트, 입실론 그리드 정책에 따라 학습이 진행될 수 있다. 해당 하이퍼파라미터는 학습하는 환경에 맞게 설정되어 있다. 하지만 전이하게 된다면, 환경은 달라지게 된다. 따라서, 변화된 환경에 따라 학습에 사용되는 하이퍼파라미터도 조정되어야 한다. 학습률은 심층 Q-네트워크의 가중치를 어느정도의 스케일로 업데이트하는지 크기를 나타낸다. 경험에 의하면 전이 후 학습하는 환경이 전이 전 환경과 많이 다를 경우, 학습률을 크게 설정하고, 환경이 비슷하면 학습률을 작게 설정하는 것이 바람직하다. 다음으로, 입실론 그리드 정책은 심층 Q-네트워크 학습 초반에 자율주행 무인 이동체가 기존 지식에 편향되어 행동을 출력하지 않게 랜덤한 행동을 출력하는 정책이다. 학습 초반에는 지식이 부정확해서 바람직한 행동을 출력하지 못한다. 결합 전이(110), 모델 전이(120) 기법과 같이 충분히 학습된 Q-네트워크를 전이하는 경우 랜덤한 행동을 출력하는 입실론 그리드 정책을 사용하는 것은 오히려 학습에 방해가 될 수 있다. 이럴 경우, 입실론 그리드 정책을 사용하지 않을 수 있다. 그리고, 재생 메모리 전이(13