KR-20260061626-A - HIGH-PRECISION PATH TRACKING SYSTEM AND METHOD FOR AUTONOMOUS VEHICLES USING HIERARCHICAL DEEP REINFORCEMENT LEARNING

KR20260061626AKR 20260061626 AKR20260061626 AKR 20260061626AKR-20260061626-A

Abstract

자율 주행 차량을 위한 계층적 심층 강화 학습 기반 고정밀 경로 추적 시스템 및 방법이 개시된다. 일 실시예에 따른 경로 추적 시스템에 의해 수행되는 경로 추적 방법은, 경로 상의 목표 위치와 자율주행 차량의 현재 위치 간의 위치 오차를 계산하는 단계; 및 상기 계산된 위치 오차를 최소화하기 위해 계층적 심층 강화 학습(Hierarchical Deep Reinforcement Learning)을 통해 자율주행 차량의 주행 정보를 제어하는 단계를 포함할 수 있다.

Inventors

양승건
임승찬
박현철

Assignees

한경국립대학교 산학협력단
한국과학기술원

Dates

Publication Date: 20260506
Application Date: 20241028

Claims (13)

경로 추적 시스템에 의해 수행되는 경로 추적 방법에 있어서, 경로 상의 목표 위치와 자율주행 차량의 현재 위치 간의 위치 오차를 계산하는 단계; 및 상기 계산된 위치 오차를 최소화하기 위해 계층적 심층 강화 학습(Hierarchical Deep Reinforcement Learning)을 통해 자율주행 차량의 주행 정보를 제어하는 단계 를 포함하는 경로 추적 방법.
제1항에 있어서, 상기 제어하는 단계는, 경로 추적 정책을 도출하기 위한 마르코프 결정 프로세스를 정의하고, 상기 정의된 마르코프 결정 프로세스를 기반으로 상기 계층적 심층 강화 학습을 수행함에 따라 자율주행 차량의 가속도와 조향각을 결정하는 단계 를 포함하는 경로 추적 방법.
제2항에 있어서, 상기 계층적 심층 강화 학습은, 고수준 제어기와 저수준 제어기로 구성되고, 상기 제어하는 단계는, 상기 고수준 제어기와 상기 저수준 제어기에서 각각의 재생 메모리를 활용하여 심층 Q-네트워크(Deep Q-Network)를 통해 심층 강화 학습을 진행하는 단계 를 포함하는 경로 추적 방법.
제3항에 있어서, 상기 고수준 제어기는, 목표 경로에 따른 속도 계획을 수립하는 것이고, 상기 저수준 제어기는, 상기 고수준 제어기에 의해 수립된 속도 계획을 기반으로 조향각을 조정하는 것을 특징으로 하는 경로 추적 방법.
제3항에 있어서, 상기 고수준 제어기는, 가속도를 결정하여 속도 제어를 달성하는 것을 목표로 하며, 상기 자율주행 차량의 주행 중 측정되는 목표 위치와 자율주행 차량의 현재 위치 간의 위치 오차, 속도 및 각속도를 상위 수준 상태로 수집하고, 상기 수집된 상위 수준 상태에 기초하여 가속도를 행동으로 선택하고, 상기 선택된 행동에 따라 보상을 환경으로부터 제공받도록 구성된 것을 특징으로 하는 경로 추적 방법.
제3항에 있어서, 상기 저수준 제어기는, 상기 고수준 제어기의 행동에 기초하여 조향각을 결정하여 조향 제어를 달성하는 것을 목표로 하며, 상기 자율주행 차량의 주행 중 측정되는 목표 위치와 자율주행 차량의 현재 위치 간의 위치 오차, 속도, 각속도, 고수준 제어기의 행동을 하위 수준 상태로 수집하고, 상기 수집된 하위 수준 상태에 기초하여 조향각을 행동으로 선택하고, 상기 선택된 행동에 따라 보상을 환경으로부터 제공받도록 구성된 것을 특징으로 하는 경로 추적 방법.
경로 추적 시스템에 의해 수행되는 경로 추적 방법을 실행시키기 위해 컴퓨터 판독 가능한 저장매체에 저장된 컴퓨터 프로그램에 있어서, 상기 경로 추적 방법은, 경로 상의 목표 위치와 자율주행 차량의 현재 위치 간의 위치 오차를 계산하는 단계; 및 상기 계산된 위치 오차를 최소화하기 위해 계층적 심층 강화 학습(Hierarchical Deep Reinforcement Learning)을 통해 자율주행 차량의 주행 정보를 제어하는 단계 를 실행하는 컴퓨터 판독 가능한 저장매체에 저장된 컴퓨터 프로그램.
경로 추적 시스템에 있어서, 경로 상의 목표 위치와 자율주행 차량의 현재 위치 간의 위치 오차를 계산하는 오차 계산부; 및 상기 계산된 위치 오차를 최소화하기 위해 계층적 심층 강화 학습(Hierarchical Deep Reinforcement Learning)을 통해 자율주행 차량의 주행 정보를 제어하는 주행 제어부 를 포함하는 경로 추적 시스템.
제8항에 있어서, 상기 주행 제어부는, 경로 추적 정책을 도출하기 위한 마르코프 결정 프로세스를 정의하고, 상기 정의된 마르코프 결정 프로세스를 기반으로 상기 계층적 심층 강화 학습을 수행함에 따라 자율주행 차량의 가속도와 조향각을 결정하는 것을 특징으로 하는 경로 추적 시스템.
제9항에 있어서, 상기 계층적 심층 강화 학습은, 고수준 제어기와 저수준 제어기로 구성되고, 상기 주행 제어부는, 상기 고수준 제어기와 상기 저수준 제어기에서 각각의 재생 메모리를 활용하여 심층 Q-네트워크(Deep Q-Network)를 통해 심층 강화 학습을 진행하는 것을 특징으로 하는 경로 추적 시스템.
제10항에 있어서, 상기 고수준 제어기는, 목표 경로에 따른 속도 계획을 수립하는 것이고, 상기 저수준 제어기는, 상기 고수준 제어기에 의해 수립된 속도 계획을 기반으로 조향각을 조정하는 것을 특징으로 하는 경로 추적 시스템.
제11항에 있어서, 상기 고수준 제어기는, 가속도를 결정하여 속도 제어를 달성하는 것을 목표로 하며, 상기 자율주행 차량의 주행 중 측정되는 목표 위치와 자율주행 차량의 현재 위치 간의 위치 오차, 속도 및 각속도를 상위 수준 상태로 수집하고, 상기 수집된 상위 수준 상태에 기초하여 가속도를 행동으로 선택하고, 상기 선택된 행동에 따라 보상을 환경으로부터 제공받도록 구성된 것을 특징으로 하는 경로 추적 시스템.
제11항에 있어서, 상기 저수준 제어기는, 상기 고수준 제어기의 행동에 기초하여 조향각을 결정하여 조향 제어를 달성하는 것을 목표로 하며, 상기 자율주행 차량의 주행 중 측정되는 목표 위치와 자율주행 차량의 현재 위치 간의 위치 오차, 속도, 각속도, 고수준 제어기의 행동 정보를 하위 수준 상태로 수집하고, 상기 수집된 하위 수준 상태에 기초하여 조향각을 행동으로 선택하고, 상기 선택된 행동에 따라 보상을 환경으로부터 제공받도록 구성된 것을 특징으로 하는 경로 추적 시스템.

Description

자율 주행 차량을 위한 계층적 심층 강화 학습 기반 고정밀 경로 추적 시스템 및 방법{HIGH-PRECISION PATH TRACKING SYSTEM AND METHOD FOR AUTONOMOUS VEHICLES USING HIERARCHICAL DEEP REINFORCEMENT LEARNING} 아래의 설명은 경로 추적 기술에 관한 것이다. 자율주행 기술의 급속한 발전으로 차량이 미리 정의된 경로를 정확하게 추적하는 능력이 중요해졌다. 경로 추적은 자율주행 차량의 움직임을 정확하게 제어하고 지정된 경로를 유지함으로써 자율주행 차량의 안전하고 안정적인 작동을 보장한다. 다양한 주행 환경에서 효율적인 경로 추적을 통해 자율주행 차량은 복잡한 환경을 탐색하고 교통 규정을 준수할 수 있다. 따라서, 경로 추적의 발전은 신뢰할 수 있는 자율 주행 시스템을 개발하고 차량이 정확한 결정을 내리고 동적 환경에 적응하는 능력을 향상시키는 데 필수적이다. 현재 자율주행 차량 기술은 상당한 발전을 이루었으며, 특히, 기하학적 방법과 최적화 이론을 활용한 경로 추적 알고리즘이 널리 사용되고 있다. 또한, 심층 강화 학습을 통한 자율 주행 기술도 연구되고 있으나, 대부분의 기존 연구는 조향각 제어에 집중하며 가속도 제어는 부차적으로 다루어져 왔다. 이러한 기술들은 특정 환경에서는 우수한 성능을 보일 수 있으나, 다양한 주행 환경에서의 일반화 능력이 부족하고, 파라미터 설정에 민감하다는 한계가 있다. 한편, 대한민국공개특허 제 10-2021-0048969호(2021.05.04.공개일)에 사용자 선호에 따른 강화학습 기반 자율주행 최적화 방법 및 시스템이 개시되어 있다. 도 1은 일 실시예에 있어서, 사전 정의된 참조 경로에 따라 자율주행 차량의 경로를 추적하는 동작을 설명하기 위한 도면이다. 도 2는 일 실시예에 있어서, 가속도 및 조향각 제어를 위한 계층적 심층 강화 학습 개념을 설명하기 위한 도면이다. 도 3은 일 실시예에 있어서, 경로 추적 시스템을 설명하기 위한 블록도이다. 도 4는 일 실시예에 있어서, 경로 추적 방법을 설명하기 위한 흐름도이다. 도 5는 일 실시예에 있어서, 참조 경로에 대한 제안 기법의 정밀도 성능을 나타낸 그래프이다. 이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다. 실시예에서는 자율 주행 차량의 경로 추적을 위해 계층적 심층 강화 학습을 적용한 동작에 대해 설명하기로 한다. 제안된 기술은 고수준 제어기와 저수준 제어기로 나뉘어, 고수준 제어기가 최적의 속도 계획을 수립하고, 저수준 제어기가 해당 계획에 따라 조향각을 조정함으로써 경로 추적의 정확도를 극대화한다. 이러한 구조는 차량이 다양한 주행 환경에서도 안정적이고 정확하게 경로를 추적할 수 있도록 설계될 수 있다. 도 1은 일 실시예에 있어서, 사전 정의된 참조 경로에 따라 자율주행 차량의 경로를 추적하는 동작을 설명하기 위한 도면이다. 도 1은 자율주행 차량이 미리 정해진 참조 경로를 추적하는 시나리오를 나타낸 예이다. 여기서, 가장 굵은 실선, 가장 얇은 실선(가장 얇은 점선 포함)., 중간 두께의 실선(중간 두께의 점선 포함)은 각각 참조 경로, 전역 좌표계, 차량의 로컬 좌표계를 나타낸다. 이때, 참조 경로는 출발지에서 목적지까지 안내되는 경로 정보를 의미할 수 있다. 휠베이스를 L이라고 하고, 후방 차축에서 차량 중심까지의 거리를 Lr이라고 한다. k번째 타임스텝에서 ck = [xc,k, yc,k]T가 2차원 글로벌 좌표계에서 차량 중심의 위치로 정의될 수 있다. 여기서 는 중심의 진행 방향을 나타낸다. k번째 타임스텝에서 전방 차축의 경우 위치를 fk = [xf,k, yf,k]T로 하고, 는 진행 방향을 나타낸다. 따라서, 전방 차축의 포즈와 중심 간의 관계는 다음과 같이 설정될 수 있다. 각 타임스텝 k에서 참조 경로를 정확하게 추적하기 위해 차량의 가속도 와 조향각 은 경로 추적 알고리즘에 의해 제어될 수 있다. 결정된 와 가 주어지면 비특허문헌 1에 설명된 운동학적 자전거 메커니즘을 사용한 주행 시스템은 다음과 같이 슬립각 , 이동 속도 및 각속도 를 생성할 수 있다. 참고로, 비특허문헌 1 <R. Rajamani, Vehicle Dynamics and Control, ser. Mechanical Engineering Series. Springer US, 2011>에 자전거 메커니즘에 대한 설명이 개시되어 있다. 여기서, 는 타임스텝 간의 시간 간격을 나타내고 vk는 [vmin, vmax] 범위 내에 있다. 그런 다음, 중심의 포즈는 다음과 같이 타임스텝 (k+1)의 포즈로 진화될 수 있다. pk = [xp,k, yp,k]T는 전면 차축에 대한 참조 경로의 가장 가까운 지점의 위치이고, 는 가장 가까운 지점의 접선 각도를 나타낸다. k번째 타임스텝에서 전방 차축의 포즈에 관하여, 가장 가까운 지점에 대한 오류가 로 정의될 수 있다. 적절한 변환을 적용함으로써, 오류는 다음과 같이 로컬 좌표계로 표현될 수 있다. 차량의 중심에서 기준 경로에 있는 가장 가까운 지점의 위치가 qk로, 가장 가까운 지점에서의 접선 각도가 로 표시될 수 있다. 타임스텝 k에서 ck와 qk 사이의 횡방향 오차는 다음과 같이 정의될 수 있다. 도 2는 일 실시예에 있어서, 가속도 및 조향각 제어를 위한 계층적 심층 강화 학습 개념을 설명하기 위한 도면이다. 각 타임스텝에서 충분한 정확도를 보장하기 위해 수학식 5에서 dk를 최소화해야 하며, 이상적으로는 참조 경로를 정확하게 추적하기 위해 0에 가까워야 한다. 실시예에서는 모든 타임스텝 k에서 dk를 최소화하기 위해 가속도 와 조향각 를 제어하는 동작에 대해 설명하기로 한다. 이를 위해, 심층 강화 학습 기술을 활용하여 최적의 경로 추적 정책을 결정하고자 한다. 도 2에서 실선 화살표는 실행 흐름을 나타내고, 점선 화살표는 학습 절차를 나타낸다. 경로 추적 문제에서 자율주행 차량(즉, 에이전트)은 일련의 상태, 행동 및 보상을 통해 주행 시스템(즉, 환경)과 상호 작용한다. 에이전트는 누적 보상을 최대화하기 위한 최적의 정책을 결정하는 것을 목표로 한다. 경로 추적 문제를 적절한 복잡성으로 처리하기 위해 제어기(controller)가 이산 행동 공간에 있는 와 (즉, 행동)를 동시에 결정하는 계층적 심층 Q-네트워크(hierarchical deep Q-network, H-DQN) 프레임워크를 고려하기로 한다. 도 2는 고수준(High level)과 하위 수준(Low level)으로 구성된 계층적 DQN(H-DQN)의 프레임워크를 나타낸 예이다. 일반적으로 계층적 심층 강화 학습은 상위 정책을 추상적인 장기 목표에 할당하고 하위 정책을 세부적인 단기 행동에 할당하여 복잡한 문제를 처리한다. 이러한 맥락에서 고수준 제어기(210)는 가속도 를 결정하도록 설계하여 전략적 속도 계획을 수립할 수 있다. 저수준 제어기(220)는 미리 정해진 를 통합하여 를 결정하도록 설계하여 경로 정보를 정확하게 추적하기 위한 정밀한 방향 조정을 수행할 수 있다. 경로 추적 시스템은 최적의 제어 정책을 도출하기 위해 복수 개(예를 들면, 2개)의 마르코프 결정 프로세스(Markov Decision Process, MDP)를 정의하고, 정의된 복수 개의 마르코프 결정 프로세스를 기반으로 계층적 심층 강화 학습을 수행함에 따라 자율주행 차량의 가속도와 조향각을 결정할 수 있다. 고수준 마르코프 결정 프로세스에 대해 설명하기로 한다. 주어진 참조 경로의 경우, 경로 추적 정확도를 개선하기 위해서는 이동 속도의 효과적인 제어가 중요하다. 따라서, 고수준 제어기(210)는 적절한 를 결정하여 최적의 속도 제어를 달성하는 것을 목표로 할 수 있다. 고수준 마르코프 결정 프로세스 다음과 같이 공식화될 수 있다. -고수준 상태: 자율주행 차량에 대한 측정 가능한 정보에서 고수준 상태를 다음과 같이 설계할 수 잇다. k번째 타임스텝에서 고수준 상태는 수학식 4의 로컬 오류, 정규화된 속도 및 각속도로 구성될 수 있다. -고수준 행동: 자전거 메커니즘에 대한 입력을 결정하기 위해 k번째 타임스텝에서 와 같은 고수준 행동 를 설정할 수 있다. 실행 가능성을 보장하기 위해 각 행동이 균일하게 간격이 지정된 범위 내에 한정되는 고수준 행동 공간이 구성될 수 있다. 행동 공간은 다음과 같이 명시적으로 정의될 수 있다. 여기서 과 는 고수준 행동의 범위를 조정하고 는 고수준 행동 공간의 크기를 나타낸다. -고수준 보상: 고수준 보상은 다음과 같이 설계될 수 있다. 여기서, 첫 번째 항은 측면 오류를 페널티를 부여하는 반면 두 번째 항은 무인 차량이 기준 경로를 따라 충분한 속도를 유지하도록 장려하여 최소한의 조정이나 측면 오류를 줄이기 위해 정지 상태를 유지하는 것을 방지한다. 고수준 제어기(210)는 저수준 제어기(220)가 행동을 결정한 후에 보상을 받고, 자율주행 차량은 와 의 두 행동을 모두 수행하는 자전거 모델을 사용하여 주행할 수 있다. 다음으로, 저수준 마르코프 결정 프로세스에 대해 설명하기로 한다. 고수준 행동 이 주어지면, 저수준 제어기(220)는 정확한 를 결정하여 최적의 조향 제어를 달성해야 한다. 저수준 마르코프 결정 프로세스는 다음과 같이 공식화될 수 있다. -저수준 상태: 저수준 상태 설계에서, 고수준 상태와 고수준 행동이 다음과 같이 연결될 수 있다. 를 에 통합하면 두 수준 간의 효과적인 상호 작용이 보장되어 저수준 제어기(220)가 더 나은 행동을 선택하고 환경에 적응할 수 있다. -저수준 행동: 고수준 행동 설계와 유사하게, 저수준 행동 은 k번째 타임스텝에서 자전거 메커니즘에 대한 입력으로 사용하기 위해 로 설정될 수 있다. 저수준 행동 공간은 각 행동이 의 균일한 간격 범위 내에 있도록 정의될 수 있다. 구체적으로, 저수준 행동 공간은 다음과 같이 설계될 수 있다. 여기서, 과 는 저수준 행동의 범위를 결정하고, 는 행동 공간의 항목 수를 나타낸다. -저수준 보상: k번째 타임스텝에서 에서 를 취할 때, 저수준 제어기(220)는 보상 을 받는다. 자율주행 차량이 측면 오류를 최소화하도록 장려하여 고정확도 경로 추적을 보장하기