KR-20260061951-A - APPARATUS AND METHOD FOR LEARNING TEMPORAL DISTANCE COGNITIVE REPRESENTATION

KR20260061951AKR 20260061951 AKR20260061951 AKR 20260061951AKR-20260061951-A

Abstract

본 발명은 시간적 거리 인지표현학습 장치 및 방법에 관한 것으로, 상기 장치는 목표 조건 정책, 탐색 정책, 시각적 거리 인식 표현 및 학습을 위한 경험 데이터를 저장할 버퍼를 초기화하는 초기화부; 현재 에피소드에서 TLDR(Temporal Distance-aware Representations) 보상을 기초로 목표를 설정하고, 상기 목표에 도달하기 위해 상기 목표 조건 정책의 실행과 상기 탐색 정책의 실행을 통해 새로운 상태와 행동 데이터를 결정하는 학습 수행부; 상기 목표에 도달하려는 경험을 기반으로 상기 목표 조건 정책을 학습하고, 상기 목표에 대한 시각적 거리를 기반으로 상기 탐색 정책을 학습하는 정책 학습부; 및 제약 조건을 기초로 상기 상태 간의 시각적 거리를 인코딩하여 상기 시각적 거리 인식 표현을 학습하는 시각적 거리 인식표현 학습부를 포함한다.

Inventors

이영운
배준익

Assignees

연세대학교 산학협력단

Dates

Publication Date: 20260506
Application Date: 20241028

Claims (11)

목표 조건 정책, 탐색 정책, 시각적 거리 인식 표현 및 학습을 위한 경험 데이터를 저장할 버퍼를 초기화하는 초기화부; 현재 에피소드에서 TLDR(Temporal Distance-aware Representations) 보상을 기초로 목표를 설정하고, 상기 목표에 도달하기 위해 상기 목표 조건 정책의 실행과 상기 탐색 정책의 실행을 통해 새로운 상태와 행동 데이터를 결정하는 학습 수행부; 상기 목표에 도달하려는 경험을 기반으로 상기 목표 조건 정책을 학습하고, 상기 목표에 대한 시각적 거리를 기반으로 상기 탐색 정책을 학습하는 정책 학습부; 및 제약 조건을 기초로 상기 상태 간의 시각적 거리를 인코딩하여 상기 시각적 거리 인식 표현을 학습하는 시각적 거리 인식표현 학습부를 포함하는 시간적 거리 인지표현학습 장치.
제1항에 있어서, 상기 초기화부는 목표 설정을 통해 상기 목표 조건 정책을 초기화하고 탐색을 위한 행동의 생성을 통해 상기 탐색 정책을 초기화하는 것을 특징으로 하는 시간적 거리 인지표현학습 장치.
제1항에 있어서, 상기 학습 수행부는 상기 현재 에피소드의 상태를 샘플링하고 상기 버퍼에서 미니배치를 샘플링한 다음 상기 미니배치에서 상기 TLDR 보상이 가장 높은 상태를 선택하여 상기 목표를 설정하는 것을 특징으로 하는 시간적 거리 인지표현학습 장치.
제3항에 있어서, 상기 학습 수행부는 상기 목표 조건 정책을 일정 시간 동안 실행하여 상기 목표까지의 도달 또는 상기 목표 전까지의 일정 단계에 도달 여부를 결정하는 것을 특징으로 하는 시간적 거리 인지표현학습 장치.
제4항에 있어서, 상기 학습 수행부는 상기 도달이 결정되면 상기 탐색 정책을 실행하며 상기 결정된 새로운 상태와 상기 결정된 행동 데이터를 상기 버퍼에 저장하는 것을 특징으로 하는 시간적 거리 인지표현학습 장치.
제1항에 있어서, 상기 정책 학습부는 HER(Hindsight Experience Replay) 기법을 사용하여 상기 목표 조건 정책을 통해 상기 목표에 도달할 확률을 최대화하도록 상기 행동 데이터를 학습함으로써 상기 목표 조건 정책을 갱신하는 것을 특징으로 하는 시간적 거리 인지표현학습 장치.
제6항에 있어서, 상기 정책 학습부는 손실 함수를 통해 상기 시각적 거리를 최소화하도록 강화 학습을 수행하여 상기 행동 데이터를 선택하는 것을 특징으로 하는 시간적 거리 인지표현학습 장치.
제1항에 있어서, 상기 정책 학습부는 다양한 상태의 탐색을 위해 상태 공간을 확장하여 상기 목표에 대한 시각적 거리를 기반으로 에이전트가 이동할 수 있도록 상기 새로운 상태를 발견함으로써 상기 탐색 정책을 학습하는 것을 특징으로 하는 시간적 거리 인지표현학습 장치.
제1항에 있어서, 상기 시각적 거리 인식표현 학습부는 상기 상태 간의 시각적 거리의 왜곡을 방지하도록 상기 제약 조건의 최적화를 수행하고 상기 상태 간의 시각적 거리를 잠재 공간(latent space)에서 인코딩하는 신경망으로 상기 시각적 거리 인식 표현을 구현하는 것을 특징으로 하는 시간적 거리 인지표현학습 장치.
제9항에 있어서, 상기 시각적 거리 인식표현 학습부는 이중 경사 하강법을 통해 상기 제약 조건의 최적화 및 상기 시각적 거리의 최대화를 수행하여 상기 시각적 거리 인식 표현을 최적화하는 것을 특징으로 하는 시간적 거리 인지표현학습 장치.
시간적 거리 인지표현학습 장치에서 수행되는 시간적 거리 인지표현학습 방법에 있어서, 목표 조건 정책, 탐색 정책, 시각적 거리 인식 표현 및 학습을 위한 경험 데이터를 저장할 버퍼를 초기화하는 초기화단계; 현재 에피소드에서 TLDR(Temporal Distance-aware Representations) 보상을 기초로 목표를 설정하고, 상기 목표에 도달하기 위해 상기 목표 조건 정책의 실행과 상기 탐색 정책의 실행을 통해 새로운 상태와 행동 데이터를 결정하는 학습 수행단계; 상기 목표에 도달하려는 경험을 기반으로 상기 목표 조건 정책을 학습하고, 상기 목표에 대한 시각적 거리를 기반으로 상기 탐색 정책을 학습하는 정책 학습단계; 및 제약 조건을 기초로 상기 상태 간의 시각적 거리를 인코딩하여 상기 시각적 거리 인식 표현을 학습하는 시각적 거리 인식표현 학습단계를 포함하는 시간적 거리 인지표현학습 방법.

Description

시간적 거리 인지표현학습 장치 및 방법{APPARATUS AND METHOD FOR LEARNING TEMPORAL DISTANCE COGNITIVE REPRESENTATION} 본 발명은 로봇 학습 기술에 관한 것으로, 보다 상세하게는 목표 지향 탐색과 목표 조건 정책 학습을 모두 향상시키기 위해 시간적 거리 인식 표현(TLDR)을 활용한 비지도 GCRL 방법을 제공하는 시간적 거리 인지표현학습 장치 및 방법에 관한 것이다. 아기들은 자신의 몸을 제어하는 것부터 시작하여 점차 더 어려운 목표를 달성할 수 있는 능력을 향상시키며, 목표 달성 기술을 자율적으로 학습할 수 있다. 이와 유사하게, 로봇과 같은 지능형 에이전트에게 있어 환경 상태와 에이전트 상태를 포함한 광범위한 상태 집합에 도달하는 능력은 매우 중요하다. 이 능력은 그 자체로 기초적인 기술 세트를 제공할 뿐만 아니라 더 복잡한 과업을 달성하는 데에도 기여할 수 있다. 여기에서, 로봇이 인간처럼 이러한 장기 목표 달성 기술을 자율적으로 학습할 수 있을지에 대한 의문이 발생한다. 만약 로봇이 인간처럼 장기 목표 달성 기술을 자율적으로 학습하는 경우, 로봇의 목표 달성 행동 학습이 특정 과업에 구애받지 않고 외부 감독을 필요로 하지 않기 때문에 큰 이점을 제공할 수 있으며, 이를 기반으로 로봇의 자율 학습을 위한 확장 가능한 접근 방식을 제공할 수 있다. 그러나, 기존의 비지도 학습 기반 목표 조건 강화 학습(GCRL) 및 비지도 기술 발견 방법은 복잡한 환경에서 도달 가능한 상태의 범위가 제한적이다. 비지도 GCRL에서의 주요 도전 과제는 에이전트가 다양한 목표를 달성할 수 있도록 다양한 상태를 탐색하는 것과 효과적으로 목표 달성 정책을 학습하는 것으로, 이전의 방법들은 새로운 상태를 탐색하거나 다음 상태 예측의 불확실성이 높은 상태를 탐구하는 데 중점을 두었으나 이 방법들은 의미 있는 상태나 상태 전이를 발견하지 못할 수 있다. 또한, 희소한 목표 달성 보상을 최대화하거나 목표와의 거리를 휴리스틱하게 정의된 방식으로 최소화하는 것은 복잡한 환경에서 장기 목표 달성 행동을 위해 충분하지 않다. 도 1은 본 발명의 일 실시예에 따른 TLDR 알고리즘을 설명하는 도면이다. 도 2는 본 발명의 일 실시예에 따른 시간적 거리 인지표현학습 장치의 기능적 구성을 설명하는 도면이다. 도 3은 본 발명의 일 실시예에 따른 시간적 거리 인지표현학습 방법을 설명하는 순서도이다. 도 4는 본 발명의 일 실시예에 따른 상태 기반 환경 및 픽셀 기반 환경의 일 실시예를 나타내는 도면이다. 도 5는 도 4의 실험 결과에 따른 상태 기반 환경의 상태 커버리지를 나타내는 도면이다. 도 6은 도 4의 실험 결과에 따른 목표 조건부 정책의 목표 달성 지표를 설명하는 도면이다. 도 7은 도 4의 실험 결과에 따른 픽셀 기반 환경에서의 실험 결과를 나타내는 도면이다. 도 8은 AntMaze-Ultra에서의 목표 도달 능력을 설명하는 도면이다. 도 9는 탐사 및 GCRL 보상 설계에서 시간적 거리 인식 표현의 영향을 설명하는 도면이다. 본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다. 한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다. "제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다. 본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다. 도 1은 본 발명의 일 실시예에 따른 TLDR 알고리즘을 설명하는 도면이다. 도 1을 참조하면, TLDR(TemporaL Distance-aware Representations) 알고리즘은 비지도 GCRL(goal-conditioned reinforcement learning)을 위한 시간적 거리 인식 표현을 활용할 수 있다. 먼저, TLDR 알고리즘을 상태 인코더 를 학습하여 상태를 시간적 거리 인식 표현으로 매핑한다(a). 여기에서, 시간적 거리 인식 표현은 두 상태 사이의 최소 환경 단계 수(transition steps)에 해당될 수 있으며, 예를 들어, 두 상태 간의 거리를 환경 상의 시간적 거리로 정의하는 과정에 해당될 수 있다. 또한, 상태는 에이전트가 환경과 상호작용하는 과정에서 현재 시점에서의 환경 정보에 해당될 수 있으며, 예를 들어, 특정 시점에서 환경의 모든 중요한 정보(예: 위치, 속도, 주변 요소 등)를 포함할 수 있다. TLDR 알고리즘은 시간적 거리 인식 표현을 통해 탐색 목표로서 방문된 상태들 중 시간적으로 가장 먼 상태를 선택할 수 있다(b). 여기에서, TLDR 알고리즘은 방문된 상태들 중 가장 먼 상태를 탐색 목표로 결정함으로써 탐색 과정에서 더 넓은 공간을 탐색하고 효율적으로 환경의 상태 공간을 확장할 수 있다. 즉, TLDR 알고리즘은 상대적으로 가까운 상태보다는 멀리 떨어져 있는 목표 상태를 탐색함으로써 더 넓은 공간을 탐색하고 신규 정보를 획득할 수 있다. TLDR 알고리즘은 목표 조건 정책을 사용하여 선택된 목표에 도달하며, 목표까지의 시간적 거리를 최소화하는 법을 학습할 수 있다(c). 여기에서, 목표 조건 정책은 에이전트가 설정된 목표에 도달하는 방법을 학습하는 정책에 해당될 수 있다. TLDR 알고리즘은 선택된 목표 상태에 도달하기 위한 최적화된 행동 시퀀스를 탐색할 수 있다. 예를 들어, TLDR 알고리즘은 현재 상태와 목표 상태 사이의 시간적 거리를 계산하고 목표에 도달하는 데 걸리는 시간을 최소화할 수 있는 행동을 선택하는 방향으로 시간적 거리를 최소화할 수 있다. 이후, TLDR 알고리즘은 탐험 정책을 통해 방문된 상태들로부터 시간적 거리가 큰 상태들을 방문하면서 탐험 경로를 수집할 수 있다(d). 여기에서, 탐험 정책은 환경에서 새로운 상태를 탐험하고 더 많은 정보를 수집하기 위한 행동 방침에 해당될 수 있다. 여기에서, TLDR 알고리즘은 시간적 거리가 큰 상태들을 방문하고 상태에 따른 탐험 경로를 수집함에 따라 더 많은 상태 공간을 커버할 수 있으며, 환경에 대한 이해도를 향상시킬 수 있다. 도 2는 본 발명의 일 실시예에 따른 시간적 거리 인지표현학습 장치를 설명하는 도면이다. 도 2를 참조하면, 시간적 거리 인지표현학습 장치(100)는 초기화부(110), 학습 수행부(120), 정책 학습부(130), 시각적 거리 인식표현 학습부(140) 및 제어부(150)를 포함할 수 있다. 이때, 본 발명의 실시예는 상기의 구성들을 동시에 모두 포함해야 하는 것은 아니며, 각각의 실시예에 따라 상기의 구성들 중 일부를 생략하거나, 상기의 구성들 중 일부 또는 전부를 선택적으로 포함하여 구현될 수도 있다. 이하, 각 구성들의 동작을 구체적으로 설명한다. 초기화부(110)는 목표 조건 정책, 탐색 정책, 시각적 거리 인식 표현 및 학습을 위한 경험 데이터를 저장할 버퍼를 초기화할 수 있다. 여기에서, 목표 조건 정책은 목표 조건 정책은 에이전트가 설정된 목표에 도달하는 방법을 학습하는 정책에 해당될 수 있으