KR-102960678-B1 - REINFORCEMENT LEARNING-BASED BEAM FORMING TRAINING METHOD AND APPARATUS FOR ASYMMETRIC LINK

KR102960678B1KR 102960678 B1KR102960678 B1KR 102960678B1KR-102960678-B1

Abstract

무선랜 시스템에서 수행되는, 비대칭 링크를 위한 강화 학습 기반의 빔포밍 훈련 방법이 개시된다. 개시된 비대칭 링크를 위한 강화 학습 기반의 빔포밍 훈련 방법은 이전 빔포밍 훈련 정보를 수집하는 단계; 상기 이전 빔포밍 훈련 정보 및 미리 학습된 강화 학습 모델을 이용하여, 현재 빔포밍 훈련을 위한, BTA(Beamforming Training Allocation) 구간별 STS(Space-Time slot) 개수를 예측하는 단계; 및 전체 BTA 구간에 대해 예측된 STS 개수를 이용하여, 상기 현재 빔포밍 훈련을 수행하는 단계를 포함하며, 상기 강화 학습 모델은 상태 정보로부터, 미리 할당된 적어도 하나의 BTA 구간에 대해 예측한 STS 개수를 포함하는 액션 정보를 출력하며, 미리 설정된 순서에 따라서 순차적으로 상기 액션 정보를 출력하는 복수의 에이전트를 포함하며, 상기 강화 학습 모델의 상태 정보는 상기 현재 빔포밍 훈련의 이전에 수행된, 미리 설정된 횟수만큼의 이전 빔포밍 훈련에 대한 정보를 포함하는 상기 이전 빔포밍 훈련 정보 및 상기 에이전트 중 일부 에이전트의 액션 정보를 포함한다.

Inventors

김문석
조부성

Assignees

세종대학교산학협력단

Dates

Publication Date: 20260506
Application Date: 20260407

Claims (10)

이전 빔포밍 훈련 정보를 수집하는 단계; 상기 이전 빔포밍 훈련 정보 및 미리 학습된 강화 학습 모델을 이용하여, 현재 빔포밍 훈련을 위한, BTA(Beamforming Training Allocation) 구간별 STS(Space-Time slot) 개수를 예측하는 단계; 및 전체 BTA 구간에 대해 예측된 STS 개수를 이용하여, 상기 현재 빔포밍 훈련을 수행하는 단계를 포함하며, 상기 강화 학습 모델은 상태 정보로부터, 미리 할당된 적어도 하나의 BTA 구간에 대해 예측한 STS 개수를 포함하는 액션 정보를 출력하며, 미리 설정된 순서에 따라서 순차적으로 상기 액션 정보를 출력하는 복수의 에이전트를 포함하며, 상기 강화 학습 모델의 상태 정보는 상기 현재 빔포밍 훈련의 이전에 수행된, 미리 설정된 횟수만큼의 이전 빔포밍 훈련에 대한 정보를 포함하는 상기 이전 빔포밍 훈련 정보 및 상기 에이전트 중 일부 에이전트의 액션 정보를 포함하는 비대칭 링크를 위한 강화 학습 기반의 빔포밍 훈련 방법.
제 1항에 있어서, 상기 이전 빔포밍 훈련 정보는 상기 BTA 구간별로 할당된 STS의 개수 정보; 및 상기 BTA 구간별로 SSW(Sector Sweep) 프레임 전송에 성공한 단말 정보와 충돌이 발생한 STS 개수 정보를 포함하며, 상기 에이전트 중 첫번째 에이전트를 제외한 나머지 에이전트는 이전 에이전트 및 현재 에이전트에 할당된 BTA 구간에 대한 이전 빔포밍 훈련 정보와, 상기 이전 에이전트의 액션 정보를, 상기 상태 정보로 이용하며, 상기 첫번째 에이전트는 상기 현재 에이전트에 할당된 BTA 구간에 대한 이전 빔포밍 훈련 정보를, 상기 상태 정보로 이용하는 비대칭 링크를 위한 강화 학습 기반의 빔포밍 훈련 방법.
제2항에 있어서, 상기 에이전트 중 일부 에이전트의 액션 정보는 상기 에이전트 중 마지막 에이전트를 제외한 에이전트의 액션 정보를 포함하는 비대칭 링크를 위한 강화 학습 기반의 빔포밍 훈련 방법.
제2항에 있어서, 상기 이전 에이전트 및 현재 에이전트에 할당된 BTA 구간은 서로 인접한 송신 섹터에 대응되는 BTA 구간인 비대칭 링크를 위한 강화 학습 기반의 빔포밍 훈련 방법.
제4항에 있어서, 상기 에이전트 각각에 대한 보상값은 상기 현재 빔포밍 훈련이 수행된 이후, 상기 에이전트에 할당된 BTA 구간에서 상기 SSW 프레임의 전송에 성공한 단말의 개수와, 상기 에이전트가 예측한 STS의 개수에 대한 비율, 및 상기 에이전트에 할당된 BTA 구간에서 충돌이 발생한 STS의 개수에 따라서 결정되는 비대칭 링크를 위한 강화 학습 기반의 빔포밍 훈련 방법.
제5항에 있어서, 상기 에이전트 각각에 할당되는 BTA의 개수는 상기 보상값에 따라서 동적으로 조절되는 비대칭 링크를 위한 강화 학습 기반의 빔포밍 훈련 방법.
제6항에 있어서, 상기 이전 및 현재 에이전트에 대한 보상값을 비교하여, 상대적으로 보상값이 작은 에이전트에 할당된 BTA를, 상대적으로 보상값이 큰 에이전트에 추가로 할당하는 단계 를 더 포함하는 비대칭 링크를 위한 강화 학습 기반의 빔포밍 훈련 방법.
위상 배열 안테나; 메모리; 및 상기 메모리와 전기적으로 연결된 적어도 하나의 프로세서를 포함하며, 상기 프로세서는 이전 빔포밍 훈련 정보 및 미리 학습된 강화 학습 모델을 이용하여, 현재 빔포밍 훈련을 위한, BTA 구간별 STS 개수를 예측하며, 상기 강화 학습 모델은 상태 정보로부터, 미리 할당된 적어도 하나의 BTA 구간에 대해 예측한 STS 개수를 포함하는 액션 정보를 출력하며, 미리 설정된 순서에 따라서 순차적으로 상기 액션 정보를 출력하는 복수의 에이전트를 포함하며, 상기 강화 학습 모델의 상태 정보는 상기 현재 빔포밍 훈련의 이전에 수행된, 미리 설정된 횟수만큼의 이전 빔포밍 훈련에 대한 정보를 나타내는 상기 이전 빔포밍 훈련 정보 및 상기 에이전트 중 일부 에이전트의 액션 정보를 포함하는 비대칭 링크를 위한 강화 학습 기반의 빔포밍 훈련 장치.
제 8항에 있어서, 상기 이전 빔포밍 훈련 정보는 상기 BTA 구간별로 할당된 STS의 개수 정보; 및 상기 BTA 구간별로 SSW(Sector Sweep) 프레임 전송에 성공한 단말 정보와 충돌이 발생한 STS 개수 정보를 포함하며, 상기 에이전트 중 첫번째 에이전트를 제외한 나머지 에이전트는 이전 에이전트 및 현재 에이전트에 할당된 BTA 구간에 대한 이전 빔포밍 훈련 정보와, 상기 이전 에이전트의 액션 정보를, 상기 상태 정보로 이용하며, 상기 첫번째 에이전트는 상기 현재 에이전트에 할당된 BTA 구간에 대한 이전 빔포밍 훈련 정보를, 상기 상태 정보로 이용하며, 상기 에이전트 중 일부 에이전트의 액션 정보는 상기 에이전트 중 마지막 에이전트를 제외한 에이전트의 액션 정보를 포함하는 비대칭 링크를 위한 강화 학습 기반의 빔포밍 훈련 장치.
제 9항에 있어서, 상기 에이전트 각각에 대한 보상값은 상기 현재 빔포밍 훈련이 수행된 이후, 상기 에이전트에 할당된 BTA 구간에서 상기 SSW 프레임의 전송에 성공한 단말의 개수와, 상기 에이전트가 예측한 STS의 개수에 대한 비율, 및 상기 에이전트에 할당된 BTA 구간에서 충돌이 발생한 STS의 개수에 따라서 결정되는 비대칭 링크를 위한 강화 학습 기반의 빔포밍 훈련 장치.

Description

비대칭 링크를 위한 강화 학습 기반의 빔포밍 훈련 방법 및 장치{REINFORCEMENT LEARNING-BASED BEAM FORMING TRAINING METHOD AND APPARATUS FOR ASYMMETRIC LINK} 본 발명은 무선랜 시스템의 비대칭 링크를 위한 빔포밍 훈련 방법 및 장치에 관한 것으로서, 더욱 상세하게는 강화 학습 기반의 빔포밍 훈련 방법 및 장치에 관한 것이다. 초연결(Hyper-connected) 시대에 진입함에 따라 6GHz 이하의 주파수 대역은 포화 상태이며, 데이터 수요는 나날이 기하급수적으로 증가하고 있다. 이에 넓은 대역폭을 활용하여 대량의 데이터 전송이 가능한 Millimeter-wave (mmWave)가 많은 주목을 받고 있다. 2012년 승인된 IEEE 802.11ad는 처음으로 60GHz mmWave를 사용한 Wi-Fi 기술이다. 그리고 Augmented Reality (AR)/Virtual Reality (VR), 실시간 multi-view 8K video 등과 같이 새로운 애플리케이션을 위해서 IEEE 802.11ad를 기반으로 100Gbps의 처리량 목표의 IEEE 802.11ay 표준이 제안되었다. mmWave는 넓은 대역폭을 사용한다는 장점이 있는 반면, 주파수가 높아진 만큼 대기 중이나 전송선로에서 손실률이 많이 증가한다는 단점이 있다. 이 같은 문제 해결을 위해 mmWave 통신 시스템에서는 위상 배열 안테나(phased-array antenna)를 사용해 원하는 방향으로 안테나 빔(beam)을 움직여 지향성 빔(directional beam)을 생성하며, 이 같은 기술을 빔포밍(Beamforming, BF)이라고 한다. 빔포밍 사용 시 송수신 노드가 통신을 위해 사용할 적합한 지향성 빔을 찾는 것이 중요하며, 이러한 지향성 빔을 찾는 과정을 빔포밍 훈련(BF Training)이라고 한다. 빔포밍 훈련 수행시에, 송신 섹터 개념을 사용하며, 송신 섹터란 안테나 영역을 방향성 조절을 통해 여러 개로 세분화한 영역을 뜻한다. 빔포밍 과정에서 액세스 포인트(AP)는 송신 섹터 별로 프레임을 전송하며, 단말(station)은 프레임이 어느 방향에서 전송되는지 모르기 때문에, 가장 넓은 빔 폭으로 프레임을 수신하기 위해 유사 전방향(quasi omni-directional) 모드를 이용한다. 반대로 단말이 프레임을 전송할 때는 액세스 포인트가 유사 전방향 모드를 이용한다. 일반적으로 단말은 액세스 포인트보다 적은 수의 안테나를 가지고 있기 때문에, 단말의 전송 파워는 액세스 포인트보다 약하다. 따라서, 액세스 포인트가 전송하는 지향성 프레임을, 단말은 유사 전방향 모드에서 수신이 가능하지만, 단말이 전송하는 지향성 프레임을, 액세스 포인트는 유사 전방향 모드에서 수신하지 못하는 비대칭 링크 상황이 발생하며, IEEE 802.11ay에서는 이러한 비대칭 링크 상황을 위한 빔포밍 훈련 방법이 제안되었다. IEEE 802.11ay에서 제안된 비대칭 링크 상황을 위한 빔포밍 훈련 방법에서는 BI(Beacon Interval)이 반복되며, BI는 액세스 포인트와 단말 사이에 컨트롤 프레임이 송수신되는 BHI(Beacon Header Interval)과 액세스 포인트와 단말 사이에 데이터가 송수신되는 DTI(Data Transmission Interval)로 구성된다. 그리고 BHI는 BTI(Beacon Transmission Interval), A-BFT(Association Beamforming Training) 및 ATI(Announcement Transmission Interval)로 구성된다. 관련 선행문헌으로 특허 문헌인 대한민국 등록특허 제10-2910176호, 제10-2648565호, 대한민국 공개특허 제2025-0174404호가 있다. 도 1은 무선랜 시스템에서 비대칭 링크를 위한 빔포밍 훈련 방법을 설명하기 위한 도면이다. 도 2는 송신 섹터의 일예를 도시하는 도면이다. 도 3은 본 발명의 일실시예에 따른 비대칭 링크를 위한 강화 학습 기반의 빔포밍 훈련 방법을 설명하기 위한 도면이다. 도 4는 본 발명의 일실시예에 따른 강화 학습 모델을 설명하기 위한 도면이다. 도 5 및 도 6은 본 발명의 일실시예에 따른 강화 학습 모델의 정책 함수 및 가치 함수의 딥러닝 네트워크를 설명하기 위한 도면이다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다. 이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 도 1은 무선랜 시스템에서 비대칭 링크를 위한 빔포밍 훈련 방법을 설명하기 위한 도면이며, 도 2는 송신 섹터의 일예를 도시하는 도면이다. 도 2에서는, 액세스 포인트가 4개의 위상 배열 안테나(210 내지 240)을 이용하며, 제1위상 배열 안테나(210)에는 제1 및 제2송신 섹터(TS1, TS2)가 할당되고, 제2위상 배열 안테나(220)에는 제3 및 제4송신 섹터(TS3, TS4)가 할당되고, 제3위상 배열 안테나(230)에는 제5 및 제6송신 섹터(TS5, TS6)가 할당되고, 제4위상 배열 안테나(240)에는 제7 및 제8송신 섹터(TS7, TS8)가 할당된 예시가 도시된다. 비대칭 링크 상황에서 빔포밍 훈련을 위해 액세스 포인트는, BTI 구간에서 송신 섹터 별로 비콘(beacon) 프레임을 전송한다. 액세스 포인트는 BTI 구간에서 송신 섹터 별로 비콘 프레임을 전송할 때, 각 비콘 프레임에 TRN-R(Training-RX) 서브 필드를 추가하여 전송한다. 단말은 액세스 포인트가 전송한 비콘 프레임을 수신할 때마다, TRN-R 서브필드를 제외한 비콘 프레임은 유사 전방향 패턴으로 수신하고, TRN-R 서브필드들을 수신할 때는 서로 다른 수신 섹터를 적용하여, 수신 품질이 가장 좋은 최적의 수신 섹터를 결정할 수 있다. 안테나의 쌍대성(reciprocal)을 고려했을 때, 액세스 포인트로부터의 전송에 대한 단말의 최적 수신 섹터는, 반대로 단말이 액세스 포인트로 데이터를 전송할 때의 최적 송신 섹터에 대응된다. 액세스 포인트는 단말 각각과의 최적 송신 및 수신 섹터를 확인하기 위해, DTI 구간에, BTA(Beamforming Training Allocation) 구간을 할당한다. DTI 구간에 할당되는 BTA 구간의 개수는, 액세스 포인트의 송신 섹터의 개수에 대응된다. 즉, 송신 섹터 별로 BTA 구간이 할당되며, 도 2와 같은 예시에서는 8개의 BTA 구간이 할당될 수 있다. 그리고 하나의 BTA 구간 내에는 하나의 단말이 SSW(Sector Sweep) 프레임을 전송할 수 있는 적어도 하나의 STS(space-time slot)와, 액세스 포인트가 애크(Ack) 프레임을 전송할 수 있는 시간이 할당된다. DTI 구간의 각 BTA 구간마다 액세스 포인트는, 단말로부터 전송되는 SSW 프레임의 수신을 대기하고, BTA 구간에 할당된 STS의 개수만큼을 대기한 이후, SSW 프레임을 수신한 송신 섹터로 애크 프레임을 전송한다. 단말이 SSW 프레임을 전송할 때, 랜덤한 타이머를 이용하며, 타이머 값이 0이 되면 SSW 프레임을 전송한다. 액세스 포인트의 애크 프레임에는 SSW 프레임 전송에 성공한 단말의 정보가 포함된다. 이와 같은 빔포밍 훈련 과정에서, 만일 특정 송신 섹터에 많은 단말이 밀집되어 있는 상태에서 STS의 개수가 충분하지 않다면, 해당 송신 섹터의 BTA 구간에서 단말들이 동시에 SSW 프레임을 전송하여 SSW 프레임의 충돌이 발생할 가능성이 높아진다. 충돌을 일으킨 단말은 다시 빔포밍 훈련을 통해 SSW 프레임을 전송해야 하므로, 무선랜 시스템 전체적으로 빔포밍 훈련 시간이 증가한다. 반대로 STS의 개수가 지나치게 많은 경우에도, 빔포밍 훈련 시간이 증가하기 때문에, 효율적인 빔포밍 훈련을 위해서는, 적절한 STS의 개수가 BTA 구간에 할당될 필요가 있다. 이에 본 발명은 BTA 구간 별로 적절한 STS의 개수를 예측하고, 예측된 STS의 개수에 기반하여 빔포밍 훈련을 수행하는 방법을 제안한다. 본 발명의 일실시예는 적절한 STS의 개수를 예측하기 위해, 강화 학습 모델을 이용하며, 예측된 STS 개수만큼 BTA 구간에 STS를 할당하여, 빔포밍 훈련을 수행한다. 특히 본 발명의 일실시예는 다중 에이전트 기반의 강화 학습 모델을 이용하여, BTA 구간별로 STS의 개수를 예측한다. 본 발명의 일실시예에 따른 빔포밍 훈련 방법은 컴퓨팅 장치에서 수행될 수 있으며, 이러한 컴퓨팅 장치는 위상 배열 안테나, 메모리 및 메모리와 전기적으로 연결된 적어도 하나의 프로세서를 포함한다. 액세스 포인트는 전술된 컴퓨팅 장치의 일예이며, 프로세서는 빔포밍 훈련을 위한 일련의 과정을 수행한다. 도 3은 본 발명의 일실시예에 따른 비대칭 링크를 위한 강화 학습 기반의 빔포밍 훈련 방법을 설명하기 위한 도면이며, 도 4는 본 발명의 일실시예에 따른 강화 학습 모델을 설명하기 위한 도면이다. 도 3을 참조하면, 본 발명의 일실시예에 따른 액세스 포인트는 현재 빔포밍 훈련을 위해 이전 빔포밍 훈련 정보를 수집(S310)한다. 여기서, 이전 빔포밍 훈련 정보는 현재 빔포밍 훈련의 이전에 수행된, 미리 설정된 횟수만큼의 이전 빔포밍 훈련에 대한 정보를 포함하며, 가장 최근의 빔포밍 훈련에 대한 정보를 포함할 수 있다. 그리고 빔포밍 훈련은 타임 스텝 단위로 수행될 수 있다. 이전 빔포밍 훈련 정보는 일실시예로서, 이전 빔포밍 훈련 과정에서 이용된 BTA 구간별로 할당된 STS의 개수 정보와, BTA 구간별로 SSW 프레임 전송에 성공한 단말 정보와, BTA 구간별로 충돌이 발생한 STS 개수 정보를 포함할 수 있다. 그리고 액세스 포인트는 이전 빔포밍 훈련 정보 및 미리 학습된 강화 학습 모델을 이용하여, 현재 빔포밍 훈련을 위