-
Prompt to Transfer:Sim-to-Real Transfer for Traffic Signal Control with Prompt Learning연구/논문리뷰 2024. 12. 13. 23:03
2024년 7월 30일 화요일 리뷰
- 개인 연구를 위해 논문을 리뷰한 내용입니다:)
https://arxiv.org/abs/2308.14284
Prompt to Transfer: Sim-to-Real Transfer for Traffic Signal Control with Prompt Learning
Numerous solutions are proposed for the Traffic Signal Control (TSC) tasks aiming to provide efficient transportation and mitigate congestion waste. In recent, promising results have been attained by Reinforcement Learning (RL) methods through trial and er
arxiv.org
📝요약
문제점→ RL기반 TSC의 문제점으로 시뮬레이터 환경에서 학습된 정책을 실제 환경에 적용 시 큰 성능차이가 문제되었다.
이는 주로 훈련 시뮬레이터와 실제 환경 간의 시스템 dynamics(동역학) 차이로 인해 발생한다고 한다.
기존의 Grounded Action Transformation (GAT) 방법은 실제 데이터를 기반으로 동역학 모델을 학습하지만, 이는 많은 양의 실제 데이터를 필요로 하며, 관찰되지 않은 상태에서는 성능이 저하된다. 논문은 대형 언어 모델(LLM)의 추론 능력을 활용하여 현실적인 시스템 동역학을 이해하고 프로파일링하는 'PromptGAT'이라는 새로운 방법을 도입한다.
LLM을 사용하여 날씨 조건, 교통 상태 및 도로 유형이 교통 동역학에 미치는 영향을 이해하고 이에 기반하여 현실적인 정책을 학습한다.
제안된 방법은 DQN을 사용하여 실험되었으며, 시뮬레이션에서 현실로의 성능 격차를 줄이는 데 효과적임을 보여준다.
📎관련 연구
- GAT
- GAT는 시뮬레이션에서 학습된 정책을 실제 환경에 적용할 때 발생하는 성능 차이를 줄이기 위해 설계된 프레임워크
- GAT의 핵심 아이디어는 시뮬레이터의 동역학을 실제 환경의 동역학과 유사하게 만들어, 시뮬레이터에서 학습된 정책이 실제 환경에서도 잘 작동하도록 하는 것임.
- 구성요소
- Forward Model
- 현재 상태(st)와 행동(at)을 입력으로 받아 다음 상태(st+1)를 예측하는 모델이다. 이 모델은 실제 환경 데이터를 기반으로 학습된다.
- 예측된 다음 상태(ŝt+1)는 실제 환경에서의 가능한 다음 상태를 나타낸다.
- Inverse Model
- 예측된 다음 상태(ŝt+1)와 현재 상태(st)를 입력으로 받아 행동(ât)을 예측하는 모델입니다. 이 모델은 시뮬레이터 데이터를 기반으로 학습된다.
- 예측된 행동(ât)은 시뮬레이터에서 다음 상태(st+1)를 실제 환경의 상태와 유사하게 만드는데 사용된다.
- Forward Model
- GAT의 작동 원리
- Forward Model 학습
- 실제 환경에서 수집된 데이터셋을 사용하여 Forward Model을 학습한다.
- 목표는 현재 상태와 행동을 기반으로 다음 상태를 정확하게 예측하는 것이다.
- Inverse Model 학습
- 시뮬레이터 환경에서 수집된 데이터셋을 사용하여 Inverse Model을 학습한다.
- 목표는 예측된 다음 상태와 현재 상태를 기반으로 행동을 생성하는 것이다.
- Grounded Action 생성
- 현재 상태(st)와 정책에 의해 예측된 행동(at)을 사용하여 Forward Model이 예측한 다음 상태(ŝt+1)를 얻는다.
- Inverse Model은 이 예측된 다음 상태(ŝt+1)와 현재 상태(st)를 사용하여 행동(ât)을 생성한다.
- 생성된 행동(ât)은 시뮬레이터에서 수행되어, 시뮬레이터의 동역학이 실제 환경의 동역학과 유사하게 조정된다.
- Forward Model 학습
- GAT의 장점과 한계
- 장점
- 실제 환경과 유사한 동역학을 시뮬레이터에 적용하여 시뮬레이션에서 학습된 정책이 실제 환경에서도 잘 작동하도록 한다.
- 실제 환경 데이터를 사용하여 Forward Model을 학습하므로, 보다 정확한 동역학 예측이 가능하다.
- 한계
- 실제 환경 데이터를 많이 필요로 하며, 관찰되지 않은 상태에서는 예측 정확도가 떨어질 수 있다.
- Forward Model의 학습은 많은 계산 자원과 시간이 소요될 수 있다.
- 장점
🌟기존 GAT의 한계를 극복하기 위한 방법
- PromptGAT
- 기존 GAT방식의 단점을 보완하기 위해 LLM을 활용하여 보다 현실적인 동역학을 예측한다.
- Prompt 기반 동역학 모델링
- LLM을 활용하여 날씨, 교통 상태, 도로 유형 등의 맥락 정보를 기반으로 시스템 동역학을 이해하고 예측한다.
- 프롬프트 템플릿을 사용하여 LLM에 질의를 던지고, LLM이 제공하는 답변을 통해 실제 환경의 동역학을 프로파일링한다.
- Forward Model의 개선
- LLM을 통해 얻은 동역학 정보를 Forward Model에 통합하여 보다 정확한 다음 상태를 예측한다.
- 기존 GAT 방식에서는 실제 데이터를 기반으로만 Forward Model을 학습했으나, PromptGAT에서는 LLM의 추론을 활용하여 예측 정확도를 높인다.
- LLM의 추론을 통해 관찰되지 않은 상태에서도 정확한 예측이 가능하다.
- Inverse Model의 사용
- Forward Model에서 예측한 다음 상태를 기반으로, Inverse Model을 사용하여 행동을 생성한다.
- 생성된 행동은 시뮬레이터에서 수행되어 시뮬레이터의 동역학을 실제 환경과 유사하게 만든다.
- Prompt 기반 동역학 모델링
- 기존 GAT방식의 단점을 보완하기 위해 LLM을 활용하여 보다 현실적인 동역학을 예측한다.

즉, promptGAT는 LLM을 통해 추가적인 정보를 주어서 좀 더 구체적이고 실제에 가까운 다음 상황을 예측해내고, 이를 다시 시뮬레이션 환경에 돌려서 다음 행동을 예측(생성)해서 이를 가지고 정책(강화학습)을 업데이트한다.
이 예측(생성)된 행동은 실제 환경에서 돌린것과 비슷도록 구성된 promtGAT에서 나온것이므로 본 논문에서 주장하는대로 실제환경과 시뮬레이션 환경에서의 성능차이가 줄어들 것이다.
'연구 > 논문리뷰' 카테고리의 다른 글
- GAT