로봇제어를 위한 Long horizon RL 연구 및 FM 시각화 보드 개발

작성자
학과 또는 소속(회사명)
조회수 6
평가(좋아요)수 0
댓글수 0
프로젝트 개요
로봇 제어를 위한 장기 시계열 강화학습(Long-Horizon RL) 연구 및 Flow Matching 기반 시각화 보드 개발

본 프로젝트는 장기 의사결정(Long-horizon decision making)이 요구되는 로봇 제어 문제를 대상으로,
Flow Matching 기반의 강화학습 알고리즘(FQL, QC-FQL)을 적용하고 확장하며,
학습 과정과 정책의 내재적 표현을 시각적으로 분석할 수 있는 대화형 시각화 보드를 개발하는 연구를 수행합니다.

1. 연구 동기

기존의 PPO, SAC 등 정책 경사 기반 강화학습 기법은 다음과 같은 문제를 가지고 있습니다.
첫째, 장기 시계열 환경에서의 보상 희소성으로 인한 학습 불안정성,
둘째, 고차원 연속 제어(예: 다관절 로봇, 양팔 매니퓰레이터)에서 발생하는 복잡한 행동 분포,
셋째, 다수의 관절 혹은 양팔 간 공간적 상호 의존성으로 인한 제어 난이도입니다.

이를 해결하기 위하여 본 연구에서는 Flow Q-Learning(FQL) 및 Chunked FQL(QC-FQL) 알고리즘을 기반으로 합니다.
FQL은 확률 흐름(Probability Flow ODE)을 이용하여 노이즈에서 행동으로의 연속적 변환을 학습하며,
Q함수를 통해 행동의 가치를 정량적으로 보정합니다.
이를 통해 정책이 에너지 경사를 따라 안정적이고 부드러운 행동 궤적을 학습하도록 유도합니다.

2. 이론적 배경

QC-FQL은 Flow Matching, Q-learning, 그리고 Action Chunking을 통합한 알고리즘입니다.
Flow Matching은 확률 흐름 미분방정식을 근사하는 신경 벡터필드를 학습합니다.
Q-Learning은 Bellman 타깃을 통해 장기 누적 보상을 추정합니다.
Action Chunking은 연속된 행동 시퀀스를 하나의 매크로 행동으로 묶어 장기 보상 전파를 안정화합니다.

QC-FQL의 학습 손실 함수는 크게 세 가지 항으로 구성됩니다.
첫째, Flow Matching 손실은 벡터필드가 실제 행동 분포의 방향을 따라가도록 유도합니다.
둘째, 교사-학생 모방 손실은 사전 학습된 교사 정책을 기준으로 학생 정책이 수렴하도록 합니다.
셋째, Q 함수 손실은 학습된 행동의 가치를 높이는 방향으로 최적화를 수행합니다.

타깃 네트워크는 지수 이동 평균(EMA, Exponential Moving Average)을 이용해 업데이트되며,
이는 학습의 안정성을 향상시키고 특히 Chunk Size가 커질 때 발생하는 Q 값의 진동과 과적합을 완화합니다.

3. 연구 및 시스템 구현

본 프로젝트는 다음 두 가지 주요 성과를 가지고 있습니다.

1. 알고리즘적 개선 - EMA 기반 QC-FQL
기존 FQL 대비 EMA(Target Critic) 업데이트를 적용하여 학습의 진동을 줄이고 안정성을 향상시켰습니다.
Chunk 길이가 커질 때 발생하는 불안정성을 완화하며, 장기 행동 예측이 더 부드럽게 수렴합니다.
또한 교사-학생 구조를 통한 Distillation Loss를 이용하여 Flow 기반 행동 학습을 보조합니다.

2. 시각화 시스템 개발 - Flow Matching 기반 RL 대시보드
React, TailwindCSS, Framer Motion 기반의 대화형 시각화 웹 보드를 구현하였습니다.
본 시스템은 강화학습의 진행 과정과 결과를 직관적으로 분석할 수 있도록 설계되었습니다.

주요 기능은 다음과 같습니다.

* Learning Curves: reward, success rate, distillation, Q, critic 손실 등의 변화 추적
* BC-Flow Vector Field: 시간에 따른 행동 변환 벡터필드 시각화
* Teacher–Student Embedding: 교사와 학생 정책 간 임베딩 공간 비교
* Video Gallery: 학습된 로봇의 평가 동영상 확인

이를 통해 강화학습의 수렴 과정과 정책의 내적 구조를 정량적, 시각적으로 함께 분석할 수 있습니다.

4. 데이터 및 실험 환경

본 연구는 ALOHA 시뮬레이션 기반의 양팔 조작 환경(dual-arm manipulation)과
사용자 시연(human demonstration)을 포함한 다양한 데이터셋을 사용합니다.
한팔 로봇은 ogbench 라이브러리를 사용,
양팔 로봇은 aloha-gym 환경의 transfer, insertion task를 이용하여 수행하였습니다

시각화용 데이터 구성은 다음과 같습니다.

* learning_curves.csv : 학습 곡선 (보상, 손실 등)
* vector_field_bcflow.json : Flow Vector Field 스냅샷
* embedding_student_teacher.json : 교사-학생 임베딩 비교

해당 데이터셋은 아래 구글 드라이브 폴더를 통해 접근할 수 있습니다.
로봇 학습 데이터셋 (Google Drive):
[https://drive.google.com/drive/folders/1TvNr2LxKEUckLGo9Tnn9-xB8bMza-Jdm?usp=drive_link](https://drive.google.com/drive/folders/1TvNr2LxKEUckLGo9Tnn9-xB8bMza-Jdm?usp=drive_link)

시각화 보드 내의 URL 로드 기능을 사용하여 실험 데이터를 직접 불러와 분석할 수 있습니다.

5. 학술적 의의

QC-FQL은 확률적 흐름 기반 모델링을 Q-learning에 통합함으로써,
모방 학습과 정책 최적화 간의 간극을 줄이는 데 기여합니다.

Flow Matching은 생성 모델의 에너지 지형을 학습하고,
Q 함수는 행동의 상대적 가치를 반영하여 장기 보상 구조를 안정적으로 전파합니다.
이를 통해 QC-FQL은 학습 효율성과 행동의 해석 가능성을 동시에 향상시킵니다.

또한 본 연구에서 개발된 시각화 시스템은 정책의 내부 표현, 수렴 과정, 손실 변화를 실시간으로 관찰할 수 있어,
강화학습의 해석 가능성(Interpretability) 측면에서도 큰 의의를 가집니다.

6. 향후 연구 방향

앞으로의 연구는 다음과 같은 방향으로 확장될 예정입니다.

* Diffusion-PPO 하이브리드 학습을 통한 실제 환경 적응(Fine-tuning)
* 양팔 간 협력적 행동 모델링(Cross-arm coupling dynamics)
* MoveIt2 및 ROS2를 활용한 실제 로봇 실험(Sim2Real) 적용

이 외에도 시각 기반 관찰(Visual-conditioned Flow Control) 및 대규모 시뮬레이션 데이터 활용을 통해
정책의 일반화 능력을 강화하는 연구를 병행할 계획입니다.

동영상 링크

https://youtu.be/3pON1dFents

로봇제어를 위한 Long horizon RL 연구 및 FM 시각화 보드 개발

조회수 6
평가(좋아요)수 0
댓글수 0
게시 : 2025년 11월 10일

로봇제어를 위한 Long horizon RL 연구 및 FM 시각화 보드 개발

조회수 6
평가(좋아요)수 0
댓글수 0
게시 : 2025-11-10

Member

김지혜

Keyword

#RL #Dashboard #FlowMatching

수상여부

  • 인공지능