본문 바로가기
Humanoid

1.3. 최신 강화학습 기법과 Sim-to-Real 적용

by aiagentx 2025. 3. 19.
반응형

위에서 설명한 패러다임을 구현하기 위해 다양한 강화학습 기법들이 최근 도입되고 있습니다. 앞서 (c)에서 언급한 바와 같이 모델 프리/모델 기반 RL, 모방 학습, 계층형 RL 등이 그것입니다. 구체적으로 몇 가지 대표 기법들을 정리하면 다음과 같습니다:

1) 모델 프리 강화학습
환경 모델 없이 정책 또는 행동가치 함수를 직접 학습합니다. 정책 경사 방법(: TRPO, PPO)이나 Q러닝 계열(: DQN, SAC)이 여기에 속합니다. 로봇 제어에서는 연속 제어에 강한 DDPG, TD3, SAC, PPO 등이 주로 사용되어 왔습니다. 이 방식은 이론적으로 최적 정책을 찾을 수 있지만, 샘플 효율이 낮아 수많은 시도가 필요하므로 현실 로봇에는 바로 적용하기 어려워 시뮬레이터를 활용하는 경우가 많습니다. Cassie의 보행학습처럼 시뮬레이션 상에서 수백만 스텝을 돌린 후 실제에 이식하거나, 혹은 병렬로 다수의 로봇을 동시에 학습시켜 데이터를 모으는 구글의 사례처럼 병렬화로 극복합니다.

 

2) 모델 기반 강화학습

환경의 동적 모델을 활용하여 계획 및 예측을 병행하면서 학습합니다. 모델은 분석적 모델(물리식)일 수도 있고, 부족하면 경험 데이터로 학습한 신경망 모델일 수도 있습니다. 모델 기반 방법은 샘플 효율이 높아 적은 경험으로도 정책을 개선할 수 있으나, 모델 학습 오차가 정책 학습에 악영향을 줄 수 있어 정교한 기법이 필요합니다. 로봇 분야에서는 실제 시스템의 물리를 정확히 모델링하기 어려운 경우가 많아 한때는 덜 쓰였지만, 최근 PlaNet, Dreamer 같은 세계 모델 기반 RL이나, 시뮬레이터를 활용한 MPC+RL 등이 떠오르고 있습니다. 또한 NVIDIACosmos처럼 거대한 생성 모델을 활용해 현실감을 높인 가상 데이터를 뽑아내는 방식으로 사실상의 모델 기반 효과를 노리기도 합니다 .

 

3) 모방 학습(Imitation Learning)

사람이나 기존 정책의 시연 데이터셋으로부터 직접 정책을 학습합니다. 가장 단순한 형태인 행동복제(Behavior Cloning)는 상태-행동 쌍 데이터를 지도학습 하듯이 학습하며, 효율이 높지만 데이터 분포 밖 일반화가 어려울 수 있습니다. 이를 보완하기 위해 Inverse RL이나 GAIL같이 전문가 정책의 의도를 추정하거나, DAgger처럼 데이터 분포를 개선하는 상호작용 기법도 연구됩니다. 모방 학습은 보상함수 설계가 필요 없고 초기 정책을 빠르게 얻을 수 있어, 실제 로봇학습에서 인간 조종으로 데모를 모은 뒤 학습을 시작하는 식으로 활용됩니다. Tesla Optimus의 객체 정리 학습은 사실상 방대한 인간 시연 영상으로 학습한 행동복제 정책이라 볼 수 있습니다 . 이 정책은 사람의 감독 없이도 즉시 실물 환경에서 동작을 보여주었는데, 이는 모방 학습의 강점인 실제 환경에서의 즉시 실행 가능성을 잘 보여주는 사례입니다.

4) 계층적 RL 및 하이브리드 방법

복잡한 장기 과제를 풀기 위해 여러 단계의 정책/제어기를 둡니다. 상위 정책은 거친 전략을 결정하고 하위 정책(또는 제어기)은 세부 동작을 담당합니다. 하위 레벨을 인간이 설계한 PID 제어기나 상태기반 리플렉스 등으로 두거나, 아니면 별도의 RL로 학습시킨 서브-스킬로 둘 수도 있습니다. 예를 들어 로봇 팔 조작에서 상위 RL 정책은어떤 물체를 잡아라를 결정하고, 하위에는 사전에 학습된잡기 스킬네트워크를 호출하도록 할 수 있습니다. 혹은 보행 로봇에서 상위 RL은 속도와 방향만 내고, 하위는 기존 모션 제어 알고리즘(: Raibert 컨트롤 등)을 써서 발을 움직이게 할 수도 있습니다.

이렇게 하면 학습이 모듈화되어 용이해지고 현실 적합성도 높아지지만, 계층을 나누는 작업 자체에 사람이 개입해야 하므로 범용성은 떨어질 수 있습니다. 그럼에도 불구하고 계층적 접근은 복잡계 제어에 필수적이라는 인식하에 활발히 연구되고 있습니다.

 

이러한 RL 기법들을 시뮬레이션(simulation)과 현실(real-world)에 적용할 때는 몇 가지 고려사항이 있습니다. 시뮬레이터는 현실을 근사한 가상환경으로, 로봇 학습의 안전성과 속도를 크게 향상시킵니다. 앞서 언급했듯 Cassie의 연구진은 현실에서 1년 걸릴 실험을 시뮬레이션으로 1주 만에 해치웠습니다agilityrobotics.com. 시뮬레이션에서는 병렬 실행으로 경험 수집을 가속하고, 오류가 나도 로봇이 부서지지 않으며, 다양한 가상의 시나리오를 저비용으로 실험할 수 있다는 장점이 있습니다.

그러나 시뮬레이션이 완벽할 수는 없어서, 거기서 학습된 정책을 실제 로봇에 옮길 때 현실 격차(reality gap) 문제가 발생합니다. 이를 극복하기 위한 기법이 심투리얼(Sim-to-Real) 연구의 핵심인데, 대표적인 방법으로 도메인 랜덤화(domain randomization)가 있습니다. 시뮬레이터 상에서 로봇의 물리 파라미터(질량, 마찰계수 등)나 환경 조건을 무작위로 변화시켜 가며 학습하면, 정책이 한 가지 모델에 과적합하지 않고 현실의 변동성까지 견디는 일반화된 정책이 됩니다[arxiv.org]. OpenAI의 로봇 손으로 큐브 돌리기에서는 물체의 질감, 관성, 시뮬레이션 마찰 등을 무작위로 바꾸는 극단적 도메인 랜덤화를 통해 현실 전이에 성공했습니다.

또 다른 방법은 시뮬레이터 보정(simulator calibration)입니다. 실제 로봇 데이터를 조금 수집하여 시뮬레이터의 동역학 모델을 개선하거나 시뮬레이션 결과를 현실 데이터로 미세 조정(fine-tune)하는 것입니다.

결국 강화학습 기반 로봇 개발에서는시뮬레이션에서 배우고, 현실에서 반복 테스트하는 사이클이 정착되고 있으며, 최근 NVIDIA Isaac 등이 소량의 현실 데이터로 방대한 합성 데이터 생성을 지원하여 이 주기를 더욱 빠르게 돌릴 수 있는 도구를 제공하고 있습니다.

반응형