로봇과 같이 복잡한 시스템의 행동 학습에는 계층적 강화학습(Hierarchical RL, HRL)이 큰 도움이 됩니다. 계층적 RL은 상위 정책(high-level policy)과 하위 정책(low-level policy)의 두 가지 수준으로 정책을 분리하여 학습하는 방법입니다. 상위 정책은 추상적인 의사결정을 담당하고, 하위 정책은 구체적인 제어를 담당하여 두 계층이 협력합니다.
예를 들어, 물건을 집어서 옮기는 로봇을 생각해보면, 상위 정책은 “어떤 물건을 집어 어디에 놓을 것인가”와 같은 계획을 세우고, 하위 정책은 “로봇 팔을 어떤 각도로 움직이고 손가락을 어떻게 조작할 것인가”를 수행하는 식입니다[medium.com].
상위 정책이 큰 그림을 그리면, 하위 정책이 세부 동작을 실행하는 구조인 것이죠. 일반적으로 상위 정책은 하위 정책보다 느린 주기로 동작하며, 하위 정책은 고빈도로 세밀한 제어 명령을 내립니다. 이렇게 계층을 도입하면 복잡한 문제를 작은 단위로 나눠서 볼 수 있기 때문에 학습이 용이해지고, 학습된 하위 스킬을 조합하여 다양한 상위 행동을 구현할 수도 있습니다.
최근 휴머노이드나 이동 로봇 개발에서는 이러한 HRL 개념이 적극 활용되고 있습니다. Tesla Optimus, Agility Robotics의 Digit, Figure AI의 humanoid를 사례로 각자가 계층적 RL을 어떻게 적용하고 있는지 살펴보겠습니다.
1) Tesla Optimus의 HRL:
Tesla의 휴머노이드 로봇 Optimus는 전체 시스템을 모듈화하고 계층화하여 학습하는 방향을 추구하고 있습니다. 상위 계층에서는 로봇이 무엇을 해야 할지 결정하는 고수준 정책이 있습니다. 이 고수준 정책은 Tesla가 자율주행에서 개발한 비전 인지 및 계획 시스템을 활용하여, 예를 들면 작업 환경에서 목표 물체를 인식하고 접근 경로를 정하거나 다음 수행할 작업 순서를 결정하는 역할을 합니다[newatlas.com].
Optimus가 공장 환경에서 상자를 들어올려 옮기는 시나리오를 생각해보면, 상위 정책은 “저 상자를 들어 올려 옆 테이블에 놓아라”라는 목표를 세우고, 경로를 계획하며, 현재 상황에서 우선순위를 판단합니다. 한편 하위 정책은 개별 동작을 제어하는 수준으로, 보행이나 팔의 움직임 같은 기본기(skills)를 담당합니다.
예를 들어, 걷기 동작의 하위 정책은 로봇의 관절 액추에이터들을 제어하여 중심을 잡고 보폭과 속도를 조절하는 일을 합니다. Tesla는 이러한 하위 동작 제어를 위해 시뮬레이션 강화학습과 모방 학습을 모두 활용하고 있습니다. 공개된 영상에 따르면, 인간이 모션 캡처 슈트를 입고 보여준 동작을 가상의 Optimus 로봇이 따라 하는 방식으로 보행이나 물체 조작의 기초 동작을 학습시키고 있으며[newatlas.com], 이렇게 학습된 하위 정책을 실제 로봇에 이식하여 기본 동작들을 수행하게 합니다.
상위의 뇌에 해당하는 부분은 이러한 학습된 동작들을 조합해 복잡한 작업을 수행하도록 명령을 내리는 것이죠. 이 계층적 접근 덕분에 Optimus는 균형 잡기나 팔 뻗기 같은 어려운 저레벨 문제를 해결한 상태에서, 고레벨의 작업 시나리오에 집중할 수 있습니다. Elon Musk도 “FSD로 발전시킨 실제 세계에 대한 일반화된 AI를 로봇에 이식하고 있다”고 밝혔는데, 이는 Optimus의 상위 정책에 Autopilot으로 단련된 세계 이해 능력을 적용하고, 하위 정책은 로봇 전용으로 학습시켜 두 계층을 모두 강화하고 있음을 시사합니다. 이러한 HRL 구조는 Tesla 로봇이 보행 안정성과 작업 계획 두 마리 토끼를 잡는 데 기여하고 있습니다.
2) Agility Robotics Digit의 HRL
Agility Robotics의 Digit은 물류창고 등에서 인간을 보조하는 이족보행 로봇으로, 계층적 학습을 통한 보행 제어의 성공 사례를 보여줍니다. Digit 개발팀과 협업한 연구에 따르면, Digit의 보행제어에 계층적 RL을 적용하여 캐스케이드 구조의 컨트롤러를 설계했습니다[arxiv.org]. 구체적으로는, 저수준 정책이 다리 관절을 제어하여 균형을 유지하고 보폭을 미세 조정하도록 학습되고, 고수준 정책은 로봇이 가야 할 방향이나 속도를 결정하여 저수준 정책에 명령을 내려주는 형태입니다 .
여기에 전통적인 피드백 제어 요소도 결합하여, 학습된 정책이 현실 세계의 물리 변화에도 견딜 수 있도록 강건성을 높였습니다. 이러한 HRL 프레임워크를 통해 Digit은 상태 공간과 행동 공간의 차원을 줄여 복잡성을 낮춘 채 학습할 수 있었고, 시뮬레이션에서 학습한 보행 정책을 최소한의 튜닝만으로 실제 하드웨어에 성공적으로 이전할 수 있었습니다.
결과적으로 Digit은 가상환경에서 학습한 정책으로 실제 로봇에서 지속적인 보행을 구현하고, 예기치 않은 외부 힘이나 거친 지형에도 넘어지지 않고 걷는 성과를 보였습니다.
이는 계층적 RL을 통해 균형 유지(하위 정책)와 경로 결정(상위 정책)을 분리 학습시킨 덕분에 얻은 성과입니다. 또한 Agility Robotics는 NVIDIA의 시뮬레이션 도구를 활용해 Digit의 하위 정책을 대규모 병렬 학습으로 빠르게 학습시켰고, 상위 정책은 비교적 간단히 목표 지향적으로 설계함으로써, 효율성과 안정성 두 측면을 모두 확보했습니다[agilityrobotics.com].
Digit 사례에서 볼 수 있듯, HRL은 이족보행처럼 난이도 높은 로봇 제어 문제를 다루는 데 매우 효과적이며, 학습된 걷기 능력을 활용해 향후 상위 수준의 물류 작업(예: 상자 들기나 계단 오르기)도 추가 학습시키는 기반이 되고 있습니다.
3) Figure AI의 HRL
Figure AI는 최근 주목받는 휴머노이드 로봇 스타트업으로, Figure 01이라 불리는 인간형 로봇을 개발 중입니다. 비록 세부 알고리즘은 공개되지 않았지만, 업계 동향과 NVIDIA와의 협력을 통해 미루어볼 때 Figure의 로봇도 계층적 강화학습 접근을 적극 도입하고 있을 것으로 예상됩니다. Figure AI는 NVIDIA Cosmos 플랫폼의 초기 파트너 중 하나로 발표되었는데 [nvidianews.nvidia.com], 이는 곧 세계 모델을 활용한 시뮬레이션 데이터로 로봇을 학습시키는 모델 기반 기법과, 그 위에서 동작을 학습하는 HRL 기법을 활용하고 있음을 시사합니다.
즉, 상위 정책은 Cosmos로부터 생성된 가상환경에서 학습된 세계 이해 모델이나 플래너가 맡고, 하위 정책은 구체적인 관절 제어나 보행, 물체 조작 등의 스킬을 RL로 학습하여 맡는 구조일 가능성이 높습니다. 이러한 구조라면 Figure의 로봇은 상위층에서 시뮬레이션된 다양한 시나리오를 통해 무엇을 해야 할지 학습하고, 하위층에서는 물리 기반 시뮬레이터를 통해 실제 로봇 모터 제어에 가까운 경험을 쌓게 할 수 있습니다.
예를 들어, Figure 01 로봇이 창고에서 물건을 옮기는 작업을 학습한다고 하면, Cosmos가 만들어낸 수많은 가상 창고 상황을 상위 정책이 보면서 어떤 물건을 언제 들어 옮길지 결정하도록 학습하고, 동시에 하위 정책은 각 상황에서 균형을 유지하며 걷기나 팔로 물건 잡기 동작을 물리 시뮬레이터로 연습하게 할 수 있습니다. 이렇게 하면 상위 정책과 하위 정책 모두 각자의 역할에 특화된 학습을 거쳐, 실제 로봇에 통합될 때 효율적으로 협업할 수 있습니다.
Figure AI와 같은 신생 기업이 HRL을 채택하는 이유는, 처음부터 모듈화된 학습 구조를 설계함으로써 향후 로봇의 다양한 과업 확장과 유지보수가 용이해지기 때문입니다. 상위 정책을 수정하면 새로운 업무에 적용하고, 하위 정책을 개선하면 동작의 품질을 높이는 식으로 개발을 지속할 수 있어, 범용 휴머노이드를 목표로 하는 Figure에 HRL은 필수적인 선택이라 할 수 있습니다.
상위/하위 정책의 역할과 학습 방식을 종합해보면, 상위 정책은 보통 느린 주기로 동작하면서 의사결정이나 과제 계획을 담당하고, 하위 정책은 빠른 주기로 제어 신호 생성을 담당합니다. 학습은 보통 하위 정책을 먼저 충분히 학습시킨 후(예: 로봇이 넘어지지 않고 걷는 스킬), 그를 고정하거나 또는 약간만 업데이트하면서 상위 정책을 학습시키는 단계적으로 진행될 수 있습니다[openreview.net].
이렇게 하면 상위 정책이 하위 정책의 세부 구현에 신경 쓰지 않고도 높은 수준의 행동을 익힐 수 있어 학습 효율이 올라갑니다. 실제 사례들에서, Tesla Optimus는 보행 및 평형 유지 같은 하위 스킬을 확보한 덕분에 공장 업무 시연 등의 상위 작업을 빠르게 늘려가고 있고, Agility Digit은 걷기 하위 정책의 성공으로 상위에 경로 계획이나 작업 결정 로직을 추가해 제품화를 추진하고 있습니다. Figure AI 역시 유사한 접근으로 예상되며, 향후 공개될 결과에서 상·하위 정책을 구분한 학습의 위력을 확인할 수 있을 것입니다.
HRL이 로봇의 보행, 물체 조작 등에 미치는 영향은 상당히 혁신적입니다. 과거에는 보행 제어기와 동작 계획기를 사람이 수동으로 설계하여 계층 구조를 만들었다면, 이제는 강화학습을 통해 최적의 계층 구조 정책을 자동 학습할 수 있습니다. 이를 통해 로봇은 인간이 생각하기 어려운 창의적 해법도 발견할 수 있고, 예기치 않은 상황에서도 유연하게 대응할 수 있는 능력을 얻습니다.
예컨대, 한 연구에서는 4족 로봇에 팔을 단 시스템에 HRL을 적용하여, 상위 정책이 던져진 공을 쫓아가 집어오는 행동을 학습하도록 하고 하위 정책이 달리기와 공 집기를 수행하도록 한 바 있습니다. 그 결과 로봇은 공이 구르는 방향을 예측해 경로를 계획하고, 빠르게 달려가 정확한 타이밍에 팔을 내려 공을 붙잡는 복잡한 과제를 성공해냈습니다.
이처럼 HRL은 장기 목표(공 잡기)와 단기 제어(달리기/팔 제어)를 분리하여 동시에 달성하게 해주었고, 이는 보행과 조작을 통합하는 문제를 해결하는 데 큰 힘이 됩니다. 따라서 보행 같이 물리가 까다로운 문제나 물체 조작처럼 연속된 동작이 필요한 문제 모두에서 HRL은 로봇의 학습 성능과 안정성을 향상시키는 핵심 기법으로 자리매김하고 있습니다.
'Humanoid' 카테고리의 다른 글
Sim-to-Real 기법의 중요성과 도전 과제 (0) | 2025.05.05 |
---|---|
테슬라와 NVIDIA의 강화학습 전략 비교 (0) | 2025.05.02 |
모델 프리 vs. 모델 기반 강화학습 (0) | 2025.04.26 |
로봇 인식 및 행동 모델링 접근법 차이 (0) | 2025.04.23 |
강화학습 적용 방식과 시뮬레이션 환경 비교 (0) | 2025.04.20 |