로봇에게 자율성을 부여하는 핵심 기술로 강화학습(RL) 이 부상하면서, 로봇 학습 연구는 몇 가지 축으로 분류하여 이해할 수 있습니다. 로봇 학습을 바라보는 네 가지 측면은 (a) 로봇이 학습해야 하는 핵심 역량은 무엇인지, (b) 그 문제를 정의(추상화)하는 방식, (c) 문제를 푸는 해결 접근법, 그리고 (d) 얻은 해법의 실제 환경 성공 수준입니다[arxiv.org].
이 섹션에서는 이 네 가지 측면을 중심으로 현대 로봇 강화학습 패러다임을 설명하고, 실제 사례인 Tesla Optimus, Agility Robotics, Figure AI의 학습 방식을 비교하며, 최신 RL 기법들과 sim-to-real 등 현실 적용 이슈를 논의합니다.
(a) 로봇이 학습해야 하는 핵심 역량 (Robot Competencies)
로봇이 수행하는 작업은 크게 어떤 물리적 상호작용 능력을 필요로 하는가로 구분할 수 있습니다. 단일 로봇 기준으로 보면 흔히 이동(mobility)과 조작(manipulation) 두 가지 범주로 나뉩니다.
이동 능력은 다시 로코모션(locomotion)과 내비게이션(navigation)으로 세부 구분되는데, 로코모션은 로봇의 형태(다리, 바퀴, 드론 등)에 맞게 다양한 지형을 실제로 이동하는 저수준 운동 기술을 의미하고, 내비게이션은 목표 지점까지 효율적이고 충돌 없이 경로를 계획하는 고수준 이동 전략을 뜻합니다. 예를 들어 자율주행 자동차나 이동 로봇의 내비게이션 정책은 주로 속도나 방향 등의 상위 명령을 내리고, 실제 바퀴 구동은 로코모션 컨트롤러가 담당하는 식입니다.
조작(manipulation) 역량은 환경의 물체를 다루는 능력으로, 물체를 집거나 들고 옮기는 파지/이동, 도구를 사용하는 정교한 동작, 물체 조립 등 다양합니다. 오늘날 딥러닝 기반 로봇 연구들은 이러한 이동 및 조작 역량을 단일 신경망으로 엔드투엔드 학습하기도 하고, 각 역량별 모듈을 따로 학습해 통합하기도 합니다.
나아가 여러 로봇 또는 로봇과 인간이 함께 협력하는 다중 에이전트 상호작용 역량도 고려되는데, 예컨대 군집 드론의 충돌 회피, 두 대의 로봇이 협동하여 물체 운반, 로봇 축구 등이 해당합니다. 이런 경우 다중 에이전트 강화학습(MARL)을 적용하며, 각 로봇의 목표가 일치하는지에 따라 협력 혹은 경쟁 시나리오로 학습 구조가 복잡해집니다[arxiv.org].
요약하면, 로봇 학습의 첫 번째 축은 어떤 능력을 학습시킬 것인가이며, 이동과 조작은 물론 협업까지 포괄하는 다양한 역량에 대해 연구가 이루어지고 있습니다. 실제 사례를 보면, Tesla Optimus나 Figure 01과 같은 휴머노이드는 이동+조작의 복합 역량을 목표로 하기에 걷기, 균형잡기부터 물체 인식 및 집기, 공구 사용까지 매우 폭넓은 기술 묶음을 학습해야 합니다. Agility Robotics의 Digit의 경우 현재 주력 용도가 물류 상자 운반 등의 조작 업무이지만, 그 전신인 Cassie 로봇은 이족 보행 특화 연구 플랫폼으로 개발되었듯 안정적인 이동 역량이 핵심이었습니다. 따라서 각 플랫폼은 우선순위로 삼는 학습 역량이 다르며, 이를 달성하기 위한 알고리즘도 상이하게 적용되고 있습니다.
'Humanoid' 카테고리의 다른 글
II테슬라 Optimus의 기술 스택 분석: (0) | 2025.03.24 |
---|---|
2.1시뮬레이션과 물리 기반 AI의 로봇 학습에서의 역할:Sim-to-Real 기법의 중요성과 도전 과제 (0) | 2025.03.21 |
1.3. 최신 강화학습 기법과 Sim-to-Real 적용 (0) | 2025.03.19 |
이번 스토리에서는 (1) | 2025.03.13 |
1.1 로봇 인공지능 발전 역사 (Robotics AI History) (0) | 2025.03.13 |