본문 바로가기
Humanoid

강화학습 적용 방식과 시뮬레이션 환경 비교

by aiagentx 2025. 4. 20.
반응형

1) 학습 환경

Tesla FSD(Full Self-Driving)로 단련된 AI 인프라와 방법론을 Optimus에 이식하고 있습니다. FSD 개발에서는 실제 차량의 주행 로그를 활용한 offline 학습과 필요시 시뮬레이션으로 corner case를 보완하는 전략을 써왔습니다. 이러한 배경 덕분에 Optimus의 소프트웨어도 초기에 현실 환경에서 수집된 영상을 통해 훈련되고, Tesla가 구축한 자체 시뮬레이터를 활용해 드문 상황이나 위험한 상황을 가상 실험하는 방식을 병행하고 있습니다[anyverse.ai].

Tesla 내부 채용공고에 따르면 Optimus 팀은 로봇 소프트웨어 평가용 시뮬레이션 환경 제공, 합성 데이터셋 생성, 머신러닝 모델 훈련용 가상 환경 구축 등을 적극적으로 수행하고 있습니다 . 이는 FSD에서도 가상 환경에서의 테스트와 자동 라벨링 등을 활용해왔던 연장선입니다.

 

 

반면 NVIDIA Isaac Sim이라는 전용 로보틱스 시뮬레이션 플랫폼을 제공합니다. Isaac Sim(Omniverse 기반)은 지능형 로봇을 훈련하고 검증하기 위한 포토리얼리스틱 3D 시뮬레이터로, 물리적으로 정확한 충돌 판정과 센서 시뮬레이션 기능을 갖추고 있습니다. Cosmos는 이러한 Isaac Sim과 통합되어, 원하는 3D 시나리오를 Omniverse로 설계하고 Cosmos 모델로 사실적인 영상 데이터를 생성하여 학습에 쓰거나, 아예 시뮬레이터 내에서 강화학습을 수행하며 모델을 향상시키는 데 활용됩니다[nvidianews.nvidia.com].

예를 들어 개발자가 몇 가지 시연 예제를 주면 Isaac Sim에서 Cosmos가 수많은 변형 시나리오의 데이터를 만들어내어, 로봇이 그 작업을 배우도록 도울 수 있다는 것입니다.

 

2) 강화학습 적용

Tesla Optimus의 제어 소프트웨어는 강화학습(RL)모방학습(IL)을 병행합니다. Tesla신경망 기반 전략으로 로봇에게 작업을 가르친다고 밝혔는데, 이는 자율주행 FSD가 신경망으로 주행 정책을 학습하는 방식과 유사합니다[electrek.co].

실제로 Tesla“Reinforcement Learning Engineer” 등의 직무를 통해 전신 거동부터 정밀 조작까지 다양한 물리 작업을 학습하는 일반 로봇 학습 시스템을 구축 중이라고 합니다[electrek.co]. 이 팀은 시뮬레이션에서의 RL 훈련과 인간 시연데이터를 활용한 모방학습으로 end-to-end 로봇 제어 정책을 개발하며, 이렇게 학습된 정책을 실제 Optimus 프로토타입들에 이식해 매일 반복적으로 테스트하고 개선하고 있습니다. 요약하면 Tesla시뮬레이터+RL+IL+현실테스트를 모두 활용한 다각적 접근입니다.

 

한편 NVIDIA의 접근은 Isaac Gym/Sim에서 발전된 것으로, 대규모 병렬 시뮬레이션을 통한 강화학습을 강조합니다. 예를 들어 NVIDIA 연구자들은 도메인 랜덤화(domain randomization) 기법을 적극 활용하는데, 한 번에 만 개 이상의 병렬 가상환경에서 중력, 마찰계수 등을 무작위로 변화시키며 로봇 정책을 학습시켜 현실에 일반화되는 정책을 얻곤 합니다[sequoiacap.com]. NVIDIA 연구자들은동일한 로봇을 1만 가지 변형된 시뮬레이션에서 훈련하면 현실에 강인한 정책을 얻을 수 있다고 설명하며, 이렇게 훈련된 예로 로봇 개가 요가 공 위에서도 균형을 잡고 걷게 된 데모를 소개하기도 했습니다.

, NVIDIA시뮬레이션 다변화와 병렬화 RL의 표본 효율을 높이고, Cosmos로 생성한 다양한 시나리오 데이터까지 활용해 강화학습을 가속하는 방식입니다.

 

3) Sim-to-Real 갭 극복

시뮬레이션과 현실의 격차(Sim-to-Real Gap)는 로봇 학습에서 큰 도전입니다. Tesla는 이를 줄이기 위해 현실 데이터를 최대한 활용하고, 시뮬레이션 결과를 실제 로봇에 빠르게 검증하는 사이클을 돌립니다. 인간 시연으로 초기 정책을 얻고 시뮬레이터에서 세부 튜닝한 후, 다시 현실 로봇에 적용해보며 피드백 수집 -> 재학습 과정을 거치는 식입니다.

반면 NVIDIA는 앞서 언급한 도메인 랜덤화 기법과 높은 시뮬레이션 품질로 격차를 줄입니다. Omniverse 기반의 시뮬레이션은 조명, 재질, 물리 상수를 다양하게 무작위 화하여 로봇이 특정 시뮬레이션에 오버피팅 되지 않도록 합니다. 또한 Cosmos 자체가 현실 영상으로 학습된 덕에 생성되는 합성 데이터의 분포가 현실과 유사하여, 모델이 현실감 있는 데이터로 훈련되도록 합니다.

 Jensen HuangCosmos는 창의적 컨텐츠 생성이 아니라 AI에게 물리 세계를 이해시키는 것이라고 언급했는데[wired.com], 이는 Cosmos 생성 데이터가 단순히 그럴싸한 이미지가 아니라 물체의 영속성, 물리적 상호작용 등이 정확한 물리 시뮬레이션 영상임을 강조한 것입니다 .

마지막으로, 현실 도입 단계에서의 갭 축소를 위해 양측 모두 현실에서의 추가 미세조정을 수행합니다. Tesla는 자체 공장에서 Optimus를 실제 작업에 투입해보며 성능을 검증/개선할 계획이며[electrek.co], NVIDIA 또한 파트너 기업들이 소량의 실제 로봇 실험 데이터로 Cosmos 모델을 fine-tune하여 현실 환경에 맞게 보정하도록 지원합니다[nvidianews.nvidia.com].

요약하면, Tesla현실->가상->현실의 루프를 빠르게 돌리는 한편, NVIDIA가상 다양성을 최대화해 처음부터 현실에 강인한 모델을 얻도록 하는 차이가 있습니다.

반응형