반응형 Humanoid24 모델 프리 vs. 모델 기반 강화학습 모델 프리(Model-Free) 강화학습과 모델 기반(Model-Based) 강화학습은 에이전트가 환경을 학습하는 방식의 큰 분기점입니다[spinningup.openai.com]. 모델 프리 RL에서는 에이전트가 환경의 모델(상태 전이나 보상에 대한 예측)을 명시적으로 학습하거나 사용하지 않고, 시행착오(trial-and-error)를 통해 정책을 직접 학습합니다. 반면 모델 기반 RL에서는 환경의 동작을 예측하는 모델을 활용하여 앞으로 일어날 일을 시뮬레이션 하거나 계획함으로써 결정할 행동을 학습합니다. 예를 들어, PPO(Proximal Policy Optimization)나 DDPG(Deep Deterministic Policy Gradient) 같은 알고리즘은 모델 없이도 환경에서의 경험 데이.. 2025. 4. 26. 로봇 인식 및 행동 모델링 접근법 차이 신경망 구조: Tesla Optimus의 두뇌는 기본적으로 Autopilot/FSD에서 발전된 신경망 아키텍처를 물려받았을 것으로 보입니다. Tesla는 AI Day 등을 통해 Vision-only 인식과 엔드투엔드 신경망 제어 철학을 강조해왔습니다. 실제로 “Optimus 프로토타입에 동일한 FSD와 같은 신경망 기반 전략을 적용하고 있다”*고 밝힌 바 있으며[electrek.co], 카메라 영상 입력부터 동작 출력까지 Neural Network가 중요한 의사결정을 하는 구조입니다. 로봇 인식(비전) 부분에서 Optimus는 다수의 카메라와 센서를 통해 주변 환경을 파악하는데, 자율주행에서 쓰인 3D occupancy network 기술을 활용해 주변의 물체와 지형을 3차원 voxel 형태로 인식하는.. 2025. 4. 23. 강화학습 적용 방식과 시뮬레이션 환경 비교 1) 학습 환경Tesla는 FSD(Full Self-Driving)로 단련된 AI 인프라와 방법론을 Optimus에 이식하고 있습니다. FSD 개발에서는 실제 차량의 주행 로그를 활용한 offline 학습과 필요시 시뮬레이션으로 corner case를 보완하는 전략을 써왔습니다. 이러한 배경 덕분에 Optimus의 소프트웨어도 초기에 현실 환경에서 수집된 영상을 통해 훈련되고, Tesla가 구축한 자체 시뮬레이터를 활용해 드문 상황이나 위험한 상황을 가상 실험하는 방식을 병행하고 있습니다[anyverse.ai].Tesla 내부 채용공고에 따르면 Optimus 팀은 로봇 소프트웨어 평가용 시뮬레이션 환경 제공, 합성 데이터셋 생성, 머신러닝 모델 훈련용 가상 환경 구축 등을 적극적으로 수행하고 있습니다.. 2025. 4. 20. Optimus vs. Cosmos 기반 로봇 개발 비교:데이터 수집 및 합성 데이터 활용 1) 실환경 데이터 수집Tesla의 Optimus 개발은 실제 환경에서의 방대한 데이터 축적 철학을 따릅니다. 예를 들어 Tesla는 자동차 자율주행 FSD 개발에서 수백만 마일에 달하는 실제 주행 데이터를 활용해왔고, Optimus에도 유사한 접근을 적용하고 있습니다. Optimus를 학습시키기 위해 인간 시연 데이터를 모으는 전담 팀을 운영하는데, 사람에게 모션 캡처 슈트와 VR 헤드셋을 착용시켜 다양한 작업 동작을 수행하게 함으로써 로봇 훈련용 데이터를 수집합니다[newo.ai]. 이러한 인간 시연 데이터는 인간 작업 동작의 궤적을 그대로 기록하여 로봇의 모방 학습에 활용됩니다. Tesla는 이를 통해 “Autopilot에 실제 주행 데이터를 모았듯이, Optimus에 인간이 대리 수행한 데이터.. 2025. 4. 16. Isaac Sim과 Cosmos의 상호 보완성 NVIDIA의 Isaac Sim(로봇 시뮬레이터)과 Cosmos 플랫폼은 각기 물리 모델링과 AI 학습 측면에서 강점을 지니며, 함께 활용함으로써 상호 보완적인 이점을 제공합니다. Isaac Sim은 NVIDIA Omniverse 기반으로 구축된 물리 시뮬레이션 환경으로, 로봇의 기구학, 물리 법칙, 센서 모델링 등을 고정밀로 구현해줍니다[therobotreport.com].예를 들어 로봇의 관절 움직임, 카메라/LiDAR 센서 데이터, 충돌 및 마찰 등의 물리 현상을 사실적으로 모사하여 가상의 로봇이 현실과 유사한 조건에서 동작하도록 합니다. 반면 Cosmos는 그러한 환경에서 활용될 AI 모델의 학습과 생성을 담당합니다. Cosmos WFM은 Isaac Sim으로부터 얻은 시뮬레이션 데이터나 실제 .. 2025. 4. 13. 물리 기반 시뮬레이션과 AI의 결합 로봇 학습을 위해 물리 시뮬레이션과 AI 기법(특히 강화학습)을 결합하는 것은 필수적인 전략입니다. NVIDIA Cosmos는 이러한 전통적인 시뮬레이션 기반 학습을 한층 강화하는 역할을 합니다. 먼저, 강화학습(RL)에서는 가상환경에서 로봇이 수많은 시행착오를 겪으며 정책을 최적화하는데, Cosmos의 세계 모델과 NVIDIA의 시뮬레이션 툴이 함께 활용됩니다.예를 들어 NVIDIA의 Isaac Lab은 Isaac Sim 물리환경 위에서 동작하는 로봇 학습 프레임워크로서, 다관절 로봇의 조작이나 자율주행 로봇의 경로 계획 같은 작업을 가상으로 훈련시킵니다blogs.nvidia.com.개발자는 수천, 수만 회의 에피소드를 시뮬레이터에서 돌리면서 RL 알고리즘으로 로봇 제어 정책을 학습시키고, 그 정책을.. 2025. 4. 10. 이전 1 2 3 4 다음 반응형