NVIDIA Cosmos 플랫폼의 핵심은 생성형 세계 모델(World Foundation Model, WFM)입니다. Cosmos의 WFM은 로봇이나 자율주행 차량과 같은 물리적 AI가 주변 물리 세계를 학습하고 예측할 수 있도록 돕는 거대 모델입니다[blogs.nvidia.com].
예를 들어 대규모 영상 데이터로 학습된 신경망을 통해, 가상 환경의 미래 상태를 나타내는 물리적으로 그럴듯한 비디오를 생성 및 예측할 수 있습니다. 이를 통해 로봇은 현재 관찰한 텍스트, 이미지, 동영상, 센서 데이터 및 자신의 동작 등을 입력 받아 앞으로 전개될 상황을 시뮬레이션 하게 됩니다[nvidianews.nvidia.com]. 다시 말해 WFM은 로봇에게 세계의 디지털 트윈과 같은 역할을 하며, 로봇의 정책 모델(제어 AI)에 대응하는 환경 모델을 제공합니다.
이렇게 학습된 세계 모델은 장면 내 물체들의 공간적 관계와 물리적 상호작용(예: 물체의 지속성 등)을 이해하고 반영하므로, 단순한 그래픽 생성이 아닌 물리 법칙을 함유한 세계 이해를 가능하게 합니다.
Cosmos의 데이터 기반 접근법 덕분에, AI는 물리 세계의 복잡한 패턴을 방대한 데이터 속에서 학습합니다. 수백만 시간에 달하는 실제 주행 영상과 로봇 영상 데이터로 WFM을 훈련하여 현실 세계의 다양한 상황과 동역학을 모델이 습득하게 됩니다. 이는 로봇이 일일이 현실에서 겪기 어려운 방대한 경험을 가상으로 학습하도록 해주며, 세계 모델이 물리적으로 일관된 영상을 생성하도록 합니다[blogs.nvidia.com] . 예를 들어 Cosmos WFM은 텍스트로 주어진 명령이나 이미지를 이용하여, 앞으로 일어날 장면을 여러 형태로 생성해낼 수 있습니다. 이처럼 생성형 세계 모델은 로봇이 주변 환경을 직관적으로 파악하고 미래를 예견하는 능력을 높여줍니다. 한편 Cosmos WFM 자체가 ChatGPT에 상응하는 로봇용 모델로 불릴 만큼 중요하며, 일반 개발자도 활용할 수 있도록 오픈 모델로 제공되고 있습니다.
로봇 AI 개발에서 WFM의 적용 사례는 다양합니다. 첫째, 로봇은 학습된 세계 모델을 활용해 미래 상태를 예측하고 그에 맞는 행동을 계획할 수 있습니다. 예를 들어 NVIDIA는 Omniverse 시뮬레이터와 Cosmos 세계 모델을 결합해, 로봇의 정책 모델이 시도할 수 있는 모든 가능한 미래 경로를 시뮬레이션하고 그 중 최적의 경로를 선택하도록 하는 “멀티버스” 시뮬레이션을 시연했습니다[blogs.nvidia.com]. 이를 통해 로봇은 복잡한 작업을 수행하기 전에 가상으로 여러 시나리오를 시험해보고 최적의 행동 시퀀스를 도출할 수 있습니다.
둘째, Cosmos WFM은 비디오 검색 및 이해에도 활용되어, 방대한 로봇 센서 기록에서 특정 상황(예: 눈 내린 도로, 혼잡한 창고 환경)을 쉽게 찾아내어 학습에 활용하도록 해줍니다.
셋째, WFM은 텍스트, 이미지, 로봇의 센서 정보 등을 조합한 조건을 바탕으로 새로운 환경의 영상을 생성함으로써, 로봇이 가보지 않은 가상 환경을 체험하게 하는 데 쓰입니다. 예컨대 창고 로봇의 카메라 센서 데이터와 동작 명령을 입력받아, WFM이 예상되는 다음 몇 초간의 영상을 만들어준다면 로봇은 이를 통해 자신의 행동 결과를 미리 “상상”해볼 수 있습니다. 이렇듯 Cosmos의 세계 모델은 환경에 대한 이해와 행동 생성 양 측면에서 로봇 지능을 지원하며, 물리적 세계에서 발생하는 다양한 상황에 대해 범용적 대응능력을 갖춘 로봇 개발을 가속화합니다.
'Humanoid' 카테고리의 다른 글
물리 기반 시뮬레이션과 AI의 결합 (0) | 2025.04.10 |
---|---|
Cosmos의 데이터 처리 파이프라인 (0) | 2025.04.07 |
II.5 Optimus의 엣지 컴퓨팅 및 센서 융합 (0) | 2025.04.01 |
I.4. VR 모션 캡처 데이터와 인간 시연 데이터 활용 (0) | 2025.03.29 |
I.3 모션 제어: 강화학습 기반 보행 및 조작 기술 (0) | 2025.03.28 |