
신경망 구조: Tesla Optimus의 두뇌는 기본적으로 Autopilot/FSD에서 발전된 신경망 아키텍처를 물려받았을 것으로 보입니다. Tesla는 AI Day 등을 통해 Vision-only 인식과 엔드투엔드 신경망 제어 철학을 강조해왔습니다. 실제로 “Optimus 프로토타입에 동일한 FSD와 같은 신경망 기반 전략을 적용하고 있다”*고 밝힌 바 있으며[electrek.co], 카메라 영상 입력부터 동작 출력까지 Neural Network가 중요한 의사결정을 하는 구조입니다.

로봇 인식(비전) 부분에서 Optimus는 다수의 카메라와 센서를 통해 주변 환경을 파악하는데, 자율주행에서 쓰인 3D occupancy network 기술을 활용해 주변의 물체와 지형을 3차원 voxel 형태로 인식하는 것으로 알려져 있습니다 (Tesla는 AI Day 2022에서 로봇이 보는 장면을 occupancy 그리드로 표현해 보여주었습니다). 이 모델은 차량용 FSD 네트워크처럼 다중 카메라 영상을 한데 모아 시공간적 피쳐를 뽑아내는 대규모 CNN/Transformer로 추정되며, 이미 도로 주행 영상 수십억 프레임으로 학습된 weights를 활용함으로써 실내외 환경에 대한 일반적인 시각 인식 능력을 확보했을 가능성이 높습니다.
또한 인간 시연 데이터를 모아서 모방학습 정책(network)을 훈련시키는데, 이 때 입력으로는 로봇의 카메라/센서 영상과 목표 등이 주어지고 출력으로는 관절 명령이나 목표 동작이 나오도록 end-to-end로 학습시킵니다. Tesla 채용공고에 따르면 전신 움직임부터 섬세한 손 동작까지 한꺼번에 학습하는 종합 정책을 지향하고 있으며, 강화학습 및 행동 클로닝 알고리즘을 통해 이러한 정책신경망을 종단간 설계한다고 합니다[electrek.co].
요약하면 Optimus 쪽은 특정 작업별로 specialized된 여러 모델(예: 보행 제어기, 물체 인식기 등)을 두기보다는, 강력한 비전 신경망과 종합 정책망으로 일반적인 문제해결 능력을 갖추도록 하는 방향입니다. 물론 실제 구현에서는 보행에는 저수준 제어기가 개입되고, 상위 레벨로 신경망이 의사결정하는 계층적 구조일 수 있으나, 학습으로 그 둘을 최대한 통합하려는 추세입니다 .
반면 NVIDIA Cosmos 자체는 특정 로봇의 “두뇌”라기보다 세계를 모델링한 AI에 가깝습니다. Cosmos의 신경망 구조는 공개된 정보에 의하면 대규모 비디오 생성 변환기(transformer)나 디퓨전 모델 등으로 추측됩니다. Cosmos에는 이미지/영상 데이터를 토큰화하는 전처리기가 포함되어 있고, 이는 최신 시각 토크나이저로서 기존 대비 8배 압축 효율을 내며 12배 빠르게 처리할 수 있다고 합니다.
이처럼 압축된 비디오 토큰들을 입력으로 받아 다음 프레임의 토큰을 예측하거나 주어진 텍스트 조건에 맞는 시나리오 생성을 수행하는 거대한 생성 신경망이 Cosmos의 핵심입니다. 즉, Cosmos는 세계에 대한 생성 모델(월드 모델)로서, 주어진 상황을 이해하고 물리적으로 그럴듯한 다음 상태 영상을 만들어내는 능력을 가집니다.
이는 로봇의 인식 측면에서 볼 때, Cosmos를 통해 훈련된 모델은 물체 간 물리적 상호작용이나 인간 행동 패턴에 대한 거시적인 이해도를 갖출 수 있다는 의미입니다. 개발자는 Cosmos 모델을 활용해 자기 로봇 전용의 인식모델을 파인튜닝할 수도 있습니다.
예컨대 창고 로봇을 만든다면, Cosmos의 거대 모델을 살짝 업데이트하여 물체 인식기나 상황 이해 모델로 활용하는 식입니다. 행동 모델링에 있어서는, Cosmos 자체가 로봇의 행동을 직접 출력해주는 것은 아닙니다. 대신 Cosmos로 생성한 시뮬레이션 데이터를 사용하거나, Cosmos의 일부(예: world dynamics 예측모델)를 강화학습의 환경 모델로 활용하여 로봇의 정책을 간접적으로 훈련합니다[nvidianews.nvidia.com].
NVIDIA는 또한 Isaac Orbit, Isaac Gym 등 로봇 제어용 RL 프레임워크를 통해, 개발자가 Cosmos 생성 데이터로 훈련된 시각 모델 + RL 정책을 조합하여 실제 로봇에 구동하도록 돕고 있습니다.
한 마디로, Optimus는 실제 로봇에 내장된 뉴럴넷 아키텍처 관점에서 end-to-end 제어를 지향하는 반면, Cosmos는 로봇 개발 생태계에 제공되는 거대 AI 모델로서 perception과 환경모델 측면을 지원하고, 로봇 제어는 별도의 RL/제어기로 구현되는 구조입니다. 다만 Cosmos 등장으로, 앞으로는 로봇에도 파운데이션 모델을 활용한 “생각하는 인지 모듈”과 학습된 행동 모듈을 결합하는 방향이 주류가 될 수 있습니다.
예를 들어 Cosmos로 학습된 비전 백본을 로봇이 실시간으로 활용하고, 의사결정은 그 위에 작은 네트워크가 수행하는 식으로 대규모 사전학습의 이점을 로봇에 적용하는 식입니다. Tesla의 접근은 현재까지는 자체 수집한 데이터로 모델을 처음부터 끝까지 학습시키는 것이지만, NVIDIA는 오픈 모델로서 Cosmos를 공개해 누구나 활용하도록 함으로써 여러 로봇 플랫폼에서 공통으로 쓸 수 있는 인식·세계 모델을 제시하고 있습니다[nvidianews.nvidia.com].
'Humanoid' 카테고리의 다른 글
계층적 강화학습(HRL) 적용 사례 (0) | 2025.04.29 |
---|---|
모델 프리 vs. 모델 기반 강화학습 (0) | 2025.04.26 |
강화학습 적용 방식과 시뮬레이션 환경 비교 (0) | 2025.04.20 |
Optimus vs. Cosmos 기반 로봇 개발 비교:데이터 수집 및 합성 데이터 활용 (0) | 2025.04.16 |
Isaac Sim과 Cosmos의 상호 보완성 (0) | 2025.04.13 |