NVIDIA Cosmos에서는 대규모 데이터의 수집부터 전처리, 학습까지를 체계적으로 수행할 수 있는 가속화된 데이터 처리 파이프라인을 제공합니다. 로봇 및 자율주행 분야는 현실 세계에서 수백만 시간에 이르는 동영상 데이터를 취득하며, Cosmos는 이러한 페타바이트 규모 데이터를 효율적으로 활용하기 위해 특별히 설계되었습니다[blogs.nvidia.com].
우선 개발자는 차량 주행 영상, 로봇의 카메라 센서 기록 등 현실 데이터를 대량으로 수집하게 됩니다. 또한 시뮬레이션을 통해 생성한 가상 데이터도 함께 활용될 수 있습니다. Cosmos는 이렇게 모은 시뮬레이션 영상과 실제 센서 영상 데이터를 결합하여 하나의 거대 데이터셋으로 관리합니다. 이를 위해 NVIDIA의 NeMo Curator(필요한 데이터를 선별, 정리, 가공하여 활용하기 쉽게 만든다) 도구를 활용한 영상 큐레이션 및 전처리 파이프라인을 제공하는데, GPU 가속을 통해 방대한 영상을 짧은 시간에 처리, 정제하고 라벨링까지 수행합니다[nvidianews.nvidia.com].
예컨대 CPU 기반 파이프라인으로 3년 넘게 걸릴 2천만 시간 분량의 영상을, NVIDIA Blackwell 기반 GPU 데이터센터에선 불과 2주 정도만에 처리할 수 있다고 보고되었습니다. 이처럼 강력한 병렬 처리 인프라 덕분에, 로봇 개발자는 현실과 가상 양쪽에서 모은 거대한 데이터를 신속히 가공하여 모델 학습에 사용할 수 있습니다.
토크나이징(tokenizing) 단계도 Cosmos의 중요한 특징입니다. 원시 영상 데이터를 곧바로 모델에 입력하는 것은 비효율적이므로, Cosmos는 고도화된 비디오 토크나이저를 통해 영상을 시퀀스 토큰으로 변환합니다[nvidianews.nvidia.com]. NVIDIA가 공개한 Cosmos Tokenizer는 최신 토크나이저 대비 8배 높은 압축률로 영상을 표현하면서도 처리 속도가 12배 이상 빠른 성능을 보여줍니다.
이를 통해 수많은 영상 프레임을 변형된 시각 언어로 효율적으로 표현해 거대 트랜스포머 모델의 학습에 투입할 수 있습니다. 그 결과 Cosmos WFM처럼 수십억~수천억 파라미터 규모의 비디오 생성 모델을 훈련할 수 있게 됩니다. 학습된 기본 세계 모델은 필요에 따라 응용 분야에 맞게 파인튜닝(fine-tuning)도 이루어집니다.
Cosmos는 NVIDIA의 NeMo 프레임워크와 통합되어 이러한 지도학습과 강화학습 기반의 모델 튜닝을 지원합니다.이 파이프라인은 시뮬레이션 데이터와 실제 데이터의 결합을 자연스럽게 지원합니다. 개발자는 Isaac Sim과 같은 시뮬레이터에서 가상 시나리오 영상을 생성하여 데이터셋에 추가하거나, 이미 학습된 Cosmos WFM을 활용해 포토리얼한 합성 데이터를 만들어낼 수도 있습니다. 한편으로 현장에서 수집된 로봇 센서 데이터(예: 카메라 영상) 역시 파이프라인에 투입되어 모델 학습에 사용됩니다.
Cosmos의 개방형 구조 덕분에, 사용자는 자신만의 데이터로 WFM을 미세조정하거나 아예 처음부터 재학습시킬 수도 있습니다 . 이 과정에서 지도학습용 라벨이 필요한 경우, NeMo Curator를 통한 자동화된 대량 라벨링으로 데이터셋을 구축할 수 있어 효율적입니다.
또한 강화학습의 경우, Cosmos WFM이 생성한 가상환경에서 에이전트를 훈련시키고 그 결과 데이터를 다시 모델 학습에 반영하는 식으로 시뮬레이션-학습 루프를 형성할 수 있습니다.
요약하면, Cosmos의 데이터 파이프라인은 현실+가상 데이터를 아우르는 통합 플랫폼으로서, 대용량 데이터의 처리부터 토크나이징, 모델 학습 및 튜닝까지 End-to-End로 제공하여 로봇 AI 개발을 가속화합니다.
'Humanoid' 카테고리의 다른 글
Isaac Sim과 Cosmos의 상호 보완성 (0) | 2025.04.13 |
---|---|
물리 기반 시뮬레이션과 AI의 결합 (0) | 2025.04.10 |
생성형 세계 모델 (World Foundation Model, WFM)의 역할:NVIDIA Cosmos의 로봇 AI 개발 환경 (0) | 2025.04.04 |
II.5 Optimus의 엣지 컴퓨팅 및 센서 융합 (0) | 2025.04.01 |
I.4. VR 모션 캡처 데이터와 인간 시연 데이터 활용 (0) | 2025.03.29 |