본문 바로가기
Humanoid

II. 2. 비전 기반 인식

by aiagentx 2025. 3. 25.
반응형

Optimus카메라 기반Tesla Vision 기술을 사용하여 주변 환경을 인식합니다. 머리와 몸통에 장착된 카메라가 인간의 눈처럼 전방위의 영상을 수집하며, 라이다(LiDAR)나 초음파 센서 없이 순수 비전으로 물체와 지형을 파악합니다. 테슬라가 자율주행에서 구축한 강력한 신경망 비전 모델(: ResNet/EfficientNet 계열 또는 Vision Transformer 기반 백본)들이 Optimus에도 이식되어, 영상으로부터 사람, 물체, 공간 특징점을 추출합니다[notateslaapp.com]. 이 영상 인식 신경망은 연속된 카메라 영상을 4차원(공간+시간)으로 처리하여, 주변을 실시간으로 3D 점유(grid) 형태로 맵핑하고 물체의 위치와 이동을 추적합니다[reddit.com].

다시 말해, 카메라 영상에서 픽셀 단위로 시멘틱 분할모노큘러 깊이 지각을 수행하고, 여러 시점의 영상 정보를 병합해 로봇 주위의 입체적인 Bird’s-eye View 환경 모델을 생성하는 것입니다. Occupancy Network 기반의 방식은 차량 FSD에서 도로/차량을 인식하던 것과 본질적으로 동일하지만, 훈련 데이터와 인식 대상 Optimus에 맞게 달라집니다[notateslaapp.com].

환경의 차이점 때문에 Optimus의 비전 인식은 FSD와 강조점이 다릅니다. 자동차 FSD도로 주행 환경에서 차선, 도로 경계, 다른 차량과 같은 정형화된 객체와 신호등/표지판 등의 교통 요소를 먼 거리까지 인식하는 것이 중요했습니다. 반면 Optimus는 주로 실내 또는 인간 생활환경에서 동작하며, 바닥의 장애물, 계단이나 문턱 같은 지형 변화, 책상/선반 등의 정적인 구조물과 공 또는 도구 같은 소형 객체까지 인식해야 합니다. 또한 움직이는 객체도 자동차보다는 느리고 다양합니다 (: 함께 작업하는 사람이나 이동하는 로봇, 애완동물 등). 이러한 차이를 반영하기 위해, Tesla Optimus용으로 실내/작업장 환경에서 촬영된 방대한 비디오 데이터를 수집하고, 시뮬레이터도 활용하여 로봇이 볼 수 있는 모든 상황을 학습시켰습니다.

예를 들어, FSD도로 표지를 학습했다면, Optimus작업대의 공구, 공장의 부품 상자, 가정의 가구와 가전 등을 인식하도록 별도 데이터로 훈련됩니다. 또한 로봇은 근거리 깊이 인식이 중요하므로, 두 눈에 해당하는 카메라로 스테레오 비전 효과를 내거나, 움직이면서 다시점 구조광처럼 주변의 3차원 정보를 얻기도 합니다. 이렇게 구축된 비전 시스템은 로봇 주위의 지도를 실시간 생성하고, 사람이나 물체의 위치/자세를 추적하여, Optimus어디로 이동할지, 어떤 물체를 집을지 등을 판단하는 기반이 됩니다.

흥미롭게도 Tesla 2024년 말 시연에서 Vision 없이도 보행이 가능함을 보여주었는데, 이는 내부 센서만으로도 주변을 감지하고 균형을 잡는 능력을 기른 덕분입니다. 현재 Optimus는 카메라로부터 얻은 비전 데이터를 아직 제어에 완전히 통합하지 않은 채 (눈을 감은 상태로”)도 울퉁불퉁한 지형을 걷고 균형을 잡을 수 있습니다[notateslaapp.com]. 이 모드에서는 주로 다리의 관절 센서IMU로부터 얻은 느낌으로 발밑을 탐지하고 즉각적으로 대응하는 식인데, Tesla는 이를 통해 시각 모듈을 검증하는 동안에도 로봇의 보행 훈련을 지속하고 있습니다. 이는 마치 자율주행 초기 FSD에서 라이다 센서로 임시 검증을 하며 비전 기반 자율주행을 훈련했던 접근과 유사합니다. 향후 시각인지가 완전히 접목되면, Optimus는 사전에 앞에 놓인 장애물과 지형을 예상하며 더욱 빠르고 자연스럽게 움직일 수 있을 것입니다 .

 

반응형