자율주행

웨이모의 학습 및 데이터 활용

aiagentx 2025. 5. 27. 08:58
728x90
SMALL

웨이모의 자율주행 기술 발전에는 방대한 주행 데이터와 이를 활용한 첨단 학습 인프라가 핵심적인 역할을 합니다. 웨이모 차량들은 2009년 구글 프로젝트 시절부터 축적된 수천만 마일 규모의 주행 데이터를 확보하고 있으며, 이러한 빅데이터를 효율적으로 활용하기 위해 기계학습 파이프라인을 구축해왔습니다[waymo.com].

 

특히 웨이모는 모회사 구글의 강점을 살려, 구글 클라우드 데이터센터TPU(Tensor Processing Unit) 전용 AI 가속기를 적극 활용하여 대규모 딥러닝 모델 학습을 수행하고 있습니다. 웨이모 팀은 TensorFlow 기반의 분산 학습 시스템을 통해 수백만 장면의 주행 로그와 수십억 개의 레이블로 신경망을 훈련하며, 구글 TPU를 도입함으로써 모델 학습 속도를 최대 15배까지 향상시켰다고 밝힌 바 있습니다.

 

이는 복잡한 딥러닝 모델도 과거보다 훨씬 빠르게 업데이트할 수 있음을 의미하며, 웨이모가 새로운 알고리즘 아이디어를 실험하고 주행 소프트웨어를 빈번하게 개선할 수 있게 해주었습니다.

 

Waymo Open Dataset: 웨이모는 자율주행 연구 커뮤니티와의 협력을 위해 웨이모 오픈 데이터셋을 공개하여 큰 주목을 받았습니다. 2019년 공개된 Waymo Open Dataset은 자율주행차 센서로 수집된 수천 번의 주행 시나리오 데이터를 포함한 대규모 멀티모달 데이터셋으로, 5개의 고해상도 라이더와 5개의 카메라로 구성된 360도 센서 데이터와 이에 대한 정밀 라벨이 제공됩니다.

초기 공개분만 해도 20초 길이 주행 세그먼트 1,000( 200,000 프레임에 달함)에 이르는 방대한 분량으로서, 도시 및 교외 환경, 주야간, 다양한 기상 조건을 모두 포함하는 다양성이 특징입니다. 각 프레임에는 3D 바운딩 박스로 라벨링된 차량, 보행자, 자전거, 신호등 등의 객체 약 1,260만 개 2D 카메라 이미지 상의 라벨 120만 개 등 밀도 높은 정답 데이터가 붙어 있어, 학계와 업계 연구자들이 2D/3D 객체 검출, 추적, 도메인 적응 등 여러 과제에 활용하고 있습니다. 또한 라이더와 카메라 데이터의 정밀 동기화 정보도 제공되어 센서퓨전 연구에 유용하며, 실제 웨이모의 하드웨어 배치와 유사한 조건에서 알고리즘을 시험할 수 있게 합니다. 웨이모는 이렇게 데이터를 개방함으로써 자율주행 기술 연구를 가속하고, 연구 커뮤니티로부터도 통찰을 얻어 자사 기술에 반영하는 선순환을 기대하고 있습니다.

 

실제로 Waymo Open Dataset을 활용한 여러 학계 연구 성과가 나오고 있으며, 웨이모는 이를 장려하기 위해 챌린지 대회 등을 개최해오고 있습니다.

 

시뮬레이션 및 피드백 루프: 현실 도로에서의 테스트는 물리적 제약과 안전 이슈로 한계가 있기 때문에, 웨이모는 대규모 시뮬레이션 플랫폼(Carcraft)을 개발하여 활용하고 있습니다. Carcraft라는 이름의 웨이모 클라우드 시뮬레이터는 실제 환경을 디지털 트윈으로 구성하고 그 안에서 수만 대의 가상 자율주행차를 동시에 주행시킬 수 있는 시스템입니다[waymo.com].

 

이를 통해 웨이모는 매일 25,000대 이상의 가상 차량이 24시간 내내 주행하는 것과 맞먹는 규모로 시뮬레이션을 돌려, 연간 수십억 마일에 달하는 가상 주행 데이터를 생성하고 테스트합니다. 이 시뮬레이션 환경에서는 현실에서 드물게 발생하는 위험 시나리오도 의도적으로 생성할 수 있습니다. 예를 들어, 앞서 언급된 반사실 시뮬레이션(counterfactual simulation) 기법을 활용해 실제 주행 중 인간 안전요원이 개입했던 상황들을 가상으로 이어서 돌려보고 충돌이 났을지를 평가하거나, 또는 가상의 교통 상황을 만들어 차량이 어떻게 반응하는지 실험합니다.

 

시뮬레이션 결과 식별된 결함은 소프트웨어 개선으로 이어지고, 개선 사항은 다시 시뮬레이션에서 검증되는 데이터 피드백 루프가 확립되어 있습니다. 이러한 자동화된 테스트는 웨이모가 새로운 소프트웨어 릴리스마다 수천만 마일의 주행을 가상으로 돌려보고, 잠재적 문제를 발견해낼 수 있도록 해줍니다. 뿐만 아니라 웨이모는 능동 학습(Active Learning) 전략도 활용하여, 실제 주행이나 시뮬레이션에서 드문 코너 케이스를 발견하면 해당 데이터를 우선적으로 재학습에 반영하거나, 필요시 시나리오를 증강하여 학습 데이터로 사용하는 등 모델이 극단 상황까지 대비하도록 하고 있습니다.

 

실제 도로에서 축적된 주행 로그들은 클라우드로 모여들어 지속적인 개선에 쓰이며, 덕분에 웨이모 Driver는 시간이 지날수록 더 똑똑하고 안전하게 진화하고 있습니다.

대규모 학습 인프라: 웨이모의 학습 파이프라인은 구글의 방대한 인프라 위에서 돌아가고 있습니다. 앞서 언급했듯 TPU 클러스터를 통한 병렬 학습으로 효율적 모델 트레이닝을 수행하며, 이렇게 학습된 새로운 딥러닝 모델은 웨이모 차량에 무선 업데이트로 배포되어 실도로 테스트됩니다.

 

웨이모는 실험 -> 시뮬레이션 검증 -> 소규모 실제 테스트 -> 전차량 배포의 주기를 빠르게 반복함으로써, 짧은 기간에도 기능 추가와 성능 향상을 이뤄내고 있습니다. 이러한 ML 공장이라고 할 수 있는 구조 덕분에, 웨이모 Driver는 딥러닝 기술의 최신 발전을 비교적 민첩하게 흡수하고 있으며, 이는 자율주행 업계 내에서도 큰 기술적 우위로 작용하고 있습니다.

728x90