본문 바로가기
자율주행

하이드라넷(HydraNet)과 멀티헤드 아키텍처

by aiagentx 2025. 4. 9.
반응형
 

1) 하이드라넷(HydraNet)의 개념

공통 백본(Backbone) + 여러 헤드 구조로, 한 개의 대형 신경망(백본)에서 각종 비전 태스크(차선, 차량·보행자 감지, 신호등 인식 등)를 여러 헤드(Multi-Head)로 병렬 처리합니다.[6][7]

테슬라 내부에서는 이를 통해 중복 연산을 줄이고, 다양한 상황(야간, 악천후, 복잡 교차로 등)을 하나의 모델에서 통합 학습 가능토록 만들었습니다.

 

2) 효율과 확장성

공통 백본을 활용해, 데이터 양이 많을수록 모델이 더 빠르게 성장하며, 필요할 때 새로운 헤드 OTA 업데이트로 쉽게 추가할 수 있습니다.

다만, 이 방식은 모델 자체가 매우 커지고, 내부가 블랙박스화되는 경향이 있어 오류 설명이 쉽지 않습니다.[9]

 

3) FSD Beta와 하이드라넷

FSD Beta는 일반 소비자 차량에서 실제 도로 주행을 통해 개선 데이터를 축적하고 있는데, 이때 하이드라넷이 주행 환경 전반을 통합적으로 처리합니다.

8개의 카메라는 신경망을 통해 3차원 벡터 스페이스를 생성하며 라인, 엣지, 경계석, 교통 사인, 신호등, 자동차 등의 드라이빙에 필요한 것들을 표현합니다.

 

오리지날 디자인은 인간혹은 동물의 비전 학습에 의해 영감을 얻었습니다.

즉 테슬라는 인간의 두뇌와 같은 비전 기반 컴퓨터 뉴럴 네트워크를 만들었습니다.

 

객체 감지를 위한 구조
Input -> BackBone -> Neck -> Head -> Output

 

 

Backbone:
하나의 이미지에서 여러 객체를 인식하고 객체의 풍부한 feature information을 제공하는데 사용되는 feature extracting network를 말한다. AlexNet, ResNet, VGGNet backBone으로 종종 사용합니다.

Detection Head(Head):
피쳐 추출(백본) 후에 input의 피쳐 맵 표현을 가져온다. 실제로 사물 발견, 분리 등과 같은 일부 실제 작업의 경우, 우리는 보통 "detection head"를 적용하므로 백본에 헤드가 부착된 것과 같습니다.

Neck:
목은 척축와 머리 사이에 있으며 보다 정교한 기능을 추출하는데 사용됩니다.

 

테슬라의 신경망 구조:

backbone: RegNet + ResNet

neck: BiFPN

head: HydraNet

초기엔 AlexNet, VGG, ResNet, DenseNet과 같은 수동으로 설계된 일부 네트워크를 백본으로 사용했다. 이후에 데이터의 규모와 네트워크가 깊어지자 반자동 네트워크 및 자동화 네트워크 설계하는 것으로 고해하기 시작함. (AutoML NAS이다.)
그럼에도 한계는 존재했고, 이후 테슬라는 Residual neural network block으로 디자인된 RegNet을 사용합니다.
"RegNet" 2020 Facebook AI Research paper Designing Network Design Spaces에서 디자인 패러다임으로 대표되는 새로운 네트워크입니다.

 

1) 8장의 이미지 처리

각 이미지마다 ResNet과 유사한 아키텍처를 사용해 특징을 추출합니다.

, 8장의 이미지를 각각 별도로 CNN 기반 추출기를 통해 처리하고, 이로부터 특징 벡터(또는 맵)를 얻습니다.

2) 멀티캠(멀티카메라) 퓨전

8장에서 추출한 특징들을 합쳐 하나의 슈퍼이미지를 만듭니다.

이 슈퍼이미지를 만들 때, Transformer와 유사한 구조(Hydra라고 표현)를 사용하여 여러 시점(카메라)의 정보를 효율적으로 통합합니다.

3) 시간적 퓨전(Timestep Fusion)

시간축을 고려하기 위해 과거 슈퍼이미지들과 현재 슈퍼이미지를 함께 활용합니다.

: 36fps 환경에서 2초치(72프레임)를 저장하는 비디오 큐(queue)를 운용한다고 가정하면, 현재의 슈퍼이미지와 과거 72장의 슈퍼이미지를 함께 분석합니다.

이때 3D CNN, RNN, 또는 Transformer 등을 사용해 시간 차원까지 포함한 정보를 종합합니다.

4) 최종 출력(Heads)

마지막에 여러 가지 헤드(head)가 붙습니다. 이들은 특정 작업(사용 사례)에 특화된 출력단입니다.

예전에는 단순히 헤드만 뒀다면, 이제는 트렁크(trunk)터미널(terminal) 개념까지 추가되어, 사용 사례별로 더 세분화된 구조를 갖춥니다.

: 보행자 감지, 신호등 인식 등 각 터미널이 고유의 작업을 수행하도록 설계할 수 있습니다.

 

 

정리하면, 여러 대의 카메라로부터 이미지를 받아(멀티캠), 개별 이미지의 특징 추출 이들을 합친 슈퍼이미지 생성 과거 프레임들과의 시간적 정보까지 통합 마지막으로 여러 용도에 맞춰 분화된 헤드(트렁크+터미널)에서 각각의 작업을 수행하는 구조라고 이해하시면 됩니다.

 

반응형