강화학습
-
계층적 강화학습(HRL) 적용 사례Humanoid 2025. 4. 29. 09:14
로봇과 같이 복잡한 시스템의 행동 학습에는 계층적 강화학습(Hierarchical RL, HRL)이 큰 도움이 됩니다. 계층적 RL은 상위 정책(high-level policy)과 하위 정책(low-level policy)의 두 가지 수준으로 정책을 분리하여 학습하는 방법입니다. 상위 정책은 추상적인 의사결정을 담당하고, 하위 정책은 구체적인 제어를 담당하여 두 계층이 협력합니다.예를 들어, 물건을 집어서 옮기는 로봇을 생각해보면, 상위 정책은 “어떤 물건을 집어 어디에 놓을 것인가”와 같은 계획을 세우고, 하위 정책은 “로봇 팔을 어떤 각도로 움직이고 손가락을 어떻게 조작할 것인가”를 수행하는 식입니다[medium.com]. 상위 정책이 큰 그림을 그리면, 하위 정책이 세부 동작을 실행하는 구조인 ..
-
모델 프리 vs. 모델 기반 강화학습Humanoid 2025. 4. 26. 09:40
모델 프리(Model-Free) 강화학습과 모델 기반(Model-Based) 강화학습은 에이전트가 환경을 학습하는 방식의 큰 분기점입니다[spinningup.openai.com]. 모델 프리 RL에서는 에이전트가 환경의 모델(상태 전이나 보상에 대한 예측)을 명시적으로 학습하거나 사용하지 않고, 시행착오(trial-and-error)를 통해 정책을 직접 학습합니다. 반면 모델 기반 RL에서는 환경의 동작을 예측하는 모델을 활용하여 앞으로 일어날 일을 시뮬레이션 하거나 계획함으로써 결정할 행동을 학습합니다. 예를 들어, PPO(Proximal Policy Optimization)나 DDPG(Deep Deterministic Policy Gradient) 같은 알고리즘은 모델 없이도 환경에서의 경험 데이..