POSTECH
ADMISSION
ACADEMICS
RESEARCH
STUDENT LIFE
NEWS CENTER
ABOUT
OUR DIFFERENCE

검색으로 간편하게 원하는 포스텍의 정보를 찾아보세요.

News center

[입학팀X알리미] 이공계 진로 설계 안내서

[과학이야기] 기획특집 ➁ Physical AI

  • 등록일2026.05.18
  • 조회수320

기획특집 ➁

로봇의 행동 결정과 Sim2Real


글. 무은재학부 25학번 31기 알리미 강창민


로봇이 정교한 움직임을 구현하기 위해서는 주변 환경을 인식하는 수준을 넘어, 상황에 맞는 최적의 행동 정책을 수립해야 합니다. 이를 위해 시뮬레이션이라는 통제 가능한 가상 환경에서 로봇을 반복적으로 학습시킵니다. 이번 꼭지에서는 가상 공간에서 로봇의 지능을 구축하는 마르코프 결정 과정과 시뮬레이션에서 학습한 지능을 실제 환경에 성공적으로 전이하는 Sim2Real 기술에 대해서 살펴보겠습니다!


로봇은 어떻게 최적의 행동을 학습할까?

바둑 인공지능 알파고가 수많은 경우의 수를 학습해 가며 최적의 수를 찾아냈듯, 로봇도 수많은 시행착오를 학습하여 최적의 행동을 결정할 수 있습니다. 이처럼 주어진 환경에서 보상을 극대화하는 방향으로 행동을 수정해 나가는 방식을 강화학습(Reinforcement Learning)이라 하며, 주로 마르코프 결정 과정(Markov Decision Process, MDP)을 기반으로 설계됩니다.


그림 1. 마르코프 결정 과정(MDP)의 모식도


MDP는 로봇(Agent)과 환경(Environment)의 상호작용을 통해 이루어집니다. 에이전트가 행동(Action)하면 상태(State)1가 변하고, 그 결과가 목표 달성에 얼마나 기여했는지에 따라 보상(Reward)이 주어집니다. 이때 로봇이 현재 상태에 어떤 행동을 선택할지를 나타내는 함수를 정책(Policy)이라고 합니다. 시간 t에서의 상태를 St라고 하면 로봇은 정책과 상태에 따라 행동 At를 결정하고, 이후 행동의 영향으로 변한 상태 St+1과 보상 Rt+1이 주어집니다. 위 과정에서 로봇은 주어진 상태에서 미래에 얻을 기대 누적 보상을 최대화하는 행동을 선택하도록 정책을 학습합니다.

MDP를 이용하면, 보상이 명확히 정의된 환경에서 로봇이 최적의 행동을 수행하도록 학습시킬 수 있습니다. 그러나 현실의 정보들은 고차원적2이고 복잡하기 때문에, 상태와 보상을 정확하게 모델링하거나 정의하기 어렵다는 한계가 있습니다. 또한 로봇을 현실에서 직접 학습시키기엔 막대한 시간과 비용이 소모됩니다. 이런 모델링의 한계와 물리적 제약을 극복하기 위해, 수학적으로 모델링할 수 있고 큰 비용 없이 반복 학습이 가능한 시뮬레이션이 활용되고 있습니다. 이때 시뮬레이션을 사용함으로써 시뮬레이션과 현실 간의 간극(Reality Gap)이 발생하는데, 이러한 간극을 좁히기 위해 Sim2Real 기술이 이용됩니다.


현실과 시뮬레이션의 간극과 Sim2Real

Reality Gap이 발생하면 시뮬레이션에서 학습한 정책이 현실에서 제대로 작동하지 못하게 됩니다. Sim2Real은 이러한 Reality Gap의 문제를 완화하고, 시뮬레이션에서 학습한 정책이 현실에서도 안정적으로 작동하도록 합니다. Sim2Real의 고전적인 접근 중 하나는 아래 수식처럼 현실과 시뮬레이션 간의 매개변수 차이를 최소화하여 시뮬레이션이 현실의 동역학을 최대한 가깝게 모사하도록 하는 시스템 식별(System Identification, SI)입니다.


(𝜂: 시뮬레이션 매개변수, a: 행동(Action)의 집합, D: 거리 함수, 𝜏𝜂(a) : 시뮬레이션에서 경로, 𝜏r(a) : 현실에서의 경로)


SI 기법은 단순한 환경을 시뮬레이션으로 구현하여 Reality Gap을 극복하는 데에 효과적입니다. 하지만 현실의 물리적 상호작용이 복잡해질수록, 이를 정확히 반영하기 위해서 추정해야 하는 정보와 매개변수의 양이 기하급수적으로 증가한다는 구조적 한계가 있습니다. 따라서 최근에는 SI의 아이디어를 확장한 도메인 적응(Domain Adaptation, DA)과 도메인 무작위화(Domain Randomization, DR) 기법이 Sim2Real의 방법으로 주목받고 있습니다.


Domain Adaptation(DA)

도메인 적응(DA)은 시뮬레이션에서 학습된 모델을 데이터 분포가 다른 현실에서도 높은 성능을 발휘할 수 있게 두 데이터의 분포 차이를 줄이는 기법입니다. DA에서는 적대적 학습(Adversarial Learning)을 기반으로 한 DANN(Domain-Adversarial Neural Network)가 널리 사용됩니다. 앞선 꼭지에서는 인공지능이 새로운 데이터를 만들어내기 위해 적대적 신경망(GAN)을 사용했다면, Sim2Real에서는 시뮬레이션과 현실 데이터 간의 특징 분포 차이를 줄이기 위해 적대적 학습을 사용합니다.


그림 2. Source와 Target 도메인 차이의 예시


DANN의 핵심 원리는 ‘도메인 판별자(Domain Classifier)’를 속이는 것에 있습니다. 모델은 시뮬레이션 데이터와 현실 데이터를 동시에 입력받는데, 이때 판별자는 현재 입력된 데이터가 시뮬레이션인지 현실인지를 구분합니다. 반대로, 특징 추출기(Feature Extractor)는 판별자가 이 둘을 구분하지 못하도록, 두 환경에서 공통으로 나타나는 핵심적인 특징만을 뽑아내도록 학습합니다.


그림 3. 도메인 적응(DA) 학습 전후, AI의 데이터 인식 공간(Feature Space) 변화


이렇게 적대적 학습을 통해 특징 추출기가 충분히 학습되면, 특징 추출기가 만드는 특징은 시뮬레이션과 현실의 경계가 모호해진, 일종의 공통분모가 됩니다. 즉, 시뮬레이션과 현실 데이터의 공통 특징만 남겨 로봇이 시뮬레이션과 현실을 구분하지 못하게 만듦으로써, 시뮬레이션에서 학습한 정책을 현실에서도 사용할 수 있게 하는 것입니다.


Domain Randomization(DR) 

그림 4. DA와 DR의 차이3


이처럼 도메인 적응(DA)은 시뮬레이션과 현실의 데이터 분포 차이를 좁힘으로써 특정 환경에 최적화된 정교한 모델을 구축할 수 있게 합니다. 다만, 현실 세계는 시뮬레이션 데이터가 포함하지 못한 예외적인 상황들이 무수히 존재하기 때문에 로봇은 학습하지 못한 상황에 대한 일반화 능력 또한 필요합니다.


그림 5. MDP(Markov Decision Process) 기반 강화학습과 도메인 무작위화(DR)의 결합을 통한 로봇의 학습 예시


로봇에게 일반화 능력을 심어주기 위한 전략이 바로 도메인 무작위화(DR)입니다. DR은 시뮬레이션을 구성하는 다양한 물리적 변수(마찰력, 질량, 센서 노이즈 등)를 무작위로 변화시키며 로봇을 학습시키는 방법입니다. 즉, 학습하는 환경의 다양성을 무한히 늘려, 로봇이 현실에서 마주할 예측 불가능한 상황조차 ‘이미 시뮬레이션에서 경험한 수많은 상황 중 하나’가 되도록 만드는 것입니다. 이러한 과정을 통해 로봇은 특정 환경의 시각적, 물리적 특성에 얽매이지 않고, 작업 수행에 필요한 핵심적인 물리 법칙과 정책을 일반화하여 학습하게 됩니다.

이번 꼭지에서는 마르코프 결정 과정을 통해 로봇이 최적의 행동을 학습하는 법을 알아보고, 도메인 적응과 무작위화를 통해 시뮬레이션 속에서 학습한 로봇을 현실에서 작동하게 하는 방법을 알아보았습니다. 하지만 이러한 방식을 활용하더라도, 인지와 행동 제어가 분리되어 있다면 로봇의 작동 효율은 떨어질 수 있습니다. 다음 꼭지에서는 이러한 한계를 해결하는 시각, 언어, 행동 통합 모델인 VLA 모델에 대해서 파헤쳐봅시다!


[각주]

1. 에이전트가 환경과 상호작용하는 특정 시점의 상황을 정의하는 모든 정보의 집합

2. 데이터의 차원이 증가함에 따라 상태 공간(State Space)의 크기가 기하급수적으로 팽창하여, 에이전트가 최적 정책을 찾기 위해 탐색해야 할 영역이 비현실적으로 넓어지는 현상을 의미3. DA가 데이터 분포의 차이를 줄였다면, DR은 시뮬레이션에서 학습하는 데이터 분포의 범위를 넓힘으로써 그 범위 안에 현실 데이터 분포를 담는 방식


[ 그림 출처 ]

그림 1. Richard S. Sutton and Andrew G. Barto, Reinforcement Learning: An Introduction, 2nd ed. (Cambridge, MA: MIT Press, 2018), 48.

그림 2-3. Yaroslav Ganin et al., “Domain-Adversarial Training of Neural Networks,” Journal of Machine Learning Research 17, no. 59 (2016): 22-24.

그림 4. Lilian Weng, “Domain Randomization for Sim2Real Transfer,” Lil’Log, May 5, 2019, https://lilianweng.github.io/posts/2019-05-05-domain-randomization/.

그림 5. NVIDIA Corporation, “Closing the Sim-to-Real Gap: Training Spot Quadruped Locomotion with NVIDIA Isaac Lab,” NVIDIA Developer Blog, July 16, 2024, https://developer.nvidia.com/ko-kr/blog/closing-the-sim-to-real-gap-training-spot-quadruped-locomotion-with-nvidia-isaac-lab/.


[ 참고 자료 ]

1. Ganin, Yaroslav, Evgeniya Ustinova, Hana Ajakan, Pascal Germain, Hugo Larochelle, François Laviolette, Mario Marchand, and Victor Lempitsky. “Domain-Adversarial Training of Neural Networks.” Journal of Machine Learning Research 17, no. 59 (2016): 1-35. 

2. Silver, David, Aja Huang, Chris J. Maddison, Arthur Guez, Laurent Sifre, George van den Driessche, Julian Schrittwieser, et al. “Mastering the game of Go with deep neural networks and tree search.” Nature 529, no. 7587 (2016): 484-489. 

3. Sobanbabu, N., G. He, and G. Shi. “Sampling-Based System Identification with Active Exploration for Legged Robot Sim2Real Learning.” arXiv. 20 May 2025. https://arxiv.org/abs/2505.14266. 




상단으로 이동