POSTECH
ADMISSION
ACADEMICS
RESEARCH
STUDENT LIFE
NEWS CENTER
ABOUT
OUR DIFFERENCE

검색으로 간편하게 원하는 포스텍의 정보를 찾아보세요.

News center

[입학팀X알리미] 이공계 진로 설계 안내서

[과학이야기] 기획특집 ① Physical AI

  • 등록일2026.05.18
  • 조회수207

PHYSICAL AI



오늘날 인공지능은 단순히 텍스트나 이미지를 생성하는 수준을 넘어, 실제 물리적 세계와 상호작용을 하는 방향으로 빠르게 확장되고 있습니다. 산업 자동화, 자율주행, 서비스 로봇 확산과 같이 ‘현실에서 행동하는 인공지능’에 대한 관심이 높아지며 Physical AI가 새로운 패러다임으로 주목받고 있는데요! 이 같은 변화는 글로벌 기술 트렌드에서도 뚜렷하게 나타납니다. Boston Dynamics의 휴머노이드 로봇 Atlas는 복잡한 환경에서 물체를 다루고 상황에 맞게 동작을 조정하는 모습을 통해, Physical AI가 더 이상 실험 단계에 머무르지 않고 현실로 확장되고 있음을 보여주었습니다. Physical AI는 로봇과 센서, 그리고 학습 알고리즘이 결합된 기술로, 인공지능이 물리적 환경을 인식하고 판단해 직접 행동하도록 만드는 것을 목표로 합니다. 이번 기획특집에서는 로봇이 사물을 인식하고 움직임을 결정하는 과정, 그리고 행동을 생성하는 방식을 살펴보며 Physical AI를 알아봅시다!




기획특집 ①

로봇이 사물을 인식하는 과정


글. 화학공학과 24학번 30기 알리미 김가경


CNN 기반 객체 인식의 원리와 과정

로봇의 물체 인식 시스템은 대부분 합성곱 신경망(Convolutional Neural Network, CNN)을 기반으로 합니다. CNN은 이미지를 작은 필터로 훑으며 특징을 추출하고, 여러 단계를 거치면서 더 복잡한 시각적 패턴을 학습합니다. 예를 들어 초기 단계에서는 단순한 선이나 색을 인식하고, 이후 물체의 구조나 형태와 같은 고차원 특징을 인식하게 됩니다. 이러한 특징들은 마지막 분류 단계에서 결합되어 특정 객체가 어떤 클래스1에 속하는지 판별하는 데 사용됩니다. CNN의 가중치는 학습 데이터의 정답 레이블2을 기준으로 반복적으로 업데이트되며, 모델은 학습 데이터에 등장한 객체들의 특징 분포에 맞게 최적화됩니다.


그림 1. CNN 구조 개략도


그러나 이러한 방식은 학습 데이터에 등장한(Seen) 클래스의 특징을 추출하는 데 편향되어 있어, 학습 데이터에 등장하지 않은(Unseen) 클래스를 인식하기 어려운데요. 현실에서 처음 보는 물체를 인식하기 위한 접근이 바로 Zero-Shot Learning(ZSL)입니다.


Zero-Shot Learning의 등장

ZSL은 학습 과정에서 시각 정보와 의미 정보를 함께 활용하여, 학습 데이터에서 이미지 예시를 직접 보지 못한 클래스까지 예측할 수 있도록 모델을 설계하는 방법입니다. 여기서 의미 정보란, 시각 정보에 대한 추가적인 설명 정보로, 색이나 형태와 같은 속성, 클래스 간 관계 유사도, 사람의 시선 추적 데이터 등이 포함됩니다. 모델은 이러한 설명을 통해 직접 보지 않은 새로운 객체 이미지를 예측할 수 있습니다. ZSL의 대표적인 접근 방식은 임베딩(Embedding)3 기반 방법입니다. 이 기법은 앞에서 언급된 시각 정보와 의미 정보를 차원이 같은 공통 임베딩 공간에 각각 벡터 형태로 매핑4한 뒤, 벡터 간 유사도를 기반으로 이미지 분류를 수행합니다. 예를 들어, 강아지 이미지에서 특징 벡터를 추출해 공통 임베딩 공간으로 매핑하면, 해당 이미지 벡터가 공통 임베딩 공간에 존재하는 [“고양이”, “강아지”, “거북이”] 와 같은 여러 가지 클래스 의미 정보 중 어떤 것과 가장 유사한지를 찾아내, 이미지 분류를 수행할 수 있습니다. 대표적인 모델인 DeViSE(Deep Visual-Semantic Embedding)의 경우 위키피디아와 같은 대규모 문서 데이터로부터 텍스트 임베딩 추출 모델을 학습해 의미상으로 유사한 단어들이 임베딩 벡터 공간5에서 가까이 위치하도록 합니다. 동시에 시각 모델은 1,000개 클래스 이미지로 사전 학습된 CNN을 사용해 이미지 임베딩 벡터를 추출합니다. 이후 이미지 임베딩 벡터를 선형 변환하여 텍스트 임베딩 공간으로 매핑하고, 서로 다른 벡터 간 코사인 유사도6를 이용해 이미지와 텍스트로 표현될 수 있는 클래스 레이블의 의미적 유사성을 계산합니다. 올바른 이미지–클래스 레이블 쌍의 유사도는 높이고 잘못된 쌍의 유사도는 낮추도록 학습한 모델은 학습 과정에서 보지 못한 클래스도 벡터 거리 관계를 기반으로 분류할 수 있습니다. 이와 유사한 임베딩 정렬 개념을 대규모 데이터와 함께 적용한 모델이 CLIP입니다.


그림 2. Embedding-based ZSL 구조


CLIP(Contrastive Language–Image Pretraining)은 이미지와 텍스트를 동일한 임베딩 공간에 정렬하며, 대조 학습(Contrastive Learning)7 기술을 사용하는데요. 그림 2와 같이 N개의 이미지–텍스트 쌍에 대하여 N×N 조합을 동시에 고려하며, 올바른 쌍이 위치한 대각선 요소의 유사도를 최대화하는 방식으로 학습됩니다. 그러나 전통적인 ZSL 평가는 주로 Unseen 클래스만을 구분하는 상황을 가정하기 때문에, 실제 환경처럼 Seen 클래스와 Unseen 클래스가 함께 등장하는 경우에는 성능 저하가 발생할 수 있다는 한계가 있습니다.


그림 3. CLIP 기반 Zero-Shot 이미지 분류 과정


Generalized Zero-Shot Learning

로봇이 작동하는 실제 환경에서는 Seen 클래스와 Unseen 클래스가 함께 등장할 수 있습니다. 따라서 Unseen 클래스만을 구분하는 전통적인 ZSL 설정만으로는 이러한 상황을 충분히 반영하기 어렵습니다. 이러한 한계를 보완하기 위한 학습 방식이 바로 Generalized Zero-Shot Learning(GZSL)입니다. Seen 클래스와 Unseen 클래스를 동시에 구분해야 하는 GZSL에서는 모델이 Seen 클래스에 편향되어 예측하는 문제가 발생하기 쉬운데요. 그 때문에 점수 보정(Calibration) 또는 새로운 변수 도입을 통해 Seen 클래스 점수를 조정하거나 Seen과 Unseen 클래스의 균형을 고려하기 위해 조화 평균 지표가 사용됩니다.


생성 모델을 활용한 ZSL 확장

ZSL의 일반화 성능을 높이기 위해 생성 모델이 사용되기도 합니다. 첫 번째 방법은 GAN(Generative Adversarial Network)을 활용하는 방식입니다. GAN은 생성자(Generator)와 판별자(Discriminator)로 구성되며, 생성자는 클래스의 의미 정보를 담은 벡터를 입력으로 받아 시각적 특징을 생성합니다. 판별자는 해당 특징이 실제 이미지에서 추출된 것인지, 생성된 가짜 특징인지 구별하도록 학습됩니다. 이러한 적대적 학습8 과정을 통해 생성자는 실제 데이터 분포에 가까운 특징을 생성할 수 있게 됩니다. 결과적으로 Unseen 클래스에 대해서도 현실적인 특징 표현을 만들어낼 수 있습니다.

두 번째 방법은 VAE(Variational Autoencoder)를 활용하는 방식입니다. VAE는 잠재 변수 모델 (Latent Variable Model)9을 기반으로 입력 데이터의 확률 분포를 근사합니다. 인코더(Encoder)10는 입력 특징을 평균과 분산으로 표현되는 잠재 공간의 정규분포로 매핑하고, 디코더(Decoder)11는 이를 다시 원래의 특징 공간으로 복원합니다. 이후 잠재 공간에서 샘플링을 수행하여 Unseen 클래스의 특징을 생성하고, 이를 학습 데이터에 추가합니다. 두 방법 모두 클래스의 의미 임베딩 벡터를 기반으로 Unseen 클래스의 시각적 임베딩 벡터 분포를 모델링하며 생성한다는 공통점을 가집니다. 생성된 특징들은 학습 데이터의 다양성을 확장하며, 이를 통해 분류기가 Seen 클래스에 편향되는 문제를 완화하고 전반적인 인식 성능을 향상할 수 있습니다.


그림 4. GAN의 적대적 학습 구조  /  그림 5. VAE의 잠재 공간 샘플링과 데이터 생성 과정


이처럼 최근 인공지능 학습 연구는 학습 데이터에서 직접 보지 못한 대상까지 추론하는 방향으로 발전하고 있습니다. 과학자들은 이러한 인지 능력을 로봇의 행동과 결합하려는 연구를 이어가고 있는데요, 다음 꼭지에서는 시뮬레이션 환경에서 학습한 로봇의 움직임을 현실 세계로 이전하는 Sim2Real 학습에 대해 살펴봅시다!


[각주]

1. 객체를 정의하는 틀 또는 설계도

2. 데이터, 파일, 코드, UI 요소 등 특정 정보에 식별을 위해 부여하는 이름, 표지, 또는 표식

3. 텍스트, 이미지 등 복잡한 비정형 데이터를 컴퓨터가 이해할 수 있는 의미를 가진 수치인 벡터로 변환하는 기술

4. 어떤 대상이나 값을 다른 대상이나 값에 일대일 또는 다대일로 대응시키거나 연결하는 과정

5. 벡터라고 불리는 원소들의 집합으로, 덧셈과 스칼라 곱셈 연산이 정의된 공간

6. 두 벡터 사이의 방향성이 얼마나 유사한지를 각도의 코사인 값을 이용해 측정하는 방식

7. 유사한 데이터(Positive Sample)는 가깝게, 다른 데이터(Negative Sample)는 멀어지도록 학습하는 방법

8. 생성자(Generator)와 판별자(Discriminator)라는 두 개의 신경망이 서로 상반된 목적을 가지고 경쟁하며 성능을 향상시키는 기법

9. 직접 측정할 수 없는 잠재 변수를 가정하여 관측 가능한 데이터 간의 복잡한 공분산과 관계를 해석하는 모델

10. 입력 데이터를 기계가 이해하고 처리하기 쉬운 구조화된 형태의 벡터로 변환하는 신경망 모듈

11. 인코더가 압축하거나 변환한 특징 정보를 받아, 원하는 형태의 결과물로 생성하는 신경망 모듈


[ 그림 출처 ]

그림 1. Quark Machine Learning, “Introduction to Convolutional Neural Networks,” June 2023, https://www.quarkml.com/2023/06/introduction-to-convolutional-neural-networks.html.

그림 2. Pourpanah et al., “A Review of Generalized Zero-Shot Learning Methods”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022.

그림 3. Radford et al., “Learning Transferable Visual Models from Natural Language Supervision”, ICML. 2021.

그림 4. Mateos et al., “Guiding GANs: How to Control Non-Conditional Pre-trained GANs for Conditional Image Generation.”, Preprint, 2021.

그림 5. Ming Tang, “How to Code a Variational Autoencoder (VAE) in R Using the MNIST Dataset,” Chatomics, October 18, 2023, accessed March 2026.


[ 참고 자료 ]

1. Frome, A. et al., “DeViSE: A Deep Visual-Semantic Embedding Model”, NeurIPS, 2013.

2. Radford et al., “Learning Transferable Visual Models from Natural Language Supervision”, ICML. 2021.

3. Pourpanah et al., “A Review of Generalized Zero-Shot Learning Methods”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022.

4. Bergmann, Dave. “What Is Zero-Shot Learning?” IBM Think. Accessed March 14, 2026. https://www.ibm.com/think/topics/zero-shot-learning





상단으로 이동