포스테키안
2024 182호 / 기획특집 ③ / 지능형 반도체
기획특집 ③
인공지능 반도체
오늘날에는 전 세계 경제를 뒤흔드는 AI 반도체 시장. 마이크로소프트, 애플, 구글 등 글로벌 빅테크 기업부터 여러 스타트업 기업들까지 인공지능 반도체라 불리는 지능형 반도체 개발에 막대한 투자를 아끼지 않고 있습니다. 그렇다면 인공지능 반도체는 어떻게 촉망받는 반도체 기술로 성장할 수 있었을까요? 이번 꼭지에서는 기존의 MOSFET을 넘어선 반도체의 미래, 인공지능 반도체에 대해 알아보겠습니다.
HBM의 등장: 폰 노이만 구조의 한계를 극복하다
현대 사회에서 우리가 사용하고 있는 컴퓨터는 대부분 폰 노이만 구조를 따르고 있습니다. 폰 노이만 구조란 아래 그림과 같이 중앙처리장치(CPU)와 메모리 영역이 분리되어 있어 버스1를 통해 데이터와 명령어를 주고받는 구조를 말합니다. 메모리는 다시 프로그램 영역과 데이터 영역으로 나뉘는데, 두 영역 사이에는 구분이 없기 때문에 명령어와 데이터가 같은 메모리, 버스를 사용하게 됩니다. 즉, 이러한 폰 노이만 구조에서는 CPU가 명령어와 데이터에 동시에 접근할 수 없기 때문에, 데이터를 하나씩 순차적으로 처리해야만 합니다. 또한 한 번에 하나의 데이터가 아닌 여러 개의 데이터가 동시에 입력되는 고차원의 데이터를 처리하기 위해서는 각각의 입력값에 따라 다른 가중치를 곱하고, 이들을 모두 더하는 인공신경망 연산이 필요했습니다. 그러나 기술 발전에 따라 컴퓨터가 저장하고 처리해야 하는 데이터가 증가하여 연산 과정이 매우 비효율적으로 이루어진다는 치명적인 단점이 드러났습니다.
폰 노이만 구조에서는 곱셈 연산을 바로 수행할 수 없어, 덧셈 연산을 여러 번 반복 수행하는 방식으로 구현했습니다.
그림 1. 폰 노이만 구조
하나의 곱셈 연산을 마친 중간값을 메모리에 저장한 뒤, 다시 덧셈 연산을 위해 해당 데이터를 프로세서로 불러와야 했죠. 게다가 입력값에 따라 해당 가중치 값을 변경하기 위해서는 데이터의 이동량이 기하급수적으로 늘어나게 되었는데요. 폰 노이만 구조에서 주기억장치로 DRAM(Dynamic Random Access Memory)2을 이용하는데, DRAM의 동작 속도가 CPU의 동작 속도보다 훨씬 느리다는 점이 큰 문제였습니다. CPU와 메모리는 하나의 버스를 이용하여 데이터를 이동시키기 때문에 CPU에서 아무리 연산을 빨리 처리하더라도 DRAM의 응답을 기다리는 과정에서 두 장치의 속도 차에 의한 병목현상이 발생한 것이죠. 이에 따라 전체적인 컴퓨터의 연산 처리 속도가 메모리의 동작 속도에 의존하고, 궁극적으로 컴퓨터 시스템 자체의 성능 저하를 야기했습니다. 그래서 등장하게 된 것이 바로 HBM3(High Bandwidth Memory)입니다. HBM은 대역 폭4이 높아 모든 메모리 중 데이터를 가장 빠르게 처리하고 전송할 수 있는 장점 덕분에 대량의 데이터를 빠르게 처리해야 하는 인공지능 반도체의 필수 요소가 되었죠.
그림 2. HBM의 구조
인공지능 반도체가 인공신경망 연산을 처리하는 방법
그렇다면 인공지능 반도체는 복잡한 인공신경망 연산을 어떻게 처리하는 것일까요? 인공지능 반도체는 기존의 폰 노이만 구조와 달리 연산을 처리하는 프로세서와 데이터를 저장하는 메모리의 위치를 물리적으로 구분하지 않습니다. 메모리가 NPU(Neural Processing Unit) 칩 내부에 통합되어 있어 데이터 전송 시간을 줄일 수 있죠. 인공지능 반도체는 동시에 여러 입력이 들어오는 경우, 가중치 연산을 한 번에 처리하기 위해 가중치 값으로 구성된 행렬과 벡터 형태로 표현된 입력을 곱하는 행렬-벡터 곱셈(MVM, Multiple-Vector Multiplication)을 사용하는데요. 아래 그림을 예로 들어 입력값 x에 대한 출력값 y에 대한 식을 표현하면
와 같이 정리할 수 있는 것입니다.
이처럼 행렬 연산에서의 특정 행과 특정 열의 곱셈은 다른 행 또는 열에 의해 영향을 받지 않아서, 계산이 순차적으로 일어날 필요 없이 병렬적인 계산이 가능합니다.
그림 3. MVM으로 표현한 인공신경망 연산
그럼, 인공지능 반도체는 이러한 가중치를 통한 복잡한 연산을 어떻게 구현하는 걸까요? 인공지능 반도체는 MVM에서의 입력값과 가중치를 전기적 물리량으로 표현하여 저장하고, 이를 회로로 구성하여 연산합니다. 인공신경망 연산에서의 입력값을 전압으로, 가중치를 전도도로 나타내어 입력값과 가중치의 곱을 출력 전류값으로 설정합니다.
꼭지 1에서 살펴본 옴의 법칙에 따르면 저항(R)의 역수인 전기 전도도(Conductivity, G)에 대해, 전압(V) × 전도도(G) = 전류(I)를 만족함을 알 수 있는데요. 전기 전도도를 저장하는 소자를 행렬 형태로 배치한다면, 아래 그림과 같이 키르히호프 법칙5에 따라 도선에 흐르는 전류의 양에 대한 덧셈 연산이 이루어집니다. 따라서 각각의 데이터들에 가중치를 곱한 뒤 더하는 연산, 즉 MVM 연산을 회로 상에서 구현할 수 있게 되는 것이죠. 이러한 행렬 연산을 여러 단계에 걸쳐 진행하고, 연산 결과에 대한 출력을 결정하는 다양한 딥러닝 알고리즘에 의해 결과적으로 아래 그림 5의 마지막 단계인 뉴런 회로가 빠르게 반응하게 되는 것입니다.
그림 4. 옴의 법칙과 키르히호프 법칙을 이용해 구현한 MVM 연산
그림 5. CNN 알고리즘 구조도
인공지능 반도체의 미래
이번 꼭지에서는 오늘날 가장 혁신적인 두 가지 과학 기술인 인공지능과 반도체 기술이 합쳐져 만들어진 AI 반도체의 등장 배경부터 AI 반도체가 연산을 처리하는 방법에 대해 자세히 알아보았습니다. 현재 스마트폰과 노트북에 주로 적용되는 NPU가 가장 대중적인 AI 반도체 중 하나인데요. 실제로 갤럭시 S23 시리즈, 애플의 맥북 에어 M2에 탑재된 NPU는 안면 인식 보안, 이미지 분석 등의 기능을 통해 기존 디바이스의 카메라 기능을 보조하는 역할을 하고 있습니다. 또한 엔비디아의 Drive 플랫폼은 고성능 GPU를 기반으로 자율주행 차량의 주변 환경을 인식하고 판단하며, 안전한 주행을 할 수 있도록 지원하는데요. 인공지능 기술은 더 이상 일반인이 접근하기 어려운 첨단 기술이 아닌, 머신 러닝 기반 추천 시스템, chatGPT 등의 다양한 수단을 통해 우리 생활 속 깊이 스며들게 되었습니다. 이러한 AI 기술의 발전에 따라 CPU 대비 AI 연산에 최적화된 인공지능 반도체조차 전력효율, 연산 효율을 개선해야 하는 과제가 대두되었고, 이 문제를 해결하기 위해 새로운 반도체 기술을 이용한 고성능 저전력 AI 반도체의 중요성이 강조되고 있습니다.
컴퓨팅, 네트워크, 클라우드 등 사회 전반의 디지털화와 기존의 제조업 기술의 효율성 증대를 가능케 한 반도체 개발 연구는 21세기를 대표하는 과학 기술로써 단단히 자리매김하고 있는데요. 이번 기획특집을 계기로 하여 4차 산업혁명을 이끌어가는 핵심 요소인 지능형 반도체에 관심을 가져보는 건 어떨까요?
글. 컴퓨터공학과 23학번 29기 알리미 윤현서