포스테키안
2023 178호 / 기획특집 ③ / ChatGPT
ChatGPT의 전망과 미래의 AI 기술
이전 페이지에서는 ChatGPT의 자세한 구조에 대해 알아보았습니다. ChatGPT는 출시 직후에도 엄청난 혁신으로 평가받았으나, GPT의 발전은 여기서 멈추지 않았습니다. GPT는 꾸준히 발달하며 환각 현상 같이, 기존에 발생하던 문제들을 개선해 나갈 뿐만 아니라 멀티모달 모델을 이용해 새로운 혁신을 이뤄나가고 있습니다. GPT가 어떻게 발전하고 있는지, 미래의 GPT는 어떤 모습을 하고 있을지 마지막 꼭지에서 다뤄봅시다!
ChatGPT의 한계와 이에 따른 GPT의 발전
ChatGPT는 여태껏 존재했던 어떤 생성형 AI보다도 가장 발전된 형태를 가지고 있습니다. 하지만 이런 GPT도 문제점을 가지고 있는데요, 바로 신뢰도에 대한 문제입니다. GPT는 거짓 정보를 사실처럼 제시하여 사용자에게 혼동을 일으키기도 하는데, 이를 환각(Hallucination) 문제라고 합니다. 환각 문제가 발생하는 이유는 GPT에 트랜스포머가 사용되기 때문인데요. 트랜스포머는 문장 생성 시 다음에 올 단어를 예측할 때 이전에 나온 단어들에 기반한 ‘확률’만을 고려하기 때문에 사실이 아닌 문장을 생성할 수도 있습니다. 더욱이, 만약 GPT가 잘못된 정보를 누적해서 학습하면 이는 통계적 계산에 더 부정적인 영향을 미치게 됩니다.
GPT가 올바른 데이터를 더 많이 학습하게 하기 위해서는 어떻게 해야 할까요? 바로 GPT에 새로운 형태의 데이터를 제공해주는 것입니다. 예를 들어, 글이 아닌 이미지를 통해서도 GPT가 세상을 이해할 수 있다면 GPT가 받아들일 수 있는 정보가 훨씬 많아지지 않을까요? 이것이 멀티모달 모델(Multimodal Model)의 핵심 아이디어입니다.
그림1. 멀티모달 모델이 탑재된 GPT-4가 이미지를 이해한 예시. ChatGPT가 이미지에 적혀 있는 문자의 내용을 인식하고 정확한 풀이를 제공하고 있다.(출처: https://openai.com/research/gpt-4)
멀티모달 모델은 여러 형태의 데이터를 처리할 수 있는 컴퓨터 모델로, 이전의 GPT 모델과는 다르게 문자와 이미지 모두를 인식할 수 있습니다. 그 결과, GPT-4는 더 많은 정보의 수집이 가능해졌을 뿐만 아니라 사용자와 더욱 폭 넓은 상호작용을 할 수 있게 되었습니다.
멀티모달 모델과 컴퓨터의 이미지 처리
그렇다면 멀티모달 모델에서 멀티모달은 무슨 뜻일까요? 멀티모달의 모달(modal)은 ‘데이터의 형태’를 의미하며, 멀티모달은 ‘여러 형태의 데이터’를 의미합니다. 기존의 GPT-3.5가 문자 데이터만을 다루는 단일모달 모델이라면, 멀티모달 모델인 GPT는 문자와 이미지를 동시에 처리할 수 있습니다.
그림2. 대표적인 Feature Concatenation 방식의 모달 통합을 다이어그램으로 표현한 사진. (출처: http://dmqm.korea.ac.kr/activity/seminar/341)
멀티모달 모델이 동시에 여러 모달을 다룰 수 있는 원리는 무엇일까요? 우선, 모달의 종류에 따라 그 모달을 잘 처리할 수 있는 딥러닝 기술이 사용됩니다. 문자 처리에는 앞선 꼭지에서 설명한 트랜스포머를 사용하는 것처럼 말이죠. 멀티모달 모델에서는 이미지 처리에 맞는 딥러닝 기술을 이용해 각 이미지에서 픽셀 값, 색상 분포 등의 특징을 담은 벡터를 추출하는데, 이를 특징 벡터(Feature Vector)라고 합니다. 추출된 특징 벡터들은 하나로 통합되어 동시에 한 곳에서 처리됩니다. 앞서 언급했듯, 문자 모달을 처리하는 데에는 RNN을 사용합니다. 이미지 모달은 어떤 딥러닝 기술로 처리할 수 있을까요? 이미지를 처리하는 데 적합한 형태의 인공 신경망 중 대표적인 것은 바로 CNN(Convolutional Neural Networks)입니다.
그림3. CNN의 전체 구조(출처: https://www.mathworks.com/discovery/convolutional-neural-networkmatlab.html)
그림4. (하) Convolutional 과정을 그림으로 나타낸 이미지.(출처: https://www.analyticsvidhya.com/blog/2021/05/convolutional-neuralnetworks-cnn/)
CNN은 크게 특징 학습(Feature Learning) 과정과 분류(Classifica-tion) 과정, 두 단계로 나뉩니다. 특징 학습 과정은 합성곱(Convolu-tion) 연산과 풀링(Pooling) 연산으로 구성됩니다. 컴퓨터는 이미지를 색상 채널에 대한 데이터 행렬로 표시하는데, 합성곱 연산에서는 이 행렬에 커널(Kernel)이라는 필터를 합성해 이미지의 특징을 추출한 특성 맵(Feature Map)을 만들어냅니다. 그리고 풀링 연산을 통해 특성 맵의 크기를 줄이고 특징을 강화시킵니다. 이 두 과정을 반복하여 컴퓨터는 다양한 정보를 담은 행렬들을 만듭니다.
분류 과정에서는 특징 학습 과정에서 얻은 행렬들을 이용해 입력된 이미지에 담긴 정보를 확률로 표현합니다. 이를 통해 컴퓨터는 이미지를 처리할 수 있게 됩니다.
그림5. 멀티모달 모델의 한 예시. 참고자료: Ronghang Hu, Amanpreet Singh. 「UniT: Multimodal Multitask Learning with a Unified Transformer」, Facebook AI Research (FAIR), 2021. 8.18. 2-3
여기까지 다룬 내용을 기반으로 멀티모달을 GPT에 적용해봅시다. 어떤 입력 데이터가 GPT에게 주어지면 이미지는 CNN을 통해, 문자는 트랜스포머를 통해 각각의 정보가 특징 벡터의 형태로 추출됩니다. 각 특징 벡터는 하나로 통합되어 이를 처리하는 Attention layer에서 동시에 처리됩니다. 이 과정을 통해 멀티모달이 적용된 GPT는 이미지와 문자 모두를 처리할 수 있습니다.
생성형 AI의 미래
그림6. (위)OpenAI사에서 제시한 다양한 플러그인 / (아래)GPT 플러그인 사용의 예시. 일요일에 먹을 채식 식단을 플러그인으로 추천하고 있다. (출처: https://openai.com/blog/chatgpt-plugins)
AI가 끊임없이 발전하며 AI가 수행할 수 있는 일도 점점 많아지고 있습니다. 이를 보여주는 하나의 예시로 ‘GPT 플러그인’이 있는데요. GPT 플러그인은 마치 휴대전화의 앱처럼, GPT를 다른 응용 프로그램과 연결해 특정 작업을 더욱 효과적으로 수행할 수 있도록 만든 것입니다. 예를 들어 사용자가 어떤 물건을 구매하려고 하면, 쇼핑과 관련된 플러그인이 가격을 비교해 최저가 구매처를 추천해줄 수 있습니다.
그러나, GPT가 항상 긍정적인 영향을 미치는 것은 아닙니다. 일부에서는 ChatGPT를 이용한 표절 및 부정행위가 일어나 논란이 되기도 했습니다. 이를 해결하고자 ‘GPT 분류기(GPT Classifier)’가 등장했는데요. GPT 분류기는 입력된 글이 ChatGPT가 생성한 것인지를 구분하는 프로그램입니다. 아직 1,000자 이하의 글에선 부정확하다는 등의 한계도 있지만, 미래에는 ChatGPT의 부정 이용을 방지할 수 있으리라 기대되고 있습니다.
이번 꼭지에서는 GPT의 발전과 전망에 대해 다루었습니다. 멀티모달 모델이 적용된 GPT-4의 개발로 문자 뿐만 아니라 이미지 데이터를 통해 컴퓨터와 소통할 수 있는 시대가 되었습니다. 또한, 플러그인을 사용하는 등 더욱 신뢰도와 활용성이 높은 GPT의 미래에 대해서도 알아볼 수 있었습니다. ChatGPT는 많은 사람에게 큰 도움이 되는 혁신적인 기술이면서도, 동시에 부정적인 방법으로 사용되기도 하는데요. 여러분들이 이번 기획특집을 읽으며 새로운 기술과 과학적 원리에 대해 알아가는 것과 더불어 과학 기술을 어떻게 바람직한 방향으로 사용할 수 있는지 깊게 고민해보는 시간을 가져보는 것도 좋을 것 같습니다!
(글) 무은재학부 22학번 28기 알리미 김유빈