게시판
학과 이벤트
학과 이벤트
산업경영공학과 정우성 교수, 챗GPT, 사람이 한땀한땀 가르쳤다(23.02.06)
광풍(狂風)입니다. 지난 수십 년간 이렇게 순식간에 사람들의 관심을 모았던 기술이나 서비스가 있었는지 모르겠습니다. 짐작하셨겠지만 오픈AI의 인공지능(AI) 채팅로봇 ‘챗GPT’ 얘기입니다. 지난 연말에 공개된 챗GPT를 사용해본 사람은 이미 전세계 1억명을 넘어섰습니다. 수많은 사람들이 챗GPT를 저마다의 방식으로 시험하고 있습니다. 의학 학술지에 실린 논문을 주고 요약하게 했더니 과학자들도 사람이 쓴 것과 구분하지 못했고 표절 검사는 100% 통과했습니다. 미국 대학 로스쿨 입학 시험, 경영대학원 기말시험, 의사 면허 시험도 합격했죠. 시·소설·논문도 척척 써냅니다.
오픈AI는 지금까지 구글이나 마이크로소프트 같은 빅테크에 비해 주목받지 못했습니다. 하지만 챗GPT 하나로 순식간에 스타가 됐습니다. 여기에는 경영진의 과감한 판단도 있었습니다. 뉴욕타임스에 따르면 당초 오픈AI는 챗GPT를 지난해말 공개할 계획이 없었습니다. 대신 훨씬 더 성능이 좋은 데이터베이스를 기반으로 한 챗GPT를 올해 상반기에 내놓을 생각이었죠. 하지만 오픈AI 경영진은 본인들이 준비하는 사이 다른 빅테크가 비슷한 성능을 가진 챗봇을 내놓을 것을 우려했습니다. 이 결정부터 실제 챗GPT 출시까지는 결정부터 고작 13일이 걸렸다고 합니다. 이 때문에 챗GPT가 갖게 된 한계에 대해서는 아래에 자세히 설명하겠습니다.
지금까지 챗GPT를 다룬 언론 보도는 대부분 ‘챗GPT가 이런 일을 해냈다’에 초점이 맞춰져 있습니다. 그런데 제가 최근 가장 많이 들은 질문은 “도대체 챗GPT는 어떤 원리로 작동하는가’ ‘챗GPT는 어떻게 사람인척 하는 것인가’ ‘챗GPT는 진짜로 문맥을 읽는 것인가’ 등이었습니다. 원리를 궁금해하는 사람이 많은 거죠. 이전에도 비슷한 일이 있었습니다. 7년 전 구글 딥마인드가 국제학술지 네이처에 “인간 프로기사를 뛰어넘는 바둑 실력을 가진 AI를 개발했다’고 발표했을 때가 대표적입니다. 바로 챗GPT 이전에 가장 유명했던 AI, 알파고(AlphaGo)입니다. 당시 언론과 전문가들은 알파고의 작동 원리에 대해 설명하느라 어려움을 겪었습니다.
새롭게 등장한(물론 전문가가 아닌 일반인의 입장에서) 기술에 대해 대중이 이해할 수 있도록 설명하는 것은 쉬운 일이 아닙니다. 게다가 기술의 작동 원리를 몰라도 활용하는 입장에서는 전혀 아쉬울 것이 없습니다. 스마트폰이나 블루투스 이어폰 속에 무슨 기술이 탑재됐는지 일일이 알 필요가 없는 것처럼 말입니다.
그래도 궁금하신 분들을 위해 디코드 2.0은 챗GPT의 원리를 파헤쳐보기로 했습니다. 다행스럽게도 오픈AI는 챗GPT의 작동 원리와 개발 과정을 논문과 홈페이지 등에 설명하고 있습니다. 어셈블리AI 같은 전문 교육 업체들도 기술 분석을 연재하고 있습니다. 다만 전문가들의 언어로 말이죠. 그래서 AI전문가인 유용균 원자력안전기반연구소 인공지능응용연구실장과 정우성 포스텍 산업경영공학과 교수의 자문을 얻어 챗GPT의 원리를 재구성해 봤습니다. AI 분야 종사자나 컴퓨터공학에 대한 이해가 있는 분들이라면 정확하지 않은 용어 사용이나 틀린 표현이 보일 수 있습니다. 이번 디코드는 어디까지나 ‘대중’을 위해 쓰여졌다는 점을 감안해주시면 감사하겠습니다. 격주 월요일에 발송되던 디코드 2.0은 이번 주부터 매주 월요일 독자 여러분을 찾아갑니다.
◇알파고와 챗GPT의 기본 원리는 같다
챗GPT는 하늘에서 뚝 떨어진 존재가 아닙니다. 챗GPT를 학습시킨 핵심 기법들은 수십 년에 걸쳐 발전해온 전통적인 AI 학습 모델과 알고리즘입니다. 다양한 스타일과 목적으로 문장을 생성하는 챗봇은 셀 수 없이 많습니다. 하지만 챗GPT가 관심을 모은 것은 이전의 모델들보다 훨씬 더 정밀하고 상세하며 일관성이 있기 때문입니다. 특히 ‘사람과 하는 것 같은 대화’에서 강력한 힘을 발휘합니다.
오픈AI는 이른바 ‘지도 학습(supervised learning)’과 ‘강화 학습(reinforcement learning)’을 사용해 챗GPT를 만들었습니다. 지도 학습과 강화 학습은 한때 전세계적인 화제를 모은 바 있습니다. 네. 바로 알파고가 작동한 기본 원리입니다. 알파고가 사람의 기보를 보고 바둑을 두는 법을 배운 것이 지도 학습, 기보에 없는 수를 스스로 둬가면서 이길 확률이 높은 방법을 찾은 것이 강화 학습에 해당합니다.
2016년 당시 알파고의 작동 원리를 분석한 한국전자통신연구원 이정원 박사의 글을 보시면 AI 학습 방법에 대해 파악하실 수 있을 겁니다.
챗GTP 같은 경우에는 인터넷에서 얻은 문장과 각종 질문·답변을 익히는 과정이 지도 학습, 이전에 없던 새로운 문장을 만들어보는 과정을 강화 학습이라고 할 수 있습니다. 그런데 오픈AI는 챗GPT에 새로운 강화 학습 기법을 추가했습니다. 이른바 RLHF(Reinforcement Learning from Human Feedback)라고 불리는 이 기술은 AI 학습 과정에 사람의 피드백을 사용해 유해하거나 거짓되고 편향된 답변을 최소화하는 역할을 합니다. RLHF의 작동 방법은 나중에 다시 설명하겠습니다.
◇사람이 직접 교육시킨 챗GPT
챗GPT는 GPT-3라는 거대한 언어 데이터베이스를 기반으로 만들어졌습니다. 챗GPT 이전에도 대규모 언어 모델을 이용한 챗봇이나 AI는 많았습니다. 기본적으로 인터넷의 방대한 텍스트 데이터를 활용해 가르치면 사람을 흉내 낸 문장을 만드는 것은 별로 어려운 일이 아닙니다. 문제는 AI의 답변이 사람의 기대에 미치지 못하거나, 원하는 의도를 파악하지 못할 가능성이 높다는 거죠. 챗GPT 이전의 AI가 가지고 있는 문제점은 △유용성 부족 : 질문자의 의도와 관련 없는 답변 △환각 : 존재하지 않거나 잘못된 사실을 만들어냄 △해석 가능성 부족 : AI가 결정이나 예측에 도달한 방법을 이해할 수 없음 △편향·독성 : 학습 데이터의 영향을 받아 편향된 답변을 만들어냄 등이었습니다. 왜 이런 현상이 생길까요.
언어 모델 학습에는 다음에 등장할 단어를 예측하는 ‘Next-token-prediction’ 같은 기술이 사용됩니다. 예를 들어 이 모델에 ‘고양이가 00에 앉았다’라는 문장을 입력할 경우 AI는 갖고 있는 자료에서 다음에 나타날 가능성이 높은 단어를 찾습니다. 이 경우 ‘매트’, ‘의자’, ‘바닥’ 같은 단어가 되겠죠. 괄호를 비워놓고 괄호 안에 들어갈 단어를 예측하도록 하는 ‘masked-language-modeling’ 같은 학습법도 있습니다. ‘00이 어디에 앉아서’라는 문장을 주고 AI가 개, 고양이, 토끼 등을 채워 넣도록 하는 것이죠. 이런 방법을 사용하는 것은 언어 모델이 일반적인 단어의 순서나 단어 사용 패턴을 통계적으로 익히는데 도움이 되기 때문입니다. 이런 사전 학습 단계를 반복하다 보면 언어 모델이 보다 자연스럽고 유창한 문장을 생성할 수 있기 때문에 모든 언어 모델이 이 방식을 사용합니다.
그런데 문제는 이 방식이 본질적으로 오류를 걸러내기 힘들다는데 있습니다. 아무리 대규모로 언어 데이터베이스를 구축하더라도 모든 언어의 사용법을 언어 모델에 학습시킬 수는 없습니다. 이 때문에 언제든지 AI가 엉뚱한 단어를 집어 넣거나 질문자의 의도와는 완전히 반대되는 답을 할 수 있는 것이죠. 챗GPT는 사람이 직접 개입해서 이 문제를 해결하는 방법을 시도했습니다.
◇답변 점수화해 시스템 구축
오픈AI 연구팀은 지난해 3월 인터넷 논문게재 사이트 ‘아카이브(arXiv)’에 AI 교육에 사람이 개입하는 방법을 담은 논문을 게재했습니다. 챗GPT는 실제 이 방법으로 개발된 최초의 AI로 알려져 있습니다. 앞서 2017년부터 ‘사람의 개입’ 필요성을 강조했던 논문들이 여러 차례 나왔는데 대부분 오픈AI에서 나왔습니다.
RLHF(Reinforcement Learning from Human Feedback)는 크게 세 단계에 걸쳐 챗GPT를 교육시켰습니다. 우선 첫 단계는 ‘SFT(Supervised fine-tuning step)’입니다. 오픈AI는 인터넷에서 모은 데이터 전체를 신뢰하지 않았습니다. 이 때문에 먼저 인터넷을 기반으로 한 GPT-3라는 거대한 언어 데이터베이스에서 소수의 고품질 언어 데이터만 모아 챗GPT를 교육했습니다. 쉽게 말해 질문과 모범 답안 일부를 주입한 것이죠.
신뢰할 수 있는 질문과 답변을 배웠지만, 데이터의 양을 제한했기 때문에 1단계를 거친 언어 모델은 여전히 사용자의 의도에 부합하지 않는 답변을 내놓을 가능성이 높습니다. (오픈AI는 1단계의 데이터를 최대한 늘리기 위해 노력하고 있지만 비용상의 문제가 있다고 밝히고 있습니다.
2단계는 보상 모델(reward model)입니다. 이 단계의 목표는 1단계를 거친 언어 모델의 답변이 질문자의 의도에 더 부합하도록 가르치는 겁니다. 놀랍게도 실제로 이걸 가르치는 것은 실제 사람입니다.
우선 1단계 언어 모델에 질문을 한 뒤 4~9개의 답변을 얻어냅니다. 라벨러로 불리는 인간 교육자는 이 답변들이 질문자의 의도를 얼마나 파악했는지 평가해 순서대로 순위를 매깁니다. 이를 별도의 데이터베이스화하는데 이 데이터 세트의 크기는 1단계의 데이터 세트보다 10배 가량 더 큽니다.
이 데이터 세트를 이용해 지속적으로 교육을 반복하면 AI는 사람이 어떤 질문을 할 때 어떤 답변을 하는 것을 좋아한다는 것을 통계적, 수학적으로 파악하게 되는 자동 시스템을 갖추게 됩니다. 실제로 질문자의 의도를 이해하는 것은 아니지만, 결과적으로는 마치 이해하는 것처럼 보이게 되는 것이죠.
◇성능 평가까지 사람이 적극 개입
마지막 3단계는 PPO(Proximal Policy Optimization)라는 알고리즘을 적용합니다. 3단계는 과거 학습을 경험하는 것이 아니라 실제 언어 모델을 작동하면서 생기는 문제점을 미세하게 조정하는 과정입니다. 선별된 데이터 세트로 1~2 단계를 진행한 결과 갖게 된 한계를 극복하고 보다 정확성을 높이는 과정입니다. 다만 언어 모델의 안정성을 보장하기 위해 변화의 폭은 이전 버전과 일정 수준 이상 벌어지지 않도록 제한합니다.
물론 이렇게 말처럼 간단하지는 않습니다. 3단계에는 가치 함수라는 개념이 포함돼 있는데 가치 함수는 보통 기대 수익률과 현재 수익률의 차이를 나타내는 함수를 계산하는 데 사용됩니다. 언어 모델의 경우에는 질문에 정확하게 답변할 가능성과 실제 정확하게 답변한 사례를 분석하는데 사용됩니다. 이를 활용하면 문제점을 수정했을 경우 이전보다 얼마나 개선됐는지도 파악할 수 있습니다.
챗GPT는 성능 평가의 핵심 부분도 사람에 의존합니다. 교육을 사람이 한 만큼 평가도 사람이 하는 겁니다. 평가는 세 가지 기준으로 이뤄집니다. 우선 ‘유용성’입니다. 사용자의 질문을 얼마나 잘 파악했는지, 적합한 답변을 내놓았는지 보는 겁니다. 다음은 ‘진실성’인데 데이터를 조합해 가짜 답변을 만들어냈는지를 들여다 봅니다. 마지막으로 ‘무해성’은 인종·성차별 같은 편향성을 가진 답변을 내놓지 않았는지 살핍니다. 오픈AI는 세 단계의 RLHF 교육과 평가에서 나타난 문제점을 다시 조정해 1~3단계를 반복하는 방법으로 챗GPT의 성능을 개선하고 있습니다.
◇챗GPT의 한계는 사람의 편향성
챗GPT가 현재 상용화된 AI 챗봇 가운데 가장 강력한 성능을 가진 것은 부인할 수 없는 사실입니다. 하지만 근본적으로 챗GPT가 갖고 있는 명확한 한계가 있습니다. 우선 학습되지 않은 주제나 답변에 대해서는 엉뚱한 답을 내놓는 수준이 아니라, 아예 거짓 정보를 내놓고 있습니다. 챗GPT가 활용한 GPT 3.5의 경우 2021년까지의 데이터를 활용했는데 그 결과 ‘지금 한국의 대통령’을 물어보면 ‘문재인 대통령’이라고 답합니다. 이는 서두에서 언급한 것처럼 오픈AI가 챗GPT를 서둘러 출시하면서 벌어진 일입니다.
아이러니하게도 챗GPT가 갖고 있는 한계의 핵심은 사람입니다. 챗GPT의 강점이 동시에 취약점이 되는 것이죠. 샘플 데이터를 선별하고 골라내는 것도 사람, 연구를 설계하고 어떤 답변을 우선시할 지 점수를 매기는 것도 사람, 교육과 평가를 하는 것도 사람입니다. 개인적인 선호나 잘못된 생각 등을 입력하면서 챗GPT를 오염시킬 가능성이 언제든 있다는 겁니다. 무엇보다 개발 과정에서 참여자의 숫자를 아무리 늘리더라도 전체 사용자를 대표하기에는 턱없이 부족합니다.
오픈AI의 RLHF는 모든 사람이 동일한 가치를 공유한다는 이상적인 가정에서 출발합니다. 성별이나 연령, 인종에 따른 차이가 충분히 반영되지 않을 수 있습니다. 구글 딥마인드는 지난해 9월 아카이브에 RLHF의 문제점을 개선하고 좀 더 정확하고 편향되지 않은 답변을 내놓을 수 있는 시스템 ‘스패로(Sparrow)’를 발표한 바 있습니다. 구글이 챗GPT에 대항해 내놓을 서비스에 이 모델이 적용될 가능성이 높습니다.
사실 구글과 페이스북, 마이크로소프트 같은 기업들은 내부적으로 챗GPT 수준의 챗봇을 보유하고 있는 것으로 알려져 있습니다. 다만 과거 한국 스타트업이 내놓았던 챗봇 이루다처럼 사회적인 논란이 불거질 것을 우려해 공개 시점을 저울질하고 있었다는 분석도 있습니다. 그 장벽을 챗GPT는 단숨에 허물어 버렸습니다. 챗GPT가 촉발한 진짜 AI 주도권 경쟁은 이제부터 시작될 것 같습니다.
◇AI 편향성 해결 위한 프로젝트도 진행
AI의 편향성 문제 해결은 AI 연구자들의 공통된 숙제입니다. 이번 글의 맥락과는 차이가 좀 있지만, 이 분야에서 세계적으로 두각을 나타내고 있는 학자가 있습니다. 지난해 ‘천재들의 상’으로 불리는 맥아더상을 수상한 미국 워싱턴대 최예진 교수입니다. 최 교수는 마이크로소프트 공동 창업자 폴 앨런이 설립한 ‘앨런 인공지능 연구소’에서 ‘델파이’라는 AI를 개발했습니다. 챗GPT 처럼 사용자의 질문에 답하는 델파이의 개발 목적은 ‘AI에 윤리를 가르칠 수 있는가’입니다.
2021년 공개 3주 만에 전세계 300만명이 몰려들 정도로 화제를 모았습니다. 델파이의 정확도는 92% 수준입니다. AI에게 윤리를 판단하도록 한 뒤 일반 대중의 답변과 비교했을 때 92% 정도 일치하는 답을 낸다는 겁니다. 최 교수는 과거 본지 인터뷰에서 “나라마다 문화마다 생각하는 방식이 다르고 윤리도 다르다”면서 “미국 중심으로 개발되고 있는 AI가 더 유용해지기 위해서는 다양성을 확보하는데 힘써야 한다”고 말했습니다. 그런데 미국 기업들이 AI에 한국의 문화와 윤리를 가르치기를 마냥 기다리고 있어야 할까요.
LG, 네이버, 카카오 같은 우리 기업들도 이미 챗GPT 같은 초거대AI 분야에 공격적으로 투자하고 있습니다. 엑사원, 클로바 같은 서비스도 이미 알려져 있죠. 최예진 교수는 “AI는 다른 테크 분야와 달리 이름도 들어본 적이 없는 대학이나 기업이 어느 순간 엄청난 성과를 발표하는 경우가 얼마든지 있다”고 했습니다. 빅테크의 기득권을 뛰어넘을 수 있는 분야가 바로 AI라는 것이죠. 리소스(자원) 결핍과 열악한 환경이 오히려 창의적인 아이디어를 탄생시킨다고도 했습니다. 한국 기업과 대학이 그런 성과를 내는 날이 올까요.