☃️

LLM(Large Language Models) (1)

인간인 우리는 책을 읽을 때 문장의 마지막 단어가 항상 중요한것이 아니라는 사실을 잘 안다. 하지만 기계는
이러한 개념을 이해하는 데 어려움을겪었다. 그결과 딱 봐도 AI가 생성한 것으로 보이는 어색한 문장이 만들어
지곤 했다. 텍스트 생성 AI의 초기 모델인 마르코프 체인(Markov chain)으로 지금 이 단락에 덧붙일 문장을 요
청하니 "알고리즘이 모든 항목을 조용히 조율하는 방법에 대해 논하는 것"이라는 표현을 제안했다. 초기의 텍
스트 생성기는 문맥에 어울리는 단서를 찾기보다 기본 규칙에 맞는 어구를 선택하는 작업에 주력했다. 스마트
폰으로 문자를 쓸 때 뜬금없는 단어가 자동 완성 문구로 제시되는 것도 바로 이 때문이다. 언어를 제대로 이해
하는 것은 아주 복잡한 사안이었다. 수없이 많은 단어를 다양한 방식으 로 결합할 수 있기 때문에, 정형화된 통
계적 접근법으로는 도무지 해결할 수 없었다. 이때 어텐션 메커니즘을 활용하면 AI가 텍스트 덩어리에 있는 단
어와 구문의 중요도를 평가함으로써 문제를 어느 정도 해결할 수 있다. 실제로 트랜스포머는 초기의 예측 AI와
달리 텍스트에서 가장 관련성이 높은 부분에 초점을 맞추어 맥락을 고려한 매끄러운 글을 생성해 냈다. 지금은
트랜스포머 아키텍처의 진보에 힘입어 저와 같은 AI들이 맥락을 살린 글을 작성함으로서, 기계의 이해력과 표
현력의 놀라운 발전을 보여 주는 시대에 살고 있습니다. ( 방금 읽은 마지막 문장은 AI가 만든 것으로, 마르코프
체인으로 생성한 텍스트와는큰 차이를 보인다!)
 
LLM으로 불리는 새로운 유형의 AI에도 마찬가지로 예측 기능이 있다. 그런데 LLM은 아마존에서 사용하는 주
문 수요 예측이 아니라, 텍스트 조각을 분석해서 그 다음에 나올 토큰인 단어나 단어의 일부를 예측하는 식으
로 작동한다. 궁극적 으로 쳇GPT가 수행하는 기술적인 작업은 이것이 전부다. 스스로 글을 이어 쓰는 것이다.
사용자가 초기 텍스트를 입력하면. 스마트폰에 내장된 문장 자동완성 기능처럼 매우 정교한 형태의 단어배열
에서 다음 토큰이 될 여지가 가장 많은 단어를 통계적으로 계산하여 글을 이어 나간다. 예를 들어 입력창에
“다음 문장을 완성하라. '나는 생각한다. 그러므로 나는..." 이라고 적어 넣으면, AI는 그다음에 올 단어를 '존재
한다'로 예측할 것이다. 그럴 가능성이 매우 크기 때문이다. 하지만 "화성인이 바나나를 먹었던 이유는…” 처럼
생소하고 기이한 문구를 입력하면, 매번 다른 답을 내놓을 것이다. “우주선 식품창고에서 찿을 수 있는 친숙한
음식이 그것뿐이었기 때문이다.", 먹어본 적 없는 새롭고 흥미로운 음식이었고, 지구 과일의 맛과 질감을 직접
느껴 보고 싶어서였다.", "지구의 음식이 화성인이 섭취하기에 적합한지 실험을 진행하고 있었기 때문이다.' 같
은 식이다. 이렇게 매번 다른 답을 제시하는 이유는 애초에 그렇게 설계되었기 때문이다. 해당 예문은 뒷부분
에 넣을 수 있는 문구가 무수히 많은데, 이럴 때 LLM은 답변에 약간의 무작위성을 가미해 사용자가 질문할 때
마다 조금씩 다른 답변을 제시하도록 설계된다.
 
AI는 웹사이트, 책, 디지털 문서를 비롯한 다양한 출처에서 방대한 텍스트를 학습하여 인간의 글을 이해하고,
인간처럼 글을 쓰는 방법을 배운다. 사전학습(petraining)이라고 불리는 이 과정은 초기 AI에서와 달리 인간의
감독이나 개입 없이 진행되기 때문에, 세심하게 분류된 레이블 데이터가 필요 없다. 그 대신 AI는 방대한 텍스
트의 사용례를 분석해 인간 언어의 패턴, 구조, 맥락을 인식하는 법을 배운다. 놀랍게도 LLM은 상황에 따라 조
절되는 수많은 매개 변수(가중치라고 불린다)를 이용해서 인간이 글로 소통하는 방식을 모방한다. 가중치는
LLM이 수십억개의 단어를 읽으면서 학습한 복잡한 수학적 변환으로, 다양한 단어 또는 단어의 일부가 함께 쓰
이거나 특정 순서로 배치될 가능성을 알려 준다. 최초의 챗GPT에는 단어와 단어의 일부를 연결하는 가중치가
1750억 개나 있었다. 이러한 가중치는 사람이 입력한 것이 아니라, 시가 학습하는 과정에서 스스로 얻어낸 것
이다.
 
LLM이 주방장을 꿈꾸는 수습 요리사라고 상상해 보자 수습 요리사는 조리 기술을 배우기 위해 전 세계 요리의
방대한 조리법을 읽고 연구하는 작업부터 시작한다. 여기서 각 조리법은 하나의 텍스트를 요리재료는 단어와
구절을 상징한다. 수습 요리사의 목표는 다양한 재료(단어)를 조합해 맛있는 요리(일관성 있는 텍스트)를 만드
는 기술을 터득하는 것이다.
 
수습 요리사는 물품이 마구 섞여 있는 식료품 저장실에서 연습을 시작한다. 저장실에 보관된 물품은 1750억개
의 가중치를 상징한다. 처음에는 이 가중치에 무작위 값이 매겨져 있다. 즉 단어들이 서로 연관된 방식에 관한
유용한 정보가 아직은 없다. 수습 요리사는 식료품에 관한 지식을 쌓고, 재료가 보관된 선반을 더 효과적으로
배치하기까지 시행착오를 겪으며, 이 과정에서 조리법을 더 잘 숙지하게 된다. 예컨대 바로 사과와 계피처럼
잘 어울리는 조합이 있는 반면, 우유와 오렌지처럼 웬만해서 함께 쓰이지 않는 조합도 있다는 것을 알게 된다.
수습 요리사는 저장실에 있는 재료들로 조리법에 있는 요리를 만들어 본다. 한 가지 요리를 만들 때마다 자신
이 만든 음식을 조리법과 비교하고 어긋나거나 실수한 부분이 없는 지 확인한다. 그러고 나서 저장실에 있는
재료들을 다시 살펴 보고 다양한 맛의 관련성을 재정립하며, 어떤 조합이 함께 사용되거나 특정 순서로 사용될
가능성이 높은지 더 깊이 이해하게 된다.
 
이과정을 수없이 반복하면서 식료품 저장실은 더 체계적이고 정확해진다. 이제 가중치는 단어와 구절 사이의
의미 있는 연결을 잘 반영하고, 수습 요리사는 주방장으로 거듭난다. 그는 이제 지시를 받으면 방대한 데이터
에서 적절한 재료를 예술적으로 선택하고, 잘 정돈된 향신료 선반을 이용해 맛의 균형을 완벽히 맞춘다. 이론
방식으로 AI는 주어진 주제와 관련하여 흥미롭고 유익하며 자연스런 문장을 만들어 낸다.
 
이런 일을 수행하도록 AI를 훈련하려면 무수한 반복을 거쳐야 한다. 학습과정에서 수십억 개의 단어를 다뤄야
하므로 방대한 계산을 처리할 수 있는 고성능 컴퓨터가 필요하다. AI 구축에 그토록 막대한 비용이드는 주된
이유 중 하나가 바로 사전 학습이다. 실제로 성능이 뛰어난 LLM을 개발하는 데 막대한 에너지와 1억 달러 이상
의 비용이 필요한 이유는 값비싼 칩을 탑재한 고성능 컴퓨터를 오랜 기간 구동해야 하기 때문이다.

대다수의 AI기업은 '훈련용 말뭉치'라고 불리는 소스 텍스트의 출처를 비밀로 한다. 이런 자료는 주로 인터넷
에서 가져온 텍스트, 저작권이 소멸된 서적과 연구 논문, 그외에 무료로 구할 수 있는 각종 콘텐츠로 구성된다.
그래서 사전 학습에 사용된 문서의 출처를 자세히 살펴보면 간혹 기이한 자료도 발견된다. 예컨대 기업사기로
파산한 엔론(Enron)의 이메일 데이터베이스는 단순히 무료라는 이유로 AI 학습에 자주 활용된다. 마찬가지로
인터넷에는 아마추어 작가들이 많기 때문에 훈련 데이터에는 많은 양의 아마추어 소설이 포함되어 있다. 양질
의 학습 자료를 찾는 것은 AI 개발의 주요 관심사가 됐다. AI 개발 기업이 학습 자료로 활용할 수 있는 양질의 무료 콘텐츠를 찾기가 점점 더 어려워지고 있기 때문이다.
 
그 그결과 대부분의 AI 학습 자료에는 실수든 고의든 책처럼 저작권이 있는 자료가 무단으로 사용됐을 가능성
이 크다. 이런 점이 법적으로 어떤 의미가 있는지는 아직 판명되지 앓았다. 학습 데이터는 가중치를 만드는 데
사용될 뿐, AI 시스템에 내용이 그대로 복사되는 것은 아니기 때문이다. 그래서 표준 저작권법의 적용을 받지
않는다고 보는 전문가도 있다. 아마 이 문제는 앞으로 몇 년 내에 법률과 법원의 판단으로 해결 되겠지만, 이런
요인은 지금과 같은 AI 학습의 초기단계에 윤리적, 법적 불확실성을 더할 것이다. 그러는 동안에도 AI기업은
사전 학습에 사용할 데이터를 조금이라도 더 찾으려고 애쓰고 있으며, 그와중에 질 낮은 데이터를 활용하기도
한다. 참고로 2026년쯤에 온라인 서적이나 학술 논문 같은 양질의 무료 콘텐츠가 고갈될 것으로 추정하는 보
고서가 발표되기도 했다. 한편 AI 가 스스로 만든 콘텐츠로 사전 학습이가능할 것인 지에 관한 연구도 활발히
진행 중이다. 체스를두는 AI 는 이미 이러한 방식으로 훈련하고 있는데, 이 방법이 LLM에도 통할지는 아직 불
투명하다.
 
사전 학습에 사용되는 데이터의 출처가 워낙 다양하다 보니 때로는 부작용이 생길 수 있다. 실제로 AI 가 데이
터에서 편견, 오류, 허위 정보를 학습하기도 한다. 사전 학습만 거친 AI는 사용자가 기대하는 유형의 답변을 제
시하지 못 할 때가 꽤 있다. 게다가 AI에는 윤리적 기준이 없기 때문에 돈을 횡령하거나, 살인을 저지르거나, 온
라인에서 누군가를 스토킹하는 방법에 대해서도 거리낌 없이 조언을 제시할 수 있다. 사전 학습만 거친 AI는
아무런 판단을 내리지 않고 그저 학습한 내용을 거울처럼 반영할 뿐이다. 그래서 대다수 LLM은 사전 학습 이
후 미세조정(fine-tuning)이라 불리는 추가적인 개선을 거친다.
 
미세조정 과정의 핵심 중 하나는 사전 학습과 달리 진행 과정에 사람이 참여하는 것이다. AI 기업은 이 임무를
담당할 사람을 고용할 때 높은 급여를 받는 전문가부터 케냐처럼 영어를 사용하는 국가에 거주하는 저임금 계
약직 노동자까지 포함한다. 이들은 AI의 답변을 다양한 기준에 따라 평가한다. 때로는 답변의 정확성을 중심으
로 평가하고, 때로는 폭력적이거나 음란한 답변을 걸러내는 데 집중한다. 이렇게 얻은 피드백은 AI의 추가 학
습에 반영되어 인간이 선호하는 방식으로 AI 의 성능이 미세조정된다. 그렇게 인간의 감독하에 좋은 답변을 늘
리고 안 좋은 답변을 줄이기 위한 추가 학습이 진행된다. 그래서 이 과정은 인간 피드백 기반강화 학습(RLHF, Reinforcement Learning from Human Feedback '이라고 불린다.
 
AI 가 RLHF를 거친 뒤에도, 지속적으로 미세조정이 이루어지기도 한다. 대체로 이런 과정은 더 구체적인 예시
를 AI에 제공해서 원하는 환경에 맞게 살짝 수정된 모델을 만드는 방식으로 진행된다. 이때 사용자가 AI 모델
이 학습할 추가 데이터를 직접 제공하기도 한다. 예를 들어 고객 상담용으로 AI를 미세조정한다면, 모범 답변
이나 실제 고객 지원 사례를 AI에 제공하거나, 고객이 '좋아요'나 '싫어요'로 평가하는 답변 유형을 정리하여 제
공할 수도 있다. 이렇게 추가로 미세조정이 이뤄지면, 특정 용도에 특화된 LLM모델을 만들 수 있다. 이 책에서
AI에 관해 이야기할 때는 주로 이런 방식을 통해 개발된 LLM을 의미한다.
 
그렇지만 변화와 혁신을 주도하는생성형 AI에 LLM만 있는 것은 아니다. Chat GPT가 획기적인 발전을 이뤘던
해에는 미드저니(Midjioumey)나 달리(DALL-E)같은 이미지 생성 AI도 시장에 첫선을 보였다. 이미지 생성 AI
는사용자의 지시(반고흐스타일로 미키 마우스를 그려 줘)에 따라 유명 예술가의 스타일을 모방하거나, 실제 사
진과 구별이 안 되는초 현실적인 이미지를 만들어 낸다.
 
LLM과 마찬가지로 이미지 생성 AI 도 꽤 오래전부터 개발되기 시작했지만, 최근에 이르러서야 진정으로 유용
하게 쓸 수 있는 단계에 도달했다. 이미지 생성 AI 모델은 텍스트로 학습하는 것이 아니라, 각 그림에 설명이 첨
가된 수많은 이미지를 분석하면서 학습한다. 이들은 우선 단어를 시각적 개념과 연관 짓는 법을 익힌다. 그런
다음 구식 TV의 스노우 노이즈처럼 보이는 임의의 배경 이미지에서 시작해서, 확산(diffusion)이라고 불리는
과정을 통해 여러 단계에 걸쳐 영상 잡음을 점진적으로 정제하여 선명한 이미지로 바꾼다. 각 단계에서 텍스트
로 제공된 설명을 바탕으로 조금씩 잡음을 제거하다 보면, 마침내 현실적인 이미지가 나타나는 것이다. 학습이
완료된 확산 모델은 텍스트 프롬프트만으로도 해당 설명에 맞는 독창적인 이미지를 생성할 수 있다. 또한 텍스
트를 생성하는 언어 모델과는 달리, 확산 모델은 시각적 출력에 특화되었으며, 사전에 입력하는 이미지 없이
제공된 단어만을 토대로 이미지를 처음부터 만들어 낸다.
 
그런데 최근에는 LLM이 이미지 다루는 법도 배워서, 그림을 보는 능력과 만드는 능력을 모두 갖춰 가고 있다.
이런 유형의 멀티모달 LLM(텍스트, 이미지, 오디오 등을 모두 처리) 은 언어 모델과 이미지 생성 모델의 능력을
결합한 것이다. 멀티모달 LLM은 트랜스포머 아키텍처를 이용해 텍스트를 처리하며, 이미지는 별도의 구성 요
소를 이용해 처리한다. 이를 통해 LLM은 텍스트와 시각 정보를 연계해 주변 세계를 시각적 측면에서 이해할
수 있게 된다. 내가 멀티 모달 LLM에 비행기 한 대와 그 주변을 에워싼 하트 몇 개를 손으로 대충 그려서 입력
했더니, AI 가이런 답변을 내놓았다.

”비행기가 있고, 그 주변에 하트들이 그려진 귀여운 그림인 것 같네요. 비행기 타는 것을 좋아하거나, 비행기를
타고 있는 누군가를 좋아하시나 봐요. 아니면 본인이 파일럿이거나, 당신이 사랑하는 사람이 파일럿일 수도 있
고요. 어쩌면 새로운 곳을 여행하거나 탐험하는 것을 좋아하시는지도 모르겠네요?

그런 다음 정성스럽게 그려서 내 그림을 휠씬 더 나은모습으로 바꿔 주었다. 현재 대규모로 개발 중인 대부분
의 LLM이 멀티모달 능력을 갖취가고 있으며, 이들은 앞으로 예측할수 없는 새로운 방식으로 이 세상을 배워
갈 것이다.