AI 정복기/비전공자를 위한 넓고 얕은 AI 지식

AI는 어떻게 ‘똑똑해지는’ 걸까요? 눈에 보이지 않는 학습과 진화의 과정 - 비전공자를 위한 넓고 얕은 요즘 AI 지식

문노베 2025. 5. 14.

AI는 어떻게 ‘똑똑해지는’ 걸까요? 눈에 보이지 않는 학습과 진화의 과정 - 비전공자를 위한 넓고 얕은 요즘 AI 지식

“AI가 계속 좋아진대요. 근데 업데이트도 아닌데 어떻게 스스로 ‘학습’한다는 걸까요?” 지금 이 순간에도 AI는 누군가의 평가를 통해 몰래 진화 중입니다.

 

AI는 어떻게 ‘똑똑해지는’ 걸까요? 눈에 보이지 않는 학습과 진화의 과정 - 비전공자를 위한 넓고 얕은 요즘 AI 지식

 

안녕하세요, 문노베입니다. 뉴스를 보면 “GPT가 더 똑똑해졌다”, “모델이 업데이트됐다”는 말이 자주 나옵니다.

 

그런데 이런 진화는 단순히 버전만 올리는 게 아니라, ‘사람이 AI에게 더 나은 답을 가르치는 과정’에서 비롯되는 경우가 많습니다.

 

이 글에서는 Pre-training(사전학습), Fine-tuning(파인튜닝), Instruction tuning(지도학습) 같은 학습 구조와 AI가 인간의 피드백으로 더 똑똑해지는 방식까지 쉽고 직관적으로 설명드릴게요.

1. AI의 첫 번째 학습: Pre-training과 Fine-tuning

AI가 본격적으로 쓰이기 전에 반드시 거치는 단계가 있습니다. 바로 Pre-training, 즉 사전학습입니다.

 

이 단계에서는 AI가 인터넷 텍스트, 책, 코드, 뉴스 등 수십억 개의 문장을 보고 패턴을 익혀요.

 

이 학습은 단어를 예측하는 게임과 비슷합니다.

 

예를 들어, “나는 아침에 커피를 ○○○.” AI는 여기에 들어갈 단어를 예측하며 수많은 문장을 반복 학습합니다.

 

그렇게 언어의 통계적 구조를 익히는 것이 Pre-training입니다.

 

그다음 단계가 Fine-tuning입니다.

 

기초 학습을 마친 AI에게 특정 목적에 맞는 예제를 보여주며 조금 더 세심하게 성능을 다듬는 과정이라고 보면 돼요.

  • Pre-training: 전 세계 책을 다 읽은 상태
  • Fine-tuning: 법률 문서만 따로 다시 집중 훈련

예를 들어, ‘의료 진단 보조 AI’를 만들고 싶다면 일반적인 LLM에 의학 논문과 사례를 따로 학습시키는 게 Fine-tuning입니다.

 

이렇게 하면 기존 모델보다 훨씬 좁고 깊게 특정 분야에 특화시킬 수 있어요.

 

요즘은 개인이나 조직도 API를 통해 자신만의 데이터를 기반으로 파인튜닝할 수 있게 되어 ‘나만의 GPT’를 만드는 흐름도 활발해지고 있습니다.

2. 사용법을 알려주는 학습: Instruction tuning

Pre-training과 Fine-tuning이 데이터 기반 학습이라면, Instruction tuning은 ‘질문에 어떻게 답할지’를 학습하는 단계입니다.

 

즉, “질문이 들어오면 그에 적절하게, 간결하고 정중하게, 리스트로 정리해서 답하라” 같은 사용법과 답변 매너를 알려주는 거예요.

  • “이메일 형식으로 답해주세요” → 실제 이메일 구조로 출력
  • “요약해 주세요” → 핵심만 뽑아내는 능력 강화
  • “정중한 말투로 바꿔줘” → 톤 조절 학습

Instruction tuning은 주로 “질문–모범답안” 쌍을 수천만 개 이상 학습시켜서 이뤄집니다.

 

그 결과, 이전보다 더 사람 친화적이고 사용성 높은 AI가 만들어지는 거죠.

 

오늘날 우리가 사용하는 GPT, Claude, Gemini 등 거의 모든 LLM은 이 Instruction tuning을 통해 프롬프트 반응력이 강화된 형태로 출시된 겁니다.

 

2025.03.25 - [AI 정복기/Prompt Engineering - 어떻게 말하지?] - Goal-based Prompting - 목적이 명확하면, AI는 정답에 가까워진다 (프롬프트 엔지니어링)

 

Goal-based Prompting - 목적이 명확하면, AI는 정답에 가까워진다 (프롬프트 엔지니어링)

Goal-based Prompting - 목적이 명확하면, AI는 정답에 가까워진다 (프롬프트 엔지니어링)“이건 잘 썼는데, 내가 원하던 건 아니야…” 혹시 이런 경험, 있으신가요? 그건 AI가 틀린 게 아니라, 우리가

nobe-moon.tistory.com

 

3. 사람의 피드백으로 똑똑해진다고요?

AI 모델이 점점 더 ‘사람처럼’ 반응하게 된 가장 결정적인 계기는 바로 RLHF, 즉 Reinforcement Learning from Human Feedback입니다.

 

직역하면 “사람의 피드백으로 강화 학습한다”는 뜻이에요.

 

쉽게 말해, AI가 낸 여러 개의 답변 중에서 사람이 가장 좋은 답변을 골라주면, 그 선택을 바탕으로 AI가 ‘이런 방식이 좋은 거구나’라고 배우는 구조입니다.

 

💬 예: AI가 같은 질문에 3가지 답을 제시했을 때

  • ① 정확하지만 너무 딱딱한 표현
  • ② 살짝 부정확하지만 부드럽고 읽기 쉬운 표현
  • ③ 감정적인 표현이나 과장된 문장

사람이 ②번을 ‘좋은 응답’으로 선택하면, AI는 그 기준에 따라 ‘답변의 방향성’을 학습하게 됩니다.

 

이걸 수백만 번 반복하면, AI가 알아서 사람 친화적인 답을 선택하는 확률이 높아지는 것이죠.

 

GPT-4, Claude 3, Gemini 1.5 같은 최신 모델들이 “예전보다 훨씬 자연스럽고 안정적인 답변”을 할 수 있는 건 바로 이 RLHF 과정을 거쳤기 때문입니다.

 

Pre-training(사전학습): 방대한 데이터를 보고 언어의 패턴을 익히는 첫 학습 단계
Fine-tuning(파인튜닝): 특정 목적이나 분야에 맞게 AI를 정교하게 다듬는 과정
Instruction tuning(지도학습): 질문에 어떻게 반응할지, 어떤 말투로 응답할지 훈련하는 단계
RLHF: 사람의 피드백을 반영해 ‘더 좋은 답변’을 선택하고 강화하는 학습 방식

 

 

반응형

 

4. 업데이트와 학습은 다릅니다

많은 분들이 AI가 똑똑해질 때마다 “업데이트됐대요”라고 표현합니다.

 

하지만 엄밀히 말하면, 업데이트와 학습은 전혀 다른 개념이에요.

 

업데이트는 코드 수정이나 기능 추가처럼 시스템 자체가 바뀌는 걸 뜻해요.

 

예를 들면 GPT에 이미지 생성 기능이 붙거나, 메모리 기능이 탑재되는 것처럼요.

 

반면에 학습은 모델이 데이터를 보고 스스로 ‘패턴’을 익히는 과정입니다.

 

GPT가 2023년까지의 데이터를 학습했다고 한다면, 그건 모델의 ‘머릿속’을 새로 만드는 일이죠.

개념 업데이트 학습
목적 기능 강화 지식과 판단력 향상
형태 버전, UI, 시스템 수정 데이터 기반 훈련
빈도 수시로 적용 가능 수개월 간격, 대규모 자원 필요

즉, GPT가 더 똑똑해진 이유는 ‘업데이트’ 덕일 수도 있고, ‘학습’ 덕일 수도 있는 것이죠.

 

우리가 그 차이를 이해하면, 앞으로 AI 모델에 대한 기대나 활용 전략도 훨씬 현실적으로 세울 수 있습니다.

 

2025.03.29 - [트렌드 정복기] - GTC 2025 | 차세대 AI 반도체와 아키텍처의 미래 – 엔비디아의 속내를 읽다

 

GTC 2025 | 차세대 AI 반도체와 아키텍처의 미래 – 엔비디아의 속내를 읽다

GTC 2025 | 차세대 AI 반도체와 아키텍처의 미래 – 엔비디아의 속내를 읽다“AI는 소프트웨어보다 반도체에서 진짜 전쟁이 벌어지고 있다.” – GTC 2025에서 문노베가 느낀 가장 강렬한 문장입니다.

nobe-moon.tistory.com

 

핵심 요약 ✍️ AI는 이렇게 똑똑해집니다

  • Pre-training(사전학습): 방대한 데이터를 보고 언어의 패턴을 익히는 첫 학습 단계
  • Fine-tuning(파인튜닝): 특정 목적이나 분야에 맞게 AI를 정교하게 다듬는 과정
  • Instruction tuning(지도학습): 질문에 어떻게 반응할지, 어떤 말투로 응답할지 훈련하는 단계
  • RLHF: 사람의 피드백을 반영해 ‘더 좋은 답변’을 선택하고 강화하는 학습 방식

AI는 데이터를 집어넣는다고 자동으로 똑똑해지지 않아요. 무엇을 어떻게 학습시키느냐, 사람이 어디까지 개입하느냐가 진화를 좌우합니다.

문노베의 질문 🤔

AI가 RLHF로 ‘좋은 답변’을 학습한다고 했는데, 그 기준이 모호해지면 어떻게 될까요?
앞으로 AI가 사람의 피드백 없이 스스로 더 똑똑해질 수 있을까요?
우리는 ‘AI를 잘 쓰는 법’만 배울 게 아니라, ‘AI를 잘 가르치는 법’도 배워야 하는 걸까요?
반응형

댓글