이롭게 현명하게

[R-LOG] 서평단 / 파이썬으로 만드는 초경량 한국어 LLM 챗봇 / 제이펍 본문

T-LOG/R-LOG

[R-LOG] 서평단 / 파이썬으로 만드는 초경량 한국어 LLM 챗봇 / 제이펍

dev_y.h 2026. 2. 2. 18:03
728x90
반응형

본 서평은 출판사의 서평단으로 선정되어 제공받은 도서를 읽고 작성하였습니다.

 


[목차]

들어가며

이 책은 어떤 책인가?

책 후기

추천 대상

마무리



[들어가며]

요즘 챗봇과 LLM에 대한 관심이 생겼다.

ChatGPT, Cursor를  사용하면서 어떻게 만들어지는 건지 인공지능을 공부하고 싶다는 생각이 들었다.

어떻게 공부하면 좋을까?라는 고민을 하던 중 이 책의 서평단 모집 글을 보게 되었다.

가장 먼저 눈에 들어온 건 제목에 들어간 '초경량'이라는 표현이다.

이 '초경량'이 무엇을 의미할까?

책의 분량이 가볍다는 뜻일지 아니면 모델의 크기나 연산 부담이 적다는 의미일까? 아니면 성능이 가벼운 모델이라는 뜻일까?

또 하나 궁금했던 부분은 '한국어 LLM 챗봇'이라는 표현이었다.

이미 ChatGPT와 같은 여러 LLM은 한국어를 잘 다루고 있는데 '한국어'라는 수식어를 넣은 이유는 무엇일까?

다른 LLM은 한국어에 약한 것인지 아니면 한국어 데이터와 환경에 최적화된 모델을 만들어본다는 의미인지 궁금증이 생겼다.

이런 궁금증에 대한 답을 확인해 보고 싶어 서평단에 신청하게 되었다.

 


[이 책은 어떤 책인가?]

파이썬으로 만드는 초경량 한국어 LLM 챗봇

  • 제목 : 파이썬으로 만드는 초경량 한국어 LLM 챗봇
  • 저자 : 김규석, 서예진, 정태양
  • 출판사 : 제이펍
  • 출판일 : 2026년 1월 5일
  • 개정판

 

더보기

머리말 xi
베타리더 후기 xii
이 책을 읽는 법 xiv
학습 가이드 xvi
로드맵 xviii

CHAPTER 1 인공지능과 ChatGPT
1.1 자연에서 모방하라 2
1.2 신경계의 가장 기본 단위 5
1.3 ChatGPT 알아보기 10
돌아보기/쪽지시험 17

CHAPTER 2 구글 코랩과 파이썬
2.1 취미로 만들어진 언어: 파이썬 20
2.2 구글 코랩 사용방법 23
2.3 파이썬 문법 29
돌아보기/쪽지시험 74

CHAPTER 3 챗봇과 ChatGPT
3.1 챗봇의 특징 및 활용 78
3.2 ChatGPT의 특징과 활용 89
3.3 챗봇과 ChatGPT의 차이 97
돌아보기/쪽지시험 99

CHAPTER 4 자연어 처리의 이해
4.1 자연어 처리란? 102
4.2 라이브러리 활용: spaCy 111
4.3 라이브러리 활용: KoNLPy 120
돌아보기/쪽지시험 126

CHAPTER 5 정형 데이터
5.1 정형 데이터란? 130
5.2 정형 데이터 직접 만들어보기 133
5.3 정형 데이터의 활용 140
5.4 Open API 활용하기 149
돌아보기/쪽지시험 156

CHAPTER 6 비정형 데이터
6.1 비정형 데이터 160
6.2 비정형 데이터의 수집 164
돌아보기/쪽지시험 174

CHAPTER 7 데이터 시각화
7.1 데이터 시각화의 종류 180
7.2 데이터 시각화의 활용 198
돌아보기/쪽지시험 205

CHAPTER 8 데이터 분석하기 I
8.1 데이터의 전처리 210
8.2 데이터의 기술통계량 산출하기 219
돌아보기/쪽지시험 226

CHAPTER 9 데이터 분석하기 II
9.1 상관분석의 정의 및 활용 230
9.2 회귀분석의 정의 및 활용 240
돌아보기/쪽지시험 246

CHAPTER 10 데이터 분류하기
10.1 분류 방법론의 정의 250
10.2 분류 방법론의 활용 및 해석 269
돌아보기/쪽지시험 273

CHAPTER 11 데이터 예측하기 I
11.1 전통적인 시계열 분석 방법론의 정의 및 활용 278
11.2 ARIMA의 활용 283
돌아보기/쪽지시험 291

CHAPTER 12 데이터 예측하기 II
12.1 머신러닝 기반의 시계열 분석 296
12.2 딥러닝 기반의 시계열 예측 300
돌아보기/쪽지시험 309

CHAPTER 13 LLM과 허깅 페이스 생태계 이해하기
13.1 ChatGPT의 등장과 LLM 시대 314
13.2 LLM의 작동 원리 317
13.3 허깅 페이스란 무엇인가? 321
13.4 허깅 페이스의 핵심 도구 324
13.5 구글 코랩에서 LLM 실행하기 328

CHAPTER 14 초경량 한국어 LLM 챗봇 만들기: KoGPT2 파인튜닝 실습
14.1 실습 개요 334
14.2 코랩 준비와 필수 라이브러리 설치 336
14.3 모델과 토크나이저 로딩 337
14.4 훈련 데이터 정의 및 전처리 338
14.5 데이터 토큰화 및 입력/정답 생성 340
14.6 학습 설정 및 Trainer 구성 341
14.7 학습 실행 및 모델 저장 342
14.8 CLI 챗봇 실행 및 테스트 343
14.9 최종 코드 345

찾아보기 347

 

 

 

 

 

책을 본격적으로 읽기 전에 먼저 눈에 들어온 것은 로드맵 페이지였다.

대부분의 LLM 관련 서적에서는 학습 흐름이나 커리큘럼이 글로 설명된 경우가 많았다.

물론 내용은 이해할 수 있지만 전체 흐름을 한눈에 파악하기에는 아쉬운 점이 있었다.

하지만 이 책에서는 독자가 어떤 순서로, 어떤 내용을 학습하게 되는지를 시각적인 로드맵 형태로 정리해 두었다.

단순히 "이런 내용을 다룬다."라는 나열이 아닌 기초 개념부터 실습, 그리고 초경량 한국어 LLM 챗봇을 만드는 과정까지의 전체 여정을 보여준다는 점이 인상적이었다.

덕분에 책을 읽기 시작하기 전부터 "아 이 책을 끝까지 읽으면 여기까지 오게 되는구나"라는 그림이 그려졌고 학습 방향을 미리 잡을 수 있다는 점에서 초보자에게 친절하게 느껴졌다.

학습 로드맵

 

이 책은 인공지능과 LLM을 처음 접하는 독자도 따라올 수 있도록 기초 개념부터 설명하고 있다.

전반적인 구성과 설명 방식은 마치 초등학교 교과서를 떠올리게 한다.

내용이 바로 복잡한 수식이나 코드로 들어가지 않는다.

먼저 인공지능이 왜 등장하게 되었는지, 어떻게 발전이 되었는지 독자가 자연스럽게 흐름을 이해할 수 있도록 돕고 있다.

인공지능 등장 배경

 

기본적으로 알고 있어야 할 개념들을 생략하지 않는다.

신경망이라는 개념을 뉴런과 신경계로 비유해 설명함으로써 인공지능이 인간의 사고 구조를 어떻게 모방하는지 직관적으로 이해할 수 있도록 구성되어 있다.

이러한 설명 방식 덕분에 인공지능이나 LLM에 대한 사전 지식이 많지 않더라도 책을 읽으면서 자연스럽게 개념을 쌓을 수 있다.

신경망에 대한 설명

 

2장에서는 코랩과 파이썬에 관해 설명하고 있다.

파이썬을 이미 알고 있다는 전제를 깔고 있지 않다.

파이썬을 한 번도 접해보지 않은 독자도 따라올 수 있도록 기본 문법과 개념을 설명해 주고 있다.

구글 코랩과 파이썬

 

챗봇이 무엇인지 챗봇에 대한 역사에 대해 설명하며 개념을 정리해 주고 있다.

이를 통해 챗봇이 오랜 시간에 걸쳐 발전해 온 결과물이라는 것을 이해할 수 있었다.

책을 읽다 보니 자연스럽게 한 가지 궁금증이 생겼다.

'어? 그러면 지피티도 챗봇인가? 챗봇과 LLM이 뭐가 다른 거지?'

이러한 독자의 의문을 예상이라도 한 듯 챗봇과 LLM의 차이점에 관해서도 설명해 준다.

두 개념을 명확히 구분해 줌으로써, 기존의 규칙 기반 챗봇과 대규모 언어 모델 기반 챗봇의 차이를 이해할 수 있었고 이후 등장하는 내용도 훨씬 수월하게 받아들일 수 있었다.

챗봇의 특징과 LLM의 차이

 

ChatGPT를 사용하다 보면 프롬프트를 입력할 때 띄어쓰기를 제대로 하지 않고나, 오타를 발견하지 못한 채 전송하는 경우가 종종 있다.

그런데도 GPT는 의도를 정확하게 파악하고 자연스러운 답변을 내놓는다.

그동안 "이걸 어떻게 이해하는 걸까?"라는 궁금증이 있었다.

자연어가 무엇인지 왜 한국어 자연어 처리가 특히 어려운지를 차근차근 설명해 주고 있다.

단순히 결과를 보여주는 것이 아닌 언어를 데이터로 다루는 과정 자체를 이해할 수 있도록 구성되어 있다는 것이 인상적이었다.

자연어 처리

 

자연어 처리를 구성하는 핵심 개념인 단어 임베딩, 형태소 분석에 대해서도 다루고 있다.

이론적인 설명에서 끝내지 않고 자연어를 어떻게 처리하는지 실습으로 설명해 주고 있다.

단어 임베딩 및 형태소, 의존 구문 분석

 

정형 데이터가 무엇인지 그리고 어떤 역할을 하는지 개념만 설명하는 것이 아닌 실제 활용 관점에서 왜 필요한지 설명해 주고 있다.

개념 설명 이후에는 정형 데이터를 직접 만들어보는 실습이 이어진다.

데이터를 단순히 주어진 것으로 사용하는 것이 아니라, 어떤 구조로 데이터를 구성해야 하는지 경험해 볼 수 있어 초보자에게 도움이 된다.

이렇게 만든 정형 데이터를 어떻게 활용할 수 있는지 Open API를 활용하는 방법도 설명해 주고 있다.

정형 데이터

 

정형 데이터에 이어 비정형 데이터에 관해서도 설명하고 있다.

LLM을 다루는 데 있어 비정형 데이터가 핵심적인 역할을 한다는 점을 이해하는 데 도움이 되었다.

이 과정에서 웹 스크레이핑에 관한 내용도 다루고 있다.

비정형 데이터

 

이후에는 데이터 분석의 기초가 되는 전처리 과정에 대한 설명이 이어졌다.

데이터 전처리가 왜 필요한지를 먼저 짚어주며, 실제 데이터에서 흔히 발생하는 결측치, 노이즈, 이상치와 같은 문제들로 설명하고 있다.

이를 통해 데이터를 바로 분석하면 안 되는 이유를 알게 되었다.

전처리 과정을 코드로 실습해 보며 데이터 정제 과정을 직접 경험할 수 있도록 데이터 전처리 모듈을 만드는 방법도 설명하고 있다.

전처리가 끝난 이후에는 데이터의 기술 통계량을 산출하는 방법을 설명하고 있다.

데이터 전처리

 

상관분석과 회귀분석을 다루고 있다.

단순히 정의만 하는 것이 아닌 스토리텔링을 통해 독자가 이해하기 쉽게 설명해 주어 개념을 처음 접하는 독자도 부담 없이 이해할 수 있도록 구성되어 있다.

그래프를 활용해 수치로만 보던 데이터를 시각적으로 이해할 수 있도록 돕고 있다.

엑셀이 익숙하지 않은 독자라도 설명을 따라가기에 무리가 없을 정도였다.

상관분석

 

회귀분석 역시 마찬가지다.

개념 설명 이후 실습으로 바로 이어지며, 엑셀이나 파이썬을 잘 모르는 상태에서도 실습을 진행할 수 있도록 단계별 설명이 제공된다.

회귀분석

 

책을 읽기 전까지는 데이터를 왜 굳이 분류해야 하는지에 대해 깊이 생각해 본 적이 없었다.

하지만 이 책에서는 분류가 필요한 이유부터 차근차근 설명해 주어, 분석 과정에서 분류가 어떤 역할을 하는지 자연스럽게 이해할 수 있었다.

개념 설명은 전반적으로 간단하고 이해하기 쉬운 편이다.

실습으로 어떻게 적용되는지를 직접 확인할 수 있도록 구성되어 있다.

덕분에 개념이 추상적으로 느껴지지 않고, 하나의 분석 도구로 받아들일 수 있었다.

데이터 분류

 

처음에는 과연 끝까지 따라갈 수 있을지 걱정이 되었지만, 실습 코드와 설명이 잘 정리되어 있어 큰 무리 없이 진행할 수 있었다는 점이 인상적이었다.

 

이후 데이터 예측과 시계열 분석에 관해 설명한다.

솔직히 처음에는 챗봇과 데이터 예측이 크게 연관이 있을 것이라고는 생각하지 못했다.

"특정 시간대의 사용자 트래픽을 예측해 서버 리소스를 확보하고, 응답 지연 시간을 예측해 캐싱이나 대체 답변을 준비하는 등 안정적인 서비스 운영에 도움이 된다."

라는 설명을 접하고 나서, 데이터 예측이 챗봇 서비스에서 어떤 역할을 하는지 단번에 이해할 수 있었다.

또한 사용자 패턴을 분석하면 챗봇의 응답 품질과 사용자 만족도를 높일 수 있다는 설명을 통해, 예측이 단순한 숫자 맞추기가 아니라 실제 서비스 개선과 직결된다는 점이 인상적으로 다가왔다.

시계열 분석의 기본 원리를 설명하고, 대표적인 모델인 ARIMA에 대해서도 다룬다.

개념 설명과 함께 시각 자료를 풍부하게 활용해 시간에 따른 데이터 변화와 예측 결과를 직관적으로 이해할 수 있도록 구성되어 있다.

특히 코드와 시각 자료의 비중이 적절하게 배분되어 있어, 수식이나 코드에 압도되지 않고 흐름을 따라갈 수 있었다는 점이 좋았다.

덕분에 시계열 분석이 어렵게 느껴지기보다는, "이런 식으로 활용되는구나" 하고 이해할 수 있는 파트였다.

시계열 분석과 ARIMA

 

지금까지 학습한 내용을 바탕으로 머신러닝을 활용한 데이터 예측으로 확장된다.

먼저 머신러닝이 무엇인지에 대해 설명한다.

이후에는 머신러닝 기반의 시계열 분석 방법을 소개하며 예측 모델을 만들어본다.

이론 설명과 함께 머신러닝 모델을 직접 구현해 보는 실습이 이어지기 때문에, 단순히 개념을 아는 수준을 넘어 "이렇게 사용하는구나"라는 감각을 익힐 수 있었다.

머신러닝 기반의 시계열 분석

 

데이터 분석과 예측 과정을 거친 뒤 본격적으로 LLM에 대한 개념 이해로 들어간다.

ChatGPT의 등장 이후 자주 접하게 된 LLM이라는 용어가 정확히 무엇을 의미하는지, 그리고 기존 모델들과 어떤 차이가 있는지를 차분하게 정리해주고 있다.

허깅 페이스로 LLM 모델을 어떻게 활용할 수 있는지도 소개한다.

허깅 페이스를 통해 LLM 모델을 어떻게 활용할 수 있는지도 소개한다.

실습을 통해 "실제로 써볼 수 있는 기술"이라는 느낌을 받을 수 있었다.

실습은 구글 코랩 환경에서 LLM을 실행하는 방법까지 이어진다.

환경 설정부터 실행까지의 과정이 상세히 설명되어 있어, LLM을 처음 다뤄보는 독자라도 큰 부담 없이 따라갈 수 있도록 구성되어 있다.

LLM과 구글 코랩

 

책의 마지막에서는 지금까지 배운 내용을 바탕으로 초경량 한국어 LLM 챗봇을 직접 만들어보는 실습이 진행된다.

거대한 모델을 다루는 대신, 비교적 가볍게 실행할 수 있는 초소형 파인튜닝 방식을 통해 한국어 챗봇을 구현한다.

이 과정을 통해 독자는 단순히 LLM을 사용하는 방법을 설명하는 것이 아닌 한국어 데이터를 기반으로 자신만의 챗봇을 만들어본다는 경험을 할 수 있다.

초경향 한국어 LLM 챗봇 만들기

 


[책 후기]

이 책이 좋았던 점은 챗봇과 LLM이라는 주제를 데이터 분석, 머신러닝 과정과 함께 다루고 있다는 점이다.

단순히 모델을 만드는 데서 끝나는 것이 아니라, 데이터 수집, 분석, 예측까지의 흐름을 함께 경험할 수 있어 전체적인 이해에 도움이 되었다.

또한 각 챕터마다 '돌아보기'와 '쪽지시험'이 수록되어 있어 배운 내용을 바로 복습하고 스스로 이해도를 점검할 수 있었다.

책을 읽기만 하고 넘어가는 것이 아니라 학습한 내용을 한 번 더 정리할 수 있다는 점이 마음에 들었다.

제목에 들어간 '초경량'이라는 표현도 읽다 보니 어느 정도 이해가 되었다.

책 자체의 분량과 설명 방식이 가볍고 모델 역시 학습과 이해에 초점을 둔 초경량 구성이라 부담 없이 학습하기에 적합했다.

다만 아쉬운 점도 있었다.

개념을 학습하면서 챗봇을 만드는 과정은 아니었다.

마지막에 완성되는 챗봇이 CLI 환경에서 마무리되는데 개인적으로는 개념을 설명하면서 진행하는 방식이 아니었고 간단한 GUI까지 포함되어 있기를 기대했기 때문에 이 부분은 조금 아쉽게 느껴졌다.

 

<장점>

  • 학습 흐름이 잘 설계되어 있다.
  • 자연스럽게 이어지는 구조 덕분에 왜 알아야 하는지를 놓치지 않게 해 준다.
  • 초등학교 교과서를 떠올리게 할 만큼 기초 개념을 차근차근 설명해주고 있다.
  • 파이썬이나 엑셀, 데이터 분석 경험이 없는 독자도 따라갈 수 있다.
  • 코드와 시각 자료의 비중도 적절하게 사용되고 있다.
  • 쪽지 시험이 수록되어 있어 배운 내용을 복습하기 좋다.

<단점>

  • 마무리가 CLI 환경에서 끝난다.
  • 개념을 습득하면서 프로젝트를 진행하지 않는다.

 


[추천 대상]

  • 챗봇이나 LLM에 관심은 있지만 어디서부터 시작해야 할지 막막하신 분
  • 파이썬, 데이터 분석 경험이 거의 없거나 입문 단계에 있는 학습자
  • ChatGPT를 사용하면서 "이게 어떻게 작동하는지" 궁금했던 사람
  • 한국어 기반 LLM 챗봇을 직접 만들어보고 싶은 사람
  • 이론과 실습을 함께 경험하며 전체 흐름을 이해하고 싶은 독자

 


[마무리]

이 책은 단순히 LLM이나 챗봇을 "소개하는 책"이 아닌 독자가 실제로 만들어볼 수 있도록 안내하는 책이다.

처음에는 '초경량'이라는 표현과 '한국어 LLM 챗봇'이라는 제목이 궁금증으로 다가왔지만, 책을 끝까지 읽고 나서는 의미가 분명해졌다.

복잡한 기술을 어렵게 푸기보다는, 이해할 수 있는 언어와 실습으로 차근차근 안내해 주는 점이 이 책의 가장 큰 매력이다.

LLM과 챗봇에 대한 관심이 생긴 독자라면 이 책은 부담 없이 시작할 수 있는 좋은 출발점이 되어줄 것이다.

 

 


잘못된 정보는 댓글에 남겨주시면 감사하겠습니다!☺️

댓글과 좋아요는 큰 힘이 됩니다!

728x90
반응형
Comments