10. 텍스트 분류

10.1 텍스트 분류의 기초

텍스트 분류(Text Classification)란 컴퓨터가 주어진 텍스트를 자동으로 특정한 범주(카테고리)로 분류하는 기술입니다. 예를 들어, 이메일을 ‘스팸’과 ‘일반’으로 구분하거나, 뉴스 기사를 ‘정치’, ‘경제’, ‘스포츠’ 등의 주제로 나누는 것이 텍스트 분류의 예입니다. 사람은 문장을 읽고 즉시 그 의미를 이해할 수 있지만, 컴퓨터는 문자와 단어의 의미를 알지 못합니다. 따라서 텍스트를 수학적으로 표현하고, 그 규칙을 기계 학습(머신러닝, machine learning) 을 통해 학습시켜야 합니다.

1) 텍스트 분류의 세 가지 접근 방식

텍스트 분류는 기술의 발전 단계에 따라 ① 통계 기반 → ② 머신러닝 기반 → ③ 딥러닝 기반으로 나눌 수 있습니다.

구분	대표 알고리즘	핵심 원리	장점	한계
① 통계 기반 (Naive Bayes)	Naive Bayes	단어의 출현 확률에 따라 문서를 분류	구현이 간단하고 빠름	단어의 문맥을 이해하지 못함
② 머신러닝 기반 (SVM·로지스틱 회귀·랜덤포레스트)	Support Vector Machine, Logistic Regression, Random Forest	텍스트를 수치 벡터로 변환해 수학적 경계(패턴) 학습	통계보다 정밀한 분류 가능	의미보다는 형태적 패턴 중심
③ 딥러닝 기반 (BERT·RuBERT)	BERT, RuBERT	인공신경망이 문맥적 의미를 학습	단어의 의미와 관계를 파악 가능	계산량이 많고 GPU 필요

Naive Bayes는 단어의 빈도에 주목하여 “이 단어가 많이 등장하면 어떤 주제일 확률이 높다”는 식으로 판단합니다.
SVM 등 머신러닝 모델은 단어를 수치로 바꾸어 “문서 간 경계를 가장 잘 나누는 선(결정 경계)”을 찾아냅니다.
RuBERT 같은 딥러닝 모델은 단어의 문맥까지 학습하여 “игра(게임/경기)”처럼 의미가 상황에 따라 달라지는 단어도 구별할 수 있습니다.

예를 들어, ‘игра’가 “компьютерная игра(컴퓨터 게임)”에서는 ‘게임’을 뜻하지만, “игра сборной(대표팀 경기)”에서는 ‘시합’을 뜻합니다. 이 차이를 인식할 수 있는 것은 딥러닝 모델(RuBERT) 뿐이며, 통계적 모델(Naive Bayes)이나 전통적 머신러닝(SVM)은 이를 동일한 단어로 처리합니다.

이번 장에서는 이러한 세 가지 접근 방식을 순차적으로 이해하며, 특히 러시아어 텍스트 데이터를 활용하여 기초 통계 기반 모델(Naive Bayes)과 의미 기반 딥러닝 모델(RuBERT) 을 직접 실습해 봅니다. 이후에는 이 두 접근법의 중간 단계인 머신러닝 기반 분류(SVM, 로지스틱 회귀, 랜덤 포레스트) 를 개념적으로 이해함으로써 텍스트 분석 기술의 발전 과정을 폭넓게 조망하게 될 것입니다.

<aside> 📌

여기서 잠깐!

앞 장에서 배운 토픽 모델링(Topic Modeling)과 텍스트 분류(Text Classification)는 어떻게 다를까요? 토픽 모델링과 텍스트 분류는 자연어 처리에서 문서의 내용을 분석하는 두 가지 주요 방법이지만, 그 목적과 방식이 다릅니다.

먼저, 텍스트 분류는 미리 정의된 카테고리 중 하나로 텍스트를 분류하는 지도 학습(supervised learning) 방식입니다. 즉, 학습 데이터에 정답(레이블)이 포함되어 있어야 합니다. 예를 들어, 뉴스 기사를 ‘정치’, ‘경제’, ‘스포츠’ 등의 카테고리로 분류하거나, 고객 리뷰를 ‘긍정’, ‘중립’, 또는 ‘부정’으로 분류하는 작업이 이에 해당합니다. 이를 위해 Naive Bayes, SVM, Decision Tree, 딥러닝 모델(CNN, LSTM, BERT 등)과 같은 다양한 머신러닝 및 딥러닝 기법이 활용됩니다.

반면, 토픽 모델링은 문서에서 주요 주제를 자동으로 추출하는 비지도 학습(unsupervised learning) 방법입니다. 즉, 데이터에 미리 정해진 정답이 없어도 문서에서 공통적인 단어 패턴을 찾아 주제를 식별할 수 있습니다. 예를 들어, 뉴스 기사나 학술 논문을 분석하여 ‘국제정세’, ‘환경문제’, ‘경제’와 같은 주제를 자동으로 도출하는 데 사용됩니다. 대표적인 알고리즘으로는 LDA(Latent Dirichlet Allocation), NMF(Non-negative Matrix Factorization), LSA(Latent Semantic Analysis) 등이 있습니다.

정리하자면, 이 두 방법의 가장 큰 차이점은 학습 방식에 있습니다. 텍스트 분류는 지도 학습을 기반으로 하기 때문에 레이블이 필요하지만, 토픽 모델링은 비지도 학습 방식으로 별도의 레이블 없이 데이터를 분석할 수 있습니다. 또한, 텍스트 분류는 특정 기준에 따라 문서를 미리 정해진 범주에 배정하는 것이 목적이지만, 토픽 모델링은 문서에서 숨겨진 주제를 찾아내는 것이 목표입니다. 따라서 미리 정해진 카테고리가 있고, 해당 기준에 맞춰 문서를 분류해야 한다면 텍스트 분류를 사용하는 것이 적합합니다. 반대로, 카테고리가 명확히 정의되지 않은 상태에서 문서의 주제를 자동으로 파악하고 싶다면 토픽 모델링이 적절합니다.

</aside>

10.1 텍스트 분류의 기초

10.2 Naive Bayes를 사용하는 러시아어 텍스트 분류 실습