5. 워드 임베딩과 텍스트 벡터화

자연어 처리(NLP)에서 텍스트 데이터를 컴퓨터가 이해하도록 처리하려면, 언어를 숫자로 변환해야 합니다. 컴퓨터는 숫자와 수학적 계산을 처리하는 데 뛰어난 능력을 가지고 있지만, 사람이 사용하는 언어인 문자나 단어는 바로 이해하지 못합니다. 그래서 텍스트 데이터를 **벡터(vector)**라는 숫자 배열로 변환하는 과정이 필요합니다. 이 장에서는 텍스트를 숫자로 변환하는 방법, 특히 워드 임베딩(Word Embedding)과 텍스트 벡터화(Text Vectorization)에 대해 배워보겠습니다.

5.1. 워드 벡터

컴퓨터는 글자를 이해하지 못하기 때문에, 우리가 사용하는 단어나 문장을 숫자로 바꿔야 합니다. 이를 벡터화(vectorization)라고 하는데, 쉽게 말해서 단어를 숫자로 변환하는 과정을 일컫습니다. 하지만 단순히 단어를 숫자로 바꾸는 기존 방법은 몇 가지 문제가 있습니다.

5.1.1. 단어 벡터 표현: (1) 희소 표현(Sparse Representation)

기존에는 단어를 숫자로 표현하는 방법으로 원-핫 인코딩(one-hot encoding) 같은 방법이 있었습니다. 이 방식은 단어가 들어 있는 위치만 1로 표시하고, 나머지는 모두 0으로 채우는 방법입니다.

만약 "고양이", "강아지", "자동차" 세 단어가 있다면, 원-핫 인코딩은 이렇게 변환됩니다.

고양이 → [1, 0, 0]
강아지 → [0, 1, 0]
자동차 → [0, 0, 1]

이 방식은 단순하지만, 문제가 있습니다.

단어의 의미를 반영하지 못합니다.
- "고양이"와 "강아지"는 비슷한 동물이지만, 위 벡터에서는 아무런 관계가 없습니다.
- 즉, 컴퓨터는 "고양이"와 "강아지"가 서로 비슷한 단어인지 모릅니다.
벡터 크기가 커집니다.
- 만약 단어가 10,000개라면, 하나의 단어를 표현하는 데 10,000개의 숫자가 필요합니다. 예를 들어, 10,000개의 단어를 포함하는 단어 집합에서 "강아지"라는 단어가 5번째 단어라면 다음과 같이 표현됩니다:
  
  강아지 → [0, 0, 0, 0, 1, 0, 0, ..., 0] (총 10,000차원)
  
  이러한 벡터는 대부분의 값이 0으로 채워져 있으므로, 희소 벡터(sparse vector)라고 부릅니다.
- 이렇게 되면 계산 속도가 느려지고, 저장 공간도 많이 차지하게 됩니다.

위와 같은 희소 벡터의 문제는 문서-단어 행렬(Document-Term Matrix, DTM)에서도 나타납니다. 특정 문서에서 자주 등장하는 단어가 다른 문서에서는 전혀 등장하지 않으면, 행렬의 대부분이 0으로 채워져 희소 행렬(sparse matrix)이 됩니다. 0이 대부분인 벡터끼리의 연산은 비효율적입니다. 예를 들어, 문서가 10,000개이고 단어가 50,000개라면 DTM의 크기는 10,000 × 50,000 = 5억 개의 셀입니다. 이 중 대부분이 0이므로 메모리가 낭비됩니다. 또한 희소 벡터는 표면적 단어 출현 여부만 기록하기 때문에 단어 간 의미 관계(“자동차” ≈ “차량”)를 반영하지 못하고, 조금만 다른 단어를 써도 모델이 “완전히 새로운 문서”로 오판합니다. 따라서 보다 효율적인 벡터 표현 방식이 필요합니다.

5.1.2. 단어 벡터 표현: (2) 밀집 표현(Dense Representation)

밀집 표현은 희소 표현과 달리, 단어 벡터의 차원을 단어 집합의 크기에 의존하지 않고, 사용자가 설정한 고정된 차원으로 변환합니다. 또한 벡터의 각 요소는 0과 1뿐만 아니라 실수(real number) 값을 가질 수 있어, 단어 간 의미적인 유사성을 반영할 수 있습니다.

예를 들어, 원-핫 인코딩에서는 단어 집합이 10,000개라면 “강아지”라는 단어를 표현하기 위해 10,000차원의 벡터를 사용해야 합니다. 하지만 밀집 표현을 사용하면 훨씬 더 작은 차원(예: 128차원, 300차원 등)으로 줄이면서도, 단어의 의미를 반영할 수 있습니다.

예: 강아지 → [0.2, 1.8, 1.1, -2.1, 1.1, 2.8, …] (128차원)