Skip-Gram은 중간 단어를 주고 비어 있는 주변 단어들을 예측하는 것입니다.
앞서 윤동주의 <별 헤는 밤> 시 텍스트에서 형태소 분석을 통해 얻은 단어 집합을 예로 다시 들어 Skip-Gram 방식의 학습이 어떻게 이루어지는지 살펴보겠습니다.
중간 단어가 “청춘”, 윈도우 크기가 “2”로 설정된다면 Skip-Gram에서는 “청춘”을 중심으로 앞뒤 두 자리 범위에 출현할만한 단어들을 차례대로 불러와 학습합니다. 윈도우의 크기를 “10”으로 바꾸면 범위가 늘어난 만큼 더 많은 단어를 찾아와 학습합니다. 이렇게 학습한 데이터를 바탕으로 중간 단어와 주변 단어들 간의 가중치 행렬을 계산하여 워드 임베딩을 얻습니다.
Skip-gram은 CBOW에 비해 학습 시간은 더 오래 걸리지만, 단어의 문맥 정보를 잘 포착하고 의미적 유사성을 잘 파악하는 장점을 갖습니다. 따라서 자연어 분석에서는 일반적으로 Skip-gram 방식이 사용됩니다.