Window
윈도우는 Word2Vec에서 의미가 어디까지 분산되어 있는지 확인하기 위한 값입니다.
예를 들어 윤동주 시인의 시 <별 헤는 밤>을 형태소 단위로 분리하고 명사만 모아 단어 집합을 만들었다고 가정해봅시다.
이러한 단어 집합에서 “청춘”을 중심으로 근처 앞뒤의 두 단어를 확인한다고 할 때, 살펴보자고 정한 단어의 범위 값을 “윈도우”라고 부릅니다.
위와 같이 윈도우의 크기를 2로 정하면, 단어 “청춘”의 앞뒤 두 단어까지 의미상 연관된다고 가정하고 등장할만한 단어를 살펴보는 것이기 때문에 나올 수 있는 단어의 수가 적습니다. 즉, 윈도우가 2라면 문맥의 좁은 부분을 세밀하게 살펴보는 것이라 말할 수 있습니다.
그러나 윈도우를 10으로 설정한다면, 단어 “청춘”의 앞뒤로 10 단어까지 의미적 연관이 있다고 가정하고 등장할만한 단어를 예측하는 것이므로 윈도우 2로는 잡히지 않았던 다양한 어휘가 나올 것입니다. 예를 들어, 단어 “청춘”과 “가슴”은 윈도우 2에서는 ‘관계가 없다’고 보지만, 윈도우 10에서는 ‘관계가 있다’고 볼 것입니다.
이렇게 사용자가 정하는 값에 따라 문맥을 어떻게 살펴볼 것인지가 달라지므로 적절한 값을 선택하는 것이 중요합니다.