Words | Notion

Words란?

Words는 코퍼스에 포함된 단어들을 대상으로 빈도, n-gram, skip-gram, 그리고 문법적·의미적 범주를 종합적으로 분석해 주는 도구입니다. 이 도구는 텍스트 안에서 단어가 얼마나 자주 등장하는지뿐만 아니라, 어떤 위치와 맥락에서 사용되는지를 함께 살펴볼 수 있도록 설계되었습니다.

랭스박스 엑스(LancsBox X)의 Words 도구는 먼저 단어의 **빈도(frequency)**를 계산하는 기능을 제공합니다. 이를 통해 특정 단어가 코퍼스 전체에서 몇 번 등장하는지를 확인할 수 있으며, 어떤 단어가 해당 텍스트에서 핵심적인 역할을 하는지도 파악할 수 있습니다. 단어 빈도 분석은 텍스트의 주제나 중심 어휘를 파악하는 데 기초적인 자료가 됩니다.
Words 도구는 빈도뿐 아니라 **분산(dispersion)**도 함께 계산합니다. 분산이란 특정 단어가 코퍼스 전체에 고르게 분포되어 있는지, 아니면 일부 텍스트에만 집중적으로 나타나는지를 보여주는 지표입니다. 예를 들어 어떤 단어가 전체 빈도는 높지만 특정 문서에서만 반복된다면, 해당 단어는 코퍼스 전반을 대표하는 어휘라고 보기는 어렵습니다.
또한 Words 도구는 단어의 빈도와 분산 정보를 시각화하여 제공합니다. 그래프나 표를 통해 단어의 사용 양상을 한눈에 확인할 수 있기 때문에, 학습자는 수치만으로 분석 결과를 이해하는 것보다 훨씬 직관적으로 텍스트의 특성을 파악할 수 있습니다.
Words 도구의 또 다른 주요 기능은 키워드(keyword) 분석입니다. 이는 두 개의 코퍼스를 비교하여, 한 코퍼스에서 다른 코퍼스보다 통계적으로 유의미하게 더 자주 등장하는 단어를 찾아내는 기법입니다. 예를 들어 특정 장르의 텍스트와 일반 텍스트를 비교하면, 해당 장르를 특징짓는 핵심 어휘를 키워드로 추출할 수 있습니다. 이를 통해 서로 다른 코퍼스 간의 어휘적 차이를 체계적으로 비교할 수 있습니다.

도구 화면

화면의 왼쪽에서는 단어의 빈도 목록을 생성하거나 분산 및 키워드를 계산할 수 있습니다.

화면의 오른쪽에서는 단어의 빈도를 시각화 할 수 있습니다.

출처: 사용자 매뉴얼

빈도 목록 생성 방법

Words 모듈을 열고, 코퍼스 및 빈도 목록에 대한 설정을 선택합니다.

<aside> 📌 랭스박스 엑스의 빈도 목록은 미리 계산되어 나중에 사용할 수 있도록 저장됩니다. 단어 목록을 처음 만드는 경우, 코퍼스 크기와 주석의 복잡성(즉, 사용된 단위 수)에 따라 다소 시간이 걸릴 수 있습니다.

</aside>
- 코퍼스 및 하위코퍼스: 랭스박스 엑스에 내재된 기존 코퍼스를 선택하거나 새로 만듭니다.
- 단위(unit): 빈도 목록에 사용될 언어 단위(가령 단어, 표제어(hw), 품사(POS), 레마, 어휘소)
- 단위 크기(unit size): 단일어(single words), 2-grams, 3-grams, 4-grams 그리고 5-grams가 드롭다운 목록에 포함되어 있습니다. 그러나 “add n-gram/skip-gram” 옵션을 눌러 새로운 n-gram과 skip-gram을 정의할 수 있습니다.
예컨대 “8-grams”를 정의할 수 있습니다.

8-grams는 연속된 여덟 개의 단어 또는 문자열을 하나의 단위로 취급하므로, 긴 문장이나 텍스트에서 발생하는 특정한 문맥을 포착하고 분석하는 데 사용될 수 있습니다.

n-gram이 연속된 단어들을 하나의 묶음으로 추출하는 것과 달리, skip-gram은 단어 사이에 다른 단어가 끼어 있어도 두 단어의 관계를 분석할 수 있습니다. 예를 들어 “X– –X skip-gram”은 네 개의 단어가 연속으로 있을 때, 첫 번째 단어와 네 번째 단어만을 선택하여 하나의 쌍으로 추출하는 방식입니다. 이때 두 단어 사이에 있는 두 개의 단어는 분석에서 제외됩니다. 따라서 skip-gram은 문장 안에서 떨어져 있지만 의미적으로 연결된 단어들의 결합을 분석하는 데 유용합니다.
모든 빈도 및 분산 측정은 한 번에 계산됩니다. 설정에 따라 단어의 빈도 목록이 표의 형식으로 나타납니다. 사용자는 설정을 쉽게 변경하여 다양한 빈도 목록을 생성할 수 있습니다.
빈도 목록은 상단의 검색창을 사용하여 검색될 수 있습니다.
빈도 목록은 열 헤더(column header)를 마우스 좌클릭 하면 정렬될 수 있습니다.
빈도 목록은 열에 필터를 적용하면 필터링 될 수 있습니다.