Words는 코퍼스에 포함된 단어들을 대상으로 빈도, n-gram, skip-gram, 그리고 문법적·의미적 범주를 종합적으로 분석해 주는 도구입니다. 이 도구는 텍스트 안에서 단어가 얼마나 자주 등장하는지뿐만 아니라, 어떤 위치와 맥락에서 사용되는지를 함께 살펴볼 수 있도록 설계되었습니다.
화면의 왼쪽에서는 단어의 빈도 목록을 생성하거나 분산 및 키워드를 계산할 수 있습니다.
화면의 오른쪽에서는 단어의 빈도를 시각화 할 수 있습니다.

출처: 사용자 매뉴얼
Words 모듈을 열고, 코퍼스 및 빈도 목록에 대한 설정을 선택합니다.
<aside> 📌 랭스박스 엑스의 빈도 목록은 미리 계산되어 나중에 사용할 수 있도록 저장됩니다. 단어 목록을 처음 만드는 경우, 코퍼스 크기와 주석의 복잡성(즉, 사용된 단위 수)에 따라 다소 시간이 걸릴 수 있습니다.
</aside>

코퍼스 및 하위코퍼스: 랭스박스 엑스에 내재된 기존 코퍼스를 선택하거나 새로 만듭니다.
단위(unit): 빈도 목록에 사용될 언어 단위(가령 단어, 표제어(hw), 품사(POS), 레마, 어휘소)
단위 크기(unit size): 단일어(single words), 2-grams, 3-grams, 4-grams 그리고 5-grams가 드롭다운 목록에 포함되어 있습니다. 그러나 “add n-gram/skip-gram” 옵션을 눌러 새로운 n-gram과 skip-gram을 정의할 수 있습니다.

예컨대 “8-grams”를 정의할 수 있습니다.

8-grams는 연속된 여덟 개의 단어 또는 문자열을 하나의 단위로 취급하므로, 긴 문장이나 텍스트에서 발생하는 특정한 문맥을 포착하고 분석하는 데 사용될 수 있습니다.
n-gram이 연속된 단어들을 하나의 묶음으로 추출하는 것과 달리, skip-gram은 단어 사이에 다른 단어가 끼어 있어도 두 단어의 관계를 분석할 수 있습니다. 예를 들어 “X– –X skip-gram”은 네 개의 단어가 연속으로 있을 때, 첫 번째 단어와 네 번째 단어만을 선택하여 하나의 쌍으로 추출하는 방식입니다. 이때 두 단어 사이에 있는 두 개의 단어는 분석에서 제외됩니다. 따라서 skip-gram은 문장 안에서 떨어져 있지만 의미적으로 연결된 단어들의 결합을 분석하는 데 유용합니다.

모든 빈도 및 분산 측정은 한 번에 계산됩니다. 설정에 따라 단어의 빈도 목록이 표의 형식으로 나타납니다. 사용자는 설정을 쉽게 변경하여 다양한 빈도 목록을 생성할 수 있습니다.
빈도 목록은 상단의 검색창을 사용하여 검색될 수 있습니다.
빈도 목록은 열 헤더(column header)를 마우스 좌클릭 하면 정렬될 수 있습니다.
빈도 목록은 열에 필터를 적용하면 필터링 될 수 있습니다.