단어의 빈도, n-gram, skip-gram, 문법적 및 의미적 범주를 심층적으로 분석해주는 도구입니다.
랭스박스 엑스의 Words 도구는 다음과 같은 용도로 사용할 수 있습니다:
화면의 왼쪽에서는 단어의 빈도 목록을 생성하거나 분산 및 키워드를 계산할 수 있습니다.
화면의 오른쪽에서는 단어의 빈도를 시각화 할 수 있습니다.
출처: 사용자 매뉴얼
Words 모듈을 열고, 코퍼스 및 빈도 목록에 대한 설정을 선택합니다.
<aside> 📌 랭스박스 엑스의 빈도 목록은 미리 계산되어 나중에 사용할 수 있도록 저장됩니다. 단어 목록을 처음 만드는 경우, 코퍼스 크기와 주석의 복잡성(즉, 사용된 단위 수)에 따라 다소 시간이 걸릴 수 있습니다.
</aside>
코퍼스 및 하위코퍼스: 랭스박스 엑스에 내재된 기존 코퍼스를 선택하거나 새로 만듭니다.
단위(unit): 빈도 목록에 사용될 언어 단위(가령 단어, 표제어(hw), 품사(POS), 레마, 어휘소)
단위 크기(unit size): 단일어(single words), 2-grams, 3-grams, 4-grams 그리고 5-grams가 드롭다운 목록에 포함되어 있습니다. 그러나 “add n-gram/skip-gram” 옵션을 눌러 새로운 n-gram과 skip-gram을 정의할 수 있습니다.
예컨대 “8-grams”를 정의할 수 있습니다.
8-grams는 연속된 여덟 개의 단어 또는 문자열을 하나의 단위로 취급하므로, 긴 문장이나 텍스트에서 발생하는 특정한 문맥을 포착하고 분석하는 데 사용될 수 있습니다.
skip-gram은 명칭대로 특정 위치에 있는 단어들을 건너 뛰어 생략할 수 있습니다. 즉, n-grams처럼 연속된 n개의 단어 또는 문자열을 결과로 출력하지 않습니다. 그 예로 “X--X skip-grams”를 들 수 있습니다. “X”로 표시된 첫 번째와 네 번째 위치의 단어들만을 결과로 제시합니다.
모든 빈도 및 분산 측정은 한 번에 계산됩니다. 설정에 따라 단어의 빈도 목록이 표의 형식으로 나타납니다. 사용자는 설정을 쉽게 변경하여 다양한 빈도 목록을 생성할 수 있습니다.
빈도 목록은 상단의 검색창을 사용하여 검색될 수 있습니다.