Words란?

단어의 빈도, n-gram, skip-gram, 문법적 및 의미적 범주를 심층적으로 분석해주는 도구입니다.

랭스박스 엑스의 Words 도구는 다음과 같은 용도로 사용할 수 있습니다:


도구 화면

화면의 왼쪽에서는 단어의 빈도 목록을 생성하거나 분산 및 키워드를 계산할 수 있습니다.

화면의 오른쪽에서는 단어의 빈도를 시각화 할 수 있습니다.

출처: 사용자 매뉴얼

출처: 사용자 매뉴얼

빈도 목록 생성 방법

  1. Words 모듈을 열고, 코퍼스 및 빈도 목록에 대한 설정을 선택합니다.

    <aside> 📌 랭스박스 엑스의 빈도 목록은 미리 계산되어 나중에 사용할 수 있도록 저장됩니다. 단어 목록을 처음 만드는 경우, 코퍼스 크기와 주석의 복잡성(즉, 사용된 단위 수)에 따라 다소 시간이 걸릴 수 있습니다.

    </aside>

    Untitled

    예컨대 “8-grams”를 정의할 수 있습니다.

    2.png

    8-grams는 연속된 여덟 개의 단어 또는 문자열을 하나의 단위로 취급하므로, 긴 문장이나 텍스트에서 발생하는 특정한 문맥을 포착하고 분석하는 데 사용될 수 있습니다.

    skip-gram은 명칭대로 특정 위치에 있는 단어들을 건너 뛰어 생략할 수 있습니다. 즉, n-grams처럼 연속된 n개의 단어 또는 문자열을 결과로 출력하지 않습니다. 그 예로 “X--X skip-grams”를 들 수 있습니다. “X”로 표시된 첫 번째와 네 번째 위치의 단어들만을 결과로 제시합니다.

    3.png

  2. 모든 빈도 및 분산 측정은 한 번에 계산됩니다. 설정에 따라 단어의 빈도 목록이 표의 형식으로 나타납니다. 사용자는 설정을 쉽게 변경하여 다양한 빈도 목록을 생성할 수 있습니다.

  3. 빈도 목록은 상단의 검색창을 사용하여 검색될 수 있습니다.