Words란?

Words는 코퍼스에 포함된 단어들을 대상으로 빈도, n-gram, skip-gram, 그리고 문법적·의미적 범주를 종합적으로 분석해 주는 도구입니다. 이 도구는 텍스트 안에서 단어가 얼마나 자주 등장하는지뿐만 아니라, 어떤 위치와 맥락에서 사용되는지를 함께 살펴볼 수 있도록 설계되었습니다.

도구 화면

화면의 왼쪽에서는 단어의 빈도 목록을 생성하거나 분산 및 키워드를 계산할 수 있습니다.

화면의 오른쪽에서는 단어의 빈도를 시각화 할 수 있습니다.

출처: 사용자 매뉴얼

출처: 사용자 매뉴얼

빈도 목록 생성 방법

  1. Words 모듈을 열고, 코퍼스 및 빈도 목록에 대한 설정을 선택합니다.

    <aside> 📌 랭스박스 엑스의 빈도 목록은 미리 계산되어 나중에 사용할 수 있도록 저장됩니다. 단어 목록을 처음 만드는 경우, 코퍼스 크기와 주석의 복잡성(즉, 사용된 단위 수)에 따라 다소 시간이 걸릴 수 있습니다.

    </aside>

    Untitled

    예컨대 “8-grams”를 정의할 수 있습니다.

    2.png

    8-grams는 연속된 여덟 개의 단어 또는 문자열을 하나의 단위로 취급하므로, 긴 문장이나 텍스트에서 발생하는 특정한 문맥을 포착하고 분석하는 데 사용될 수 있습니다.

    n-gram이 연속된 단어들을 하나의 묶음으로 추출하는 것과 달리, skip-gram은 단어 사이에 다른 단어가 끼어 있어도 두 단어의 관계를 분석할 수 있습니다. 예를 들어 “X– –X skip-gram”은 네 개의 단어가 연속으로 있을 때, 첫 번째 단어와 네 번째 단어만을 선택하여 하나의 쌍으로 추출하는 방식입니다. 이때 두 단어 사이에 있는 두 개의 단어는 분석에서 제외됩니다. 따라서 skip-gram은 문장 안에서 떨어져 있지만 의미적으로 연결된 단어들의 결합을 분석하는 데 유용합니다.

    3.png

  2. 모든 빈도 및 분산 측정은 한 번에 계산됩니다. 설정에 따라 단어의 빈도 목록이 표의 형식으로 나타납니다. 사용자는 설정을 쉽게 변경하여 다양한 빈도 목록을 생성할 수 있습니다.

  3. 빈도 목록은 상단의 검색창을 사용하여 검색될 수 있습니다.

  4. 빈도 목록은 열 헤더(column header)를 마우스 좌클릭 하면 정렬될 수 있습니다.

  5. 빈도 목록은 열에 필터를 적용하면 필터링 될 수 있습니다.