Cluster | Notion

<aside> 💡 Cluster 도구는 검색 조건에 기초하여 연속된 단어의 패턴을 보여줍니다. 사용자는 클러스터 도구를 활용하여 타겟 코퍼스에서 흔히 사용되는 표현(common phrase)을 확인할 수 있습니다.

</aside>

실행 방법

File > Open Corpus Manager 를 사용하여 코퍼스를 선택합니다. 코퍼스에 포함된 파일은 Target Corpus 아래에 위치한 메인 윈도우의 좌측 프레임에 보여지게 됩니다.
검색창에 검색할 단어를 입력합니다.
화면에 표시될 클러스터의 개수를 파라미터 설정을 통해 제어합니다.
- Cluster Size
- Window Span
- Minimum Cluster Frequency
- Minimum Cluster Range
Start 버튼을 눌러서 검색을 시작합니다. 결과가 화면에 표시되기를 기다립니다.
결과가 화면에 표시되었다면 ‘Sort by’ 기능을 이용하여 결과의 순서를 재배열할 수 있습니다.

산출 조건 설정

AntConc에서는 특정 단어의 클러스터를 산출할 때에 다음과 같은 조건을 설정할 수 있습니다:

[Cluster Size]: 산출될 클러스터의 길이를 결정합니다.
[Search Query]: 선택할 수 있는 검색 옵션에는 정확한 형태의 단어 검색(Words), 대소문자 구분 검색(Case), 그리고 정규표현식 활용 검색(Regex)가 있습니다.
[Window Span]: 어휘 덩어리를 검색하기 위한 범위를 의미합니다. 범위는 좌우에 오는 단어의 수로 지정하는데, AntConc의 기본 설정은 ‘5L에서-5R까지’입니다. 다시 말해, 사용자가 별도로 지정하지 않으면 입력된 검색어로부터 좌우로 다섯 단어 범위 안에 있는 단어들을 대상으로 어휘 덩어리를 산출하게 됩니다.
[Min. Freq(uency)]: 설정된 범위 안에 오는 단어들이 어휘 덩어리로 선정되기 위한 최소한의 출현 빈도를 의미합니다. 최소 빈도의 절대적인 기준은 존재하지 않습니다. 따라서 어휘 덩어리 산출의 바탕이 되는 코퍼스의 규모 등을 비롯한 여러 요인을 고려하여 최소 출현 빈도를 적절히 설정해야 합니다.
[Min. Range]: 여러 개의 코퍼스를 동시에 분석하는 경우에 유용한 조건 설정 방법으로, 어휘 덩어리들이 최소 몇 개의 텍스트에서 나타나야 하는지를 의미합니다. 예를 들면, 10개의 코퍼스를 분석하면서 Min. Range를 4로 설정하는 경우, 조건에 맞는 어휘 덩어리가 4개 이상의 텍스트에서 발견되는 경우에만 최종 산출 결과에 포함됩니다.

산출 결과

Screenshot 2024-02-07 at 3.25.19 PM.png