<aside>
💡 N-Gram 도구는 전체 코퍼스에서 모든 ‘N’-크기의 클러스터를 검색해 줍니다. 2-gram은 2개의 단어로 이루어진 클러스터를, 3-gram은 3개의 단어로 이루어진 클러스터를 일컫습니다. 사용자는 n-gram을 이용하여 코퍼스에서의 일반적으로 사용되는 표현(common expression)을 발견해 낼 수 있습니다.
</aside>
실행 방법
- File > Open Corpus Manager 를 사용하여 코퍼스를 선택합니다. 코퍼스에 포함된 파일은 Target Corpus 아래에 위치한 메인 윈도우의 좌측 프레임에 보여지게 됩니다.
- (optional) 검색창에 검색할 단어를 입력합니다.
- 화면에 표시될 n-gram을 파라미터 설정을 통해 제어합니다.
- N-Gram Size
- Open Slots
- Minimum Cluster Frequency
- Minimum Cluster Range
- Start 버튼을 눌러서 검색을 시작합니다. 결과가 화면에 표시되기를 기다립니다.
- 결과가 화면에 표시되었다면 ‘Sort by’ 기능을 이용하여 결과의 순서를 재배열할 수 있습니다.
산출 조건 설정
AntConc에서는 특정 단어의 n-gram을 산출할 때에 다음과 같은 조건을 설정할 수 있습니다:
- [N-Gram Size]: 산출될 n-gram의 길이를 결정합니다. 예를 들어, 사용자가 N-Gram Size로 3을 설정한다면 3-gram을, 5를 입력한다면 5-gram을 검색해서 보여줍니다.
- [Open Slot]: AntConc Version 4에 새로이 추가된 기능으로, 3개 이상의 토큰으로 이루어진 n-gram을 검색할 때 사용이 가능합니다. 예컨데, N-Gram Size를 3으로 하고 Open Slot에 1을 입력하면 가운데 임의의 단어를 포함하여 전형적으로 좌우 문맥에서 나타나는 2개의 단어로 구성된 3-gram을 검색합니다. rus_news_2022 파일로 검색할 경우 в+и, и+в, в+году, в+с, в+на, по+словам, он+что 등이 가장 빈도수높은 3-gram으로 검색되었습니다. 이 가운데 в+году는 в этом году, в прошлом году, в 2023 году 등 3-gram을 가리킵니다.
- ?, *, + 등의 와일드카드(wild card)를 사용하여 검색할 수 있습니다.
- [Min. Freq(uency)]: 설정된 범위 안에 오는 단어들이 n-gram으로 선정되기 위한 최소한의 출현 빈도를 의미합니다. 최소 빈도의 절대적인 기준은 존재하지 않습니다. 따라서 어휘 덩어리 산출의 바탕이 되는 코퍼스의 규모 등을 비롯한 여러 요인을 고려하여 최소 출현 빈도를 적절히 설정해야 합니다.
- [Min. Range]: 여러 개의 코퍼스를 동시에 분석하는 경우에 유용한 조건 설정 방법으로, 산출될 n-gram이 최소 몇 개의 텍스트에서 나타나야 하는지를 의미합니다. 예를 들면, 10개의 코퍼스를 분석하면서 Min. Range를 4로 설정하는 경우, 조건에 맞는 어휘 덩어리가 4개 이상의 텍스트에서 발견되는 경우에만 최종 산출 결과에 포함됩니다.
산출 결과
위 그림은 2022년도 러시아어 뉴스 텍스트를 대상으로 최소 10회 이상 등장한 4-gram을 산출한 결과입니다. 해당 검색 설정에 부합하는 4-gram은 총 6개이며, 해당 코퍼스 내에서의 총 출현 빈도(N-Gram Tokens)는 모두 79회임을 알 수 있습니다.