<aside> 💡 N-Gram 도구는 전체 코퍼스에서 모든 ‘N’-크기의 클러스터를 검색해 줍니다. 2-gram은 2개의 단어로 이루어진 클러스터를, 3-gram은 3개의 단어로 이루어진 클러스터를 일컫습니다. 사용자는 n-gram을 이용하여 코퍼스에서의 일반적으로 사용되는 표현(common expression)을 발견해 낼 수 있습니다.

</aside>


실행 방법

  1. File > Open Corpus Manager 를 사용하여 코퍼스를 선택합니다. 코퍼스에 포함된 파일은 Target Corpus 아래에 위치한 메인 윈도우의 좌측 프레임에 보여지게 됩니다.
  2. (optional) 검색창에 검색할 단어를 입력합니다.
  3. 화면에 표시될 n-gram을 파라미터 설정을 통해 제어합니다.
  4. Start 버튼을 눌러서 검색을 시작합니다. 결과가 화면에 표시되기를 기다립니다.
  5. 결과가 화면에 표시되었다면 ‘Sort by’ 기능을 이용하여 결과의 순서를 재배열할 수 있습니다.

산출 조건 설정

AntConc에서는 특정 단어의 n-gram을 산출할 때에 다음과 같은 조건을 설정할 수 있습니다:

산출 결과


Screenshot 2024-02-07 at 4.53.14 PM.png

위 그림은 2022년도 러시아어 뉴스 텍스트를 대상으로 최소 10회 이상 등장한 4-gram을 산출한 결과입니다. 해당 검색 설정에 부합하는 4-gram은 총 6개이며, 해당 코퍼스 내에서의 총 출현 빈도(N-Gram Tokens)는 모두 79회임을 알 수 있습니다.