Word | Notion

<aside> 💡 Word는 주어진 텍스트에 쓰인 단어들의 목록을 작성하여 여러 관련 정보와 함께 일정한 순서로 제시해 주는 도구입니다. 어휘 목록에 포함되는 정보에는 텍스트에 사용된 서로 다른 단어들의 타입 수, 각 단어의 사용 빈도, 텍스트의 규모를 알려주는 단어들의 전체 토큰 수 등이 있습니다.

</aside>

실행 방법

[File] 메뉴의 [Corpus Manager]를 사용하여 어휘 목록을 작성하고 싶은 텍스트를 탑재합니다.
[Word] 도구 탭을 클릭하여 해당 창으로 전환합니다.
어휘 목록 작성을 위한 조건을 설정한 후 [Start] 버튼을 클릭합니다.

어휘 목록의 작성은 사실상 어휘 목록을 작성하고 싶은 텍스트를 탑재한 후 [Start] 버튼을 클릭하는 것이 전부라고 할 수 있습니다. AntConc의 Word 도구에서는 탑재된 모든 텍스트 파일에 대해 하나의 단일 어휘 목록만을 작성해줍니다. 따라서 각 텍스트에 대해 개별적으로 어휘 목록을 작성할 시 텍스트를 하나씩 탑재하여 작업해야 합니다.

한편, 어휘 목록의 작성을 위해 여러 조건을 설정할 수 있습니다. 가령, 대소문자를 구분하여 목록을 작성할 수도 있고, 레마 처리를 위해 레마 목록을 탑재할 수도 있으며, 어휘 목록에 포함될 어휘를 제한할 수도 있습니다.

산출 결과

Untitled

위 그림은 2022년도 러시아어 뉴스 텍스트에 사용된 단어들의 목록을 작성한 결과입니다. 창의 상단을 보면 텍스트 전체에는 모두 34,541개의 서로 다른 단어 타입이 사용되고 있으며, 단어 타입의 총 빈도수는 140,494개임을 알 수 있습니다.

단어 목록의 결과가 위와 다르다면, 탑재한 코퍼스의 [Token Definition] 설정을 확인해야 합니다. 그 방법은 다음과 같습니다:

<aside> ⚠️ 코퍼스의 토큰 정의 설정법:

[File] 메뉴에서 [Open Corpus Manager]를 선택하여 Corpus Manager 창을 엽니다.
[Raw File(s)]를 선택하고 관련 코퍼스 파일을 불러옵니다.
아래 코퍼스 기본 설정 [Basic Settings]에서 [Token Definition] 옆의 [Show Token Definition Settings] 버튼을 클릭합니다.
[Token Definition Settings] 창이 열리면 [Character-Classes]에서 [Letters] 박스에만 체크 표시가 되어 있는지 확인합니다. 토큰의 정의가 문자로 제한되므로 구두점, 숫자 등이 단어 목록에 포함되지 않게 됩니다. </aside>

어휘 목록에 포함된 특정 단어를 마우스로 더블클릭하면 콘코던스가 자동적으로 실행되어 해당 단어의 용례를 문맥과 함께 KWIC 형태로 볼 수 있습니다.

140순위의 단어 타입 ‘российские’를 더블클릭

KWIC 형태로 제시된 ‘российские’의 용례