<aside> 💡 Plot은 검색어가 주어진 텍스트 안에서 어느 위치에 나타나는지를 바코드 형태로 보여주는 도구입니다. 사실상 Concordance와 동일한 기능을 수행하지만, 대략적으로 텍스트의 어느 위치에 주로 분포하는지를 확인할 수 있게 해 줍니다.

</aside>

<aside> 🔎 Plot은 특정한 표현의 출현 위치 및 분포가 중요한 의미를 지니는 경우에 매우 유용하게 사용됩니다. 특히, 문학 작품과 같이 스토리 전개에 있어서 특정한 표현이나 인물이 어떠한 역할을 하는지 살펴보고 싶을 때 이를 사용할 수 있습니다.

</aside>


실행 방법

  1. [File] 메뉴의 [Corpus Manager]를 사용하여, 분석하고자 하는 텍스트 파일을 탑재합니다.
  2. [Plot] 도구 탭을 클릭하여 해당 창으로 전환합니다.
  3. 검색하고자 하는 표현을 검색어 박스에 입력한 후 [Start] 버튼을 클릭합니다.

Untitled

산출 결과

Untitled

위 그림은 2010년도 러시아어 뉴스 텍스트에서 단어 ‘Россия’를 검색한 결과를 보여줍니다.

✔️ 순번, 파일 아이디, 파일 경로 탭은 탑재된 각 파일을 구분하기 위한 정보로, 분석에 큰 영향을 미치지 않습니다. 해당 정보를 통해 어떤 파일에 대한 분석 정보가 제시되어 있는지를 확실하게 확인할 수 있습니다. ✔️ 파일 토큰수 탭은 분석 대상이 되는 파일의 총 토큰 수가 몇 개인지를 보여줍니다. KWIC을 설명하며 토큰 수가 쉽게 어절/단어 수라고 하였으니, 예시 파일에는 대략 15만 9천 단어 정도가 사용되었음을 짐작할 수 있습니다. ✔️ 절대빈도 탭은 분석 대상이 되는 텍스트 내에서 검색어가 총 몇 번 쓰였는지를 단순히 세어서 나타낸 것입니다. 즉, 예시 파일에서는 단어 Россия가 총 101번 사용되었음을 확인할 수 있습니다. ✔️ 정규화빈도 탭은 절대빈도를 상대빈도로 변환한 것을 보여줍니다. 일반적으로 코퍼스 분석은 목표 코퍼스(target corpus)와 참조 코퍼스(reference corpus)를 비교하는 것처럼, 두 개 이상의 코퍼스를 분석하는 경우가 대부분입니다. 이 경우 코퍼스의 크기가 비슷하지 않고 차이가 난다면 두 코퍼스를 동일한 기준에서 비교했다고 보기 어렵습니다. 정규화빈도는 왜 사용할까요? 예를 들어, 총 100만 단어가 실려 있는 코퍼스에서 100번 출현한 단어가 있고, 총 1만 단어가 실려 있는 코퍼스에서 100번 출현한 단어가 있다고 가정해 봅시다. 두 코퍼스에서 해당 단어의 절대 빈도는 100으로 모두 동일합니다. 그러나, 코퍼스의 총 크기를 고려했을 때, 총 크기가 1만 단어인 코퍼스에서 훨씬 더 빈번하게 출현했다고 볼 수 있습니다. 만약 동일하게 100만 단어였다면, 총 10,000번 출현한 것으로 생각할 수 있습니다. (100만은 1만의 100배이므로, 100/10000의 분모와 분자에 각각 100을 곱하여 단순히 산출할 수 있습니다.) 설명을 위해 든 예시에서와 마찬가지로, 상대빈도는 100만 토큰을 기준으로 합니다. 위의 그림에서, 단어 Россия는 158,149개의 토큰 중에서 101번 출현하였습니다. 이를 100만 토큰의 코퍼스로 환산했을 때에는 대략 638.638회 등장한 것으로 볼 수 있습니다. (정규화빈도 계산식 : (101 ÷ 158149) × 1000000) ✔️ 산포도 탭은 해당 단어가 텍스트 내에서 얼마나 고르게 분포하는지를 보여줍니다. Juillian’s D 값을 사용하여 산포도를 구하며, 0~1 사이의 값을 갖습니다. 해당 값이 1에 가까울수록 텍스트에서 고르게 분포하고 있음을 의미합니다. ✔️ 플롯 탭은 해당 단어가 텍스트의 어느 부분에 위치하는지를 바코드 형태로 보여주는 핵심 부분입니다. 파란색으로 색칠된 부분이 검색어가 출현하는 부분이며, 해당 부분에 커서를 올리면 커서의 모양이 바뀝니다. 커서 모양이 바뀐 상태에서 클릭하면, [File View] 탭으로 이동되며 주어진 텍스트에서 해당 용례를 찾아 하이라이트하여 보여줍니다.

검색 결과 세팅하기

Untitled