Plot | Notion

<aside> 💡 Plot은 검색어가 주어진 텍스트 안에서 어느 위치에 나타나는지를 바코드 형태로 보여주는 도구입니다. 사실상 Concordance와 동일한 기능을 수행하지만, 대략적으로 텍스트의 어느 위치에 주로 분포하는지를 확인할 수 있게 해 줍니다.

</aside>

<aside> 🔎 Plot은 특정한 표현의 출현 위치 및 분포가 중요한 의미를 지니는 경우에 매우 유용하게 사용됩니다. 특히, 문학 작품과 같이 스토리 전개에 있어서 특정한 표현이나 인물이 어떠한 역할을 하는지 살펴보고 싶을 때 이를 사용할 수 있습니다.

</aside>

실행 방법

[File] 메뉴의 [Corpus Manager]를 사용하여, 분석하고자 하는 텍스트 파일을 탑재합니다.
[Plot] 도구 탭을 클릭하여 해당 창으로 전환합니다.
검색하고자 하는 표현을 검색어 박스에 입력한 후 [Start] 버튼을 클릭합니다.

Untitled

산출 결과

Untitled

위 그림은 2010년도 러시아어 뉴스 텍스트에서 단어 ‘Россия’를 검색한 결과를 보여줍니다.

가장 상단에 표시되는 Total Hits는 검색 결과의 수를 보여줍니다. 2010년도 러시아어 뉴스 텍스트에서, 단어 Россия는 총 101번 사용되었습니다. 이는 KWIC에서 확인할 수 있는 정보와 동일합니다.
Total Hits 옆에 위치한 Total Files With Hits는, 검색 결과가 있는 텍스트의 수를 보여줍니다. 예시에서는 코퍼스 파일을 하나만 탑재하였지만, 만약 여러 개의 코퍼스 파일을 탑재하였을 때 탑재된 파일들 중 몇 개의 파일에서 해당 검색어가 출현하는지를 확인할 수 있습니다.
검색 윈도우 중 가장 큰 부분을 차지하는 검색 결과 화면은 순서대로 **순번(row), 파일 아이디(FileID), 파일 경로(FilePath), 파일 토큰수(FileTokens), 절대빈도(Freq), 정규화빈도(NormFreq), 산포도(Dispersion), 플롯(Plot)**으로 구성되어 있습니다.

✔️ 순번, 파일 아이디, 파일 경로 탭은 탑재된 각 파일을 구분하기 위한 정보로, 분석에 큰 영향을 미치지 않습니다. 해당 정보를 통해 어떤 파일에 대한 분석 정보가 제시되어 있는지를 확실하게 확인할 수 있습니다. ✔️ 파일 토큰수 탭은 분석 대상이 되는 파일의 총 토큰 수가 몇 개인지를 보여줍니다. KWIC을 설명하며 토큰 수가 쉽게 어절/단어 수라고 하였으니, 예시 파일에는 대략 15만 9천 단어 정도가 사용되었음을 짐작할 수 있습니다. ✔️ 절대빈도 탭은 분석 대상이 되는 텍스트 내에서 검색어가 총 몇 번 쓰였는지를 단순히 세어서 나타낸 것입니다. 즉, 예시 파일에서는 단어 Россия가 총 101번 사용되었음을 확인할 수 있습니다. ✔️ 정규화빈도 탭은 절대빈도를 상대빈도로 변환한 것을 보여줍니다. 일반적으로 코퍼스 분석은 목표 코퍼스(target corpus)와 참조 코퍼스(reference corpus)를 비교하는 것처럼, 두 개 이상의 코퍼스를 분석하는 경우가 대부분입니다. 이 경우 코퍼스의 크기가 비슷하지 않고 차이가 난다면 두 코퍼스를 동일한 기준에서 비교했다고 보기 어렵습니다. 정규화빈도는 왜 사용할까요? 예를 들어, 총 100만 단어가 실려 있는 코퍼스에서 100번 출현한 단어가 있고, 총 1만 단어가 실려 있는 코퍼스에서 100번 출현한 단어가 있다고 가정해 봅시다. 두 코퍼스에서 해당 단어의 절대 빈도는 100으로 모두 동일합니다. 그러나, 코퍼스의 총 크기를 고려했을 때, 총 크기가 1만 단어인 코퍼스에서 훨씬 더 빈번하게 출현했다고 볼 수 있습니다. 만약 동일하게 100만 단어였다면, 총 10,000번 출현한 것으로 생각할 수 있습니다. (100만은 1만의 100배이므로, 100/10000의 분모와 분자에 각각 100을 곱하여 단순히 산출할 수 있습니다.) 설명을 위해 든 예시에서와 마찬가지로, 상대빈도는 100만 토큰을 기준으로 합니다. 위의 그림에서, 단어 Россия는 158,149개의 토큰 중에서 101번 출현하였습니다. 이를 100만 토큰의 코퍼스로 환산했을 때에는 대략 638.638회 등장한 것으로 볼 수 있습니다. (정규화빈도 계산식 : (101 ÷ 158149) × 1000000) ✔️ 산포도 탭은 해당 단어가 텍스트 내에서 얼마나 고르게 분포하는지를 보여줍니다. Juillian’s D 값을 사용하여 산포도를 구하며, 0~1 사이의 값을 갖습니다. 해당 값이 1에 가까울수록 텍스트에서 고르게 분포하고 있음을 의미합니다. ✔️ 플롯 탭은 해당 단어가 텍스트의 어느 부분에 위치하는지를 바코드 형태로 보여주는 핵심 부분입니다. 파란색으로 색칠된 부분이 검색어가 출현하는 부분이며, 해당 부분에 커서를 올리면 커서의 모양이 바뀝니다. 커서 모양이 바뀐 상태에서 클릭하면, [File View] 탭으로 이동되며 주어진 텍스트에서 해당 용례를 찾아 하이라이트하여 보여줍니다.

검색 결과 세팅하기

검색 결과 윈도우 아래쪽에 KWIC과 동일하게 검색 요청(Search Query), 결과 세팅(Results Set) 탭이 있으며, KWIC의 기능과 정확히 동일합니다.
Plot Zoom을 사용하면 바코드의 길이를 늘이거나 줄일 수 있습니다. 본래 설정 길이의 0.1배(×0.1)부터 10배(×10) 범위까지 설정할 수 있습니다. 결과가 너무 촘촘하게 붙어있거나, 바코드의 길이가 너무 길어 한 눈에 보기 어려울 경우에 사용자의 편의에 맞게 길이를 적절히 조절할 수 있습니다.
겹치기(Overlay) 기능을 사용할 경우 기존 검색 결과에 새로운 검색 결과를 덧대어 보여줄 수 있습니다. 먼저 Россия를 검색한 뒤에, 겹치기 버튼을 클릭하고 기존에 플롯에 표시되는 색깔인 파란색과 구분되는 다른 색으로 변경하고 다른 단어를 검색하면, 기존 Plot 검색 결과에 새로운 검색 결과가 아래 그림처럼 덧대어지는 것을 확인할 수 있습니다.

Untitled