라이프치히 러시아어 코퍼스 모음 사이트에서 2021년 10K News와 2021년 10K Wikipedia 코퍼스를 클릭하여 다운로드 받습니다.
뉴스는 일반적으로 라디오나 텔레비전 방송을 통해 전해지는 새로운 소식에 해당합니다. 한국에서 ‘위키백과’라고도 불리는 위키피디아는 누구나 자유롭게 글을 쓸 수 있는 사용자 참여의 온라인 백과사전입니다. 따라서 텍스트 생산자의 범위는 위키피디아가 더 크다고 볼 수 있습니다. 그러나 뉴스와 위키피디아의 글은 공통적으로 특정한 정보를 전달하는 목적을 지닙니다. 본 실습에서는 뉴스 코퍼스와 위키피디아 코퍼스를 활용하여 정보 전달 목적의 텍스트를 분석 및 비교하고자 합니다.
아래의 실습 과제를 효과적으로 수행하기 위해 우선 텍스트 전처리와 형태소 분석을 진행합니다. ‣ 페이지에 나와 있는 설명을 참고하여 코드를 실행하면, 다음과 같이 품사와 레마 태그가 붙은 텍스트 파일을 다운로드 받을 수 있습니다:
전처리 및 형태소 분석이 완료된 두 텍스트 파일을 AntConc의 코퍼스 매니저에 각각 탑재합니다.
코퍼스 데이터베이스에 각 코퍼스가 생성된 것을 확인할 수 있습니다.
분석할 코퍼스를 선택하고 “Open As Target Corpus” 버튼을 누른 후 “Main Window” 창으로 나갑니다. AntConc의 여러 도구 탭에서 원하는 분석을 수행합니다. 분석 목적에 따라 추가적으로 설정을 변경해보세요. 예컨대 [Global Settings]의 [Tool Filters]에서 불용어 파일을 추가하여, 문장에서 빈번하게 등장하지만 분석에 있어 실질적으로 중요하지 않은 단어들을 결과에서 안 뜨게 할 수 있습니다. 과제의 특성에 맞게 옵션을 설정하세요.
특히 워드 클라우드 생성하기 전에는 불용어를 제거하는 것이 좋습니다. 실질적인 의미나 정보를 전달하지 않는 단어들을 제거함으로써 클라우드가 더 유의미한 단어들로 구성되게 할 수 있습니다. 즉, 클라우드를 보는 사람들이 불용어를 거치지 않고 중요한 단어들에 집중할 수 있도록 합니다.