텍스트 타입 분석(Text Type Analysis)

텍스트 타입 분석(Text Type Analysis)은 코퍼스를 구성하는 텍스트의 메타데이터 분포를 통계적으로 보여주는 도구입니다. 이 기능을 통해 사용자는 해당 코퍼스가 어떤 유형의 텍스트들로 이루어져 있는지, 그리고 각 텍스트 유형이 코퍼스 전체에서 어느 정도의 비중을 차지하는지를 확인할 수 있습니다.

스케치엔진의 텍스트 타입 분석 도구는 문서에 부착된 다양한 메타데이터를 기준으로 코퍼스를 분류하여, 각 범주에 포함된 문서 수, 토큰 수, 또는 단어 수를 제시합니다. 예를 들어 특정 웹사이트에서 수집된 텍스트가 코퍼스 전체에서 차지하는 단어 수를 확인하거나, 특정 연도에 크롤링된 텍스트의 비중을 파악할 수 있습니다.

이 도구를 활용하면 각 웹사이트 도메인, 출처(Source), 텍스트 제목, 문서 길이, 수집 연도 등 다양한 기준에 따라 코퍼스의 내부 구성을 살펴볼 수 있습니다. 이를 통해 분석 대상 코퍼스가 특정 장르나 출처에 편중되어 있는지, 혹은 비교적 균형 잡힌 구성을 갖는지를 판단할 수 있습니다.

텍스트 타입 분석에서 제공되는 선택 옵션은 코퍼스마다 다르며, 이는 해당 코퍼스에 어떤 메타데이터가 포함되어 있는지에 따라 결정됩니다. 따라서 분석자는 먼저 사용 가능한 메타데이터 유형을 확인한 뒤, 자신의 연구 목적에 적합한 기준을 선택하여 결과를 해석해야 합니다. 이 기능은 이후의 어휘 분석이나 N-그램 분석 결과를 해석할 때 코퍼스의 구성적 배경을 이해하는 기초 자료로 활용됩니다. 즉, 특정 표현이나 어휘가 자주 등장하는 이유를 텍스트 유형 분포와 연관지어 설명할 수 있도록 돕는 도구입니다.

Untitled

더 자세한 설명은 홈페이지 설명을 참조하세요.


텍스트 유형 분석 도구 사용 방법

  1. 대시보드 상단의 돋보기(🔍) 아이콘을 클릭하여 코퍼스를 선택합니다.

  2. Text type analysis를 선택합니다.

    TTA.png

  3. 아래와 같이 결과물을 확인합니다.

    Screenshot 2024-02-26 at 9.04.55 PM.png

image.png

image.png

image.png