태그앤트(TagAnt)

태그앤트(TagAnt)란?

SpaCy 자연어 처리(NLP) 프레임워크를 기반으로 구축된 프리웨어 다국어 태깅 도구입니다.

Untitled

태그앤트는 (인터페이스에 입력하는) 입력 또는 입력 리스트 텍스트 파일(.txt), Microsoft 워드(.docx) 파일 또는 PDF(.pdf) 파일을 사용하여 단어, 품사(part of speech, POS) 태그, 레마와 같은 구성 요소를 생성합니다.

사용자는 옵션을 통해 언어, 표시할 구성 요소 정보, 출력 형식 및 줄 끝 처리를 선택할 수 있습니다. 태그앤트는 Microsoft Windows, MacOS 및 Linux를 실행하는 모든 컴퓨터에서 작동됩니다. 태그앤트는 다양한 운영 체제에 대한 실행 파일을 생성하기 위해 PyInstaller 컴파일러를 사용하여 Python 및 Qt로 개발되었습니다.

태그앤트는 로렌스 앤서니의 웹사이트에서 쉽게 다운로드 받을 수 있습니다. 2024년 6월 기준 태그앤트의 가장 최신 버전은 2.1.1입니다.

태그앤트 사용법

태그앤트 소프트웨어를 열면 아래와 같은 화면 창이 뜹니다. 창의 왼쪽에는 텍스트를 입력하는 방법이 두 가지 있습니다.

왼쪽 상단에 있는 Input Text를 선택하면, 직접 텍스트를 입력할 수 있습니다.

입력 후 오른쪽 Output Display 하단의 Options를 설정하고 Start 버튼을 누르면, Results의 상자 안에 품사 태그된 텍스트가 결과로 나타납니다.

간단하게 한 문장만 입력해보았습니다. 옵션 설정은 다음과 같습니다: 러시아어 소규모(small) 언어 모델, 단어+품사+레마 정보 표시, 수평적 출력, 입력한 줄 그대로

<aside> 📌 텍스트 언어에 맞는 언어 모델을 설정하는 방법: 태그앤트 상단의 [File]-[Language Model Manager] 탭을 클릭합니다. 저희는 러시아어 텍스트를 다루기 때문에 Russian, 모든 사이즈를 선택합니다. Models to download 상자에 잘 담아졌는지 확인한 후 OK 버튼을 누르면 언어 모델이 다운로드 됩니다.

다운로드가 완료된 후 [Language Model Manager] 창을 닫으면, Options에서 알맞은 언어 모델을 선택할 수 있습니다.

</aside>
왼쪽 하단에 있는 Input Files를 선택하면, 텍스트 파일 또는 디렉토리를 탑재할 수 있습니다.

입력 후 오른쪽 Output Display 하단의 Options를 설정하고 Start 버튼을 누르면, Processed Files의 상자 안에 태그 처리된 텍스트 파일이 뜹니다.

푸시킨의 시 <Сказка о рыбаке и рыбке> 텍스트 파일을 입력해보았습니다. (파일 출처: RusLit 깃허브 웹 페이지) 옵션 설정은 다음과 같습니다: 러시아어 중간 크기(mid) 언어 모델, 단어+품사+레마 정보 표시, 수평적 출력, 입력한 줄 그대로.

태그가 붙은 텍스트 파일은 원본 파일의 위치와 동일한 곳의 “tagged” 폴더에 저장됩니다.

위 사진에서는 ‘다운로드’의 “tagged” 폴더 안에 저장되어 있습니다.

품사와 레마 태그 처리가 완료된 텍스트 파일

태그앤트 → 앤트콩크 연계

태깅 작업이 완료된 텍스트 파일은 AntConc에 코퍼스로 올려서 분석할 수 있습니다. 아래에서는 그 과정에 대해 기술하겠습니다.
1. 앤트콩크 소프트웨어를 엽니다. 아직 다운로드 하지 않은 경우 AntConc 소개 및 다운로드 페이지를 참고하여 사용하는 운영체제(Windows, MacOS 등)에 맞게 프로그램을 다운로드 받습니다.
2. [File] 탭의 [Open Corpus Manager]를 클릭하여 태깅 처리가 완료된 텍스트 파일을 탑재합니다. Corpus Source로 Raw File(s)을 선택하며, Corpus name을 자유롭게 변경합니다. 여러 개의 텍스트 파일로 하나의 코퍼스를 구성하는 것이 일반적이긴 하나, 여기에서는 시범을 보이는 것이 목적이므로 하나의 파일만을 올리도록 하겠습니다.
3. 기본 설정 및 옵션을 선택할 차례입니다. 기본 설정(Basic Settings) 아래의 토글을 눌러 Indexer를 “simple_word_pos_headword_indexer”로 선택합니다. 그 외 Encoding이나 Row Processor에 대해서는 디폴트 값을 유지합니다.
4. Create 버튼을 눌러 코퍼스를 생성합니다.
  
  Ok 버튼에 이어 우측 하단의 Close 버튼을 클릭하면 생성된 코퍼스가 분석 대상이 되는 Target Corpus로 탑재됩니다.
5. 태깅 결과가 앤트콩크에 반영되도록 설정을 변경해야 합니다. [Settings] 탭에 있는 [Tool Settings]를 클릭한 후, [Word] 범주에서 표시 유형(Display Type)으로 “Headword+POS”를 선택합니다.
  
  <aside> 📌 물론 표시 유형은 살펴보고자 하는 구성 요소에 따라 사용자가 자유롭게 선택할 수있습니다. 가령 “Type+POS+Headword”으로 선택할 경우, 단어의 품사, 레마와 더불어 코퍼스에 출현한 단어의 활용형 또한 어휘 목록에 표시되게 됩니다.
  
  </aside>
  
  Apply 버튼을 누르면 다시 메인 창으로 돌아갑니다.
6. Word 탭에서 Start 버튼을 눌러 어휘 목록을 생성합니다.
  
  위 그림을 보면, 어휘 목록에 마침표(.), 쉼표(,), 상점(:) 등과 같은 문장 부호가 포함됩니다. 이렇게 자연어가 아니면서 아무 의미도 갖지 않는 글자들, 또는 분석의 목적에 맞지 않는 불필요한 단어들을 ‘노이즈 데이터(noise data)’라고 부릅니다. 문장 부호 및 기호를 제외하고 내용어만 보고 싶다면, 탑재한 코퍼스의 토큰 정의(Token Definition**)** 설정을 변경하여 토큰의 정의를 문자에 제한해야 합니다. 아래의 내용을 참고해주세요:
  
  <aside> ⚠️ 코퍼스의 토큰 정의 설정법:
  1. [File] 메뉴에서 [Open Corpus Manager]를 선택하여 Corpus Manager 창을 엽니다.
  2. [Raw File(s)]를 선택하고 관련 코퍼스 파일을 불러옵니다.
  3. 아래 코퍼스 기본 설정 [Basic Settings]에서 [Token Definition] 옆의 [Show Token Definition Settings] 버튼을 클릭합니다.
  4. [Token Definition Settings] 창이 열리면 [Character-Classes]에서 [Letters] 박스에만 체크 표시가 되어 있는지 확인합니다. 토큰의 정의가 문자로 제한되므로 구두점, 숫자 등이 단어 목록에 포함되지 않게 됩니다. </aside>
  토큰의 정의를 설정하지 않고, 애초에 전처리 및 정제가 완료된 텍스트 파일을 탑재하는 것도 하나의 방법이 될 수 있습니다.
  
  노이즈 데이터가 제거된 어휘 목록은 아래와 같이 제시될 것입니다.

태그앤트 태그셋

태그앤트에서 사용하는 태그는 총 58개입니다.