<aside> 💡 **태그앤트(TagAnt)**가 무엇인가요?

</aside>

태그앤트는 SpaCy 자연어 처리(NLP) 프레임워크를 기반으로 구축된 프리웨어 다국어 태깅 도구입니다.

태그앤트는 input(인터페이스에 입력) 또는 input list 텍스트 파일(.txt)(UTF-8 인코딩), Microsoft WORD(.docx) 파일 또는 PDF(.pdf) 파일을 사용하여 WORD, PART-OF-SPEECH(POS) NAME PART-OF-SPEECH(POS) TAG, LEMMA와 같은 구성 요소를 생성합니다.

옵션을 사용하면 언어, 표시할 구성 요소 정보, 출력 형식 및 줄 끝 처리를 선택할 수 있습니다. TagAnt는 Microsoft Windows(Win 10 기반), MacOS(Mac Catalina 기반) 및 Linux(Linux Mint 기반)를 실행하는 모든 컴퓨터에서 작동됩니다. 태그앤트는 다양한 운영 체제에 대한 실행 파일을 생성하기 위해 PyInstaller 컴파일러를 사용하여 Python 및 Qt로 개발되었습니다.

태그앤트는 로렌스 앤서니의 웹사이트에서 쉽게 다운로드 받을 수 있습니다. 현재 기준 가장 최신 버전은 2.0.5입니다. 다운로드 받은 태그앤트를 열면 아래와 같은 화면창이 뜹니다. 왼쪽을 보면 텍스트를 입력하는 방법과 텍스트 파일을 탑재하는 방법이 있습니다.

  1. 왼쪽 상단에 있는 Input Text를 선택하면, 직접 텍스트를 입력할 수 있습니다.

    Untitled

    입력 후 오른쪽 Output Display 하단의 Options를 설정하고 Start 버튼을 누르면, Results의 상자 안에 태그된 텍스트가 결과로 나타납니다.

    간단하게 한 문장만 입력해보았습니다. 옵션 설정은 다음과 같습니다: 러시아어 소규모(small) 언어 모델, 단어+품사+레마 정보 표시, 수평적 출력, 입력한 줄 그대로

    간단하게 한 문장만 입력해보았습니다. 옵션 설정은 다음과 같습니다: 러시아어 소규모(small) 언어 모델, 단어+품사+레마 정보 표시, 수평적 출력, 입력한 줄 그대로

    <aside> 📌 텍스트 언어에 맞는 언어 모델을 설정하는 방법: TagAnt 상단의 [File]-[Language Model Manager] 탭을 클릭합니다. 저희는 러시아어 텍스트를 다루기 때문에 Russian, 모든 사이즈를 선택합니다. Models to download 상자에 잘 담아졌는지 확인한 후 OK 버튼을 누르면 언어 모델이 다운로드 됩니다.

    Untitled

    다운로드가 완료된 후 [Language Model Manager] 창을 닫으면, Options에서 알맞은 언어 모델을 선택할 수 있습니다.

    </aside>

  2. 왼쪽 하단에 있는 Input Files를 선택하면, 텍스트 파일 또는 디렉토리를 탑재할 수 있습니다.

    Untitled

    입력 후 오른쪽 Output Display 하단의 Options를 설정하고 Start 버튼을 누르면, Processed Files의 상자 안에 태그 처리된 텍스트 파일이 뜹니다.

    Untitled

    해당 파일은 자동으로 원본 파일의 위치와 동일한 곳에서 “tagged” 폴더 안에 저장됩니다.

    위 사진에서는 컴퓨터 다운로드의 “tagged” 폴더 안에 저장되어 있습니다.

    위 사진에서는 컴퓨터 다운로드의 “tagged” 폴더 안에 저장되어 있습니다.

    품사와 레마 태그 처리가 완료된 텍스트 파일

    품사와 레마 태그 처리가 완료된 텍스트 파일