<aside> 💡 **태그앤트(TagAnt)**가 무엇인가요?
</aside>
태그앤트는 SpaCy 자연어 처리(NLP) 프레임워크를 기반으로 구축된 프리웨어 다국어 태깅 도구입니다.
태그앤트는 input(인터페이스에 입력) 또는 input list 텍스트 파일(.txt)(UTF-8 인코딩), Microsoft WORD(.docx) 파일 또는 PDF(.pdf) 파일을 사용하여 WORD, PART-OF-SPEECH(POS) NAME PART-OF-SPEECH(POS) TAG, LEMMA와 같은 구성 요소를 생성합니다.
옵션을 사용하면 언어, 표시할 구성 요소 정보, 출력 형식 및 줄 끝 처리를 선택할 수 있습니다. TagAnt는 Microsoft Windows(Win 10 기반), MacOS(Mac Catalina 기반) 및 Linux(Linux Mint 기반)를 실행하는 모든 컴퓨터에서 작동됩니다. 태그앤트는 다양한 운영 체제에 대한 실행 파일을 생성하기 위해 PyInstaller 컴파일러를 사용하여 Python 및 Qt로 개발되었습니다.
태그앤트는 로렌스 앤서니의 웹사이트에서 쉽게 다운로드 받을 수 있습니다. 현재 기준 가장 최신 버전은 2.0.5입니다. 다운로드 받은 태그앤트를 열면 아래와 같은 화면창이 뜹니다. 왼쪽을 보면 텍스트를 입력하는 방법과 텍스트 파일을 탑재하는 방법이 있습니다.
왼쪽 상단에 있는 Input Text를 선택하면, 직접 텍스트를 입력할 수 있습니다.
입력 후 오른쪽 Output Display 하단의 Options를 설정하고 Start 버튼을 누르면, Results의 상자 안에 태그된 텍스트가 결과로 나타납니다.
간단하게 한 문장만 입력해보았습니다. 옵션 설정은 다음과 같습니다: 러시아어 소규모(small) 언어 모델, 단어+품사+레마 정보 표시, 수평적 출력, 입력한 줄 그대로
<aside> 📌 텍스트 언어에 맞는 언어 모델을 설정하는 방법: TagAnt 상단의 [File]-[Language Model Manager] 탭을 클릭합니다. 저희는 러시아어 텍스트를 다루기 때문에 Russian, 모든 사이즈를 선택합니다. Models to download 상자에 잘 담아졌는지 확인한 후 OK 버튼을 누르면 언어 모델이 다운로드 됩니다.
다운로드가 완료된 후 [Language Model Manager] 창을 닫으면, Options에서 알맞은 언어 모델을 선택할 수 있습니다.
</aside>
왼쪽 하단에 있는 Input Files를 선택하면, 텍스트 파일 또는 디렉토리를 탑재할 수 있습니다.
입력 후 오른쪽 Output Display 하단의 Options를 설정하고 Start 버튼을 누르면, Processed Files의 상자 안에 태그 처리된 텍스트 파일이 뜹니다.
해당 파일은 자동으로 원본 파일의 위치와 동일한 곳에서 “tagged” 폴더 안에 저장됩니다.
위 사진에서는 컴퓨터 다운로드의 “tagged” 폴더 안에 저장되어 있습니다.
품사와 레마 태그 처리가 완료된 텍스트 파일