TüNDRA(Tübingen aNnotated Data Retrieval Application)는 독일 튀빙겐 대학교(SFS: Seminar für Sprachwissenschaft)에서 개발한 구문 주석 코퍼스(treebank) 검색 및 시각화 도구입니다. 이 도구는 더 이상 유지되지 않는 TIGERSearch의 기능을 계승하여, 웹 기반에서 다양한 문장의 구조를 탐색하고 시각화할 수 있도록 만들어졌습니다.
공식 웹사이트: https://weblicht.sfs.uni-tuebingen.de/Tundra/
구문 주석 코퍼스(treebank)란, 문장 단위로 단어 간의 문법적 관계나 문장 성분의 계층 구조를 주석한 언어 자료입니다. 언어학에서 이러한 문장 구조는 ‘트리(나무 그림)’ 형식으로 시각화되며, 이 방법은 1950년대부터 학계에서 널리 사용되어 왔습니다.
촘스키(Chomsky)는 구절의 위계적 구조를 나타내는 구성소 트리(constituency tree)를 제안했습니다.
→ 각 구(phrase)가 어떤 구성요소로 이루어졌는지를 계층적으로 나타냅니다.
테니에르(Tesnière)는 단어 간의 의존 관계를 선으로 연결하는 의존 트리(dependency tree)를 사용했습니다.
→ 각 단어가 어떤 중심어와 연결되어 있는지를 보여줍니다.
이 두 가지 방식은 각각 장단점이 있으며, 트리뱅크의 목적과 설계 철학에 따라 선택됩니다. Tundra는 두 형식을 모두 지원하여 다양한 문장 구조를 탐색할 수 있도록 해 줍니다.
<aside> 📌
다만, 러시아어 트리뱅크는 대부분 의존 트리 방식을 사용하므로, TüNDRA에서도 러시아어 자료는 의존 구조로 시각화됩니다.
</aside>
구문 주석 코퍼스는 다음과 같은 분야에서 중요한 역할을 합니다:
특히 러시아어처럼 형태 변화가 풍부하고 어순이 자유로운 언어에서는, 단어 간 관계를 명시적으로 보여주는 트리 구조가 문장 해석에 큰 도움이 됩니다.