통사코퍼스는 형태적 및 통사적 중의성이 제거된 말뭉치로, 코퍼스에 포함된 모든 단어는 하나의 형태적 주석과 하나의 통사적 주석만을 부여받습니다. 이와 함께 통사코퍼스에는 100개 이상의 어휘 함수 주석이 포함되어 있으며, 이러한 어휘 함수는 일정한 의미 관계로 연결된 관용적 어결합을 체계적으로 기술합니다. 통사코퍼스는 의존문법의 대표적 이론 중 하나인 〈의미 ⇔ 텍스트(Смысл ⇔ Текст)〉이론에 기반하여 구축되었습니다. 이 이론에 따르면 문장은 의미 구조에서 출발하여 점차 텍스트 형태로 실현되며, 이 과정에서 통사 구조는 단어들 사이의 의존 관계로 설명됩니다. 이러한 관점에 따라 통사코퍼스에서는 문장의 통사 정보와 구문 분석 결과가 의존수형도 형태로 제시됩니다. 이 수형도에서 각 단어는 하나의 절점에 해당하며, 절점 사이를 연결하는 가지에는 해당 단어들 사이의 의존적 통사 관계의 명칭이 부여됩니다.
아래에 제시된 예시는 문장 「К людям врожденную любовь слон испытывает, особенно к красивым женщинам, но еще большую — к маленьким детям.」에 대한 통사 분석 결과입니다. 이 분석 결과를 통해 문장 내부에서 각 단어가 어떤 단어에 의존하며, 어떤 통사적 기능을 수행하는지를 시각적으로 확인할 수 있습니다.
<의미 ⇔ 텍스트> 이론의 다층적 언어 모델에서는 의미에서 텍스트로의 대응을 위해 문장의 통사 표상과 어형의 형태 표상이 모두 필요합니다. 통사코퍼스 역시 이 이론에 따라, 각 어형의 형태 표상과 문장의 통사 표상을 하나의 의존수형도 안에 동시에 구현합니다. 수형도에서 각 어형과 연결된 네모 칸에는 단어의 원형이 명시되며, 그 옆에는 품사와 주요 문법 범주 정보가 함께 제시됩니다.
위의 그림에서 각 어형과 연결된 네모 칸에는 원형이 명시되고, 그 옆에는 품사와 문법범주별 특성이 명시됩니다. 예컨대, 동사 испытывает(절점 8)에 해당하는 절점의 형태 표상(ИСПЫТЫВАТЬ, V НЕСОВ ИЗЬЯВ НЕПРОШ ЕД 3-Л.)은 원형(ИСПЫТЫВАТЬ), 품사, 상, 법, 시제, 수, 인칭에 대한 정보를 제공합니다. 형용사 большую(절점 15)의 형태표상(БОЛЬШИЙ, А ЕД ЖЕН ВИН)은 원형, 품사, 수, 성, 격 정보를 포함하며, 명사 женщинам의 형태 표상(ЖЕНЩИНА, S МН ЖЕН ДАТ ОД)은 원형, 품사, 수, 격, 활성성에 관한 정보를 함께 표시합니다. 이를 통해 사용자는 단어의 형태 정보와 통사적 기능을 동시에 파악할 수 있습니다.
통사코퍼스는 2가지 부류의 텍스트로 구성됩니다:

어형 검색은 입력한 단어 형태와 정확히 일치하는 어형만을 대상으로 검색하는 기능입니다. 검색 결과에는 그 단어의 해당 형태를 포함하는 모든 예문이 제시되며, 동일한 원형에 속하더라도 형태가 다른 어형은 검색되지 않습니다.
예를 들어, ‘отечества’를 검색하면 ‘отечеством’, ‘отечеств’ 와 같은 형태는 결과에 포함되지 않습니다.
하나의 단어로 구성된 어휘 ‘отечества’의 검색 결과
두 개 이상의 단어로 구성된 어구(фраза)를 검색할 경우에도 마찬가지로, 검색 결과에는 해당 어구가 입력된 형태와 동일한 어순으로 나타난 경우만 제시됩니다. 따라서 이 기능은 특정 표현의 정확한 사용 양상을 확인하는 데 적합합니다.
예를 들어, ‘Я люблю’를 검색하면 해당 어순이 유지된 문장만 검색되며, ‘люблю Я’와 같이 어순이 바뀐 경우는 검색되지 않습니다.
