<aside> 💡 스케치 엔진에서 사용 가능한 러시아어 코퍼스에 대해 알아봅시다.

</aside>

스케치엔진의 코퍼스 카테고리

러시아어 코퍼스 목록

각 코퍼스에 대한 더 많은 정보를 확인하려면 해당 코퍼스 이름을 클릭하세요.

코퍼스 이름 언어 카테고리 단어 사전 크기
Araneum Russicum Russicum Maius (Russia-only Russian, 15.03) 1,20 G Russian trial 859,319,823
CHILDES Russian Corpus Russian main 48,791
Gutenberg Russian 2020 Russian main 13,643
Open Parallel Corpus (OPUS) – Russian Russian main 307,709,872
OpenSubtitles 2018 parallel – Russian Russian main 180,032,832
ruSkELL 1.6 Russian main 975,584,449
Russian Drama Corpus Russian main 2,011,699
Russian Sites in Estonian Web 2017–2023 Russian main 312,244,562
Russian Trends Russian trial 843,787,290
Russian Web 2006 (v2 with lempos) Russian main 147,930,261
Russian Web 2011 (ruTenTen11) Russian trial 14,553,856,113
Russian Web 2017 (ruTenTen17) Russian trial 9,034,837,939
Timestamped JSI web corpus 2014-2016 Russian Russian trial 1,120,731,416
Timestamped JSI web corpus 2014-2021 Russian Russian main 5,788,590,952
Timestamped JSI web corpus 2021-03 Russian Russian main 150,971,438
Timestamped JSI web corpus 2021-04 Russian Russian main 117,645,204
United Nations Parallel Corpus (UNPC) – Russian Russian trial 529,667,487

<aside> 💡 스케치 엔진에서 사용 가능한 러시아어 코퍼스 중 가장 규모가 큰 ruTenTen에 대해 알아봅시다.

</aside>

ruTenTen: 러시아어 웹 코퍼스

ruTenTen은 러시아어 웹 코퍼스(Russian Web Corpus)로, 인터넷에서 수집된 대규모 웹 텍스트를 기반으로 구축된 말뭉치입니다. 뉴스 기사, 블로그, 포럼, 상업 사이트 등 다양한 장르의 웹 문서가 포함되어 있어, 현대 러시아어의 실제 사용 양상을 폭넓게 반영하고 있다는 특징이 있습니다. 이러한 점에서 ruTenTen은 문어 중심의 전통적 코퍼스와 달리, 일상적이고 비공식적인 표현, 최신 어휘, 신조어, 담화적 표현을 분석하는 데 특히 유용합니다.

ruTenTen 코퍼스는 RFTaggerTreeTagger 도구를 활용하여 형태소 분석 및 품사 태깅 등 언어학적 전처리가 수행되었습니다. 이를 통해 사용자는 단순한 문자열 검색을 넘어, 품사, 어형, 기본형(lemma) 등을 기준으로 정교한 코퍼스 검색과 통계 분석을 수행할 수 있습니다. 이러한 주석 정보는 연어 분석, 의미 패턴 분석, 문법적 용례 비교 등 코퍼스 언어학 연구의 기반을 제공합니다.