사용 가능한 러시아어 코퍼스와 도구

<aside> 💡 스케치 엔진에서 사용 가능한 러시아어 코퍼스에 대해 알아봅시다.

</aside>

스케치엔진의 코퍼스 카테고리

메인 (main) – 유료 구독자에게 사용 가능한 코퍼스로 유료 계정이 필요합니다.
체험판 (trial) – 체험판 사용자와 유료 구독자 모두가 사용할 수 있습니다.
오픈 (open) – 누구나 사용 가능한 코퍼스로 계정이 필요 없습니다. 무료 코퍼스를 확인해보세요!
요청에 따른 접근 (access on demand) – 특별한 권한이 부여된 경우에만 사용 가능합니다.

러시아어 코퍼스 목록

각 코퍼스에 대한 더 많은 정보를 확인하려면 해당 코퍼스 이름을 클릭하세요.

코퍼스 이름	언어	카테고리	단어 사전 크기
Araneum Russicum Russicum Maius (Russia-only Russian, 15.03) 1,20 G	Russian	trial	859,319,823
CHILDES Russian Corpus	Russian	main	48,791
Gutenberg Russian 2020	Russian	main	13,643
Open Parallel Corpus (OPUS) – Russian	Russian	main	307,709,872
OpenSubtitles 2018 parallel – Russian	Russian	main	180,032,832
ruSkELL 1.6	Russian	main	975,584,449
Russian Drama Corpus	Russian	main	2,011,699
Russian Sites in Estonian Web 2017–2023	Russian	main	312,244,562
Russian Trends	Russian	trial	843,787,290
Russian Web 2006 (v2 with lempos)	Russian	main	147,930,261
Russian Web 2011 (ruTenTen11)	Russian	trial	14,553,856,113
Russian Web 2017 (ruTenTen17)	Russian	trial	9,034,837,939
Timestamped JSI web corpus 2014-2016 Russian	Russian	trial	1,120,731,416
Timestamped JSI web corpus 2014-2021 Russian	Russian	main	5,788,590,952
Timestamped JSI web corpus 2021-03 Russian	Russian	main	150,971,438
Timestamped JSI web corpus 2021-04 Russian	Russian	main	117,645,204
United Nations Parallel Corpus (UNPC) – Russian	Russian	trial	529,667,487

<aside> 💡 스케치 엔진에서 사용 가능한 러시아어 코퍼스 중 가장 규모가 큰 ruTenTen에 대해 알아봅시다.

</aside>

ruTenTen: 러시아어 웹 코퍼스

ruTenTen은 러시아어 웹 코퍼스(Russian Web Corpus)로, 인터넷에서 수집된 대규모 웹 텍스트를 기반으로 구축된 말뭉치입니다. 뉴스 기사, 블로그, 포럼, 상업 사이트 등 다양한 장르의 웹 문서가 포함되어 있어, 현대 러시아어의 실제 사용 양상을 폭넓게 반영하고 있다는 특징이 있습니다. 이러한 점에서 ruTenTen은 문어 중심의 전통적 코퍼스와 달리, 일상적이고 비공식적인 표현, 최신 어휘, 신조어, 담화적 표현을 분석하는 데 특히 유용합니다.

ruTenTen 코퍼스는 RFTagger와 TreeTagger 도구를 활용하여 형태소 분석 및 품사 태깅 등 언어학적 전처리가 수행되었습니다. 이를 통해 사용자는 단순한 문자열 검색을 넘어, 품사, 어형, 기본형(lemma) 등을 기준으로 정교한 코퍼스 검색과 통계 분석을 수행할 수 있습니다. 이러한 주석 정보는 연어 분석, 의미 패턴 분석, 문법적 용례 비교 등 코퍼스 언어학 연구의 기반을 제공합니다.