<aside>
💡 스케치 엔진에서 사용 가능한 러시아어 코퍼스에 대해 알아봅시다.
</aside>
스케치엔진의 코퍼스 카테고리
- 메인 (main) – 유료 구독자에게 사용 가능한 코퍼스로 유료 계정이 필요합니다.
- 체험판 (trial) – 체험판 사용자와 유료 구독자 모두가 사용할 수 있습니다.
- 오픈 (open) – 누구나 사용 가능한 코퍼스로 계정이 필요 없습니다. 무료 코퍼스를 확인해보세요!
- 요청에 따른 접근 (access on demand) – 특별한 권한이 부여된 경우에만 사용 가능합니다.
러시아어 코퍼스 목록
각 코퍼스에 대한 더 많은 정보를 확인하려면 해당 코퍼스 이름을 클릭하세요.
| 코퍼스 이름 |
언어 |
카테고리 |
단어 사전 크기 |
| Araneum Russicum Russicum Maius (Russia-only Russian, 15.03) 1,20 G |
Russian |
trial |
859,319,823 |
| CHILDES Russian Corpus |
Russian |
main |
48,791 |
| Gutenberg Russian 2020 |
Russian |
main |
13,643 |
| Open Parallel Corpus (OPUS) – Russian |
Russian |
main |
307,709,872 |
| OpenSubtitles 2018 parallel – Russian |
Russian |
main |
180,032,832 |
| ruSkELL 1.6 |
Russian |
main |
975,584,449 |
| Russian Drama Corpus |
Russian |
main |
2,011,699 |
| Russian Sites in Estonian Web 2017–2023 |
Russian |
main |
312,244,562 |
| Russian Trends |
Russian |
trial |
843,787,290 |
| Russian Web 2006 (v2 with lempos) |
Russian |
main |
147,930,261 |
| Russian Web 2011 (ruTenTen11) |
Russian |
trial |
14,553,856,113 |
| Russian Web 2017 (ruTenTen17) |
Russian |
trial |
9,034,837,939 |
| Timestamped JSI web corpus 2014-2016 Russian |
Russian |
trial |
1,120,731,416 |
| Timestamped JSI web corpus 2014-2021 Russian |
Russian |
main |
5,788,590,952 |
| Timestamped JSI web corpus 2021-03 Russian |
Russian |
main |
150,971,438 |
| Timestamped JSI web corpus 2021-04 Russian |
Russian |
main |
117,645,204 |
| United Nations Parallel Corpus (UNPC) – Russian |
Russian |
trial |
529,667,487 |
<aside>
💡 스케치 엔진에서 사용 가능한 러시아어 코퍼스 중 가장 규모가 큰 ruTenTen에 대해 알아봅시다.
</aside>
ruTenTen: 러시아어 웹 코퍼스
ruTenTen은 러시아어 웹 코퍼스(Russian Web Corpus)로, 인터넷에서 수집된 대규모 웹 텍스트를 기반으로 구축된 말뭉치입니다. 뉴스 기사, 블로그, 포럼, 상업 사이트 등 다양한 장르의 웹 문서가 포함되어 있어, 현대 러시아어의 실제 사용 양상을 폭넓게 반영하고 있다는 특징이 있습니다. 이러한 점에서 ruTenTen은 문어 중심의 전통적 코퍼스와 달리, 일상적이고 비공식적인 표현, 최신 어휘, 신조어, 담화적 표현을 분석하는 데 특히 유용합니다.
ruTenTen 코퍼스는 RFTagger와 TreeTagger 도구를 활용하여 형태소 분석 및 품사 태깅 등 언어학적 전처리가 수행되었습니다. 이를 통해 사용자는 단순한 문자열 검색을 넘어, 품사, 어형, 기본형(lemma) 등을 기준으로 정교한 코퍼스 검색과 통계 분석을 수행할 수 있습니다. 이러한 주석 정보는 연어 분석, 의미 패턴 분석, 문법적 용례 비교 등 코퍼스 언어학 연구의 기반을 제공합니다.