<aside>
💡 스케치 엔진에서 사용 가능한 러시아어 코퍼스에 대해 알아봅시다.
</aside>
스케치엔진의 코퍼스 카테고리
- 메인 (main) – 유료 구독자에게 사용 가능한 코퍼스로 유료 계정이 필요합니다.
- 체험판 (trial) – 체험판 사용자와 유료 구독자 모두가 사용할 수 있습니다.
- 오픈 (open) – 누구나 사용 가능한 코퍼스로 계정이 필요 없습니다. 무료 코퍼스를 확인해보세요!
- 요청에 따른 접근 (access on demand) – 특별한 권한이 부여된 경우에만 사용 가능합니다.
러시아어 코퍼스 목록
각 코퍼스에 대한 더 많은 정보를 확인하려면 해당 코퍼스 이름을 클릭하세요.
코퍼스 이름 |
언어 |
카테고리 |
단어 사전 크기 |
Araneum Russicum Russicum Maius (Russia-only Russian, 15.03) 1,20 G |
Russian |
trial |
859,319,823 |
CHILDES Russian Corpus |
Russian |
main |
48,791 |
Gutenberg Russian 2020 |
Russian |
main |
13,643 |
Open Parallel Corpus (OPUS) – Russian |
Russian |
main |
307,709,872 |
OpenSubtitles 2018 parallel – Russian |
Russian |
main |
180,032,832 |
ruSkELL 1.6 |
Russian |
main |
975,584,449 |
Russian Drama Corpus |
Russian |
main |
2,011,699 |
Russian Sites in Estonian Web 2017–2023 |
Russian |
main |
312,244,562 |
Russian Trends |
Russian |
trial |
843,787,290 |
Russian Web 2006 (v2 with lempos) |
Russian |
main |
147,930,261 |
Russian Web 2011 (ruTenTen11) |
Russian |
trial |
14,553,856,113 |
Russian Web 2017 (ruTenTen17) |
Russian |
trial |
9,034,837,939 |
Timestamped JSI web corpus 2014-2016 Russian |
Russian |
trial |
1,120,731,416 |
Timestamped JSI web corpus 2014-2021 Russian |
Russian |
main |
5,788,590,952 |
Timestamped JSI web corpus 2021-03 Russian |
Russian |
main |
150,971,438 |
Timestamped JSI web corpus 2021-04 Russian |
Russian |
main |
117,645,204 |
United Nations Parallel Corpus (UNPC) – Russian |
Russian |
trial |
529,667,487 |
<aside>
💡 스케치 엔진에서 사용 가능한 러시아어 코퍼스 중 가장 규모가 큰 ruTenTen에 대해 알아봅시다.
</aside>
ruTenTen: 러시아어 웹 코퍼스
ruTenTen은 러시아어 웹 코퍼스(Russian Web Corpus)로, 인터넷에서 수집된 텍스트로 만든 코퍼스입니다. RFTagger와 TreeTagger 도구를 이용하여 전처리되었습니다. ruTenTen은 목표 단어 크기가 10,000,000,000(일백억)개 이상인, 동일한 방법을 사용하여 구축된 웹 코퍼스인 TenTen 코퍼스 가족 (TenTen Corpus Family) 에 속합니다. 스케치 엔진은 현재 30개 이상의 언어로 TenTen 코퍼스에 대한 접근을 제공하고 있습니다. TenTen 코퍼스에 대한 자세한 정보는 다음의 페이지를 참고하세요: TenTen 코퍼스의 공통 속성