<aside> 💡 스케치 엔진에서 사용 가능한 러시아어 코퍼스에 대해 알아봅시다.

</aside>

스케치엔진의 코퍼스 카테고리

러시아어 코퍼스 목록

각 코퍼스에 대한 더 많은 정보를 확인하려면 해당 코퍼스 이름을 클릭하세요.

코퍼스 이름 언어 카테고리 단어 사전 크기
Araneum Russicum Russicum Maius (Russia-only Russian, 15.03) 1,20 G Russian trial 859,319,823
CHILDES Russian Corpus Russian main 48,791
Gutenberg Russian 2020 Russian main 13,643
Open Parallel Corpus (OPUS) – Russian Russian main 307,709,872
OpenSubtitles 2018 parallel – Russian Russian main 180,032,832
ruSkELL 1.6 Russian main 975,584,449
Russian Drama Corpus Russian main 2,011,699
Russian Sites in Estonian Web 2017–2023 Russian main 312,244,562
Russian Trends Russian trial 843,787,290
Russian Web 2006 (v2 with lempos) Russian main 147,930,261
Russian Web 2011 (ruTenTen11) Russian trial 14,553,856,113
Russian Web 2017 (ruTenTen17) Russian trial 9,034,837,939
Timestamped JSI web corpus 2014-2016 Russian Russian trial 1,120,731,416
Timestamped JSI web corpus 2014-2021 Russian Russian main 5,788,590,952
Timestamped JSI web corpus 2021-03 Russian Russian main 150,971,438
Timestamped JSI web corpus 2021-04 Russian Russian main 117,645,204
United Nations Parallel Corpus (UNPC) – Russian Russian trial 529,667,487

<aside> 💡 스케치 엔진에서 사용 가능한 러시아어 코퍼스 중 가장 규모가 큰 ruTenTen에 대해 알아봅시다.

</aside>

ruTenTen: 러시아어 웹 코퍼스

ruTenTen은 러시아어 웹 코퍼스(Russian Web Corpus)로, 인터넷에서 수집된 텍스트로 만든 코퍼스입니다. RFTagger와 TreeTagger 도구를 이용하여 전처리되었습니다. ruTenTen은 목표 단어 크기가 10,000,000,000(일백억)개 이상인, 동일한 방법을 사용하여 구축된 웹 코퍼스인 TenTen 코퍼스 가족 (TenTen Corpus Family) 에 속합니다. 스케치 엔진은 현재 30개 이상의 언어로 TenTen 코퍼스에 대한 접근을 제공하고 있습니다. TenTen 코퍼스에 대한 자세한 정보는 다음의 페이지를 참고하세요: TenTen 코퍼스의 공통 속성

코퍼스 이름 언어 이용 권한 단어 사전 크기
Russian Web 2011 (ruTenTen11) Russian trial 14,553,856,113
Russian Web 2017 (ruTenTen17) Russian trial 9,034,837,939