<aside> 💡 스케치 엔진에서 사용 가능한 러시아어 코퍼스 중 가장 규모가 큰 ruTenTen에 대해 알아봅시다.
</aside>
<aside> 🔎 ruTenTen은 러시아어 웹 코퍼스(Russian Web Corpus)로, 인터넷에서 수집된 텍스트로 만든 코퍼스입니다.
ruTenTen은 목표 단어 크기가 10,000,000,000(일백억)개 이상인, 동일한 방법을 사용하여 구축된 웹 코퍼스인 TenTen 코퍼스 가족 (TenTen Corpus Family) 에 속합니다.
코퍼스 이름 | 언어 | 이용 권한 | 단어 사전 크기 |
---|---|---|---|
http://www.sketchengine.co.uk/rutenten-russian-corpus | Russian | trial | 14,553,856,113 |
http://www.sketchengine.co.uk/rutenten-russian-corpus | Russian | trial | 9,034,837,939 |
</aside> |
러시아어 코퍼스 ruTenTen에서 사용된 품사 태그의 요약을 보시려면 여기를 클릭하세요.
토큰 개수 | 18,280,486,876 |
---|---|
단어 개수 | 14,553,856,113 |
문장 개수 | 1,016,579,568 |
웹 페이지 개수 | 36,946,344 |
아래의 차트는 2011년 러시아 웹 코퍼스 (Russian Web corpus 2011)의 품사 분포를 보여줍니다.
러시아어 코퍼스를 다루기 위한 스케치 엔진 툴은 다음을 생성하기 위해 사용할 수 있습니다: