<aside> 💡 스케치 엔진에서 사용 가능한 러시아어 코퍼스 중 가장 규모가 큰 ruTenTen에 대해 알아봅시다.

</aside>

ruTenTen: 러시아어 웹 코퍼스

<aside> 🔎 ruTenTen러시아어 웹 코퍼스(Russian Web Corpus)로, 인터넷에서 수집된 텍스트로 만든 코퍼스입니다.

ruTenTen은 목표 단어 크기가 10,000,000,000(일백억)개 이상인, 동일한 방법을 사용하여 구축된 웹 코퍼스인 TenTen 코퍼스 가족 (TenTen Corpus Family) 에 속합니다.

코퍼스 이름 언어 이용 권한 단어 사전 크기
http://www.sketchengine.co.uk/rutenten-russian-corpus Russian trial 14,553,856,113
http://www.sketchengine.co.uk/rutenten-russian-corpus Russian trial 9,034,837,939
</aside>

품사 태그 세트 (Part-of-speech tagset)

러시아어 코퍼스 ruTenTen에서 사용된 품사 태그의 요약을 보시려면 여기를 클릭하세요.

rutenten 코퍼스의 기본 정보 (Basic information)

토큰 개수 18,280,486,876
단어 개수 14,553,856,113
문장 개수 1,016,579,568
웹 페이지 개수 36,946,344

rutenten 코퍼스의 상세 정보 (rutenten corpus in detail)

아래의 차트는 2011년 러시아 웹 코퍼스 (Russian Web corpus 2011)의 품사 분포를 보여줍니다.

Untitled

작업 도구

러시아어 코퍼스를 다루기 위한 스케치 엔진 툴은 다음을 생성하기 위해 사용할 수 있습니다: