Untitled

러시아 국립 코퍼스

Национальный корпус русского языка (НКРЯ) Russian National Corpus (RNC)

러시아국립코퍼스(이하 RNC)는 러시아 최대의 코퍼스로서 2002년에 처음 공개되었습니다. 이 코퍼스는 동슬라브어 시기부터 현대까지의 다양한 장르의 텍스트를 포함하는 범용 코퍼스이지만, 동시에 특수한 목적성의 하위 코퍼스들을 포함합니다. RNC의 구축에는 러시아 학술원 산하 러시아어 연구소(Институт русского языка), 언어학 연구소(Институт лингвистических исследований), 정보 전달 문제 연구소(Институт проблем передачи информации), 고등경제대학(Высшая школа экономики) 소속 연구원들이 참가했으며, 러시아 최대 인터넷 포털사인 얀덱스(Яндекс)가 코퍼스의 구축 단계부터 유지까지 지원하고 있습니다. RNC의 텍스트는 MyStem 프로그램을 통해 자동 태깅되며, 온라인 검색에는 Elastic Search, Яндекс Поиск 검색 시스템을 사용하고 있습니다.

RNC의 모든 텍스트는 작성 시기, 저자 정보, 장르, 문체, 주제 등에 대한 메타 데이터를 가지며, 텍스트의 각 단어(토큰)는 형태적 주석과 의미적 주석으로 이루어진 레이블을 갖습니다. RNC는 간단한 코퍼스 검색 뿐 아니라 문법적, 의미적 특성을 조합하는 복잡한 쿼리의 검색도 가능하며, 사용자는 메타 데이터의 정보를 선택하여 검색 범위를 제한할 수도 있습니다. 주석 체계와 검색 도구에 대해서는 다음 메뉴에서 자세히 소개하겠습니다. RNC는 여러 개의 하위 코퍼스로 구성되는데, 이들은 특정 과제를 해결하기 위해 만들어졌으므로 각 코퍼스의 주석 체계와 검색 가능성은 조금씩 구별됩니다.

➡️바로가기