실습에 앞서 러시아어 데이터 전처리에 유용한 주요 라이브러리를 소개하겠습니다.

그 밖에도 spaCy, Transformers, TextBlob, Gensim 등의 라이브러리가 있습니다. 목적에 맞는 라이브러리를 활용하여 전처리 과정을 보다 효율적으로 수행할 수 있습니다.

이제 러시아어 데이터 전처리 실습을 시작하겠습니다. 실습에서는 Wortschatz에서 다운로드한 데이터를 사용하겠습니다. 데이터 수집 방법은 1️⃣데이터 수집정제된 텍스트 구하기를 참고하세요.

【실습】 Wortschatz의 rus_news_2022_10K-sentences 데이터에 대해 정제화, 토큰화, 정규화, 불용어 제거, 형태소 분석 작업을 하세요.

정제화

토큰화

정규화

불용어 처리

형태소 분석