데이터 전처리 과정에는 다음과 같은 작업이 포함됩니다.
정제화(Cleaning)
데이터의 품질을 향상시키기 위해 불완전하거나 부정확한 데이터를 수정하거나 제거하여 전체 데이터셋을 정리하는 포괄적인 과정을 말합니다. 특히 자연어 처리(NLP)에서 정제화란 텍스트에 포함된 불필요한 구두점, 숫자, 기호, 하이퍼링크, HTML 태그 등을 제거하는 과정을 의미합니다.
〔원시 텍스트〕 Привет!!! Как дела? 〔변환 후〕 Привет Как дела
토큰화(Tokenization)
텍스트를 용도에 맞게 문단, 문장, 단어, 형태소의 크기로 분리하는 과정을 말합니다.
〔원시 텍스트〕 Я иду в магазин. 〔변환 후〕 Я, иду, в, магазин, .
불용어 제거(Stopword Removal)
텍스트 분석이나 모델 학습의 효율성을 높이기 위해 의미가 적거나 분석에 필요 없는 단어를 제거하는 과정을 말합니다. 이미 구축된 불용어 사전을 통해 불필요한 단어들을 제거하거나, 작업자가 직접 불용어 단어장을 만들어 삭제할 수도 있습니다.
〔원시 텍스트〕 Я иду в магазин. 〔변환 후〕 Я иду магазин. (’в’는 불용어로 제거됨)
정규화(Nomalization)
데이터를 일관되게 변환하는 과정입니다. 정규화의 하위 과정에는 단어 형태를 변환하는 어간 추출(Stemming), 표제어 추출(Lemmatization), 소문자 변환 (Lowercasing) 등이 있습니다.