데이터 전처리란?

데이터 전처리는 수집한 원시 데이터를 분석에 용이하도록 정제하고 변환하는 과정을 의미합니다. 이 과정에는 불필요한 기호와 오탈자의 제거, 데이터 형식 변환, 변수 인코딩 등이 포함됩니다. 전처리 과정은 데이터의 품질을 높이고 분석 결과의 신뢰성을 향상시키는 데 중요한 역할을 합니다.

구글 코랩(Google Colab)을 활용하여 데이터 전처리 과정을 진행할 수 있습니다. 구글 코랩은 Python 기반의 Jupyter 노트북 환경으로, 클라우드에서 데이터 분석과 머신러닝 작업을 손쉽게 수행할 수 있도록 지원합니다.

구글 코랩 소개 영상에서 자세한 내용을 확인할 수 있습니다.

구글 코랩 시작하기

먼저 코랩에서 구글계정 로그인을 합니다.

노트를 생성하기 위해 [+새노트] 버튼을 클릭합니다.

image01.png

또는 [파일] 메뉴에서 [Drive의 새 노트북] 버튼을 클릭합니다.

image02.png

상단의 Untitled0.ipynb를 클릭하여 노트 이름을 변경할 수 있습니다.

image03.png

노트 이름을 ‘실습’으로 변경해 보겠습니다.

image04.png

구글 코랩의 인터페이스는 코드 셀과 텍스트 셀로 구성됩니다. 코드 셀에서는 Python 코드를 입력하고 실행할 수 있으며, 텍스트 셀에서는 마크다운을 사용해 설명이나 주석을 작성할 수 있습니다.