토큰

token слово

토큰은 코퍼스를 구성하는 가장 작은 단위입니다.

토큰은 일반적으로 다음과 같은 것들을 가리킵니다:

토큰의 단위는 상황에 따라, 언어마다 다르지만, 보통 의미 있는 단위로 토큰을 정의합니다.

토큰의 기준을 단어(word)로 하는 경우, 단어 토큰화(word tokenization)라고 합니다.

예를 들어, 아래의 입력으로부터 구두점을 제외한, 간단한 단어 토큰화 작업을 해봅시다.

입력: Time is an illusion. Lunchtime double so! 출력 : "Time", "is", "an", "illustion", "Lunchtime", "double", "so"

Untitled

Untitled