자연어처리(NLP)는 컴퓨터가 인간의 언어를 이해하고 분석할 수 있도록 돕는 기술입니다. 우리가 일상적으로 사용하는 언어는 컴퓨터에게는 단순한 문자나 단어의 나열에 불과하지만, NLP 기술을 통해 컴퓨터는 문장에서 의미 있는 정보를 추출할 수 있습니다. 이번 장에서는 개체명 인식 (Named Entity Recognition, NER)이라는 개념을 배우고, 러시아어 텍스트에서 인물, 장소, 조직 이름과 같은 중요한 정보를 자동으로 찾아내는 방법을 익혀 보겠습니다.
개체명 인식(NER)은 문장에서 인명(Person), 지명(Location), 기관명(Organization), 날짜(Date) 등과 같은 고유명사를 자동으로 식별하고, 각 단어를 유형별로 분류하는 기술입니다. 이 기술은 자연어 텍스트를 단순한 ‘문장’이 아닌 ‘정보 구조’로 변환하는 핵심 과정이며, 언어학적으로는 형태론(morphology), 통사론(syntax), 의미론(semantics), 담화론(discourse analysis) 등 여러 층위와 긴밀하게 연관되어 있습니다.
1. 형태론적(형태소) 기반 인식
언어학적으로 개체명은 주로 형태적 단서(morphological cue) 를 통해 식별됩니다. 한국어에서는 ‘-시’, ‘-군’, ‘-대학교’, ‘-주식회사’, ‘-시청’과 같은 접미사나 명사 결합이 ‘지명(Location)’, ‘기관명(Organization)’, ‘인명(Person)’을 나타내는 신호로 작용합니다. 예) “서울시”, “연세대학교”, “김지훈 씨”, “삼성전자 주식회사”
러시아어에서도 형태적 표지가 개체 식별의 단서로 작용합니다. 예를 들어, «город Москва»(도시 모스크바), «компания Яндекс»(Яндекс 회사)에서는 ‘город’, ‘компания’가 각각 지명과 기관명을 암시하는 어휘적 신호입니다. NER 시스템은 이러한 형태소 단위의 패턴을 학습하여, 단어의 구성과 접사 구조를 근거로 개체 유형을 추론합니다.
2. 통사론적(문장 내 역할) 기반 인식
개체명은 문장 내에서 특정한 통사적 기능(syntactic role) 을 수행합니다.
예를 들어 다음 문장을 살펴볼 수 있습니다.
한국어: “2024년 5월 10일, 안나는 서울에서 열린 연세대학교 학회에 참석했습니다.”
러시아어: «10 мая 2024 года Анна участвовала в конференции, проходившей в Сеуле, в Ёнсейском университете.»
이 문장에서 NER은 다음과 같은 개체를 인식합니다.
| 개체 | 한국어 | 러시아어 | 유형 |
|---|---|---|---|
| 날짜 | 2024년 5월 10일 | 10 мая 2024 года | Date |
| 인명 | 안나 | Анна | Person |
| 지명 | 서울 | Сеул | Location |
| 기관명 | 연세대학교 | Ёнсейский университет | Organization |
한국어에서는 조사(postposition) ‘-에서’, ‘-에’ 등이 문법적 관계를 명시하므로, NER은 조사가 붙은 명사를 개체 후보로 인식합니다. 예를 들어 “서울에서”는 ‘-에서’가 장소를 나타내므로 지명(Location) 으로, “연세대학교에서”는 기관을 나타내므로 기관명(Organization) 으로 분류됩니다.
반면 러시아어에서는 전치사(preposition) 와 격 어미(case ending) 가 문법 관계를 결정합니다. 예를 들어, «в Сеуле»(в + местный падеж)는 ‘장소(Locative)’를 의미하므로 지명(Location) 으로 인식되며, «из Москвы»(из + родительный падеж)는 ‘출발지(Source)’를 의미하지만 역시 Location 범주에 속합니다.