3.1 생성형 AI와 LLM은 언어를 어떻게 다루는가

생성형 AI와 대규모 언어 모델(LLM)은 인간처럼 언어의 규칙을 배우거나 문법을 이해하지 않습니다. 우리가 외국어를 배울 때 문법 규칙을 익히고 예외를 암기하는 방식과 달리, 생성형 AI는 언어 규칙을 명시적으로 배우지 않습니다. 대신 실제로 사용된 방대한 양의 텍스트 데이터를 반복적으로 관찰하면서, 언어가 어떻게 사용되는지를 통계적으로 학습합니다. 이때 생성형 AI가 학습하는 대상은 교과서 문장이나 정제된 예문이 아니라, 뉴스 기사, 책, 웹 문서, 위키피디아, 온라인 커뮤니티 글과 같이 실제 사람들이 사용한 텍스트입니다. 이러한 텍스트들은 하나의 거대한 언어 데이터 집합을 이루며, 생성형 AI는 이 안에서 단어와 표현이 어떤 맥락에서 자주 함께 등장하는지를 학습합니다.

생성형 AI의 핵심 작동 원리는 “다음에 어떤 표현이 올 가능성이 높은가”를 계산하는 것입니다. 즉, 생성형 AI는 문장을 만들 때 문법 규칙을 하나하나 적용하는 것이 아니라, 이전까지의 문맥을 바탕으로 가장 그럴듯한 다음 단어를 확률적으로 선택합니다. 이 때문에 생성형 AI는 문법적으로 자연스러워 보이는 문장을 빠르게 만들어낼 수 있습니다.

이러한 점에서 생성형 AI는 규칙 중심 언어 모델이 아니라, 실제 언어 사용 데이터를 기반으로 작동하는 코퍼스 기반 언어 모델이라고 할 수 있습니다. 생성형 AI가 언어를 다루는 방식은, 언어를 규칙의 집합이 아니라 사용의 결과로 이해하는 코퍼스 언어학의 관점과 구조적으로 맞닿아 있습니다.

image.png

3.2 생성형 AI는 무엇을 하고, 무엇을 설명하지 못하는가

생성형 AI와 LLM은 매우 자연스러운 문장과 텍스트를 생성할 수 있습니다. 질문에 대한 답변, 요약문, 번역문 등을 보면 실제 사람이 쓴 글처럼 느껴질 정도로 유창한 결과를 보여줍니다. 이러한 점 때문에 생성형 AI가 언어를 ‘이해한다’고 느끼기 쉽습니다.

그러나 생성형 AI의 강점은 언어를 설명하는 것이 아니라 생성하는 것에 있습니다. 생성형 AI는 문장을 만들어낼 수는 있지만, 그 문장이 실제 언어 사용에서 얼마나 일반적인지, 어느 장르나 상황에서 주로 쓰이는지는 설명하지 않습니다. 예를 들어 AI가 특정 러시아어 표현을 자연스럽게 제시하더라도, 그 표현이 뉴스 기사에서 흔한 것인지, 구어에서 자주 쓰이는 것인지, 아니면 특정 시기나 집단에 한정된 표현인지는 알 수 없습니다.

특히 중요한 한계는 비교의 기준을 제시하지 못한다는 점입니다. 어떤 표현이 “자주 쓰인다”고 말하려면, 반드시 “무엇과 비교해서” 자주 쓰이는지 밝혀야 합니다. 그러나 생성형 AI는 자신이 어떤 텍스트 집합을 기준으로 삼고 있는지, 어떤 종류의 언어 사용을 더 많이 반영하고 있는지를 명시하지 않습니다.

또한 생성형 AI는 수천, 수만 개의 텍스트를 대상으로 한 구조적인 비교 분석을 수행하지 않습니다. 단어의 빈도 변화, 장르 간 차이, 담화 영역별 특징과 같은 정보는 생성형 AI의 출력만으로는 확인할 수 없습니다. 이는 생성형 AI가 분석 도구가 아니라 생성 도구로 설계되었기 때문입니다.

3.3 코퍼스 언어학은 생성형 AI의 구조를 어떻게 이해하게 하는가

생성형 AI의 출력을 제대로 이해하기 위해서는, AI의 내부 계산 과정을 기술적으로 분석하기보다, AI가 어떤 언어 데이터를 기반으로 작동하고 있는지를 설명할 수 있는 언어학적 틀이 필요합니다. 이 역할을 수행하는 것이 코퍼스 언어학입니다.

코퍼스 언어학은 언어를 개별 문장의 집합으로 보지 않고, 실제 사용된 텍스트 데이터의 축적으로 봅니다. 이 관점에서 언어의 특징은 규칙 설명이 아니라, 빈도와 분포, 반복되는 사용 패턴을 통해 드러납니다. 생성형 AI가 특정 표현을 자연스럽게 선택했다면, 코퍼스 언어학은 그 표현이 실제 텍스트에서 얼마나 자주 나타나는지, 어떤 맥락에서 반복되는지를 설명할 수 있습니다.

특히 연어와 공기어 개념은 생성형 AI의 작동 방식을 이해하는 데 매우 중요합니다. 생성형 AI는 단어를 하나씩 독립적으로 선택하지 않고, 주변 단어들과 함께 등장할 확률을 고려해 문장을 생성합니다. 따라서 AI의 출력에서 자주 나타나는 단어 조합은, 실제 언어 사용에서도 안정적으로 함께 등장하는 경우가 많습니다. 코퍼스 분석은 이러한 결합 관계가 실제 언어 사용에서 얼마나 일반적인지를 검증할 수 있게 합니다.

3.4 생성형 AI의 결과를 검증하는 방법으로서의 코퍼스 분석

생성형 AI가 만들어낸 문장이나 요약은 완성된 분석 결과라기보다, 검토와 확인이 필요한 결과물로 이해해야 합니다. 생성형 AI의 출력은 하나의 답이라기보다는, 실제 언어 사용과 비교해 볼 수 있는 가설에 가깝습니다.

이때 코퍼스 분석은 생성형 AI의 결과를 평가하거나 대체하는 도구가 아니라, 인간 분석자가 판단을 내릴 수 있도록 근거를 제공하는 역할을 합니다. 예를 들어 생성형 AI가 어떤 러시아어 표현을 일반적인 표현처럼 제시했을 경우, 코퍼스를 통해 해당 표현이 실제 텍스트에서 얼마나 자주 쓰이는지, 뉴스·구어·SNS 중 어디에서 주로 나타나는지를 확인할 수 있습니다.