랭스박스는 다양한 수준의 코퍼스 주석(annotation)을 기반으로 텍스트를 검색할 수 있도록 설계된 도구입니다. 단순한 문자열 검색부터 품사, 의미, 통사 정보까지 반영한 고급 검색이 가능하며, 그중에서도 CQL(Corpus Query Language)을 활용한 검색은 가장 정밀한 분석을 가능하게 합니다. 아래에서는 랭스박스 엑스에서 제공하는 주요 검색 방식들을 단계적으로 살펴봅니다. 지금 수업에서는 “이런 검색이 가능하다”는 것을 이해하는 것이 목표이고 모든 검색 문법을 외울 필요는 전혀 없습니다.
<aside> 💡 랭스박스 엑스에서 수행할 수 있는 여러 검색에 대해 알아봅시다.
</aside>
단순 검색은 특정 단어나 구를 문자 그대로 입력하여 검색하는 가장 기본적인 방식입니다. 예를 들어 new와 같은 단일 단어뿐 아니라 New York Times와 같은 구 단위 표현도 그대로 검색할 수 있습니다. 이 방식의 특징은 대소문자를 구분하지 않는다는 점입니다. 따라서 new, New, NEW와 같은 표기 차이는 모두 동일한 검색 결과로 처리됩니다. 단어의 표기 변형에 관계없이 전체적인 사용 양상을 빠르게 확인하고자 할 때 유용한 검색 방식입니다.
와일드카드 검색은 별표(*)와 같은 특수 문자를 사용하여 특정 패턴에 해당하는 여러 표현을 한 번에 검색하는 방식입니다. 별표는 해당 위치 뒤에 0개 이상의 문자가 올 수 있음을 의미합니다. 이를 통해 하나의 어근을 공유하는 다양한 파생어를 함께 검색할 수 있으며, 공백과 결합할 경우 여러 단어로 이루어진 표현도 포괄적으로 탐색할 수 있습니다. 예를 들어 new 뒤에 별표를 붙이면 new, news, newly, newspaper 등의 단어가 함께 검색됩니다. 또한 new 뒤에 공백과 별표를 사용하면 new car, New York, new idea와 같은 구 단위 표현도 검색됩니다.
| 특수 문자 | 의미 | 사용 예 |
|---|---|---|
| * | 키워드 뒤에 0개 이상의 문자가 오는 문자열을 검색 | |
| [공백을 포함한] 임의의 단어를 검색 | new* [new, news, newly, newspaper…] | |
| new *[new car, New York, new ideas…] |
구두점을 검색할 때는 슬래시(/)를 사용합니다. 물음표나 쉼표와 같은 문장 부호는 일반적인 문자 검색 방식으로는 인식되지 않기 때문에, 슬래시로 감싸 주어야 검색이 가능합니다. 예를 들어 물음표를 검색하려면 /?/와 같이 입력하고, 쉼표를 검색하려면 /,/와 같이 입력합니다. 이 검색 방식은 질문문, 인용 구조, 문장 말끝 표현 등을 분석할 때 활용할 수 있습니다.
스마트 검색은 사용자가 복잡한 검색을 쉽게 할 수 있도록 도구에 미리 정의된 것입니다. 이러한 랭스박스의 고유한 기능은 단어 부류(명사, 동사 등), 복잡한 문법 패턴(분리 부정사 등) 및 의미 범주(장소 부사 등)를 검색하는 데 사용됩니다. 예를 들어 ADJECTIVE를 입력하면 모든 형용사가 검색되고, VERB를 입력하면 모든 동사가 검색됩니다. 스마트 검색은 문법 지식이 충분하지 않은 단계에서도 코퍼스의 전반적인 경향을 파악하는 데 유용한 기능입니다.
CQL은 다양한 수준의 코퍼스 주석 정보를 바탕으로 정밀한 검색을 수행하기 위해 사용되는 쿼리 언어입니다. 코퍼스에는 일반적으로 단어 형태(word), 표제어(headword, hw), 품사(part-of-speech, pos), 의미 태그(sem) 등의 정보가 주석으로 부여되어 있으며, CQL은 이러한 속성들을 조합하여 원하는 조건의 용례를 검색할 수 있도록 합니다. 랭스박스에서는 spaCy 태그셋을 사용하므로, CQL 검색을 활용하기 위해서는 해당 태그셋에 대한 기본적인 이해가 필요합니다.이는 spaCy 태그셋 페이지를 참조하시길 바랍니다.