collocation коллокация
연어(관계)란 일정한 통사구조를 지닌 두 어휘소가 제한적으로 공기하는 관계를 말합니다. 쉽게 말해서, 우연히 예상되는 것보다 더 자주 함께 나타나는 단어의 조합입니다.
<aside> 📌 collocation이라는 용어가 학계에서 ‘연어’라는 명칭으로 널리 통용되지만, 연어구성은 한 단어로 이루어질 수 없으므로 ’연어’라고 번역하는 것이 적절하지 못함을 지적한 연구들이 적지 않습니다. 현 페이지에서는 collocation을 ‘연어관계’라고 지칭하고, 연어관계에 있는 두 어휘소의 조합을 ‘연어구성’이라고 지칭하겠습니다.
</aside>
일반적으로 연어구성의 중심이 되는 어휘소(node)는 ‘대상어’로, 대상어와 연어관계에 있는 어휘소(collocate)를 ‘연어’로 번역합니다. 영어의 ‘fatal error’를 예로 들면, 노드/대상어는 error, 연어는 fatal입니다.
연어관계마다 그 강도가 다릅니다. 예컨대 ‘nice house’는 nice와 house가 다른 많은 단어와 결합될 수 있기 때문에 약한 연어관계에 해당합니다. 반면, ‘Opera House’는 opera가 house 옆에 발생하는 경우가 많고, 또 opera가 다른 많은 단어와 결합되지 않으므로 강한 연어관계라고 볼 수 있습니다.
RNC에서 연어관계를 검색하기 위해서는 아래와 같이 핵심이 되는 키워드(ключ) 또는 연어(коллокат)의 속성을 입력해야 합니다.
키워드와 연어의 경우 모두 레마 뿐만 아니라 어형, 문법적 특성, 의미적 특성 등의 조건을 추가적으로 설정할 수 있습니다.
키워드(ключ) 창
연어(коллокат) 창
또한 연어와 관련해서는 키워드와의 거리(расстояние)를 지정할 수 있습니다. 그러나 둘 사이의 거리는 다섯 단어를 넘을 수 없고, 문장에서 키워드 앞에 오는 연어를 검색할 경우 거리를 음수로 입력해야 합니다.
예를 들어, 명사 ‘дерево’의 바로 앞에 오는 수식어를 모두 찾기 위해서는 키워드로 레마 ‘дерево’를 입력하고, 연어의 문법적 특성을 형용사 ‘(A)’로 선택하고, 거리를 -1에서 -1로 설정합니다.
연어관계 검색창
연어관계 검색 결과
RNC에서는 LogDice, Loglikelihood, MI3, t-score 등의 다양한 통계적 접근법을 통한 연어 강도를 제시하고 있습니다. Sketch Engine(의 word sketch)에서는 logDice 점수로 표현됩니다.