GraphColl이란?

GraphColl은 코퍼스에 포함된 텍스트를 바탕으로 단어들 사이의 연어(collocation) 관계를 분석하고, 그 결과를 표, 그래프, 또는 네트워크 형태로 시각화해 주는 도구입니다. 이를 통해 특정 단어 또는 구와 함께 자주 등장하는 연어(collocate)를 확인할 수 있습니다.

도구 화면

출처: 사용자 매뉴얼
아래 모든 사진들의 출처 또한 같습니다.

출처: 사용자 매뉴얼 아래 모든 사진들의 출처 또한 같습니다.

연어관계 그래프 생성 방법

GraphColl 도구는 즉시 연어관계 표와 그래프를 생성합니다. 사용자는 목적에 맞게 설정을 선택한 후 노드(검색 키워드)와 그것의 연어를 검색할 수 있습니다.

  1. 연어관계 검색 설정을 선택합니다.

    1.png

    위 사진에서와 같이, 여기에서는 코퍼스 추가 방법 페이지에서 생성한 “tolstoi_rasskazy” 코퍼스를 사용하고, 연어의 단위는 “단어”로, 검색 범위는 “L5-R5”로 지정하겠습니다.

  2. 랭스박스 엑스 화면 상단의 검색창에 검색어를 입력하고 Enter 버튼을 누릅니다.

    CQL를 사용하여 [hw = "быть"]를 검색해보겠습니다. 동사 "быть"의 모든 활용형과 연어관계에 있는 단어들을 찾아줍니다. 이때 선택한 단위에 맞는 어휘 목록을 생성하지 않았다면 다음과 같은 옵션 창이 뜹니다. 원하는 단위를 선택한 후 목록을 생성합니다.

    1.png

  3. 연어관계 표가 왼쪽 화면에, 연어관계 그래프가 오른쪽 화면에 생성됩니다.

image.png

연어관계 표와 그래프는 동사 "быть"의 모든 활용형과 연어관계에 있는 단어 가운데 연어관계 빈도가 5이상이며 logDice 값이 6이상인 단어들을 보여줍니다. 그래프를 보면, бытьи, в, на, за, по와 같은 접속사나 전치사와 자주 함께 나타납니다. 이는 быть가 어떤 행동을 말하기보다는, 문장을 이어 주거나 존재의 의미를 가지는 동사로서 전치사와 결합하여 주어의 위치를 표현하는 용례가 많기 때문입니다. 또한 не와 자주 결합하는데, 이는 быть가 “존재하지 않다”, “상태가 아니다”와 같은 부정 표현에서 중요한 역할을 한다는 뜻입니다. 예를 들어 “не было”, “не быть” 같은 형태가 이에 해당합니다. 각 정보에 대해서는 아래에서 보다 자세하게 살펴보겠습니다.

연어관계 표