랭스박스 엑스(#LancsBox X)란?

랭스박스는 영국의 랭커스터 대학교(Lancaster University)에서 개발한 언어 분석 및 시각화 소프트웨어 도구입니다. 최신 버전인 랭스박스 엑스(#LancsBox X)는 2023년 초에 출시되었는데, 최상의 성능을 허용하는 64비트 운영 체제에 맞게 설계된 것입니다.

랭스박스의 약력 (출처: https://www.clarin.ac.uk/article/lancsbox-x)

랭스박스의 약력 (출처: https://www.clarin.ac.uk/article/lancsbox-x)

이전 버전의 랭스박스는 천 개 이상의 학술 출판물에서 연구 도구로 사용되었습니다. 랭스박스 엑스는 언어학 뿐만 아니라 교육학, 사회학, 심리학 등을 포함한 여러 학문 분야에 종사하는 연구자, 교수 및 학생들에 의해 사용됩니다.

랭스박스 엑스의 주요 특징

  1. 수백만, 수십억 개의 단어를 효율적으로 처리하고 분석할 수 있습니다. 이는 Lucene 데이터베이스를 배경으로 하는 완전히 새로운 아키텍처와 더불어, 간소화되고 유연한 사용자 인터페이스(user interface, UI)를 기반으로 하기 때문입니다.

  2. 사용자는 자신의 언어 데이터를 로드하거나, 도구에서 제공하는 코퍼스(BNC, BROWN 등)를 사용할 수 있습니다. 랭스박스 엑스는 기본적으로 XML을 지원하지만, 모든 형식(txt, doc, pdf 등)의 데이터를 로드할 수 있습니다.

    랭스박스 엑스가 처리할 수 있는 XML 코퍼스 파일의 예

    랭스박스 엑스가 처리할 수 있는 XML 코퍼스 파일의 예

    코퍼스를 추가하는 방법은 페이지에서 설명하겠습니다.

  3. 더욱 정교한 통계 분석을 수행합니다. 통계 패키지 R을 포함한 랭스박스 엑스는 사용자가 원하는 대로 R 스크립트를 실행할 수 있도록 합니다. 이는 현재 연어관계를 식별하기 위한 연관성 측정(association measure)에 사용할 수 있고, 향후 자동화된 통계 분석을 위해 더욱 강화될 예정입니다.

  4. 단어의 빈도 및 연어 데이터를 분석하고 시각화할 수 있습니다.

    연어관계 분석 및 시각화를 위한 GraphColl 도구의 실행 결과

    연어관계 분석 및 시각화를 위한 GraphColl 도구의 실행 결과

  5. UTF-8로 인코딩된 모든 언어의 데이터를 분석합니다.

  6. 데이터에 자동으로 품사 주석을 답니다.

랭스박스 엑스 다운로드 및 실행 방법

  1. 랭스박스 엑스를 다운로드하기 위해 다음의 웹사이트에 접속해주세요: https://lancsbox.lancs.ac.uk/