랭스박스는 영국의 랭커스터 대학교(Lancaster University)에서 개발한 언어 분석 및 시각화 소프트웨어 도구입니다. 최신 버전인 랭스박스 엑스(#LancsBox X)는 2023년 초에 출시되었는데, 최상의 성능을 허용하는 64비트 운영 체제에 맞게 설계된 것입니다.
랭스박스의 약력 (출처: https://www.clarin.ac.uk/article/lancsbox-x)
이전 버전의 랭스박스는 천 개 이상의 학술 출판물에서 연구 도구로 사용되었습니다. 랭스박스 엑스는 언어학 뿐만 아니라 교육학, 사회학, 심리학 등을 포함한 여러 학문 분야에 종사하는 연구자, 교수 및 학생들에 의해 사용됩니다.
수백만, 수십억 개의 단어를 효율적으로 처리하고 분석할 수 있습니다. 이는 Lucene 데이터베이스를 배경으로 하는 완전히 새로운 아키텍처와 더불어, 간소화되고 유연한 사용자 인터페이스(user interface, UI)를 기반으로 하기 때문입니다.
사용자는 자신의 언어 데이터를 로드하거나, 도구에서 제공하는 코퍼스(BNC, BROWN 등)를 사용할 수 있습니다. 랭스박스 엑스는 기본적으로 XML을 지원하지만, 모든 형식(txt, doc, pdf 등)의 데이터를 로드할 수 있습니다.
랭스박스 엑스가 처리할 수 있는 XML 코퍼스 파일의 예
코퍼스를 추가하는 방법은 페이지에서 설명하겠습니다.
더욱 정교한 통계 분석을 수행합니다. 통계 패키지 R을 포함한 랭스박스 엑스는 사용자가 원하는 대로 R 스크립트를 실행할 수 있도록 합니다. 이는 현재 연어관계를 식별하기 위한 연관성 측정(association measure)에 사용할 수 있고, 향후 자동화된 통계 분석을 위해 더욱 강화될 예정입니다.
단어의 빈도 및 연어 데이터를 분석하고 시각화할 수 있습니다.
연어관계 분석 및 시각화를 위한 GraphColl 도구의 실행 결과
UTF-8로 인코딩된 모든 언어의 데이터를 분석합니다.
데이터에 자동으로 품사 주석을 답니다.