<aside> 💡 **스케치 엔진(Sketch Engine)**은 무엇인가요?

</aside>

Untitled

스케치 엔진은 체코의 Lexical Computing CZ s.r.o.에서 개발한 코퍼스 관리 및 텍스트 분석을 위한 유료 소프트웨어입니다.

스케치엔진의 목적은 언어 연구가들 - 사전 편찬 및 코퍼스 언어학 연구자, 번역가, 언어 학습자 - 로 하여금 대량의 텍스트 컬렉션을 검색하도록 돕는 것입니다.

스케치 엔진이라는 이름은 단어 스케치(word sketch)라는 소프트웨어의 주요 기능 중 하나의 이름을 따서 붙여졌습니다. 현재 스케치 엔진은 90개 이상의 언어를 대상으로 코퍼스 분석을 지원합니다.


https://youtu.be/_m9IzVB588I?si=5RcdfIn0xLWCOmF5


스케치 엔진에서 제공되는 도구 목록

  1. 단어 스케치 (Word sketches) - 단어의 문법적 및 맥락적 행동에 대한 자동 생성 요약 (한 페이지로)
  2. 단어 스케치의 차이점 분석 - 두 단어의 콜로케이션을 분석하여 비교 및 대조
  3. 시소러스 - 유사한 의미를 가진 단어를 찾거나 동일한/유사한 맥락에 나타나는 단어를 자동으로 찾는 동의어 사전
  4. 콘코던스(Concordance) 검색 - 단어 형태, 레마, 구, 태그 또는 복잡한 구조의 예제를 찾음
  5. 연어(Collocation) 검색 - 단어의 공존(co-occurrence) 분석, 빈도수가 높은 단어 검색
  6. 단어 목록 (Word lists) - 여러 기준으로 필터링할 수 있는 빈도수 목록(frequency lists) 생성
  7. n-그램 (n-grams) - 여러 단어로 구성된 표현(multi-word expressions)의 빈도수 목록 생성
  8. 용어/키워드 추출 (단일 및 이중 언어) - 텍스트에서 핵심 단어 및 다중 단어 용어를 자동 추출
  9. 시대적 분석 (트렌드) - 시간이 지남에 따라 사용 빈도가 변화하는 단어(trending words)를 보여줌
  10. 코퍼스 구축 및 관리 - 웹으로부터, 혹은 유저가 업로드한 텍스트에서 말뭉치를 구축 (품사 태깅, 표준화 포함)
  11. 병렬 코퍼스 (이중 언어) 기능 - 번역 예제 조회 (EUR-Lex 코퍼스, Europarl 코퍼스, OPUS 코퍼스 등) 또는 자체 정렬된 텍스트에서 병렬 코퍼스를 구축
  12. 텍스트 유형 분석 - 코퍼스의 메타데이터 통계