12. 음성 인식

12.1 음성 인식의 원리

12.1.1. 음성 인식(Speech Recognition)이란?

음성 인식(Speech Recognition)은 사람이 말한 소리를 컴퓨터가 알아듣고 글자로 바꾸는 기술입니다. 쉽게 말하면, 우리가 “안녕”이라고 말했을 때 스마트폰이 화면에 ‘안녕’이라고 써주는 기술입니다. 이 기술은 인간과 기계 간의 상호작용을 원활하게 만들어 주며, 스마트폰 음성 비서(예: 시리, 빅스비, 구글 어시스턴트), 자동 자막 생성, 음성 기반 검색 등에 폭넓게 활용되고 있습니다. 유튜브 자동 자막, 네이버 음성 검색, 카카오 내비게이션의 “목적지로 출발합니다” 같은 기능이 모두 음성 인식 기술입니다. 아이들이 “하이 시리!”라고 말하면 시리가 대답하는 것도 이 과정 덕분입니다. 최근 음성 인식 기술은 AI와 머신러닝의 발전으로 인해 크게 향상되었습니다. 옛날에는 남녀 목소리나 사투리 차이 때문에 인식이 잘 안 되었지만, 요즘은 AI가 수백만 명의 발음을 학습해서 방언과 억양까지 구별할 수 있게 되었습니다.

음성 인식 기술은 다음과 같은 순서로 작동합니다.

음성 입력

먼저 사용자가 마이크나 스마트폰을 통해 음성을 말합니다. 이때 소리는 ‘아날로그 신호’, 즉 공기 진동의 형태로 들어옵니다.

음성 신호 변환

컴퓨터는 이런 ‘소리의 파동’을 그대로 이해할 수 없기 때문에 디지털 신호로 바꾸어야 합니다. 이 과정을 통해 “안녕”이라는 소리가 0과 1의 숫자 신호로 저장됩니다.

음향 분석

컴퓨터는 바뀐 소리 데이터를 아주 세밀하게 쪼개서 어떤 소리가 들어 있는지를 분석합니다. 예를 들어, “안녕”이라고 말할 때는 ‘ㅇ-ㅏㄴ’, ‘ㄴ-ㅕㅇ’ 같은 여러 소리 단위가 있습니다. 이렇게 쪼개진 소리 조각들을 비교하면서, 컴퓨터는 “이건 ‘안녕’이겠네” 하고 판단할 수 있습니다. 이 과정에서 사람의 귀처럼 소리의 높낮이, 세기, 리듬 등을 분석합니다.

언어 모델 적용

이제 소리가 어떤 글자인지 알았다고 해도, 문맥을 모르면 이상한 문장이 나올 수 있습니다. 예를 들어, “나는 학교에 간다”를 “나는 항구에 간다”로 잘못 인식할 수도 있습니다. 그래서 컴퓨터는 언어 모델을 사용하여 문맥을 고려합니다. 즉, 앞뒤 단어의 관계를 보면서 “학교에”가 “항구에”보다 훨씬 자연스럽다고 판단하는 것입니다. 이 덕분에 문장이 자연스럽게 완성됩니다.

출력

마지막으로 컴퓨터는 분석 결과를 텍스트로 보여줍니다. 우리가 말한 내용을 화면에 글자로 띄우거나, 문자로 전송하거나, 다음 명령을 실행할 수도 있습니다. 예를 들어 “불 켜 줘”라고 말하면, 컴퓨터가 “불을 켭니다”라고 답하며 실제로 전등을 켜는 것입니다.

🪄 정리해 보면 음성 인식은 사람이 소리를 말하고, 컴퓨터가 소리를 숫자로 바꾸고, 소리 속 특징을 분석한 후, 문맥을 고려하여 단어를 결정하고 글자로 출력하는 순서로 실행됩니다.