- ASR은 기계 학습을 통해 음성을 텍스트로 변환하여 음성 명령과 실시간 전사를 가능하게 합니다.
- 최신 ASR 시스템은 개별 음소 모델(HMM-GMM)에서 전체 단어를 예측하는 딥러닝 모델로 전환되었습니다.
- ASR의 성능은 단어 오류율(WER)로 측정되며, 오류는 대체, 삭제, 삽입에서 발생합니다. WER가 낮을수록 전사 품질이 높습니다.
- ASR의 미래는 개인정보 보호를 위한 기기 내 처리와 저자원 언어 지원에 초점을 맞추고 있습니다.
마지막으로 자막 없이 무언가를 본 적이 언제였나요?
예전에는 선택 사항이었지만, 이제는 우리가 원하든 원하지 않든 짧은 영상마다 자막이 따라다닙니다. 자막이 콘텐츠에 너무 자연스럽게 녹아들어 있어서 존재 자체를 잊게 됩니다.
자동 음성 인식(ASR) — 말로 한 단어를 빠르고 정확하게 자동으로 텍스트로 변환하는 능력 — 이 변화의 중심에 있는 기술입니다.
AI 음성 에이전트를 생각할 때, 우리는 그가 선택하는 단어, 말투, 그리고 목소리를 떠올립니다.
하지만 우리의 대화가 자연스럽게 이어지려면 봇이 우리 말을 이해해야 한다는 점을 쉽게 잊곤 합니다. 그리고 이 단계, 즉 시끄러운 환경에서 “음”, “아” 같은 말까지도 봇이 이해하는 데까지 오기까지는 결코 쉬운 길이 아니었습니다.
오늘은 이러한 자막을 가능하게 하는 기술, 즉 자동 음성 인식(ASR)에 대해 이야기해보려 합니다.
간단히 제 소개를 하자면, 저는 음성 기술 석사 학위를 가지고 있고, 여가 시간에는 최신 ASR 동향을 읽거나 직접 무언가를 만들어보기도 합니다.
ASR의 기본 개념을 설명하고, 그 기술의 내부를 살펴본 뒤, 앞으로 이 기술이 어디로 향할지 예측해보겠습니다.
ASR이란 무엇인가요?
자동 음성 인식(ASR) 또는 음성-텍스트(STT)는 기계 학습 기술을 이용해 음성을 문자로 변환하는 과정입니다.
음성을 다루는 다양한 기술에는 ASR이 어느 정도 통합되어 있습니다. 예를 들어 영상 자막, 고객 지원 대화의 전사 및 분석, 음성 비서와의 상호작용 등이 있습니다.
음성-텍스트 알고리즘
기본 기술은 시대에 따라 변해왔지만, 모든 방식에는 형태를 달리한 두 가지 요소가 항상 있었습니다: 데이터와 모델입니다.
ASR의 경우, 데이터는 라벨이 지정된 음성 — 즉, 음성 파일과 그에 해당하는 전사본입니다.
모델은 오디오에서 전사를 예측하는 알고리즘입니다. 라벨이 지정된 데이터로 모델을 학습시켜, 보지 못한 음성 예시에도 일반화할 수 있게 합니다.

이는 마치 여러분이 특정한 순서로 들어본 적 없는 단어들이나 낯선 사람이 말하는 단어라도 이해할 수 있는 것과 비슷합니다.
다시 말해, 모델의 종류와 세부 사항은 시간이 지나며 변해왔고, 속도와 정확도의 모든 발전은 데이터셋과 모델의 크기 및 사양에 달려 있었습니다.
잠깐: 특징 추출
저는 특징, 또는 표현에 대해 텍스트-음성 변환 글에서 언급한 적이 있습니다. 이들은 과거와 현재의 ASR 모델에서 모두 사용됩니다.
특징 추출 — 음성을 특징으로 변환하는 과정 — 은 거의 모든 ASR 파이프라인의 첫 단계입니다.
간단히 말하면, 이러한 특징(주로 스펙트로그램)은 음성에 수학적 계산을 적용해 얻은 결과로, 음성의 발화 내 유사성을 강조하고, 화자 간 차이를 최소화하는 형식으로 변환합니다.
즉, 서로 다른 두 사람이 같은 말을 해도, 목소리가 달라도 스펙트로그램은 비슷하게 나타납니다.
이렇게 설명하는 이유는, 앞으로 “모델이 음성에서 전사를 예측한다”고 말할 예정이기 때문입니다. 사실 모델은 특징에서 예측합니다. 하지만 특징 추출 과정도 모델의 일부로 생각하셔도 됩니다.
초기 ASR: HMM-GMM
히든 마르코프 모델(HMM)과 가우시안 혼합 모델(GMM)은 딥 뉴럴 네트워크가 등장하기 전까지 사용되던 예측 모델입니다.
HMM은 최근까지 ASR 분야를 지배해왔습니다.
오디오 파일이 주어지면, HMM은 음소의 지속 시간을 예측하고, GMM은 해당 음소가 무엇인지 예측합니다.
이게 좀 이상하게 들릴 수도 있는데, 실제로 그렇습니다. 예를 들면:
- HMM: “처음 0.2초는 하나의 음소입니다.”
- GMM: “그 음소는 G, 즉 Gary의 G입니다.”
오디오 클립을 텍스트로 바꾸려면 몇 가지 추가 요소가 필요합니다:
- 발음 사전: 어휘에 포함된 모든 단어와 그에 해당하는 발음의 목록
- 언어 모델: 어휘 내 단어 조합과 그 동시 출현 확률입니다.
따라서 GMM이 /s/ 대신 /f/를 예측하더라도, 언어 모델은 화자가 “a penny for your thoughts”라고 말했을 확률이 “foughts”보다 훨씬 높다는 것을 압니다.
이렇게 여러 요소가 필요한 이유는, 솔직히 말해 이 파이프라인의 어느 부분도 특별히 뛰어나지 않았기 때문입니다.
HMM은 정렬을 잘못 예측하고, GMM은 비슷한 소리를 혼동합니다: /s/와 /f/, /p/와 /t/, 모음은 말할 것도 없죠.
그리고 언어 모델이 엉성한 음소들을 좀 더 언어다운 형태로 정리해줍니다.
딥러닝 기반의 End-to-End ASR
ASR 파이프라인의 많은 부분이 이제 하나로 통합되었습니다.

이제는 철자, 정렬, 발음 처리를 위해 별도의 모델을 학습시키는 대신, 하나의 모델이 음성을 입력받아 (가능하다면) 올바른 철자의 단어와 최근에는 타임스탬프까지 출력합니다.
(다만 실제 구현에서는 추가 언어 모델로 결과를 보정하거나 “재채점”하는 경우가 많습니다.)
그렇다고 해서 정렬이나 철자 같은 요소가 별도의 관심을 받지 않는 것은 아닙니다. 특정 문제를 해결하기 위한 연구는 여전히 활발히 이루어지고 있습니다.
즉, 연구자들은 모델의 성능에서 특정 요소를 개선하기 위해 모델 구조를 변경하는 방법을 고안합니다. 예를 들면:
- 이전 출력에 조건을 거는 RNN-Transducer 디코더로 철자 정확도 향상
- 컨볼루션 다운샘플링으로 공백 출력을 줄여 정렬 개선
이게 무슨 말인지 모르겠다는 건 압니다. 상사가 “좀 더 쉽게 설명해줄 수 있어?”라고 물을까 봐 미리 말하는 겁니다.
답은, 불가능합니다.
정말 못하겠어요.
ASR의 성능은 어떻게 측정하나요?
ASR이 제대로 작동하지 않으면 바로 알 수 있습니다.
저는 caramelization이 communist Asians로, Crispiness가 Chris p —로 전사된 걸 본 적이 있습니다. 무슨 말인지 아시겠죠.
오류를 수치로 나타내는 지표가 바로 단어 오류율(WER)입니다. WER 공식은 다음과 같습니다:

여기서:
- S는 대체의 수 (예측 텍스트에서 참조 텍스트와 맞추기 위해 바뀐 단어 수)
- D는 삭제의 수 (출력에서 참조 텍스트에 비해 누락된 단어 수)
- I는 삽입의 수 (출력에서 참조 텍스트에 비해 추가된 단어 수)
- N은 참조 텍스트의 전체 단어 수입니다.
예를 들어, 참조 문장이 “the cat sat.”라고 합시다.
- 모델이 “the cat sank”라고 출력하면, 이는 대체입니다.
- 모델이 “cat sat”이라고 출력하면, 이는 삭제입니다.
- “the cat has sat”이라고 출력하면, 이는 삽입입니다.
ASR의 활용 사례는 무엇인가요?
ASR은 매우 유용한 도구입니다.
또한 중요한 산업 분야에서 안전, 접근성, 효율성을 높여 우리의 삶의 질을 향상시키는 데 기여했습니다.
의료
제가 의사들에게 음성 인식 연구를 한다고 하면, 그들은 “아, Dragon 같은 거요?”라고 반응합니다.
의료 분야에서 생성형 AI가 등장하기 전에는, 의사들이 제한된 어휘로 분당 30단어 정도의 구두 메모를 남기곤 했습니다.
ASR(자동 음성 인식)은 의사들이 겪는 만연한 번아웃을 크게 줄이는 데 성공했습니다.
의사들은 산더미 같은 서류 작업과 환자 진료를 동시에 해내야 합니다. 2018년만 해도 연구자들은 진료 시 디지털 전사 사용을 촉구하며, 의사들이 더 나은 진료를 제공할 수 있도록 해야 한다고 했습니다.
이는 진료 내용을 사후에 문서화하는 것이 환자와 직접 대화하는 시간을 빼앗을 뿐 아니라, 실제 진료 내용을 전사해 요약하는 것보다 훨씬 정확도가 떨어지기 때문입니다.
스마트 홈
제가 자주 하는 농담이 하나 있습니다.
불을 끄고 싶은데 일어나기 귀찮을 때, 저는 두 번 박수를 칩니다 — 마치 클래퍼가 있는 것처럼요.
제 파트너는 한 번도 웃지 않아요.
음성 인식 스마트홈은 미래지향적이면서도 왠지 사치스럽게 느껴집니다. 적어도 겉으로는요.
물론 편리하긴 하지만, 많은 경우 기존에는 불가능했던 일을 가능하게 해줍니다.
좋은 예가 에너지 소비입니다. 하루 종일 조명이나 온도 조절을 위해 일어나서 다이얼을 만지는 건 현실적으로 어렵죠.
음성 활성화 덕분에 이런 사소한 조정도 훨씬 쉽게 할 수 있을 뿐 아니라, 인간의 말의 뉘앙스도 읽어냅니다.
예를 들어, "조금만 더 시원하게 해줄래?"라고 말하면, 어시스턴트가 자연어 처리를 통해 요청을 온도 변화로 바꿔주고, 현재 온도, 일기예보, 다른 사용자의 온도 조절 데이터 등 다양한 정보를 함께 고려합니다.
사람은 사람 역할을 하고, 컴퓨터가 해야 할 일은 컴퓨터에 맡기면 됩니다.
느낌만으로 몇 도를 내릴지 고민하는 것보다 훨씬 쉽다고 생각합니다.
그리고 에너지 효율도 더 높습니다. 예를 들어, 음성 인식 스마트 조명을 사용해 에너지 소비를 80%까지 줄인 가정도 보고되고 있습니다.
고객 지원
의료 분야에서 언급했듯, 대화 내용을 전사하고 요약하는 것이 사후에 기억을 더듬어 요약하는 것보다 훨씬 효과적입니다.
다시 말해, 시간도 절약되고 정확도도 높아집니다. 자동화가 사람들의 업무 효율을 높여준다는 사실을 우리는 반복해서 확인하고 있습니다.
이 점은 고객 지원 분야에서 특히 두드러집니다. ASR이 적용된 고객 지원은 첫 통화 해결률이 25% 더 높습니다.
전사와 요약은 고객의 감정과 문의 내용을 바탕으로 해결책을 찾는 과정을 자동화하는 데 도움을 줍니다.
차량 내 어시스턴트
여기서도 홈 어시스턴트의 연장선이지만, 따로 언급할 만한 가치가 있습니다.
음성 인식은 운전자의 인지 부담과 시각적 방해를 줄여줍니다.
또한, 주의 산만이 최대 30%의 교통사고 원인이라는 점을 고려하면, 이 기술을 도입하는 것은 안전을 위해 당연한 선택입니다.
언어 치료
ASR은 언어 장애 평가 및 치료 도구로 오랫동안 활용되어 왔습니다.
기계는 단순히 업무를 자동화할 뿐 아니라, 사람이 할 수 없는 일도 해냅니다.
음성 인식은 사람이 거의 알아채지 못하는 미묘한 발화 차이까지 감지해, 놓치기 쉬운 언어적 특징도 포착할 수 있습니다.
ASR의 미래
STT(음성-텍스트 변환)는 이제 너무 익숙해져서 더 이상 신경 쓰지 않을 정도가 되었습니다.
하지만 그 이면에서는 연구자들이 더 강력하고 접근성 높은, 그리고 더 자연스러운 기술을 만들기 위해 끊임없이 노력하고 있습니다.
ASR 발전을 활용한 흥미로운 트렌드 몇 가지와 제 생각을 함께 정리해봤습니다.
온디바이스 음성 인식
대부분의 ASR 솔루션은 클라우드에서 동작합니다. 익히 들어보셨을 겁니다. 즉, 모델이 원격 컴퓨터에서 실행된다는 뜻이죠.
이는 휴대폰의 작은 프로세서로는 대형 모델을 돌릴 수 없거나, 전사를 하는 데 너무 오래 걸릴 수 있기 때문입니다.
그래서 오디오가 인터넷을 통해 원격 서버로 전송되고, 그곳에서 GPU가 ASR 모델을 실행해 전사 결과를 기기로 돌려보냅니다. 이 GPU는 주머니에 넣고 다니기엔 너무 무겁죠.

에너지 효율성과 보안(개인 데이터가 인터넷에 떠다니는 걸 원치 않는 사람도 많으니까요) 때문에, 모델을 기기 자체에서 실행할 수 있도록 소형화하는 연구가 활발히 진행되고 있습니다. 휴대폰, 컴퓨터, 브라우저 엔진 등 어떤 기기든 말이죠.
저 역시 온디바이스 ASR 모델 양자화에 관한 논문을 쓴 적이 있습니다. Picovoice는 캐나다 기업으로, 저지연 온디바이스 음성 AI를 개발 중인데 꽤 인상적입니다.
온디바이스 ASR은 저렴한 비용으로 전사 기능을 제공해, 저소득층 커뮤니티에도 서비스할 수 있는 가능성을 엽니다.
트랜스크립트 우선 UI
오디오와 전사본의 간극이 점점 줄어들고 있습니다. 이게 무슨 의미일까요?
Premiere Pro, Descript 같은 영상 편집기는 전사본을 통해 녹음을 탐색할 수 있게 해줍니다: 단어를 클릭하면 해당 시점으로 이동합니다.
여러 번 녹음했나요? 마음에 드는 것을 골라 나머지는 텍스트 편집기처럼 지우세요. 영상도 자동으로 잘라줍니다.
파형만 보고 편집하는 건 정말 답답하지만, 전사 기반 편집기는 놀랄 만큼 쉽습니다.
비슷하게, WhatsApp 같은 메신저도 음성 메시지를 전사해주고, 텍스트를 따라가며 원하는 부분을 바로 찾아볼 수 있습니다. 단어 위로 손가락을 밀면, 해당 시점으로 이동합니다.

재미있는 이야기: 실제로 이런 기능을 애플이 발표하기 약 일주일 전에 제가 만들었습니다.
이런 사례들은 복잡한 기술이 어떻게 사용자에게는 직관적이고 단순한 경험을 제공하는지 보여줍니다.
형평성, 포용, 저자원 언어
아직 끝난 싸움이 아닙니다.
ASR은 영어 등 자원이 풍부한 주요 언어에서는 잘 동작합니다. 하지만 저자원 언어에서는 그렇지 않은 경우가 많습니다.
방언 소수자, 언어 장애, 음성 기술의 형평성 등 다양한 문제에서 격차가 존재합니다.
분위기를 깨서 미안합니다. 이 섹션은 ASR의 '미래'에 관한 것이니까요. 저는 우리가 자랑스러워할 수 있는 미래를 기대하고 싶습니다.
기술이 발전하려면 모두가 함께 나아가야 하며, 그렇지 않으면 사회적 불평등이 더 심해질 수 있습니다.
지금 바로 ASR을 시작하세요
어떤 비즈니스든 ASR을 활용하는 것은 당연한 선택입니다. 다만, 어떻게 시작해야 할지 궁금하실 겁니다. ASR을 어떻게 구현하나요? 그 데이터를 다른 도구로 어떻게 전달하나요?
Botpress에는 사용하기 쉬운 전사 카드가 내장되어 있습니다. 드래그 앤 드롭 방식의 플로우에 통합할 수 있고, 다양한 애플리케이션 및 커뮤니케이션 채널과 연동해 확장할 수 있습니다.
지금 바로 시작해보세요. 무료입니다.
자주 묻는 질문
현대 ASR은 다양한 억양이나 시끄러운 환경에서도 얼마나 정확할까요?
최신 ASR 시스템은 주요 언어의 일반적인 억양에 대해 매우 높은 정확도를 보이며, 깨끗한 환경에서는 단어 오류율(WER)이 10% 미만입니다. 하지만 억양이 강하거나 방언, 배경 소음이 심할 경우 정확도가 눈에 띄게 떨어집니다. 구글, 마이크로소프트 등은 다양한 음성 데이터를 활용해 모델을 훈련하지만, 소음이 많은 환경에서 완벽한 전사는 여전히 과제입니다.
ASR이 전문 용어나 업계 특화 용어를 전사하는 데 신뢰할 만한가요?
ASR은 기본적으로 전문 용어나 업계 특화 용어에 대해 덜 신뢰할 수 있습니다. 훈련 데이터가 일반적인 대화에 치우쳐 있기 때문에, 익숙하지 않은 단어는 잘못 전사되거나 누락될 수 있습니다. 하지만 엔터프라이즈 솔루션에서는 맞춤형 어휘, 도메인별 언어 모델, 발음 사전 등을 통해 의료, 법률, 엔지니어링 등 분야의 기술 용어 인식률을 높일 수 있습니다.
무료 ASR 도구와 엔터프라이즈급 솔루션의 차이는 무엇인가요?
무료 ASR 도구와 엔터프라이즈급 솔루션의 차이는 정확도, 확장성, 맞춤화, 개인정보 보호에 있습니다. 무료 도구는 오류율이 높고, 지원 언어가 제한적이며, 사용량 제한이 있을 수 있습니다. 반면 엔터프라이즈 솔루션은 더 낮은 WER, 도메인별 맞춤화, 다양한 연동, SLA, 민감한 데이터 처리를 위한 강력한 보안 기능을 제공합니다.
ASR은 전사 과정에서 사용자 프라이버시와 민감한 정보를 어떻게 보호하나요?
ASR은 데이터 전송 시 암호화를 적용해 사용자 프라이버시를 보호하며, 음성 데이터를 외부 서버로 전송하지 않고 기기 내에서 모델을 실행하는 옵션도 제공합니다. 많은 기업용 서비스 제공업체는 GDPR이나 HIPAA와 같은 개인정보 보호 규정을 준수하고, 민감한 정보를 보호하기 위해 데이터 익명화 기능도 지원합니다.
클라우드 기반 ASR 서비스와 기기 내 솔루션의 비용 차이는 어느 정도인가요?
클라우드 기반 ASR 서비스는 일반적으로 오디오 분당 또는 사용량에 따라 과금하며, 정확도와 기능에 따라 분당 $0.03~$1.00 이상까지 다양합니다. 반면, 온디바이스 솔루션은 초기 개발 비용과 라이선스 비용이 발생합니다.





.webp)
