- ASR은 머신러닝을 사용하여 음성을 텍스트로 변환하여 음성 명령과 실시간 트랜스크립션이 가능합니다.
- 최신 ASR 시스템은 개별 음소 모델(HMM-GMM)에서 전체 단어를 예측하는 딥 러닝 모델로 전환했습니다.
- ASR 성능은 대체, 삭제 또는 삽입으로 인한 오류를 포함한 단어 오류율(WER)로 측정되며, WER이 낮을수록 전사 품질이 우수합니다.
- ASR의 미래는 개인정보 보호를 위한 온디바이스 처리와 리소스가 적은 언어 지원에 초점을 맞추고 있습니다.
마지막으로 자막 없이 동영상을 시청한 것이 언제였나요?
예전에는 자막이 선택 사항이었지만, 이제는 원하든 원하지 않든 숏폼 동영상에 자막이 자동으로 삽입됩니다. 캡션이 콘텐츠에 너무 많이 포함되어 있어서 자막이 있다는 사실을 잊어버릴 정도입니다.
음성 단어를 텍스트로 빠르고 정확하게 변환하는 자동 음성 인식(ASR)은 이러한 변화를 뒷받침하는 기술입니다.
인공지능 음성 에이전트에 대해 생각할 때 우리는 단어 선택, 전달, 말하는 목소리 등을 떠올립니다.
하지만 상호작용의 유동성은 봇이 우리를 이해하는 데 달려 있다는 사실을 잊기 쉽습니다. 시끄러운 환경에서 "음"과 "아"를 통해 봇이 사용자를 이해하는 이 단계에 도달하는 것은 결코 쉬운 일이 아닙니다.
오늘은 이러한 캡션의 기반이 되는 기술인 자동 음성 인식(ASR)에 대해 이야기해 보겠습니다.
제 소개를 할게요: 저는 음성 기술 석사 학위를 받았으며, 여가 시간에는 최신 ASR 관련 서적을 읽거나 무언가를 만드는 것을 좋아합니다.
ASR의 기본 사항을 설명하고, 기술의 내부를 들여다보고, 이 기술이 앞으로 어떤 방향으로 나아갈지 추측해 보겠습니다.
ASR이란 무엇인가요?
자동 음성 인식(ASR) 또는 음성 텍스트 변환(STT)은 기계 학습 기술을 사용하여 음성을 서면 텍스트로 변환하는 프로세스입니다.
음성 관련 기술에는 비디오 캡션, 분석을 위한 고객 지원 상호작용의 전사, 음성 지원 상호작용의 일부 등 어떤 형태로든 ASR이 통합되어 있는 경우가 많습니다.
음성-텍스트 변환 알고리즘
기반 기술은 수년에 걸쳐 변화해 왔지만, 모든 반복은 어떤 형태로든 데이터와 모델이라는 두 가지 구성 요소로 이루어져 있습니다.
ASR의 경우 데이터는 음성(음성 언어의 오디오 파일 및 해당 필사본)이라는 레이블이 지정됩니다.
모델은 오디오에서 트랜스크립션을 예측하는 데 사용되는 알고리즘입니다. 레이블이 지정된 데이터는 보이지 않는 음성 예제에서도 일반화할 수 있도록 모델을 훈련하는 데 사용됩니다.

이는 일련의 단어를 특정 순서대로 들어본 적이 없거나 낯선 사람이 말해도 이해할 수 있는 것과 비슷합니다.
다시 말하지만, 모델의 종류와 세부 사항은 시간이 지남에 따라 변화해 왔으며, 속도와 정확성의 모든 발전은 데이터 세트와 모델의 크기와 사양에 달려 있습니다.
간단히 살펴보기: 특징 추출
텍스트 음성 변환에 관한 글에서 기능 또는 표현에 대해 이야기한 적이 있습니다. 이러한 기능은 과거와 현재의 ASR 모델에서 사용되고 있습니다.
음성을 피처로 변환하는 피처 추출은 거의 모든 ASR 파이프라인의 첫 번째 단계입니다.
간단히 말해 스펙트로그램이라고도 하는 이러한 기능은 음성에 대해 수행된 수학적 계산의 결과로, 발화 전체에서 유사성을 강조하고 화자 간의 차이를 최소화하는 형식으로 음성을 변환합니다.
즉, 서로 다른 두 화자가 말하는 동일한 발화는 목소리가 얼마나 다른지에 관계없이 비슷한 스펙트로그램을 갖게 됩니다.
제가 '음성으로부터 트랜스크립트를 예측하는' 모델에 대해 이야기할 것이라는 점을 알려드리기 위해 이 점을 지적하는 것입니다. 엄밀히 말하면 모델은 특징으로부터 예측하는 것입니다. 하지만 특징 추출 구성 요소를 모델의 일부로 생각할 수 있습니다.
초기 ASR: HMM-GMM
숨겨진 마르코프 모델(HMM) 과 가우스 혼합 모델(GMM) 은 딥 뉴럴 네트워크가 등장하기 이전의 예측 모델입니다.
최근까지 HMM이 ASR을 지배했습니다.
오디오 파일이 주어지면 HMM은 음소의 길이를 예측하고 GMM은 음소 자체를 예측합니다.
거꾸로 들리기도 하고, 실제로도 그렇습니다:
- HMM: "처음 0.2초는 음소입니다."
- GMM: "그 음소는 게리에서와 같이 G입니다."
오디오 클립을 텍스트로 변환하려면 몇 가지 추가 구성 요소가 필요합니다:
- 발음 사전: 어휘에 포함된 단어의 전체 목록과 해당 발음을 확인할 수 있습니다.
- 언어 모델: 어휘에 포함된 단어의 조합과 그 단어가 함께 나올 확률.
따라서 GMM이 /에프/를 /에스/로 예측하더라도 언어 모델은 화자가 싸움이 아니라 "당신의 생각에대한 한 푼"이라고 말했을 가능성이 훨씬 더 높다는 것을 알고 있습니다.
솔직히 말해서 이 파이프라인의 어느 한 부분도 예외적으로 좋은 부분이 없었기 때문입니다.
HMM은 정렬을 잘못 예측하고 GMM은 비슷한 소리를 착각합니다: /에스/와 /에프/, /피/와 /티/, 모음은 말할 것도 없고요.
그런 다음 언어 모델은 일관성 없는 음소들을 보다 언어다운 것으로 정리합니다.
딥러닝을 통한 엔드투엔드 ASR
이후 ASR 파이프라인의 많은 부분이 통합되었습니다.

철자, 맞춤법, 발음을 처리하기 위해 별도의 모델을 훈련시키는 대신, 단일 모델이 음성을 받아 정확한 철자의 단어와 요즘에는 타임스탬프까지 출력합니다.
(구현에서는 종종 추가 언어 모델을 사용하여 이 출력을 수정하거나 '재점수'하기도 합니다.)
그렇다고 해서 맞춤법이나 철자법 같은 다른 요소들이 특별한 관심을 받지 못하는 것은 아닙니다. 고도로 타겟팅된 문제에 대한 수정 사항을 구현하는 데 초점을 맞춘 문헌은 여전히 산더미처럼 쌓여 있습니다.
즉, 연구자들은 모델의 아키텍처를 변경하여 성능의 특정 요소를 타겟팅하는 방법을 생각해냅니다:
- 철자를 개선하기 위해 이전 출력에 따라 조건이 지정된 RNN-트랜스듀서 디코더입니다.
- 컨볼루션 다운샘플링을 통해 빈 출력을 제한하고 정렬을 개선합니다.
말도 안 된다는 거 알아요. 상사가 "쉬운 영어로 예시를 들어줄 수 있겠어?"라고 묻기 전에 앞서 나가려고요.
대답은 '아니오'입니다.
아니요.
ASR에서 성과는 어떻게 측정되나요?
ASR이 제대로 작동하지 않을 때는 바로 알 수 있습니다.
캐러멜라이제이션이 공산주의 아시아인으로 표기되는 것을 본 적이 있습니다. 크리스피니스 크리스 피니스 - 무슨 뜻인지 아시겠죠?
오류를 수학적으로 반영하기 위해 사용하는 메트릭은 단어 오류율(WER)입니다. WER의 공식은 다음과 같습니다:

Where:
- S는 치환 수(참조 텍스트와 일치하기 위해 예측 텍스트에서 변경된 단어 수)입니다.
- D는 삭제된 단어 수(참조 텍스트와 비교하여 출력에서 누락된 단어 수)입니다.
- I는 삽입 횟수(참조 텍스트와 비교하여 출력에 추가되는 단어)입니다.
- N은 참조의 총 단어 수입니다.
따라서 참조가 "고양이가 앉았다"라고 가정합니다.
- 모델이 "고양이가 가라앉았다"를 출력하면 이는 치환입니다.
- 모델이 "고양이 앉았다"를 출력하면 삭제된 것입니다.
- "고양이가 앉았다"가 출력되면 삽입입니다.
ASR의 활용 분야는 무엇인가요?
ASR은 멋진 도구입니다.
또한 중요한 산업 분야에서 안전, 접근성, 효율성을 개선하여 삶의 질을 향상하는 데도 도움이 되었습니다.
헬스케어
의사들에게 제가 음성 인식을 연구한다고 말하면 "오, 드래곤처럼요"라고 말합니다.
의료 분야에 생성형 AI가 도입되기 전에는 의사들이 제한된 어휘로 분당 30단어씩 구두로 메모를 작성했습니다.
ASR은 의사들이 경험하는 광범위한 번아웃을 억제하는 데 큰 성공을 거두었습니다.
의사들은 산더미처럼 쌓인 서류 작업과 환자를 돌봐야 할 필요성 사이에서 균형을 잡아야 합니다. 2018년 초, 연구자들은 의사의 진료 능력을 향상시키기 위해 상담에 디지털 녹취를 사용해야 한다고 주장했습니다.
상담을 소급하여 문서화하면 환자와의 대면 시간을 빼앗길 뿐만 아니라 실제 상담 내용을 요약하는 것보다 훨씬 정확도가 떨어지기 때문입니다.
스마트 홈
제가 하는 농담이 있습니다.
불을 끄고 싶지만 일어나고 싶지 않을 때는 마치 박수 치는 사람처럼 두 번 연속으로 박수를 칩니다.
제 파트너는 절대 웃지 않습니다.
음성 인식 스마트 홈은 미래지향적이면서도 부끄러울 정도로 방종한 느낌을 줍니다. 그런 것 같습니다.
물론 편리하긴 하지만, 많은 경우 다른 방법으로는 불가능했던 일을 가능하게 해줍니다.
하루 종일 일어나서 다이얼을 조작해야 한다면 조명과 온도 조절기를 조금만 조정하는 것이 불가능할 것입니다.
음성 활성화는 이러한 사소한 조정이 더 쉬울 뿐만 아니라 사람의 말의 뉘앙스도 읽어냅니다.
예를 들어, "더 차갑게 해줄래?"라고 말하면 어시스턴트는 자연어 처리를 통해 현재 온도 등 다양한 데이터를 고려하여 요청을 해석합니다. 어시스턴트는 자연어 처리를 통해 현재 온도, 일기 예보, 다른 사용자의 온도 조절기 사용 데이터 등 다양한 데이터를 고려하여 사용자의 요청을 온도 변화로 번역합니다.
사람이 하는 일은 사람이 하고, 컴퓨터가 하는 일은 컴퓨터에 맡기세요.
느낌에 따라 난방 온도를 몇 도 낮춰야 하는지 추측하는 것보다 훨씬 쉽습니다.
한 가지 예를 들어 음성 인식 스마트 조명으로 에너지 소비를 80%까지 줄인 가정이 있다는 보고가 있을 정도로 에너지 효율도 높습니다.
고객 지원
의료진과도 이에 대해 이야기했지만, 대화 내용을 소급하여 요약하는 것이 사람들이 소급하여 요약하는 것보다 훨씬 더 효과적입니다.
다시 말하지만, 시간이 절약되고 더 정확합니다. 자동화를 통해 사람들이 업무에 더 집중할 수 있는 시간을 확보할 수 있다는 사실을 거듭 깨닫게 됩니다.
ASR로 강화된 고객 지원의 첫 번째 통화 해결률이 25% 더 높은 고객 지원 분야만큼 그 사실을 잘 보여주는 곳은 없습니다.
전사 및 요약은 고객의 감정과 문의에 따라 해결책을 찾는 프로세스를 자동화하는 데 도움이 됩니다.
차량 내 어시스턴트
여기서는 홈 어시스턴트에 편승하고 있지만, 언급할 만한 가치가 있습니다.
음성 인식은 운전자의 인지 부하와 시각적 산만함을 줄여줍니다.
주의 분산이 충돌 사고의 최대 30%를 차지하는 만큼, 이 기술을 도입하는 것은 안전을 위해 당연한 일입니다.
언어 병리학
ASR은 언어 병리를 평가하고 치료하는 도구로 오랫동안 사용되어 왔습니다.
기계는 작업을 자동화할 뿐만 아니라 사람이 할 수 없는 일도 해낸다는 점을 기억하는 것이 도움이 됩니다.
음성 인식은 사람의 귀로는 거의 감지할 수 없는 말의 미묘한 차이를 감지하여 레이더에 잡히지 않을 수 있는 말의 세부적인 부분을 잡아낼 수 있습니다.
ASR의 미래
STT는 더 이상 생각하지 않을 만큼 좋아졌습니다.
하지만 보이지 않는 곳에서 연구원들은 더 강력하고 접근하기 쉬우면서도 눈에 띄지 않게 만들기 위해 열심히 노력하고 있습니다.
ASR의 발전을 활용하는 몇 가지 흥미로운 트렌드를 골라 제 생각을 몇 가지 덧붙였습니다.
온디바이스 음성 인식
대부분의 ASR 솔루션은 클라우드에서 실행됩니다. 이미 들어보셨을 겁니다. 즉, 모델이 다른 곳의 원격 컴퓨터에서 실행된다는 뜻입니다.
휴대전화의 작은 프로세서로는 대용량 모델을 실행할 수 없거나 필사하는 데 시간이 오래 걸리기 때문입니다.
대신, 오디오는 인터넷을 통해 주머니에 넣고 다니기에는 너무 무거운 GPU를 실행하는 원격 서버로 전송됩니다. GPU는 ASR 모델을 실행하고 트랜스크립션을 장치로 반환합니다.

에너지 효율성과 보안을 위해(모든 사람이 자신의 개인 데이터가 사이버 공간에 떠다니는 것을 원하지는 않습니다) 휴대폰, 컴퓨터, 브라우저 엔진 등 디바이스에서 직접 실행할 수 있을 만큼 컴팩트한 모델을 만들기 위해 많은 연구가 진행되었습니다.
ASR 모델을 정량화하여 디바이스에서 실행할 수 있도록 하는 논문을 썼습니다. Picovoice는 지연 시간이 짧은 온디바이스 음성 AI를 개발하는 캐나다 회사인데, 정말 멋져 보입니다.
온디바이스 ASR을 사용하면 저소득층 커뮤니티에 서비스를 제공할 수 있는 잠재력과 함께 저렴한 비용으로 트랜스크립션을 이용할 수 있습니다.
트랜스크립트 우선 UI
오디오와 트랜스크립션 사이의 간격이 줄어들고 있습니다. 이는 무엇을 의미할까요?
Premiere Pro 및 Descript와 같은 동영상 편집기를 사용하면 단어를 클릭하면 타임스탬프로 이동하는 등 트랜스크립트를 통해 녹화물을 탐색할 수 있습니다.
여러 번 찍어야 하나요? 텍스트 편집기 스타일로 마음에 드는 부분을 선택하고 나머지는 지우세요. 자동으로 동영상을 다듬어 줍니다.
파형만으로 이런 종류의 편집을 하는 것은 매우 실망스러운 일이지만, 트랜스크립트 기반 편집기가 있으면 엄청나게 쉬워집니다.
마찬가지로, WhatsApp 같은 메시징 서비스에서는 음성 메모를 텍스트로 변환하여 텍스트를 통해 스크롤할 수 있도록 하고 있습니다. 단어 위로 손가락을 밀면 녹음의 해당 부분으로 이동합니다.

재미있는 이야기입니다: 저는 실제로 Apple이 비슷한 기능을 발표하기 약 일주일 전에 이와 비슷한 것을 만들었습니다.
이러한 사례는 복잡한 내부 기술을 최종 사용자 애플리케이션에 단순성과 직관성을 부여하는 방법을 보여줍니다.
지금 ASR 사용 시작하기
어떤 비즈니스에서든 ASR을 사용하는 것은 어렵지 않습니다. 다만 어떻게 시작해야 할지 궁금할 뿐입니다. ASR은 어떻게 구현하나요? 데이터를 다른 도구로 어떻게 전달할 수 있을까요?
Botpress 사용하기 쉬운 트랜스크립션 카드와 함께 제공됩니다. 드래그 앤 드롭 플로우로 통합할 수 있으며, 애플리케이션과 커뮤니케이션 채널 전반에 걸친 수십 가지 통합 기능으로 더욱 강화되었습니다.
지금 바로 구축을 시작하세요. 무료입니다.
자주 묻는 질문
다양한 억양과 시끄러운 환경에서 최신 ASR은 얼마나 정확할까요?
최신 ASR 시스템은 주요 언어의 일반적인 악센트에 대해 놀라울 정도로 정확하며 깨끗한 조건에서 10% 미만의 단어 오류율(WER)을 달성하지만 악센트나 방언이 심하거나 배경 소음이 크면 정확도가 눈에 띄게 떨어집니다. Google이나 Microsoft와 같은 공급업체는 다양한 음성 데이터로 모델을 훈련시키지만 시끄러운 환경에서의 완벽한 트랜스크립션은 여전히 과제로 남아 있습니다.
ASR은 전문 용어 또는 산업별 용어를 전사하는 데 신뢰할 수 있나요?
ASR은 학습 데이터가 일반적으로 일반 언어에 치우쳐 있고 익숙하지 않은 단어가 잘못 표기되거나 생략될 수 있기 때문에 전문 용어나 산업별 용어에 대해서는 즉시 사용 시 신뢰도가 떨어집니다. 하지만 엔터프라이즈 솔루션을 사용하면 맞춤형 어휘, 도메인별 언어 모델 및 발음 사전을 통해 의료, 법률 또는 엔지니어링과 같은 분야의 전문 용어 인식을 개선할 수 있습니다.
무료 ASR 도구와 엔터프라이즈급 솔루션의 차이점은 무엇인가요?
무료 ASR 도구와 엔터프라이즈급 솔루션의 차이점은 정확성, 확장성, 사용자 지정, 개인정보 보호 제어에 있습니다. 무료 도구는 오류율이 높고, 언어 지원이 제한적이며, 사용량 제한이 있는 반면 엔터프라이즈 솔루션은 낮은 WER, 도메인별 사용자 지정, 통합, 서비스 수준 계약(SLA), 민감한 데이터를 처리하기 위한 강력한 보안 기능을 제공합니다.
ASR은 트랜스크립션 중에 사용자 개인정보와 민감한 정보를 어떻게 보호하나요?
ASR은 데이터 전송 중 암호화를 통해 사용자 개인정보를 보호하고, 음성 데이터를 외부 서버로 전송하지 않도록 디바이스 내에서 모델을 실행하는 등의 옵션을 제공합니다. 또한 많은 기업 제공업체는 GDPR 또는 HIPAA와 같은 개인정보 보호 규정을 준수하며 데이터를 익명화하여 민감한 정보를 보호할 수 있습니다.
클라우드 기반 ASR 서비스는 온디바이스 솔루션과 비교하여 얼마나 비쌀까요?
클라우드 기반 ASR 서비스는 일반적으로 오디오 분당 또는 사용 티어별로 요금이 부과되며, 정확도와 기능에 따라 분당 0.03~1.00달러 이상의 비용이 발생하는 반면, 온디바이스 솔루션에는 선불 개발 비용과 라이선스 비용이 포함됩니다.