- ASR 利用機器學習將語音轉換為文字,實現語音指令和即時轉錄。
- 現代的 ASR 系統已從獨立的音素模型 (HMM-GMM) 轉變為預測整個單字的深度學習模型。
- ASR 的效能是以文字錯誤率 (Word Error Rate, WER) 來衡量,錯誤來自於取代、刪除或插入;較低的 WER = 較佳的轉錄品質。
- ASR 未來的發展重點在於裝置上的隱私權處理,以及對低資源語言的支援。
您上一次觀看沒有字幕的影片是什麼時候?
過去字幕是可有可无的,但現在無論我們要不要字幕,短片中都會出現字幕。字幕如此嵌入內容,以至於您會忘記它們的存在。
自動語音辨識 (ASR) - 能夠快速、準確地將口頭說話自動轉換成文字 - 是推動這一轉變的技術。
當我們想到AI 語音代理時,我們會想到它的用詞選擇、傳遞方式以及它說話的聲音。
但我們很容易忘記,我們互動的流暢度有賴於機器人對我們的瞭解。要達到這一點 - 讓機器人在嘈雜的環境中透過「嗯」和「啊」來了解您 - 並不是一件容易的事。
今天,我們要討論的是為這些字幕提供動力的技術:自動語音辨識 (ASR)。
請允許我自我介紹:我擁有語音技術碩士學位,閒暇時喜歡閱讀 ASR 的最新資訊,甚至還會製作一些東西。
我將向您解釋 ASR 的基本原理,窺探這項技術的秘密,並猜測這項技術下一步的發展方向。
什麼是 ASR?
自動語音辨識 (ASR) 或語音轉文字 (STT) 是透過使用機器學習技術將語音轉化成文字的過程。
涉及語音的技術通常會以某種方式整合 ASR;它可以用於視訊字幕、轉錄客戶支援互動以進行分析,或是語音助理互動的一部分等等。
語音轉文字演算法
多年來,底層技術不斷改變,但所有的迭代都以某種形式包含兩個元件:資料和模型。
在 ASR 的情況下,資料是標示的語音 - 口語的音訊檔案及其對應的轉錄。
模型是用來預測音訊轉錄的演算法。標記資料用於訓練模型,使其能在未見過的語音範例中概括。

這很像您可以理解一連串的單字,即使您從未聽過它們的特定順序,或是它們是由陌生人說出來的。
同樣地,模型的種類及其規格隨著時間的推移而改變,所有在速度和精確度上的進步都歸結於資料集和模型的大小和規格。
快速旁觀:特徵抽取
我在有關文字轉語音的文章中談過特徵或表示法。這些特徵用於過去和現在的 ASR 模型。
特徵萃取 - 將語音轉換為特徵 - 是幾乎所有 ASR 管道的第一步。
簡單來說,這些特徵(通常是頻譜圖)是對語音進行數學運算的結果,並將語音轉換成一種格式,強調語句之間的相似性,並將不同講話者之間的差異減到最小。
例如,由兩個不同的講者說出的相同語句會有相似的頻譜圖,不論他們的聲音有多大的差異。
我指出這一點是要讓您知道,我會說到模型「從語言預測轉錄」。這在技術上並不正確;模型是從特徵來預測。 但您可以將特徵萃取元件視為模型的一部分。
早期 ASR:HMM-GMM
隱马尔可夫模型 (HMM)和高斯混合模型 (GMM)是深度神經網路取代之前的預測模型。
直到最近,HMM 在 ASR 中一直佔據主導地位。
給定一個音訊檔案,HMM 會預測音素的持續時間,而 GMM 則會預測音素本身。
聽起來很倒退,而且有點像:
- HMM:「前 0.2 秒是音素」。
- GMM:「那個音素是G,就像Gary 一樣」。
將音訊片段轉換成文字需要一些額外的元件,即
- 發音字典:詞彙中詞彙的詳盡列表,以及相應的發音。
- 語言模型:詞彙中的詞彙組合及其共同出現的可能性。
因此,即使 GMM 預測 /f/ 多於 /s/,語言模型也知道講話者更有可能說的是 "a penny for yourthoughts",而不是foughts。
我們有所有這些零件,因為說穿了,這條管線沒有任何零件是特別好的。
HMM 會錯誤預測排列,GMM 會錯誤預測相似的聲音:/s/ 和 /f/,/p/ 和 /t/,甚至不要讓我開始元音。
然後,語言模型會將亂七八糟、不連貫的音素清理成更像語言的東西。
使用深度學習的端對端 ASR
自此之後,ASR 管道的許多部分都被整合在一起。

與其訓練不同的模型來處理拼寫、對齊和發音,不如使用單一模型來接收語音,並輸出(希望)拼寫正確的單字,如今還能輸出時間戳記。
(雖然實作通常會使用額外的語言模型來修正或「重新評分」此輸出)。
這並不是說不同的因素 (例如對齊和拼字) 沒有得到獨特的關注。仍有大量的文獻專注於針對高度目標性的問題進行修正。
也就是說,研究人員會想出一些方法來改變模型的架構,以針對其效能的特定因素,例如:
- RNN-Transducer 解碼器以先前的輸出為條件,以改善拼寫。
- 卷積下取樣限制空白輸出,改善對齊。
我知道這是胡說八道。我只是想趕在我老闆說 「你能舉個簡單的例子嗎?」之前說說而已。
答案是否定的。
不,我不能。
ASR 如何衡量績效?
當 ASR 做得不好時,你就會知道。
我見過焦糖轉錄為共產亞洲人。CrispinesstoChris p -你懂的。
我們用來數學反映錯誤的指標是字錯率 (WER)。WER 的公式為

在哪裡?
- S是取代的字數(為了與參考文本相符而在預測文本中變更的字數)
- D是刪除的字數(與參考文本相比,輸出中遺漏的字數)
- I是插入的字數(與參考文本相比,在輸出中增加的字數)。
- N 是參考文獻中的總字數
所以,比方說指的是 「貓坐著」。
- 如果模型輸出「貓沉了」,那就是替代。
- 如果模型輸出「cat sat」,那就是刪除。
- 如果輸出 "the cat has sat",那就是插入。
ASR 有哪些應用?
ASR 是個精巧的工具。
它也幫助我們在關鍵產業中,透過改善安全性、無障礙性和效率,提升我們的生活品質。
醫療
當我告訴醫生我研究語音辨識時,他們會說「哦,就像Dragon」。
在醫療照護領域尚未有產生式人工智慧之前,醫生只能以每分鐘 30 個字的速度記錄口頭筆記,詞彙量非常有限。
ASR 在遏制醫生普遍存在的倦怠感方面取得了巨大成功。
醫生既要兼顧堆積如山的文書工作,又要照顧病人。早在 2018 年,研究人員就懇求在會診中使用數位轉錄,以改善醫生提供照護的能力。
這是因為必須追溯性地記錄諮詢過程,不僅剝奪了與病患面對面的時間,而且也遠遠不如實際諮詢過程的謄本摘要來得精確。
智慧家庭
我有個笑話
當我想關燈但又不想起身時,我會快速連續拍手兩下 - 就好像我有一個拍手器一樣。
我的搭檔從不笑。
聲控智慧居家既有未來感,也有可恥的放縱。看起來也是如此。
當然,它們很方便,但在很多情況下,它們讓我們可以做一些在其他情況下無法做到的事情。
能源消耗就是一個很好的例子:如果您必須起身玩弄錶盤,那麼一整天都無法對照明和恆溫器進行微小的調整。
語音啟動意味著這些細微的調整不僅更容易進行,而且還能讀取人類語音的細微差異。
舉例來說,您說「能不能讓溫度低一點?助理會使用自然語言處理將您的要求轉換為溫度變化,並考慮到一系列其他資料:當前溫度、天氣預報、其他使用者的恆溫器使用資料等。
您只負責人的部分,而把電腦的部分交給電腦處理。
我認為這比您憑感覺猜測要把暖氣調低多少度要容易得多。
而且更節能,舉例來說,有報告指出家庭使用聲控智慧照明可減少 80% 的能源消耗。
客戶支援
我們在醫療照護方面談過這個問題,但先記錄後總結的方式比人們追溯性地總結互動內容要有效得多。
同樣地,它可以節省時間,而且更精確。我們一再了解到的是,自動化可以騰出時間讓人們更好地完成工作。
在客戶支援方面更是如此,ASR 增強的客戶支援的首次呼叫解決率提高了 25%。
轉錄和總結有助於自動化根據客戶的情緒和疑問找出解決方案的過程。
語言病理學
ASR 長久以來一直被用作評估和治療言語病變的工具。
請記住,機器不僅能自動執行任務,還能完成人類無法完成的工作。
語音識別可以偵測到人耳幾乎無法察覺的語音細微差異,捕捉受影響語音的細節,否則這些細節可能會被忽略。
ASR 的未來
STT 已經好到我們不再去想它了。
但在幕後,研究人員正努力地讓它變得更強大、更容易使用,而且不那麼引人注意。
我挑選了一些利用 ASR 進展的令人興奮的趨勢,並加入了一些我自己的想法。
裝置上語音辨識
大多數 ASR 解決方案都在雲端執行。我相信您一定聽過這種說法。這表示模型是在其他地方的遠端電腦上執行。
他們這樣做是因為您手機的小處理器不一定能運行他們的龐大機型,否則會花很長時間來轉錄任何東西。
取而代之的是,您的音訊會透過網際網路傳送到執行GPU 的遠端伺服器,GPU太重了,不可能隨身攜帶。GPU 會執行 ASR 模型,並將轉錄結果傳回您的裝置。

基於能源效率與安全性的考量 (不是每個人都希望自己的個人資料在網路空間中飄浮),許多研究人員致力於製造小巧的機型,以便直接在您的裝置(無論是手機、電腦或瀏覽器引擎) 上執行。
我寫過一篇論文,主題是如何量化 ASR模型,讓它們可以在裝置上執行。Picovoice是一家加拿大公司,正在建立低延遲的裝置上語音 AI,他們看起來很酷。
裝置上的 ASR 能以較低的成本提供轉錄服務,具有服務低收入社區的潛力。
謄本第一 UI
音訊與謄本之間的差距正在縮小。這意味著什麼?
Premiere Pro 和 Descript 等視訊編輯器可讓您透過轉錄本瀏覽您的錄音:按一下單字,它就會帶您到時間戳。
必須拍幾次嗎?挑選你最喜歡的,然後以文字編輯器的方式刪除其他。它會自動為您修剪影片。
只用波形來做這種編輯是非常令人沮喪的,但當您有了以謄本為基礎的編輯器時,就變得非常容易了。
同樣地,WhatsApp 等訊息服務也會轉錄您的語音筆記,並讓您透過文字瀏覽。用手指滑過某個字,您就會看到錄音的該部分。

有趣的故事:事實上,在 Apple 發佈類似功能前一個星期,我就做了類似這樣的東西。
這些範例顯示了複雜的底層技術如何為終端使用者應用程式帶來簡易性和直覺性。
公平、包容和低資源語言
這場仗還沒贏。
ASR 在英語和其他常見、資源充足的語言中運作良好。但對於資源較少的語言則未必如此。
在方言的少數族裔、受影響的語言以及其他語音技術的公平性問題上,都存在著差距。
抱歉打擾了大家的好心情。本節稱為 ASR 的「未來」。而我選擇期待一個我們可以引以為傲的未來。
如果我們要向前邁進,就應該一起努力,否則就有可能增加社會的不平等。
立即開始使用 ASR
無論您的業務是什麼,使用 ASR 都是毫無疑問的 - 只是您可能想知道如何開始。如何實作 ASR?如何將資料傳送到其他工具?
Botpress 提供易於使用的轉錄卡。它們可以整合到拖放流程中,並可透過應用程式和通訊管道進行數十種整合。
今天就開始建立。這是免費的。
常見問題
現代 ASR 對於不同口音和嘈雜環境的精確度如何?
現代的 ASR 系統對於主要語言的常見口音都有令人印象深刻的準確度,在乾淨的環境下可達到低於 10% 的單字錯誤率 (WER),但當口音重、方言或背景噪音大時,準確度就會明顯下降。Google 和 Microsoft 等供應商在各種語音資料上訓練模型,但在嘈雜環境中的完美轉錄仍是一項挑戰。
ASR 在轉錄專業術語或特定產業詞彙時是否可靠?
ASR 對於專業術語或特定產業的詞彙而言,開箱即用的可靠性較低,因為其訓練資料通常偏向於一般語音;不熟悉的詞彙可能會被錯誤轉譯或遺漏。不過,企業級解決方案可使用自訂詞彙、特定領域的語言模型和發音字典,以改善醫療保健、法律或工程等領域的專業術語辨識能力。
免費 ASR 工具與企業級解決方案有何差異?
免費 ASR 工具與企業級解決方案的差異在於精確度、可擴充性、客製化和隱私權控制:免費工具通常有較高的錯誤率,有限的語言支援和使用上限,而企業級解決方案則提供較低的 WER、特定領域的客製化、整合、服務等級協定 (SLA) 和處理敏感資料的強大安全功能。
ASR 如何在轉錄過程中保護使用者隱私和敏感資訊?
ASR 透過資料傳輸期間的加密來保護使用者隱私,並提供在裝置上執行模型等選項,以避免將語音資料傳送至外部伺服器。許多企業級供應商也遵守 GDPR 或 HIPAA 等隱私權法規,並可將資料匿名化以保護敏感資訊。
相較於裝置上的解決方案,雲端 ASR 服務的成本有多高?
雲端 ASR 服務通常以每分鐘音訊或使用量分級收費,依準確度和功能不同,每分鐘的成本從 0.03 美元到 1.00 美元以上不等,而裝置上的解決方案則涉及前期開發成本和授權費用。