- ASR chuyển đổi giọng nói thành văn bản bằng cách sử dụng máy học, cho phép ra lệnh bằng giọng nói và phiên âm theo thời gian thực.
- Các hệ thống ASR hiện đại đã chuyển từ các mô hình âm vị riêng biệt (HMM-GMM) sang các mô hình học sâu có khả năng dự đoán toàn bộ từ.
- Hiệu suất ASR được đo bằng Tỷ lệ lỗi từ (WER), với các lỗi đến từ việc thay thế, xóa hoặc chèn; WER thấp hơn = chất lượng phiên mã tốt hơn.
- Tương lai của ASR tập trung vào xử lý trên thiết bị để đảm bảo quyền riêng tư và hỗ trợ các ngôn ngữ có ít tài nguyên.
Lần cuối cùng bạn xem phim không có phụ đề là khi nào?
Trước đây chúng là tùy chọn, nhưng giờ chúng xuất hiện trong các video ngắn dù chúng ta có muốn hay không. Phụ đề được nhúng vào nội dung đến nỗi bạn quên mất chúng ở đó.
Nhận dạng giọng nói tự động (ASR) — khả năng tự động chuyển đổi lời nói thành văn bản một cách nhanh chóng và chính xác — chính là công nghệ thúc đẩy sự thay đổi này.
Khi chúng ta nghĩ về một tác nhân giọng nói AI , chúng ta nghĩ đến cách lựa chọn từ ngữ, cách truyền đạt và giọng nói mà nó nói.
Nhưng thật dễ quên rằng tính trôi chảy của các tương tác của chúng ta phụ thuộc vào việc bot hiểu chúng ta. Và đạt đến điểm này — bot hiểu bạn thông qua những tiếng "ừm" và "à" trong môi trường ồn ào — không phải là chuyện dễ dàng.
Hôm nay, chúng ta sẽ nói về công nghệ hỗ trợ cho những phụ đề đó: nhận dạng giọng nói tự động (ASR).
Cho phép tôi giới thiệu về bản thân: Tôi có bằng thạc sĩ về công nghệ giọng nói, và trong thời gian rảnh rỗi, tôi thích đọc những thông tin mới nhất về ASR, thậm chí là xây dựng các sản phẩm .
Tôi sẽ giải thích cho bạn những điều cơ bản về ASR, khám phá công nghệ này và đoán xem công nghệ này sẽ phát triển đến đâu tiếp theo.
ASR là gì?
Nhận dạng giọng nói tự động (ASR) hoặc chuyển giọng nói thành văn bản (STT) là quá trình chuyển đổi giọng nói thành văn bản viết thông qua việc sử dụng công nghệ máy học.
Các công nghệ liên quan đến giọng nói thường tích hợp ASR ở một số khả năng; có thể dùng để thêm phụ đề cho video, ghi lại các tương tác hỗ trợ khách hàng để phân tích hoặc là một phần của tương tác với trợ lý giọng nói , v.v.
Thuật toán chuyển giọng nói thành văn bản
Các công nghệ cơ bản đã thay đổi theo thời gian, nhưng tất cả các lần lặp lại đều bao gồm hai thành phần dưới hình thức này hay hình thức khác: dữ liệu và mô hình .
Trong trường hợp ASR, dữ liệu được dán nhãn là lời nói – tệp âm thanh của ngôn ngữ nói và bản ghi tương ứng .
Mô hình là thuật toán được sử dụng để dự đoán bản ghi từ âm thanh . Dữ liệu được gắn nhãn được sử dụng để đào tạo mô hình, để nó có thể khái quát hóa trên các ví dụ giọng nói chưa từng thấy.

Điều này giống như cách bạn có thể hiểu một loạt các từ, ngay cả khi bạn chưa từng nghe chúng theo thứ tự cụ thể đó hoặc chúng được nói bởi một người lạ.
Một lần nữa, các loại mô hình và thông số cụ thể của chúng đã thay đổi theo thời gian, và mọi tiến bộ về tốc độ và độ chính xác đều phụ thuộc vào kích thước và thông số kỹ thuật của tập dữ liệu và mô hình.
Tóm tắt nhanh: Trích xuất tính năng
Tôi đã nói về các tính năng hoặc biểu diễn trong bài viết của tôi về chuyển văn bản thành giọng nói. Chúng được sử dụng trong các mô hình ASR trước đây và hiện tại.
Trích xuất tính năng — chuyển đổi giọng nói thành tính năng — là bước đầu tiên trong hầu hết các quy trình ASR.
Tóm lại, những đặc điểm này, thường là phổ âm , là kết quả của phép tính toán toán học được thực hiện trên giọng nói và chuyển đổi giọng nói thành định dạng nhấn mạnh điểm tương đồng trong một câu nói và giảm thiểu sự khác biệt giữa những người nói.
Nghĩa là, cùng một câu nói được nói ra bởi 2 người khác nhau sẽ có phổ âm tương tự nhau, bất kể giọng nói của họ khác nhau như thế nào.
Tôi chỉ ra điều này để cho bạn biết rằng tôi sẽ nói về các mô hình "dự đoán bản ghi từ giọng nói". Về mặt kỹ thuật thì điều đó không đúng; các mô hình đang dự đoán từ các tính năng . Nhưng bạn có thể coi thành phần trích xuất tính năng là một phần của mô hình.
ASR sớm: HMM-GMM
Mô hình Markov ẩn (HMM) và mô hình hỗn hợp Gaussian (GMM) là các mô hình dự đoán có từ trước khi mạng nơ-ron sâu xuất hiện.
Cho đến gần đây, HMM vẫn thống trị ASR.
Với một tệp âm thanh, HMM sẽ dự đoán độ dài của một âm vị, còn GMM sẽ dự đoán chính âm vị đó.
Nghe có vẻ ngược đời, nhưng thực ra nó đúng là như thế này:
- HMM: “0,2 giây đầu tiên là một âm vị.”
- GMM: “Âm vị đó là chữ G , như trong chữ Gary .”
Việc chuyển một đoạn âm thanh thành văn bản sẽ cần thêm một số thành phần bổ sung, cụ thể là:
- Từ điển phát âm: danh sách đầy đủ các từ trong vốn từ vựng, kèm theo cách phát âm tương ứng.
- Mô hình ngôn ngữ: Sự kết hợp các từ trong vốn từ vựng và khả năng xuất hiện đồng thời của chúng.
Vì vậy, ngay cả khi GMM dự đoán /f/ thay vì /s/, mô hình ngôn ngữ biết rằng khả năng người nói nói "a penny for your thoughts " cao hơn nhiều, chứ không phải "fights" .
Chúng tôi có tất cả những bộ phận này vì, nói một cách thẳng thắn, không có bộ phận nào trong đường ống này là đặc biệt tốt .
HMM sẽ dự đoán sai sự sắp xếp, GMM sẽ nhầm lẫn những âm tương tự: /s/ và /f/, /p/ và /t/, và đừng để tôi bắt đầu nói về nguyên âm.
Và sau đó mô hình ngôn ngữ sẽ dọn dẹp mớ hỗn độn gồm các âm vị không mạch lạc thành thứ gì đó mang tính ngôn ngữ hơn.
ASR đầu cuối với Học sâu
Rất nhiều bộ phận của đường ống ASR đã được hợp nhất.

Thay vì đào tạo các mô hình riêng biệt để xử lý chính tả, căn chỉnh và phát âm, một mô hình duy nhất sẽ tiếp nhận giọng nói và đưa ra (hy vọng là) các từ được viết đúng chính tả và ngày nay còn có cả dấu thời gian nữa.
(Mặc dù việc triển khai thường sửa lỗi hoặc "đánh giá lại" kết quả đầu ra này bằng một mô hình ngôn ngữ bổ sung.)
Điều đó không có nghĩa là các yếu tố khác nhau — như căn chỉnh và chính tả — không nhận được sự chú ý riêng. Vẫn còn rất nhiều tài liệu tập trung vào việc triển khai các bản sửa lỗi cho các vấn đề được nhắm mục tiêu cao.
Nghĩa là, các nhà nghiên cứu đưa ra những cách để thay đổi kiến trúc của mô hình nhằm vào các yếu tố cụ thể về hiệu suất của mô hình, chẳng hạn như:
- Bộ giải mã RNN-Transducer dựa trên các đầu ra trước đó để cải thiện chính tả.
- Giảm mẫu tích chập để hạn chế đầu ra trống, cải thiện sự liên kết.
Tôi biết điều này vô lý. Tôi chỉ muốn đi trước sếp của mình bằng câu "Anh có thể đưa ra một ví dụ bằng tiếng Anh thông thường không?"
Câu trả lời là không.
Không, tôi không thể.
Hiệu suất được đo lường như thế nào trong ASR?
Khi ASR làm việc không tốt, bạn sẽ biết ngay.
Tôi đã thấy caramelization được phiên âm là người châu Á cộng sản . Độ giòn đối với Chris p — bạn hiểu ý tôi chứ.
Đơn vị đo lường chúng tôi sử dụng để phản ánh lỗi toán học là tỷ lệ lỗi từ (WER) . Công thức của WER là:

Ở đâu:
- S là số lần thay thế (số từ được thay đổi trong văn bản dự đoán để phù hợp với văn bản tham chiếu)
- D là số lượng từ bị xóa (số từ bị thiếu trong kết quả đầu ra, so với văn bản tham chiếu)
- I là số lần chèn (các từ bổ sung vào đầu ra, so với văn bản tham chiếu)
- N là tổng số từ trong tài liệu tham khảo
Vì vậy, hãy nói rằng tài liệu tham khảo là "con mèo ngồi".
- Nếu mô hình đưa ra kết quả là “con mèo chìm”, thì đó là phép thay thế.
- Nếu mô hình trả về kết quả là “cat sat”, thì đó là lệnh xóa.
- Nếu kết quả trả về là “con mèo đã ngồi”, thì đó là lệnh chèn.
Ứng dụng của ASR là gì?
ASR là một công cụ tiện lợi.
Nó cũng giúp chúng ta cải thiện chất lượng cuộc sống thông qua việc cải thiện sự an toàn, khả năng tiếp cận và hiệu quả trong các ngành công nghiệp quan trọng.
Y tế
Khi tôi nói với các bác sĩ rằng tôi đang nghiên cứu về công nghệ nhận dạng giọng nói, họ nói "Ồ, giống như Dragon vậy".
Trước khi có AI tạo ra dữ liệu trong chăm sóc sức khỏe , các bác sĩ ghi chép bằng lời nói với tốc độ 30 từ một phút với vốn từ vựng hạn chế.
ASR đã rất thành công trong việc hạn chế tình trạng kiệt sức lan rộng ở các bác sĩ.
Các bác sĩ cân bằng giữa khối lượng giấy tờ khổng lồ với nhu cầu chăm sóc bệnh nhân. Ngay từ năm 2018, các nhà nghiên cứu đã kêu gọi sử dụng phiên âm kỹ thuật số trong các buổi tư vấn để cải thiện khả năng cung cấp dịch vụ chăm sóc của bác sĩ.
Bởi vì việc phải ghi chép lại các buổi tư vấn một cách hồi tố không chỉ làm mất thời gian gặp mặt trực tiếp với bệnh nhân mà còn kém chính xác hơn nhiều so với việc tóm tắt nội dung các buổi tư vấn thực tế.
Nhà thông minh
Tôi có câu chuyện cười này.
Khi tôi muốn tắt đèn nhưng lại không muốn đứng dậy, tôi sẽ vỗ tay hai lần liên tiếp — như thể tôi có một cái vỗ tay vậy.
Bạn đời của tôi không bao giờ cười.
Nhà thông minh kích hoạt bằng giọng nói vừa mang tính tương lai vừa mang tính xa xỉ đáng xấu hổ. Hoặc có vẻ như vậy.
Chắc chắn là chúng rất tiện lợi, nhưng trong nhiều trường hợp, chúng giúp chúng ta có thể làm được những việc mà bình thường không thể làm được.
Một ví dụ điển hình là mức tiêu thụ năng lượng: việc điều chỉnh nhỏ về đèn và bộ điều chỉnh nhiệt độ sẽ là điều bất khả thi trong suốt cả ngày nếu bạn phải đứng dậy và xoay núm vặn.
Kích hoạt bằng giọng nói có nghĩa là những điều chỉnh nhỏ này không chỉ dễ thực hiện hơn mà còn có thể hiểu được sắc thái trong lời nói của con người.
Ví dụ, bạn nói "bạn có thể làm cho nó mát hơn một chút không?" Trợ lý sẽ sử dụng xử lý ngôn ngữ tự nhiên để dịch yêu cầu của bạn thành sự thay đổi về nhiệt độ, tính đến một loạt dữ liệu khác: nhiệt độ hiện tại, dự báo thời tiết, dữ liệu sử dụng bộ điều nhiệt của những người dùng khác, v.v.
Bạn thực hiện phần việc của con người và để lại phần việc liên quan đến máy tính cho máy tính.
Tôi cho rằng điều đó dễ hơn nhiều so với việc bạn phải đoán xem nên giảm nhiệt độ xuống bao nhiêu độ dựa trên cảm giác của mình.
Và tiết kiệm năng lượng hơn: có báo cáo cho biết các gia đình đã giảm được 80% lượng điện tiêu thụ nhờ hệ thống chiếu sáng thông minh điều khiển bằng giọng nói.
Hỗ trợ khách hàng
Chúng tôi đã nói về vấn đề này với ngành chăm sóc sức khỏe, nhưng việc ghi chép và tóm tắt hiệu quả hơn nhiều so với việc mọi người đưa ra bản tóm tắt hồi tố về các tương tác.
Một lần nữa, nó tiết kiệm thời gian và chính xác hơn. Điều chúng ta học được nhiều lần là tự động hóa giải phóng thời gian để mọi người làm tốt hơn công việc của mình.
Và không nơi nào điều đó đúng hơn là trong lĩnh vực hỗ trợ khách hàng, nơi hỗ trợ khách hàng được tăng cường ASR có tỷ lệ giải quyết ngay cuộc gọi đầu tiên cao hơn 25% .
Việc phiên âm và tóm tắt giúp tự động hóa quá trình tìm ra giải pháp dựa trên cảm nhận và thắc mắc của khách hàng.
Trợ lý trong xe
Ở đây chúng tôi đang nhờ đến sự hỗ trợ của trợ lý tại nhà, nhưng điều này cũng đáng được nhắc đến.
Nhận dạng giọng nói giúp giảm tải nhận thức và sự mất tập trung thị giác cho người lái xe.
Và khi sự mất tập trung chiếm tới 30% số vụ va chạm , việc triển khai công nghệ này là giải pháp an toàn hiển nhiên.
Bệnh lý ngôn ngữ
ASR từ lâu đã được sử dụng như một công cụ để đánh giá và điều trị bệnh lý về giọng nói .
Điều cần nhớ là máy móc không chỉ tự động hóa các nhiệm vụ mà còn làm được những việc mà con người không thể làm được.
Nhận dạng giọng nói có thể phát hiện những chi tiết tinh tế trong lời nói mà tai người gần như không thể nghe thấy, nắm bắt được những chi tiết cụ thể của giọng nói bị ảnh hưởng mà nếu không sẽ không được chú ý.
Tương lai của ASR
STT đã trở nên đủ tốt để chúng ta không còn nghĩ tới nó nữa.
Nhưng đằng sau hậu trường, các nhà nghiên cứu đang nỗ lực làm cho nó trở nên mạnh mẽ hơn, dễ tiếp cận hơn — và ít bị chú ý hơn.
Tôi đã chọn một số xu hướng thú vị thúc đẩy những tiến bộ trong ASR và đưa vào đó một số suy nghĩ của riêng tôi.
Nhận dạng giọng nói trên thiết bị
Hầu hết các giải pháp ASR chạy trên đám mây. Tôi chắc rằng bạn đã từng nghe điều đó. Điều đó có nghĩa là mô hình chạy trên một máy tính từ xa , ở một nơi khác.
Họ làm như vậy vì bộ xử lý nhỏ của điện thoại không thể chạy được mô hình khổng lồ của họ, nếu không sẽ mất rất nhiều thời gian để sao chép bất cứ thứ gì.
Thay vào đó, âm thanh của bạn được gửi qua internet đến một máy chủ từ xa chạy GPU quá nặng để mang theo trong túi. GPU chạy mô hình ASR và trả lại bản ghi âm cho thiết bị của bạn.

Vì lý do tiết kiệm năng lượng và bảo mật (không phải ai cũng muốn dữ liệu cá nhân của mình trôi nổi trên không gian mạng), nhiều nghiên cứu đã được thực hiện để tạo ra các mô hình đủ nhỏ gọn để chạy trực tiếp trên thiết bị của bạn , có thể là điện thoại, máy tính hoặc trình duyệt.
Tôi đã viết luận án về việc lượng tử hóa các mô hình ASR để chúng có thể chạy trên thiết bị. Picovoice là một công ty Canada xây dựng AI giọng nói có độ trễ thấp trên thiết bị và chúng có vẻ thú vị.
ASR trên thiết bị giúp việc phiên âm có chi phí thấp hơn, có khả năng phục vụ cộng đồng thu nhập thấp.
Giao diện người dùng Transcript-First
Khoảng cách giữa âm thanh và bản ghi chép đang thu hẹp lại. Điều đó có nghĩa là gì?
Các trình chỉnh sửa video như Premiere Pro và Descript cho phép bạn điều hướng bản ghi của mình qua bản ghi chép: nhấp vào một từ và bạn sẽ được đưa đến mốc thời gian.
Phải thực hiện một vài lần quay? Chọn lần bạn thích nhất và xóa những lần khác theo kiểu trình soạn thảo văn bản. Nó sẽ tự động cắt video cho bạn.
Thật khó chịu khi phải chỉnh sửa theo kiểu đó chỉ với dạng sóng, nhưng lại cực kỳ dễ dàng khi bạn có trình chỉnh sửa dựa trên bản ghi.
Tương tự như vậy, các dịch vụ nhắn tin như WhatsApp đang ghi lại các ghi chú bằng giọng nói của bạn và cho phép bạn xem qua chúng thông qua văn bản. Trượt ngón tay của bạn qua một từ và bạn sẽ được đưa đến phần đó của bản ghi âm.

Câu chuyện vui: Thực ra tôi đã xây dựng thứ gì đó như thế này khoảng một tuần trước khi Apple công bố tính năng tương tự.
Những ví dụ này cho thấy các công nghệ phức tạp ẩn bên trong mang lại sự đơn giản và trực quan cho các ứng dụng của người dùng cuối.
Ngôn ngữ Công bằng, Bao gồm và Tài nguyên Thấp
Trận chiến vẫn chưa kết thúc.
ASR hoạt động tốt trong tiếng Anh và các ngôn ngữ phổ biến khác, có nhiều nguồn lực. Điều này không nhất thiết đúng với các ngôn ngữ có ít nguồn lực.
Có một khoảng cách trong các nhóm thiểu số phương ngữ, giọng nói bị ảnh hưởng và các vấn đề khác liên quan đến công bằng trong công nghệ giọng nói .
Xin lỗi vì đã cản trở những rung cảm tốt đẹp. Phần này được gọi là "tương lai" của ASR. Và tôi chọn hướng tới tương lai mà chúng ta có thể tự hào.
Nếu chúng ta muốn tiến bộ, chúng ta phải cùng nhau thực hiện, nếu không sẽ có nguy cơ gia tăng bất bình đẳng xã hội.
Bắt đầu sử dụng ASR ngay hôm nay
Bất kể doanh nghiệp của bạn là gì, sử dụng ASR là điều hiển nhiên — ngoại trừ việc bạn có thể đang tự hỏi làm thế nào để bắt đầu. Bạn triển khai ASR như thế nào? Bạn truyền dữ liệu đó sang các công cụ khác như thế nào?
Botpress đi kèm với các thẻ phiên âm dễ sử dụng. Chúng có thể được tích hợp vào luồng kéo và thả, được tăng cường với hàng chục tích hợp trên các ứng dụng và kênh truyền thông.
Bắt đầu xây dựng ngay hôm nay . Hoàn toàn miễn phí.
Câu hỏi thường gặp
ASR hiện đại chính xác đến mức nào đối với các giọng khác nhau và môi trường ồn ào?
Các hệ thống ASR hiện đại có độ chính xác ấn tượng đối với các giọng phổ biến trong các ngôn ngữ chính, đạt tỷ lệ lỗi từ (WER) dưới 10% trong điều kiện sạch sẽ, nhưng độ chính xác giảm đáng kể khi sử dụng giọng nặng, phương ngữ hoặc tiếng ồn nền đáng kể. Các nhà cung cấp như Google và Microsoft đào tạo mô hình trên dữ liệu giọng nói đa dạng, nhưng việc phiên âm hoàn hảo trong môi trường nhiều tiếng ồn vẫn là một thách thức.
ASR có đáng tin cậy khi phiên âm thuật ngữ chuyên ngành hoặc thuật ngữ cụ thể của ngành không?
ASR kém tin cậy hơn khi sử dụng ngay đối với thuật ngữ chuyên ngành hoặc thuật ngữ chuyên ngành vì dữ liệu đào tạo của nó thường thiên về lời nói chung chung; những từ không quen thuộc có thể bị phiên âm sai hoặc bỏ sót. Tuy nhiên, các giải pháp doanh nghiệp cho phép sử dụng các từ vựng tùy chỉnh, mô hình ngôn ngữ chuyên ngành và từ điển phát âm để cải thiện khả năng nhận dạng các thuật ngữ kỹ thuật trong các lĩnh vực như chăm sóc sức khỏe, luật hoặc kỹ thuật.
Sự khác biệt giữa các công cụ ASR miễn phí và các giải pháp cấp doanh nghiệp là gì?
Sự khác biệt giữa các công cụ ASR miễn phí và các giải pháp cấp doanh nghiệp nằm ở độ chính xác, khả năng mở rộng, tùy chỉnh và kiểm soát quyền riêng tư: các công cụ miễn phí thường có tỷ lệ lỗi cao hơn, hỗ trợ ngôn ngữ hạn chế và giới hạn sử dụng, trong khi các giải pháp doanh nghiệp cung cấp WER thấp hơn, tùy chỉnh theo miền cụ thể, tích hợp, thỏa thuận cấp độ dịch vụ (SLA) và các tính năng bảo mật mạnh mẽ để xử lý dữ liệu nhạy cảm.
ASR bảo vệ quyền riêng tư của người dùng và thông tin nhạy cảm trong quá trình phiên âm như thế nào?
ASR bảo vệ quyền riêng tư của người dùng thông qua mã hóa trong quá trình truyền dữ liệu và cung cấp các tùy chọn như chạy mô hình trên thiết bị để tránh gửi dữ liệu giọng nói đến các máy chủ bên ngoài. Nhiều nhà cung cấp dịch vụ doanh nghiệp cũng tuân thủ các quy định về quyền riêng tư như GDPR hoặc HIPAA và có thể ẩn danh dữ liệu để bảo vệ thông tin nhạy cảm.
Dịch vụ ASR trên nền tảng đám mây đắt hơn giải pháp trên thiết bị như thế nào?
Các dịch vụ ASR dựa trên đám mây thường tính phí theo phút âm thanh hoặc theo mức sử dụng, với chi phí dao động từ 0,03 đến 1,00 đô la trở lên cho mỗi phút tùy thuộc vào độ chính xác và tính năng, trong khi các giải pháp trên thiết bị liên quan đến chi phí phát triển trả trước và phí cấp phép.