- Chuyển văn bản thành giọng nói (TTS) chuyển đổi văn bản thành giọng nói giống thật bằng cách sử dụng mạng nơ-ron để có âm điệu và chất lượng giọng nói tự nhiên.
- Các quy trình TTS xử lý văn bản, phân tích ngôn ngữ học, tạo phổ đồ và tổng hợp âm thanh bằng bộ mã hóa giọng nói.
- TTS hỗ trợ chatbot, hệ thống định vị, giải trí, công cụ chăm sóc sức khỏe và giáo dục hòa nhập.
- TTS chất lượng cao cải thiện độ rõ ràng, giọng điệu thương hiệu, khả năng truy cập và niềm tin của người dùng trên nhiều ngành.
Tiếng Hà Lan ChatGPT nói giọng Đức (thỉnh thoảng). Nếu cố ý thì là ác ý. Nếu không thì là hấp dẫn.
Dù thế nào đi nữa, có thể khẳng định rằng trợ lý giọng nói AI đã tiến xa hơn nhiều so với Sam của Microsoft . Trên thực tế, chúng đã tiến xa hơn rất nhiều kể từ khi tôi học công nghệ giọng nói cách đây vài năm.
Và tôi ở đây để kể cho bạn nghe về nơi chúng tôi đã đến.
Chúng ta đã thần thoại hóa giọng nói tổng hợp kể từ ít nhất năm 1968, kể từ khi robot HAL xuất hiện trong bộ phim 2001: A Space Odyssey.

Không còn mang tính sang trọng và mang tính tương lai nữa, mà đã trở thành tiêu chuẩn: 89% người tiêu dùng lựa chọn thiết bị dựa trên việc thiết bị đó có hỗ trợ giọng nói hay không.
Nói cách khác, “Đừng chỉ giúp tôi; hãy nói chuyện với tôi ”.
Trong bài viết này, tôi sẽ thảo luận về chuyển đổi văn bản thành giọng nói - chuyển đổi văn bản thành âm thanh nói. Tôi sẽ nói về những gì diễn ra bên trong và những cách khác nhau mà công nghệ này được sử dụng trong các ngành công nghiệp.
Chuyển văn bản thành giọng nói là gì?
TTS là quá trình chuyển đổi văn bản thành âm thanh nói tổng hợp . Các phiên bản đầu tiên dựa trên việc xấp xỉ cơ học đường thanh quản của con người và ghép các bản ghi âm lại với nhau. Ngày nay, các hệ thống TTS sử dụng thuật toán mạng nơ-ron sâu để truyền tải các phát ngôn động, giống con người.
Có nhiều mô hình khác nhau tùy thuộc vào trường hợp sử dụng, chẳng hạn như tạo mô hình đàm thoại theo thời gian thực, khả năng kiểm soát biểu cảm và khả năng sao chép giọng nói.
Chuyển văn bản thành giọng nói hoạt động như thế nào?
TTS có 3 bước chính: đầu tiên, văn bản đầu vào được xử lý để đánh vần các ký hiệu, biểu thức và chữ viết tắt. Văn bản đã xử lý sau đó được chuyển qua mạng nơ-ron để chuyển đổi thành biểu diễn âm thanh (spectrogram). Cuối cùng, biểu diễn được chuyển thành giọng nói.
Như tôi đã đề cập, các nhà nghiên cứu đã thử nghiệm nhiều phương pháp tiếp cận TTS. Phương pháp mà chúng tôi đã áp dụng (và tôi nghĩ chúng tôi sẽ tiếp tục trong một thời gian) sử dụng tổng hợp giọng nói dựa trên mạng nơ-ron.
Việc mô hình hóa các lớp hiện tượng ngôn ngữ ảnh hưởng đến lời nói – phát âm, tốc độ, ngữ điệu – là một nhiệm vụ phức tạp.

Ngay cả với khả năng hộp đen gần như kỳ diệu của mạng nơ-ron, hệ thống TTS vẫn dựa vào một loạt các thành phần để mô phỏng giọng nói.
Thật khó để xác định chính xác một xu hướng; các công nghệ mới đang xuất hiện khắp nơi, đe dọa khiến các công nghệ trước đó trở nên lỗi thời.
Có một số thành phần chung tồn tại trong hầu hết các hệ thống TTS ở dạng này hay dạng khác.
1. Xử lý văn bản
Xử lý văn bản là bước mà hệ thống TTS xác định những từ nào sẽ được nói ra. Các chữ viết tắt, ngày tháng và ký hiệu tiền tệ được đánh vần và dấu câu bị loại bỏ.
Điều này không phải lúc nào cũng dễ dàng. “ Tiến sĩ ” có nghĩa là bác sĩ hay lái xe ? Còn CAD thì sao? Đô la Canada hay thiết kế hỗ trợ máy tính ?
Xử lý ngôn ngữ tự nhiên ( NLP ) có thể được sử dụng trong xử lý văn bản để giúp dự đoán cách diễn giải đúng dựa trên ngữ cảnh xung quanh. Nó đánh giá cách thuật ngữ mơ hồ (ví dụ: “ Bác sĩ.” ) phù hợp với toàn bộ câu như thế nào, vì vậy trong cụm từ “Bác sĩ Perron khuyên không nên làm như vậy”, NLP sẽ giải quyết dr. thành doctor .
2. Phân tích ngôn ngữ
Sau khi văn bản được xử lý, mô hình sẽ chuyển từ "Tôi nên nói gì?" sang "Tôi nên nói như thế nào?"
Phân tích ngôn ngữ là một phần của TTS chịu trách nhiệm diễn giải cách một câu nên được truyền đạt theo cao độ, giọng điệu và thời lượng. Nói cách khác:
- Mỗi âm thanh, âm tiết hoặc từ nên dài bao nhiêu?
- Ngữ điệu có nên tăng lên hay giảm xuống?
- Từ nào đang được nhấn mạnh?
- Sự thay đổi về âm lượng có thể phản ánh cảm xúc mong muốn như thế nào?
Tại sao ngữ điệu lại quan trọng
Giờ kể chuyện: Tôi đã có một buổi tư vấn ngắn cho một nhóm xây dựng mô hình TTS. Tôi nhận ra rằng ngữ điệu có thể tạo nên hoặc phá vỡ khả năng hiểu được một câu như thế nào. Tôi sẽ cho bạn thấy ý tôi là gì.
Sau đây là 3 cách nói của câu “Ồ, bạn có mong đợi điều đó không?”
Đầu tiên là tuyệt vời. Khoảng dừng sau “Whoa”, sự biến âm hướng lên trên ở âm tiết thứ hai của “expecting” (ex-PEC-ting). 10/10.
Câu thứ hai chỉ vừa đủ nắm bắt chất lượng câu hỏi bằng cách biến đổi ở từ cuối cùng (“... mong đợi ĐIỀU ĐÓ ”). Ngoài ra, các âm tiết còn lại có độ dài ít nhiều giống nhau, không có sự thay đổi về âm lượng hoặc cao độ. Tôi sẽ bảo khách hàng của mình “hãy bắt tay vào làm”.
Trường hợp cuối cùng là một trường hợp thú vị: "whoah" thật tuyệt – to, dài và có đường viền giảm dần. Sự tăng dần của câu hỏi xảy ra trong suốt " were you" và về cơ bản giữ nguyên cao độ trong suốt.
Đây là nơi mà nhiều hệ thống TTS tầm trung dừng lại: đủ đơn giản với cách truyền tải hợp lý. Vấn đề là, nó không phải như bạn nói - ít nhất là không phải trong hầu hết các ngữ cảnh.
Trong các hệ thống cũ hơn, những phẩm chất này được dự đoán bởi các thành phần riêng biệt: một mô hình sẽ tính toán thời gian kéo dài của từng âm thanh, một mô hình khác sẽ lập bản đồ về cách tăng và giảm độ cao của âm thanh.
Ngày nay, mọi thứ trở nên mờ nhạt hơn.
Mạng nơ-ron có xu hướng tự học các mẫu này bằng cách tiếp thu những chi tiết tinh tế của các tập dữ liệu đào tạo khổng lồ.
3. Mô hình âm thanh
Mô hình âm thanh là nơi văn bản được chuẩn hóa (và các đặc điểm ngôn ngữ được dự đoán, nếu có) được truyền qua mạng nơ-ron thần kinh để đưa ra biểu diễn trung gian.
Phổ đồ và Biểu diễn giọng nói
Biểu diễn trung gian thường là một quang phổ – biểu diễn tần số theo thời gian của tín hiệu âm thanh – mặc dù điều đó đang thay đổi.
Sau đây là biểu diễn được tạo ra bởi mô hình TTS từ văn bản đầu vào của chúng ta “ Whoa, were you expected that? ”:

Hình ảnh 2 chiều này thực chất là 146 lát cắt theo chiều dọc, mỗi lát cắt chứa 80 tần số. Tần số mạnh hơn thì sáng hơn, còn tần số yếu hơn thì tối hơn.
Đây là hình ảnh của bước thời gian thứ 10 (hoặc cột), xoay 90 độ sang phải:

Bạn có thể thấy tần số riêng lẻ và năng lượng của chúng.
Thoạt nhìn, quang phổ trông không có vẻ gì đặc biệt, nhưng một số hiện tượng ngôn ngữ rõ ràng xuất hiện ở đây:
- Những đường sóng được xác định rõ ràng đó là nguyên âm hoặc âm thanh giống nguyên âm như /w/, /r/ và /l/.
- Các đốm đen tượng trưng cho sự im lặng. Đó có thể là khoảng dừng để chấm câu.
- Các khối năng lượng ở trên cao tượng trưng cho tiếng ồn, giống như tiếng ồn bạn nghe thấy trong /s/, /sh/ và /f/
Trên thực tế, bạn thậm chí có thể sắp xếp các từ trong quang phổ nếu bạn nhìn kỹ.

Phổ âm thanh, với nhiều dạng khác nhau, là dạng biểu diễn được sử dụng rộng rãi trong công nghệ giọng nói vì chúng là phương tiện trung gian rất tốt giữa giọng nói thô và văn bản .
Hai bản ghi âm cùng một câu do hai người nói khác nhau sẽ có dạng sóng rất khác nhau, nhưng phổ âm lại rất giống nhau.
4. Tổng hợp âm thanh (Vocoding)
Giai đoạn tổng hợp là giai đoạn chuyển đổi quang phổ thành âm thanh.
Công nghệ thực hiện chuyển đổi này được gọi là vocoder . Chúng là các mô hình mạng nơ-ron được đào tạo để tái tạo tín hiệu giọng nói dựa trên biểu diễn phổ của chúng.
Lý do tách mô hình biểu diễn và tín hiệu giọng nói thành các mô-đun riêng biệt là về kiểm soát: mô-đun đầu tiên là về mô hình chính xác cách phát âm và cách truyền đạt từ ngữ, mô-đun tiếp theo là về phong cách và tính chân thực của cách truyền đạt.
Với quang phổ, chúng ta có thể phân biệt giữa /s/ với /sh/, hoặc /ee/ (như trong heat ) với /ih/ (như trong hit ), nhưng phong cách và tính cách đến từ các chi tiết tinh tế do bộ mã hóa giọng nói tạo ra.
Sau đây là so sánh các kết hợp giữa các mô hình âm thanh và vocoder khác nhau. Nó minh họa cách các nhà nghiên cứu kết hợp và kết hợp các mô hình âm thanh và vocoder, và tối ưu hóa để có kết quả tổng thể tốt nhất.
Nhưng một lần nữa, giống như tất cả các thành phần khác, chúng ta đang chứng kiến quang phổ dần bị loại bỏ để thay thế bằng các mô hình tất cả trong một.
Các trường hợp sử dụng TTS là gì?
Khả năng tạo ra ngôn ngữ nói năng động là một công cụ thiết yếu trong mọi ngành nghề.
Không chỉ là những con robot tinh vi giúp chúng ta đạt được hiệu quả, khả năng tiếp cận và sự an toàn.
Chatbot và Trợ lý giọng nói
Bạn biết là tôi sẽ nói thế mà 😉
Giữa việc hiểu các lệnh của bạn, cập nhật danh sách mua sắm và đặt lịch hẹn, bạn dễ dàng coi nhẹ sự tinh vi - và tầm quan trọng - của giọng nói tổng hợp trong các tác nhân AI .
Một tác nhân tốt (tức là một tác nhân hữu ích ) phải có giọng nói phù hợp: đủ chào đón để đưa ra lệnh và đủ tính người để khiến người dùng tin rằng nó có thể thực hiện được lệnh.
Rất nhiều nghiên cứu và kỹ thuật được thực hiện để thuyết phục người dùng chỉ trong tích tắc khi họ quyết định xem trợ lý AI có "đúng" hay không.
Về mặt kinh doanh: chatbot của bạn đại diện cho thương hiệu của bạn. Những cải tiến trong công nghệ TTS có nghĩa là các tùy chọn để xây dựng thương hiệu bằng giọng nói tốt hơn và dịch vụ khách hàng hiệu quả hơn.
Điều hướng và Vận chuyển
Không gì có thể khiến bạn nhận ra tầm quan trọng của TTS tốt bằng việc GPS phát âm sai tên đường một cách khó hiểu khi bạn đang lái xe.
Định vị GPS là một ví dụ tuyệt vời về nơi mà TTS tỏa sáng: mắt chúng ta bận rộn, và việc truyền tải thông tin bằng âm thanh không chỉ mang lại sự tiện lợi mà còn đảm bảo an toàn.
Điều này cũng đúng ở các sân bay và hệ thống giao thông công cộng. Đối với các hệ thống được thiết kế phức tạp, khối lượng lớn như nhà ga xe lửa và nhà ga sân bay, giọng nói tổng hợp là rất quan trọng.
Nếu không có TTS, chúng ta sẽ phải dựa vào các thông báo trực tiếp, thường vội vàng và khó hiểu, hoặc các bản ghi âm ghép lại tên, thiết bị đầu cuối, thời gian, v.v., thành thật mà nói là rất khó nghe.
Với các nghiên cứu cho thấy mối liên hệ chặt chẽ giữa tính tự nhiên và khả năng hiểu được , TTS chất lượng cao là điều cần thiết cho một ngành vận tải phát triển mạnh mẽ.
Giải trí và Truyền thông
Khả năng tường thuật và phương tiện truyền thông đa ngôn ngữ đã trở nên phổ biến hơn nhờ công nghệ giọng nói tổng hợp được cải tiến.
Thay vì thay thế tài năng, công nghệ giọng nói giúp tăng cường hiệu suất biểu diễn kịch.
Val Kilmer, người đã mất giọng nói vì căn bệnh ung thư vòm họng, đã có một màn trình diễn đầy cảm xúc bằng giọng nói gốc của mình trong Top Gun: Maverick (2022) nhờ vào AI .
TTS cũng cho phép các nhà phát triển trò chơi đưa ra những lời thoại đa dạng, giàu biểu cảm cho các nhân vật không thể chơi được (NPC), một kỳ tích vốn không khả thi.
Y tế
Sự cải thiện trong TTS có nghĩa là khả năng truy cập được cải thiện trên mọi phương diện.
Công nghệ chăm sóc người cao tuổi giải quyết vấn đề đồng hành và hỗ trợ cùng lúc. Công nghệ này dựa vào khả năng tùy chỉnh mà TTS cung cấp: âm điệu từ bi, tốc độ thay đổi và ngữ điệu cẩn thận đều là một phần của việc cung cấp hỗ trợ hiệu quả và trang nghiêm.
TTS cũng đang được sử dụng để cải thiện khả năng tiếp cận cho những người trẻ tuổi.
Tập đoàn Acapela phát triển, trong số những thứ khác, công nghệ dành cho trẻ em mắc chứng rối loạn phát âm. Giọng nói tổng hợp tăng cường khả năng biểu đạt và tính độc lập của trẻ, đồng thời vẫn giữ nguyên đặc điểm giọng nói của trẻ.
Giáo dục và Học tập toàn diện
Chúng ta đã bắt gặp lời nói tổng hợp trong các ứng dụng học ngôn ngữ. Nhưng đó chỉ là phần nổi của tảng băng chìm.
Ví dụ, rào cản gia nhập học tập độc lập là khả năng đọc. Đối với trẻ em, người khiếm thị và một số khuyết tật học tập, điều đó không nhất thiết là có thể. Điều này đặt rất nhiều gánh nặng lên vai những giáo viên làm việc quá sức trong những lớp học quá đông.
Một khu học chánh ở California đã triển khai TTS để tạo ra môi trường học tập toàn diện hơn cho học sinh có nhu cầu đặc biệt.
Giống như trường hợp chăm sóc người cao tuổi, công nghệ giáo dục dựa vào giọng nói từ bi truyền tải với sự rõ ràng và nhấn mạnh nguyên sơ. Các thông số có thể thay đổi giúp giáo viên có thể tích hợp các công nghệ này vào bài học của mình, giúp học sinh cảm thấy được hòa nhập hơn.
Nhận TTS tốt nhất cho nhu cầu của bạn
Dù ngành nghề của bạn là gì, có thể khẳng định AI giọng nói luôn có liên quan. Và TTS mà bạn triển khai thực sự đại diện cho doanh nghiệp của bạn, vì vậy nó cần phải đáng tin cậy và có thể tùy chỉnh.
Botpress cho phép bạn xây dựng các bot mạnh mẽ, có khả năng tùy chỉnh cao với bộ tích hợp và triển khai trên tất cả các kênh truyền thông phổ biến. Trợ lý giọng nói của bạn không chỉ gây ấn tượng mà còn hoạt động.
Bắt đầu xây dựng ngay hôm nay . Hoàn toàn miễn phí.
Câu hỏi thường gặp
Có ngôn ngữ hoặc phương ngữ nào mà hệ thống TTS khó hỗ trợ không?
Đúng vậy, có những ngôn ngữ và phương ngữ mà hệ thống TTS gặp khó khăn trong việc hỗ trợ, đặc biệt là những ngôn ngữ có nguồn lực hạn chế, thiếu bộ dữ liệu lớn về giọng nói và văn bản được ghi âm. Các biến thể như phương ngữ vùng miền, ngôn ngữ thanh điệu và ngôn ngữ bản địa thường đặt ra thách thức vì chúng đòi hỏi các quy tắc phát âm và ngữ điệu tinh tế mà các mô hình chuẩn chưa được đào tạo. Ngay cả đối với các ngôn ngữ được sử dụng rộng rãi, sự khác biệt về phương ngữ có thể dẫn đến phát âm sai hoặc giọng nói nghe không tự nhiên.
Giọng nói TTS có thể tùy chỉnh như thế nào về cao độ, tốc độ và cảm xúc?
Giọng nói TTS ngày nay có thể tùy chỉnh cao độ, tốc độ và cảm xúc một cách dễ dàng, nhờ kiến trúc mạng nơ-ron hiện đại cho phép kiểm soát chặt chẽ ngữ điệu và phong cách. Nhiều hệ thống TTS thương mại cho phép người dùng điều chỉnh tốc độ nói, ngữ điệu, âm lượng và giọng điệu biểu cảm để phù hợp với các ngữ cảnh khác nhau, chẳng hạn như lời kể chuyện bình tĩnh, thông báo phấn khích hoặc đối thoại cảm thông. Tuy nhiên, mức độ kiểm soát khác nhau tùy theo nhà cung cấp—một số chỉ cung cấp các thanh trượt cơ bản cho tốc độ và cao độ, trong khi một số khác cung cấp các thông số chi tiết cho biểu cảm cảm xúc và âm sắc giọng nói.
Dữ liệu giọng nói được xử lý bởi hệ thống TTS an toàn đến mức nào?
Tính bảo mật của dữ liệu giọng nói được xử lý bởi các hệ thống TTS phụ thuộc rất nhiều vào nhà cung cấp và phương thức triển khai. Các dịch vụ TTS trên nền tảng đám mây thường mã hóa dữ liệu khi truyền tải và khi lưu trữ, nhưng việc gửi thông tin nhạy cảm đến các máy chủ bên ngoài vẫn có thể gây ra rủi ro về quyền riêng tư nếu không có các thỏa thuận và biện pháp tuân thủ phù hợp như GDPR hoặc HIPAA. Việc triển khai tại chỗ hoặc tại biên mang lại tính bảo mật cao hơn vì âm thanh và văn bản không bao giờ rời khỏi cơ sở hạ tầng của tổ chức, giúp giảm thiểu rủi ro cho bên thứ ba.
Chi phí triển khai giải pháp TTS chất lượng cao cho doanh nghiệp là bao nhiêu?
Việc triển khai các giải pháp TTS chất lượng cao cho doanh nghiệp có thể tốn từ vài trăm dollars mỗi tháng cho các API dựa trên đám mây với mức sử dụng vừa phải, đến hàng chục hoặc hàng trăm nghìn cho việc phát triển giọng nói tùy chỉnh hoặc triển khai tại chỗ cho doanh nghiệp. Chi phí thường bao gồm phí cấp phép, chi phí sử dụng theo ký tự hoặc theo phút, nỗ lực tích hợp và phát triển, và có thể là phí thuê nhân sự giọng nói nếu tạo giọng nói tùy chỉnh. Các doanh nghiệp nhỏ thường bắt đầu với các dịch vụ theo đăng ký, trong khi các doanh nghiệp lớn hơn có thể đầu tư vào các giải pháp riêng biệt để đảm bảo tính nhất quán và quyền riêng tư của thương hiệu.
Cần bao nhiêu dữ liệu đào tạo để xây dựng giọng nói TTS chất lượng cao?
Việc xây dựng một giọng nói TTS chất lượng cao thường đòi hỏi từ vài giờ đến hàng chục giờ thu âm giọng nói chuyên nghiệp, rõ ràng, lý tưởng nhất là từ cùng một người nói và trong điều kiện ghi âm nhất quán. Các hệ thống TTS thần kinh hiện đại như Tacotron hoặc FastSpeech có thể đạt được chất lượng khá tốt chỉ với 2–5 giờ dữ liệu, nhưng để đạt được giọng nói tự nhiên, giàu cảm xúc và mạnh mẽ thường mất từ 10–20 giờ hoặc hơn. Để sao chép giọng nói hoặc giọng nói rất biểu cảm, cần có bộ dữ liệu lớn hơn và các bản ghi âm đa dạng bao gồm nhiều phong cách, cảm xúc và ngữ cảnh khác nhau.