- Text-to-speech (TTS) แปลงข้อความเป็นเสียงพูดสมจริงโดยใช้โครงข่ายประสาทเทียมเพื่อสร้างจังหวะเสียงและคุณภาพเสียงที่เป็นธรรมชาติ
- กระบวนการ TTS จะประมวลผลข้อความ วิเคราะห์ด้านภาษาศาสตร์ สร้างสเปกโตรแกรม และสังเคราะห์เสียงด้วย vocoder
- TTS ถูกนำไปใช้ในแชทบอท ระบบนำทาง ความบันเทิง เครื่องมือสุขภาพ และการศึกษาที่ทุกคนเข้าถึงได้
- TTS คุณภาพสูงช่วยเพิ่มความชัดเจน บุคลิกเสียงของแบรนด์ การเข้าถึง และความน่าเชื่อถือของผู้ใช้ในหลากหลายอุตสาหกรรม
Dutch ChatGPT พูดด้วยสำเนียงเยอรมัน (บางครั้ง) ถ้าตั้งใจทำก็ใจร้าย แต่ถ้าไม่ตั้งใจก็น่าสนใจดี
ไม่ว่าจะด้วยเหตุผลไหน ก็พูดได้เต็มปากว่า ผู้ช่วยเสียง AI พัฒนามาไกลจาก Microsoft’s Sam มาก ที่จริงแล้ว พัฒนามากกว่าตอนที่ฉันเรียนเทคโนโลยีเสียงเมื่อไม่กี่ปีก่อนเสียอีก
และฉันจะมาเล่าให้ฟังว่า ตอนนี้เราอยู่ตรงไหนแล้ว
เราเริ่มจินตนาการถึงเสียงสังเคราะห์มาตั้งแต่ปี 1968 แล้ว ตั้งแต่ HAL the robot ใน 2001: A Space Odyssey ปรากฏตัว

จากที่เคยดูหรูหราและล้ำยุค ทุกวันนี้กลายเป็นเรื่องปกติ: 89% ของผู้บริโภค ตัดสินใจเลือก อุปกรณ์จากว่ามีฟีเจอร์เสียงหรือไม่
พูดอีกอย่างคือ “อย่าช่วยแค่ตอบฉัน; พูดกับฉัน”
บทความนี้ฉันจะพูดถึง text-to-speech—การแปลงข้อความเป็นเสียงพูด พร้อมอธิบายเบื้องหลังการทำงาน และตัวอย่างการใช้งานในแต่ละอุตสาหกรรม
Text-to-Speech คืออะไร?
TTS คือกระบวนการ แปลงข้อความเป็นเสียงพูดสังเคราะห์ ระบบยุคแรกใช้กลไกเลียนแบบอวัยวะเสียงมนุษย์และนำคลิปเสียงมาต่อกัน ปัจจุบัน TTS ใช้อัลกอริทึม deep neural network เพื่อสร้างเสียงพูดที่เป็นธรรมชาติและมีชีวิตชีวา
มีโมเดลหลากหลายรูปแบบขึ้นกับการใช้งาน เช่น การสร้างเสียงแบบเรียลไทม์สำหรับแชทบอท การควบคุมอารมณ์เสียง หรือการเลียนแบบเสียงบุคคล
Text-to-Speech ทำงานอย่างไร?
TTS มี 3 ขั้นตอนหลัก: เริ่มจากประมวลผลข้อความเพื่อขยายสัญลักษณ์ คำย่อ และตัวย่อ จากนั้นส่งข้อความที่ประมวลผลแล้วเข้าโครงข่ายประสาทเทียมเพื่อแปลงเป็นตัวแทนเสียง (spectrogram) สุดท้ายจึงเปลี่ยนตัวแทนนั้นเป็นเสียงพูด
อย่างที่กล่าวไป นักวิจัยได้ลองใช้วิธีต่าง ๆ กับ TTS หลายแบบ วิธีที่ใช้กันในปัจจุบัน (และน่าจะใช้ต่อไปอีกนาน) คือการสังเคราะห์เสียงด้วยโครงข่ายประสาทเทียม
การจำลองชั้นของปรากฏการณ์ทางภาษา เช่น การออกเสียง ความเร็ว จังหวะน้ำเสียง เป็นงานที่ซับซ้อน

แม้โครงข่ายประสาทเทียมจะดูเหมือนกล่องดำวิเศษ ระบบ TTS ก็ยังต้องพึ่งพาหลายองค์ประกอบเพื่อเลียนแบบเสียงพูด
ยากที่จะบอกว่ามีขั้นตอนตายตัว เพราะเทคโนโลยีใหม่ ๆ เกิดขึ้นตลอดเวลาและอาจทำให้ของเดิมล้าสมัย
แต่ก็มีองค์ประกอบหลักบางอย่างที่พบในระบบ TTS ส่วนใหญ่ไม่ทางใดก็ทางหนึ่ง
1. การประมวลผลข้อความ
การประมวลผลข้อความคือขั้นตอนที่ระบบ TTS ตัดสินใจว่าจะพูดคำไหน คำย่อ วันที่ และสัญลักษณ์สกุลเงิน จะถูกขยายความ และเครื่องหมายวรรคตอนจะถูกตัดออก
ซึ่งไม่ใช่เรื่องง่ายเสมอไป เช่น “Dr.” หมายถึง หมอ หรือ ถนน? แล้ว CAD ล่ะ? ดอลลาร์แคนาดา หรือ การออกแบบด้วยคอมพิวเตอร์?
การประมวลผลภาษาธรรมชาติ (NLP) สามารถนำมาใช้ในการประมวลผลข้อความเพื่อช่วยทำนายการตีความที่ถูกต้องจากบริบทโดยรอบ โดยจะประเมินว่า คำที่กำกวม (เช่น “Dr.”) เหมาะสมกับประโยคโดยรวมอย่างไร ดังนั้นในวลี “Dr. Perron advised against it” NLP จะตีความ dr. ว่าเป็น doctor.
2. การวิเคราะห์ทางภาษา
เมื่อประมวลผลข้อความแล้ว โมเดลจะเปลี่ยนจาก “ควรพูดอะไร?” เป็น “ควรพูดยังไง?”
การวิเคราะห์ทางภาษาเป็นส่วนที่ TTS ใช้ตีความว่าจะถ่ายทอดประโยคนั้นอย่างไรในแง่ของระดับเสียง น้ำเสียง และความยาวของแต่ละเสียง หรือพูดง่าย ๆ ว่า:
- แต่ละเสียง พยางค์ หรือคำ ควรยาวแค่ไหน?
- ควรให้น้ำเสียงสูงขึ้นหรือต่ำลง?
- ควรเน้นคำไหน?
- จะเปลี่ยนระดับเสียงเพื่อสื่ออารมณ์ได้อย่างไร?
ทำไมจังหวะน้ำเสียงถึงสำคัญ
ขอเล่าเรื่องสั้น ๆ: ฉันเคยเป็นที่ปรึกษาให้ทีมสร้างโมเดล TTS แล้วก็เห็นชัดเลยว่า จังหวะน้ำเสียงมีผลต่อความเข้าใจของประโยคมากแค่ไหน เดี๋ยวจะยกตัวอย่างให้ดู
ต่อไปนี้คือ 3 แบบของประโยค “Whoa, were you expecting that?”
แบบแรกดีมาก มีการเว้นจังหวะหลัง “Whoa” และเสียงสูงขึ้นที่พยางค์ที่สองของ “expecting” (ex-PEC-ting) ให้คะแนนเต็ม 10 เต็ม 10
แบบที่สองพอจะสื่อว่าเป็นคำถามได้ตรงที่เสียงสูงขึ้นตอนท้าย (“... expecting THAT”) นอกนั้นเสียงแต่ละพยางค์ยาวเท่า ๆ กัน ไม่มีการเปลี่ยนระดับเสียงหรือจังหวะเลย ถ้าเป็นลูกค้าฉันคงบอกให้ “กลับไปวางแผนใหม่”
แบบสุดท้ายก็น่าสนใจ: “whoah” ดีมาก—ดัง ยาว และเสียงลดต่ำลง ส่วนเสียงสูงขึ้นแบบคำถามเกิดขึ้นระหว่าง “were you” และคงระดับเสียงไว้ตลอด
นี่คือจุดที่ระบบ TTS ทั่วไปหลายตัวหยุดไว้: ฟังดูสมเหตุสมผลแต่ยังไม่เหมือนที่คนพูดจริง ๆ ในหลาย ๆ สถานการณ์
ในระบบเก่า ๆ คุณสมบัติเหล่านี้จะถูกทำนายแยกกัน: โมเดลหนึ่งคำนวณความยาวของแต่ละเสียง อีกโมเดลหนึ่งกำหนดว่าระดับเสียงควรขึ้นหรือลงอย่างไร
แต่ปัจจุบัน ทุกอย่างเริ่มไม่ชัดเจนขึ้น
โครงข่ายประสาทเทียมมักเรียนรู้รูปแบบเหล่านี้เองจากข้อมูลฝึกขนาดใหญ่ที่มีรายละเอียดปลีกย่อยมากมาย
3. การสร้างแบบจำลองเสียง
การสร้างแบบจำลองเสียงคือขั้นตอนที่ข้อความที่ถูกปรับให้อยู่ในรูปแบบมาตรฐาน (และคุณสมบัติทางภาษาอื่น ๆ ถ้ามี) จะถูกส่งเข้าโครงข่ายประสาทเทียมเพื่อสร้างตัวแทนกลางขึ้นมา
สเปกโตรแกรมและตัวแทนเสียงพูด
ตัวแทนกลางนี้มักจะเป็น สเปกโตรแกรม—ภาพแสดงความถี่ของเสียงตามเวลา—แม้ตอนนี้จะเริ่มมีการเปลี่ยนแปลงบ้างแล้ว
นี่คือตัวแทนที่โมเดล TTS สร้างขึ้นจากข้อความ “Whoa, were you expecting that?”:

ภาพสองมิตินี้ประกอบด้วย 146 แถบแนวตั้ง แต่ละแถบมี 80 ความถี่ ความถี่ที่แรงจะสว่าง ส่วนที่อ่อนจะมืด
นี่คือหน้าตาของขั้นตอนที่ 10 (หรือคอลัมน์ที่ 10) เมื่อหมุนไปทางขวา 90 องศา:

จะเห็นความถี่แต่ละตัวและพลังงานของมัน
แม้ตอนแรกสเปกโตรแกรมจะดูไม่เข้าใจง่าย แต่ก็มีปรากฏการณ์ทางภาษาชัดเจนอยู่
- เส้นคลื่นที่ชัดเจนคือเสียงสระหรือเสียงคล้ายสระ เช่น /w/, /r/ และ /l/
- จุดมืดคือช่วงเงียบ อาจเป็นการเว้นวรรคตามเครื่องหมายวรรคตอน
- กลุ่มพลังงานที่อยู่สูงคือเสียงรบกวน เช่น เสียง /s/, /sh/ และ /f/
จริง ๆ แล้ว ถ้าสังเกตดี ๆ จะสามารถจับตำแหน่งคำในสเปกโตรแกรมได้

สเปกโตรแกรมในรูปแบบต่าง ๆ เป็นตัวแทนที่นิยมใช้ในเทคโนโลยีเสียง เพราะเป็น ตัวกลางที่ดีมากระหว่างเสียงดิบกับข้อความ
การบันทึกประโยคเดียวกันโดยคนพูดต่างกันจะได้คลื่นเสียงต่างกันมาก แต่สเปกโตรแกรมจะคล้ายกันมาก
4. การสังเคราะห์เสียง (Vocoding)
ขั้นตอนสังเคราะห์คือการแปลงสเปกโตรแกรมให้กลายเป็นเสียงพูด
เทคโนโลยีที่ใช้แปลงข้อมูลนี้เรียกว่า vocoder ซึ่งเป็นโมเดลโครงข่ายประสาทเทียมที่ถูกฝึกมาเพื่อสร้างสัญญาณเสียงพูดขึ้นใหม่จากข้อมูลสเปกโตรแกรม
เหตุผลที่ต้องแยกการสร้างตัวแทนเสียงกับการสร้างสัญญาณเสียงพูดออกเป็นโมดูลต่างหาก ก็เพื่อให้ควบคุมได้ง่ายขึ้น: ส่วนแรกเน้นที่การออกเสียงและการถ่ายทอดคำพูดให้ถูกต้อง ส่วนถัดไปเน้นที่สไตล์และความสมจริงของเสียงพูด
ด้วยสเปกโตรแกรม เราสามารถแยกเสียง /s/ กับ /sh/ หรือ /ee/ (เหมือนใน heat) กับ /ih/ (เหมือนใน hit) ได้ แต่รายละเอียดของสไตล์และบุคลิกจะมาจาก vocoder
นี่คือ ตัวอย่างเปรียบเทียบของการจับคู่ระหว่างโมเดลเสียงและ vocoder ต่างๆ ซึ่งแสดงให้เห็นว่านักวิจัยผสมผสานโมเดลเหล่านี้เพื่อหาผลลัพธ์ที่ดีที่สุด
แต่เช่นเดียวกับส่วนประกอบอื่น ๆ ตอนนี้เรากำลังเห็นว่าสเปกโตรแกรมเริ่มถูกแทนที่ด้วยโมเดลแบบรวมทุกอย่าง
TTS มีประโยชน์ในกรณีใดบ้าง?
ความสามารถในการสร้างเสียงพูดแบบไดนามิกเป็นเครื่องมือสำคัญในหลายอุตสาหกรรม
มันไม่ได้มีไว้แค่สำหรับหุ่นยนต์ผู้ช่วยอัจฉริยะเท่านั้น แต่ยังช่วยเพิ่มประสิทธิภาพ ความเข้าถึงง่าย และความปลอดภัยด้วย
แชทบอทและผู้ช่วยเสียง
คุณคงเดาได้ว่าฉันจะพูดถึงเรื่องนี้ 😉
ระหว่างที่เข้าใจคำสั่งของคุณ อัปเดตรายการของใช้ และตั้งนัดหมายต่าง ๆ เรามักมองข้ามความซับซ้อนและความสำคัญของเสียงพูดสังเคราะห์ใน AI agents
เอเจนต์ที่ดี (หรือก็คือ ใช้งานได้จริง) ต้องมีเสียงที่เหมาะสม: ฟังดูเป็นมิตรพอจะรับคำสั่ง และเป็นธรรมชาติจนผู้ใช้เชื่อว่าสามารถทำตามคำสั่งได้
มีงานวิจัยและวิศวกรรมมากมายที่มุ่งเน้นให้ผู้ใช้ตัดสินใจในเสี้ยววินาทีว่า AI assistant ฟังดู "ใช่" หรือไม่
ในมุมธุรกิจ แชทบอทของคุณคือภาพลักษณ์ของแบรนด์ การพัฒนา TTS ที่ดีขึ้นหมายถึงทางเลือกในการสร้างเสียงแบรนด์ที่ดีกว่าและบริการลูกค้าที่มีประสิทธิภาพมากขึ้น
ระบบนำทางและการขนส่ง
ไม่มีอะไรจะทำให้คุณเห็นความสำคัญของ TTS ได้เท่ากับตอนที่ GPS ออกเสียงชื่อถนนผิดจนฟังไม่รู้เรื่องขณะขับรถ
GPS เป็นตัวอย่างที่ดีของการใช้ TTS: เมื่อสายตาเราต้องจดจ่อกับถนน การให้ข้อมูลด้วยเสียงไม่ใช่แค่เรื่องสะดวก แต่ยังเกี่ยวกับความปลอดภัยด้วย
เรื่องนี้ก็สำคัญในสนามบินและระบบขนส่งสาธารณะเช่นกัน สำหรับสถานีรถไฟหรือสนามบินที่มีผู้ใช้จำนวนมากและซับซ้อน การใช้เสียงพูดสังเคราะห์จึงจำเป็นมาก
หากไม่มี TTS เราต้องพึ่งประกาศสดที่มักพูดเร็วและฟังยาก หรือไม่ก็ใช้การตัดต่อเสียงชื่อ สถานี เวลา ฯลฯ ซึ่งก็ไม่ค่อยน่าฟังเท่าไร
จากงานวิจัยที่พบว่า ความเป็นธรรมชาติสัมพันธ์กับความเข้าใจง่าย TTS คุณภาพสูงจึงเป็นสิ่งจำเป็นสำหรับอุตสาหกรรมขนส่งที่มีประสิทธิภาพ
ความบันเทิงและสื่อ
การบรรยายและสื่อหลายภาษากลายเป็นเรื่องเข้าถึงง่ายขึ้นด้วยเทคโนโลยีเสียงพูดสังเคราะห์ที่พัฒนาไปมาก
เทคโนโลยีเสียงพูดไม่ได้มาแทนที่นักแสดง แต่ช่วยเสริมการแสดงให้สมบูรณ์ขึ้น
Val Kilmer ที่สูญเสียเสียงจากมะเร็งกล่องเสียง ก็สามารถกลับมาแสดงใน Top Gun: Maverick (2022) ด้วยเสียงต้นฉบับของเขาเอง ด้วยความช่วยเหลือของ AI
TTS ยังช่วยให้นักพัฒนาเกมสร้างเสียงพูดที่หลากหลายและมีอารมณ์ให้กับตัวละครที่ผู้เล่นควบคุมไม่ได้ (NPC) ซึ่งปกติจะทำได้ยากมาก
สุขภาพ
การพัฒนา TTS หมายถึงการยกระดับการเข้าถึงสำหรับทุกคน
เทคโนโลยีดูแลผู้สูงอายุช่วยเรื่องความเป็นเพื่อนและการช่วยเหลือไปพร้อมกัน โดยอาศัยความสามารถในการปรับแต่งเสียงของ TTS เช่น โทนเสียงที่อ่อนโยน ความเร็วที่เหมาะสม และการเน้นเสียงที่ถูกต้อง เพื่อให้การช่วยเหลือมีประสิทธิภาพและน่าเคารพ
TTS ยังถูกนำมาใช้เพื่อช่วยให้เยาวชนเข้าถึงข้อมูลได้ดีขึ้นด้วย
Acapela Group พัฒนาเทคโนโลยีสำหรับเด็กที่มีความบกพร่องในการสร้างเสียงพูด เสียงพูดสังเคราะห์ช่วยเพิ่มศักยภาพในการสื่อสารและความเป็นอิสระของพวกเขา พร้อมทั้งยังคงลักษณะเสียงเฉพาะตัวไว้
การศึกษาและการเรียนรู้ที่ครอบคลุม
เราเคยพบเสียงพูดสังเคราะห์ในแอปเรียนภาษา แต่นั่นเป็นเพียงส่วนเล็ก ๆ ของศักยภาพที่แท้จริง
ตัวอย่างเช่น อุปสรรคสำคัญของการเรียนรู้ด้วยตนเองคือความสามารถในการอ่าน สำหรับเด็ก คนที่มีปัญหาทางสายตา หรือผู้ที่มีความบกพร่องทางการเรียนรู้บางประเภท อาจไม่สามารถอ่านได้ ซึ่งทำให้ครูต้องรับภาระหนักในห้องเรียนที่มีนักเรียนจำนวนมาก
เขตการศึกษาในแคลิฟอร์เนียได้นำ TTS มาใช้ เพื่อสร้างสภาพแวดล้อมการเรียนรู้ที่ครอบคลุมสำหรับนักเรียนที่มีความต้องการพิเศษ
เช่นเดียวกับในงานดูแลผู้สูงอายุ เทคโนโลยีการศึกษาต้องอาศัยเสียงที่อ่อนโยน ชัดเจน และเน้นจุดสำคัญได้ดี การปรับแต่งค่าต่าง ๆ ช่วยให้ครูนำเทคโนโลยีนี้ไปใช้ในบทเรียนได้ง่ายขึ้น และทำให้นักเรียนรู้สึกมีส่วนร่วมมากขึ้น
เลือก TTS ที่เหมาะกับความต้องการของคุณ
ไม่ว่าคุณจะอยู่ในอุตสาหกรรมไหน ปฏิเสธไม่ได้ว่า AI ด้านเสียงมีบทบาทสำคัญ และ TTS ที่คุณเลือกใช้ก็เป็นตัวแทนเสียงของธุรกิจคุณโดยตรง จึงต้องเชื่อถือได้และปรับแต่งได้ตามต้องการ
Botpress ช่วยให้คุณสร้างบอทที่ทรงพลังและปรับแต่งได้สูง พร้อมการเชื่อมต่อและใช้งานบนทุกช่องทางการสื่อสารหลัก ตัวแทนเสียงของคุณจะไม่เพียงแค่สร้างความประทับใจ แต่ยังทำงานได้จริง
คำถามที่พบบ่อย
มีภาษา หรือภาษาถิ่นใดบ้างที่ระบบ TTS รองรับได้ยากหรือไม่?
ใช่ มีบางภาษาและสำเนียงที่ระบบ TTS ยังรองรับได้ยาก โดยเฉพาะภาษาที่มีข้อมูลเสียงและข้อความจำนวนน้อย เช่น ภาษาท้องถิ่น ภาษาที่มีวรรณยุกต์ หรือภาษาพื้นเมือง ซึ่งต้องใช้กฎการออกเสียงและจังหวะที่ซับซ้อนกว่าโมเดลมาตรฐานจะรองรับได้ แม้แต่ภาษาหลัก ๆ เอง ความแตกต่างของสำเนียงก็อาจทำให้เกิดการออกเสียงผิดหรือฟังดูไม่เป็นธรรมชาติได้
เสียง TTS สามารถปรับแต่งได้มากน้อยแค่ไหน เช่น ระดับเสียง ความเร็ว และอารมณ์?
ปัจจุบันเสียง TTS สามารถปรับแต่งระดับเสียง ความเร็ว และอารมณ์ได้อย่างละเอียด ด้วยสถาปัตยกรรมโครงข่ายประสาทเทียมสมัยใหม่ที่ควบคุมจังหวะและสไตล์ได้อย่างแม่นยำ หลายระบบ TTS เชิงพาณิชย์ให้ผู้ใช้ปรับความเร็วการพูด รูปแบบการเน้นเสียง ระดับเสียง และโทนเสียงให้เหมาะกับแต่ละสถานการณ์ เช่น การบรรยายแบบสงบ การประกาศที่ตื่นเต้น หรือบทสนทนาแบบเห็นอกเห็นใจ อย่างไรก็ตาม ระดับการควบคุมจะแตกต่างกันไปในแต่ละผู้ให้บริการ บางรายมีแค่ตัวเลื่อนสำหรับความเร็วและระดับเสียง ขณะที่บางรายเปิดให้ปรับค่ารายละเอียดเกี่ยวกับอารมณ์และโทนเสียงได้
ข้อมูลเสียงที่ระบบ TTS ประมวลผลมีความปลอดภัยแค่ไหน?
ความปลอดภัยของข้อมูลเสียงที่ระบบ TTS ประมวลผลขึ้นอยู่กับผู้ให้บริการและวิธีการติดตั้งเป็นหลัก บริการ TTS บนคลาวด์มักเข้ารหัสข้อมูลทั้งขณะส่งและขณะจัดเก็บ แต่การส่งข้อมูลสำคัญไปยังเซิร์ฟเวอร์ภายนอกก็ยังมีความเสี่ยงด้านความเป็นส่วนตัว หากไม่มีข้อตกลงและมาตรการปฏิบัติตามกฎหมาย เช่น GDPR หรือ HIPAA สำหรับการติดตั้งในองค์กรหรือที่ปลายทาง ข้อมูลเสียงและข้อความจะไม่ออกนอกโครงสร้างพื้นฐานขององค์กร จึงปลอดภัยกว่าจากบุคคลที่สาม
ต้นทุนการนำ TTS คุณภาพสูงมาใช้ในธุรกิจแพงแค่ไหน?
ต้นทุนการนำ TTS คุณภาพสูงมาใช้ในธุรกิจมีตั้งแต่หลักร้อยดอลลาร์ต่อเดือนสำหรับ API บนคลาวด์ที่ใช้ไม่มาก ไปจนถึงหลักหมื่นหรือหลักแสนดอลลาร์สำหรับการพัฒนาเสียงเฉพาะหรือการติดตั้งในองค์กร ค่าใช้จ่ายรวมถึงค่าลิขสิทธิ์ ค่าบริการตามจำนวนตัวอักษรหรือเวลาที่ใช้ ค่าพัฒนาและบูรณาการ และอาจรวมถึงค่าจ้างนักพากย์หากต้องการเสียงเฉพาะ ธุรกิจขนาดเล็กมักเริ่มจากบริการแบบสมัครสมาชิก ส่วนองค์กรขนาดใหญ่จะลงทุนในโซลูชันเฉพาะเพื่อความสม่ำเสมอของแบรนด์และความเป็นส่วนตัว
ต้องใช้ข้อมูลฝึกมากแค่ไหนในการสร้างเสียง TTS คุณภาพสูง?
การสร้างเสียง TTS คุณภาพสูงโดยทั่วไปต้องใช้เสียงที่บันทึกอย่างชัดเจนและเป็นมืออาชีพหลายชั่วโมงขึ้นไป โดยควรเป็นเสียงจากผู้พูดคนเดียวกันและบันทึกในสภาพแวดล้อมเดียวกัน ระบบ TTS สมัยใหม่อย่าง Tacotron หรือ FastSpeech สามารถสร้างเสียงที่ดีได้ด้วยข้อมูลเพียง 2–5 ชั่วโมง แต่ถ้าต้องการเสียงที่เป็นธรรมชาติ มีอารมณ์ และทนทานสูง มักต้องใช้ 10–20 ชั่วโมงขึ้นไป สำหรับการโคลนเสียงหรือเสียงที่มีอารมณ์หลากหลาย ต้องใช้ข้อมูลและตัวอย่างเสียงที่หลากหลายมากขึ้น





.webp)
