- ASR แปลงคำพูดเป็นข้อความโดยใช้การเรียนรู้ของเครื่องจักร ช่วยให้สามารถสั่งงานด้วยเสียงและถอดเสียงได้แบบเรียลไทม์
- ระบบ ASR สมัยใหม่ได้เปลี่ยนจากโมเดลหน่วยเสียงแยกกัน (HMM-GMM) มาเป็นโมเดลการเรียนรู้เชิงลึกที่ทำนายคำศัพท์ทั้งหมด
- ประสิทธิภาพ ASR วัดโดยอัตราข้อผิดพลาดของคำ (WER) โดยข้อผิดพลาดจะมาจากการแทนที่ การลบ หรือการแทรก WER ที่ต่ำลง = คุณภาพการถอดรหัสที่ดีขึ้น
- อนาคตของ ASR มุ่งเน้นไปที่การประมวลผลบนอุปกรณ์เพื่อความเป็นส่วนตัวและการรองรับภาษาที่ใช้ทรัพยากรต่ำ
ครั้งสุดท้ายที่คุณดูอะไรบางอย่างโดยไม่มีคำบรรยายคือเมื่อไหร่?
คำบรรยายเคยเป็นทางเลือก แต่ตอนนี้คำบรรยายจะเด้งไปมาในวิดีโอสั้น ไม่ว่าเราจะต้องการหรือไม่ก็ตาม คำบรรยายฝังแน่นอยู่ในเนื้อหาจนคุณลืมไปว่าคำบรรยายนั้นอยู่ที่นั่น
การจดจำเสียงพูดอัตโนมัติ (ASR) คือความสามารถในการแปลงคำพูดเป็นข้อความได้อย่างรวดเร็วและแม่นยำ ซึ่งเป็นเทคโนโลยีที่ขับเคลื่อนการเปลี่ยนแปลงครั้งนี้
เมื่อเราคิดถึง ตัวแทนเสียง AI เราจะคิดถึงการเลือกใช้คำ การส่งคำ และเสียงที่มันพูด
แต่เรามักจะลืมไปว่าการโต้ตอบของเรานั้นลื่นไหลเพียงใดนั้นขึ้นอยู่กับว่าบอตเข้าใจเราหรือไม่ และเมื่อมาถึงจุดนี้ — บอตเข้าใจคุณผ่านเสียง “เอ่อ” และ “อะ” ในสภาพแวดล้อมที่มีเสียงดัง — ก็ไม่ใช่เรื่องง่ายเลย
วันนี้เราจะมาพูดคุยถึงเทคโนโลยีที่ใช้ในการสร้างคำบรรยาย นั่นก็คือ การจดจำเสียงพูดอัตโนมัติ (ASR)
ขอแนะนำตัวก่อนนะครับ ผมมีปริญญาโททางด้านเทคโนโลยีการพูด และในเวลาว่าง ผมชอบอ่านข้อมูลล่าสุดเกี่ยวกับ ASR และยัง สร้างสิ่งของต่างๆ ขึ้นมา ด้วย
ฉันจะอธิบายหลักพื้นฐานของ ASR ให้คุณฟัง ดูเบื้องหลังของเทคโนโลยี และลองเดาดูว่าเทคโนโลยีนี้จะไปในทิศทางใดต่อไป
ASR คืออะไร?
การจดจำเสียงพูดอัตโนมัติ (ASR) หรือการแปลงเสียงเป็นข้อความ (STT) คือกระบวนการแปลงเสียงพูดเป็นข้อความที่เขียนโดยใช้เทคโนโลยีการเรียนรู้ของเครื่องจักร
เทคโนโลยีที่เกี่ยวข้องกับการพูดมักจะรวม ASR ไว้ในบางกรณี เช่น การบันทึกคำบรรยายวิดีโอ การถอดเสียงการโต้ตอบการสนับสนุนลูกค้าเพื่อการวิเคราะห์ หรือส่วนหนึ่งของการโต้ตอบ ผู้ช่วยเสียง เป็นต้น
อัลกอริทึมการแปลงคำพูดเป็นข้อความ
เทคโนโลยีพื้นฐานมีการเปลี่ยนแปลงในช่วงหลายปีที่ผ่านมา แต่การทำซ้ำทั้งหมดประกอบด้วยสององค์ประกอบในรูปแบบใดรูปแบบหนึ่ง: ข้อมูล และ แบบจำลอง
ในกรณีของ ASR ข้อมูลจะถูกระบุว่าเป็นไฟล์เสียงของภาษาพูดและการถอดเสียงที่สอดคล้องกัน
โมเดลคืออัลกอริทึมที่ใช้ทำนายการถอดเสียงจากเสียง ข้อมูลที่มีป้ายกำกับจะถูกใช้เพื่อฝึกโมเดลเพื่อให้สามารถสรุปผลจากตัวอย่างคำพูดที่ไม่เคยเห็นมาก่อนได้

มันเหมือนกับการที่คุณสามารถเข้าใจคำศัพท์หลายๆ คำ แม้ว่าคุณจะไม่เคยได้ยินคำเหล่านั้นตามลำดับมาก่อน หรือเป็นคำพูดจากคนแปลกหน้าก็ตาม
อีกครั้ง ประเภทของโมเดลและข้อมูลจำเพาะของโมเดลมีการเปลี่ยนแปลงไปตามกาลเวลา และความก้าวหน้าทั้งหมดในด้านความเร็วและความแม่นยำก็ลดลงเหลือเพียงขนาดและคุณลักษณะของชุดข้อมูลและโมเดล
บทสรุปสั้นๆ: การสกัดคุณลักษณะ
ฉันได้พูดถึง คุณสมบัติหรือการแสดงผล ในบทความเรื่องการแปลงข้อความเป็นเสียง ซึ่งใช้ในโมเดล ASR ทั้งในอดีตและปัจจุบัน
การสกัดคุณลักษณะ — การแปลงคำพูดให้เป็นคุณลักษณะ — ถือเป็นขั้นตอนแรกของกระบวนการ ASR แทบทั้งหมด
โดยสรุปแล้ว คุณลักษณะเหล่านี้ มักจะเป็น สเปกโตรแกรม เป็นผลมาจากการคำนวณทางคณิตศาสตร์ที่ดำเนินการกับคำพูด และ แปลงคำพูดให้เป็นรูปแบบที่เน้นความคล้ายคลึงกันในแต่ละถ้อยคำ และลดความแตกต่างระหว่างผู้พูดให้เหลือน้อยที่สุด
เช่นเดียวกับคำพูดแบบเดียวกันที่พูดโดยผู้พูด 2 คนต่างกันจะมีสเปกโตรแกรมที่คล้ายกัน โดยไม่คำนึงว่าเสียงของผู้พูดจะต่างกันแค่ไหน
ฉันกำลังชี้ให้เห็นเรื่องนี้เพื่อให้คุณทราบว่าฉันจะพูดถึงโมเดล "ที่ทำนายการถอดเสียงจากคำพูด" ซึ่งไม่เป็นความจริงในทางเทคนิค โมเดลกำลังทำนายจาก คุณลักษณะ แต่คุณสามารถคิดถึงส่วนประกอบการแยกคุณลักษณะเป็นส่วนหนึ่งของโมเดลได้
ASR ในระยะแรก: HMM-GMM
โมเดลมาร์คอฟที่ซ่อนอยู่ (HMM) และ โมเดลผสมแบบเกาส์เซียน (GMM) เป็นโมเดลเชิงทำนายก่อนที่ เครือข่ายประสาทลึก จะเข้ามามีบทบาท
HMM ครองตลาด ASR จนกระทั่งเมื่อไม่นานนี้
เมื่อกำหนดไฟล์เสียง HMM จะคาดการณ์ระยะเวลาของหน่วยเสียง และ GMM จะคาดการณ์หน่วยเสียงนั้นเอง
นั่นฟังดูย้อนหลัง และก็ประมาณว่า:
- อืมม: “0.2 วินาทีแรกเป็นหน่วยเสียง”
- GMM: “หน่วยเสียงนั้นเป็นตัว G เหมือนในคำว่า Gary ”
การแปลงคลิปเสียงเป็นข้อความจะต้องมีส่วนประกอบเพิ่มเติมบางประการ ดังนี้:
- พจนานุกรมการออกเสียง: รายการคำศัพท์ที่ครอบคลุมพร้อมการออกเสียงที่สอดคล้องกัน
- แบบจำลองภาษา: การรวมคำในคำศัพท์ และความน่าจะเป็นที่จะเกิดขึ้นร่วมกัน
ดังนั้นแม้ว่า GMM จะทำนาย /f/ เหนือ /s/ แต่โมเดลภาษาก็รู้ว่ามีแนวโน้มสูงมากที่ผู้พูดจะพูดว่า "ขอเงินหนึ่งเพนนีสำหรับ ความคิด ของคุณ" ไม่ใช่ ต่อสู้
เรามีชิ้นส่วนทั้งหมดเหล่านี้เพราะว่าพูดตรงๆ ก็คือ ไม่มีส่วนใดของท่อนี้ที่ดีเป็นพิเศษ
HMM จะคาดเดาการจัดตำแหน่งผิด GMM จะเข้าใจผิดว่าเป็นเสียงที่คล้ายกัน: /s/ และ /f/, /p/ และ /t/ และอย่าเพิ่งเริ่มพูดถึงสระเลย
จากนั้นแบบจำลองภาษาจะทำความสะอาดหน่วยเสียงที่ไม่สอดคล้องกันให้เป็นระเบียบเรียบร้อยเพื่อให้เป็นภาษาที่มากขึ้น
ASR แบบครบวงจรพร้อมการเรียนรู้เชิงลึก
ชิ้นส่วนต่างๆ มากมายของท่อ ASR ได้รับการรวมเข้าด้วยกันแล้ว

แทนที่จะฝึกโมเดลแยกกันในการจัดการการสะกดคำ การจัดตำแหน่ง และการออกเสียง โมเดลเดียวจะรับคำพูดและส่งออก (หวังว่า) คำที่สะกดถูกต้อง และในปัจจุบัน ก็มีการระบุเวลาด้วย
(ถึงแม้ว่าการใช้งานมักจะแก้ไขหรือ "ให้คะแนนใหม่" เอาต์พุตนี้ด้วยโมเดลภาษาเพิ่มเติมก็ตาม)
นั่นไม่ได้หมายความว่าปัจจัยต่างๆ เช่น การจัดตำแหน่งและการสะกดคำ ไม่ได้รับความสนใจเป็นพิเศษ ยังมีงานวรรณกรรมมากมายที่เน้นไปที่การแก้ไขปัญหาเฉพาะจุด
นั่นคือ นักวิจัยคิดหาวิธีในการเปลี่ยนสถาปัตยกรรมของโมเดลที่กำหนดเป้าหมายไปที่ปัจจัยเฉพาะของประสิทธิภาพการทำงาน เช่น:
- ตัวถอดรหัส RNN-Transducer ที่ปรับสภาพตามเอาต์พุตก่อนหน้าเพื่อปรับปรุงการสะกดคำ
- การลดอัตราการสุ่มตัวอย่างแบบ Convolutional เพื่อจำกัดเอาต์พุตว่าง เพื่อปรับปรุงการจัดตำแหน่ง
ฉันรู้ว่ามันไร้สาระ ฉันแค่จะรอให้เจ้านายถามว่า "คุณช่วยยกตัวอย่างภาษาอังกฤษแบบง่ายๆ หน่อยได้ไหม"
คำตอบคือไม่
ไม่ ฉันทำไม่ได้
ประสิทธิภาพการวัดใน ASR เป็นอย่างไร?
เมื่อ ASR ทำงานได้ไม่ดี คุณจะรู้
ฉันเคยเห็น การปรุงคาราเมล โดยใช้ ภาษาเอเชียคอมมิวนิสต์ ความกรอบ สำหรับ คริส พี — คุณเข้าใจใช่ไหม
หน่วยวัดที่เราใช้ในการสะท้อนข้อผิดพลาดทางคณิตศาสตร์คืออัตราข้อผิดพลาดของคำ (WER) สูตรสำหรับ WER คือ:

ที่ไหน:
- S คือจำนวน การแทนที่ (คำที่เปลี่ยนแปลงในข้อความทำนายเพื่อให้ตรงกับข้อความอ้างอิง)
- D คือจำนวน การลบ (คำที่หายไปจากผลลัพธ์เมื่อเทียบกับข้อความอ้างอิง)
- I คือจำนวน การแทรก (คำเพิ่มเติมในผลลัพธ์เมื่อเทียบกับข้อความอ้างอิง)
- N คือจำนวนคำทั้งหมดในเอกสารอ้างอิง
ก็ว่ากันว่าอ้างอิงมาจาก “แมวนั่ง”
- ถ้าโมเดลแสดงผลลัพธ์ว่า “แมวจม” นั่นก็ถือเป็นการทดแทน
- หากโมเดลแสดงผลลัพธ์ว่า “cat sat” นั่นถือเป็นการลบออก
- ถ้าแสดงผลว่า “แมวนั่งแล้ว” แสดงว่าแทรกเข้าไป
ASR มีประโยชน์อะไรบ้าง?
ASR เป็นเครื่องมือที่มีประโยชน์
นอกจากนี้ยังช่วยให้เราปรับปรุงคุณภาพชีวิตด้วยการปรับปรุงความปลอดภัย การเข้าถึง และประสิทธิภาพในอุตสาหกรรมที่สำคัญอีกด้วย
ดูแล สุขภาพ
เมื่อฉันบอกแพทย์ว่าฉันทำการวิจัยเกี่ยวกับการจดจำเสียงพูด พวกเขาก็บอกว่า "โอ้ เหมือน มังกร เลย"
ก่อนที่เราจะมี AI เชิงสร้างสรรค์ในด้านการดูแลสุขภาพ แพทย์จะจดบันทึกด้วยวาจาได้เพียง 30 คำต่อนาที และมีคำศัพท์ที่จำกัด
ASR ประสบความสำเร็จอย่างมากในการควบคุมประสบการณ์ของแพทย์ที่ประสบภาวะหมดไฟอย่างแพร่หลาย
แพทย์ต้องจัดการกับเอกสารจำนวนมากและต้องดูแลผู้ป่วย ในช่วงต้นปี 2018 นักวิจัยได้ เรียกร้องให้มีการใช้การถอดเสียงแบบดิจิทัล ในการให้คำปรึกษาเพื่อปรับปรุงความสามารถของแพทย์ในการให้การรักษา
นั่นเพราะการต้องบันทึกการปรึกษาหารือแบบย้อนหลังไม่เพียงแต่จะทำให้ไม่มีเวลาพบหน้ากับผู้ป่วยเท่านั้น แต่ยังมีความแม่นยำน้อยกว่าการสรุปการถอดความจากการปรึกษาหารือจริงอีกด้วย
บ้านอัจฉริยะ
ฉันก็มีเรื่องตลกแบบนี้เหมือนกัน
เมื่อผมอยากจะปิดไฟแต่ไม่อยากลุก ผมก็จะปรบมือสองครั้งติดต่อกันอย่างรวดเร็ว เหมือนกับว่าผมมีปรบมืออยู่
คู่ของฉันไม่เคยหัวเราะ
บ้านอัจฉริยะที่สั่งงานด้วยเสียงให้ความรู้สึกทั้งล้ำยุคและน่าละอาย หรืออาจดูเหมือนเป็นเช่นนั้น
แน่นอนว่ามันสะดวก แต่ในหลายๆ กรณีมันทำให้สามารถทำสิ่งต่างๆ ที่ไม่สามารถทำได้มาก่อนได้
ตัวอย่างที่ดีคือการใช้พลังงาน: การปรับไฟและเทอร์โมสตัทเล็กๆ น้อยๆ จะไม่สามารถทำได้ตลอดทั้งวันหากคุณต้องลุกขึ้นมาหมุนปุ่มควบคุมต่างๆ
การเปิดใช้งานด้วยเสียงหมายถึงการปรับแต่งเล็กๆ น้อยๆ เหล่านี้ไม่เพียงทำได้ง่ายขึ้นเท่านั้น แต่ยังสามารถอ่านความแตกต่างของคำพูดของมนุษย์ได้อีกด้วย
ตัวอย่างเช่น คุณพูดว่า "คุณทำให้เย็นลงอีกนิดได้ไหม" ผู้ช่วยจะใช้ การประมวลผลภาษาธรรมชาติ เพื่อแปลคำขอของคุณเป็นการเปลี่ยนแปลงอุณหภูมิ โดยคำนึงถึงข้อมูลอื่นๆ มากมาย: อุณหภูมิปัจจุบัน พยากรณ์อากาศ ข้อมูลการใช้งานเทอร์โมสตัทของผู้ใช้รายอื่น เป็นต้น
คุณทำส่วนที่เป็นมนุษย์และปล่อยให้คอมพิวเตอร์จัดการเรื่องคอมพิวเตอร์
ฉันเถียงว่ามันง่ายกว่าการที่คุณต้องเดาว่าจะต้องลดอุณหภูมิลงกี่องศาตามความรู้สึกของคุณ
และยังประหยัดพลังงานมากขึ้นด้วย: มีรายงานว่าครอบครัวต่างๆ ลดการใช้พลังงานลงได้ถึง 80% โดยใช้ระบบไฟแสงสว่างอัจฉริยะที่สั่งการด้วยเสียง เป็นต้น
สนับสนุนลูกค้า
เราได้คุยเรื่องนี้กับด้านการดูแลสุขภาพแล้ว แต่การถอดความและสรุปมีประสิทธิผลมากกว่าการที่ผู้คนสรุปการโต้ตอบกันแบบย้อนหลัง
นอกจากนี้ ยังช่วยประหยัดเวลาและแม่นยำยิ่งขึ้น สิ่งที่เราเรียนรู้ซ้ำแล้วซ้ำเล่าก็คือ ระบบอัตโนมัติช่วยให้ผู้คนมีเวลาว่างมากขึ้นในการทำงานได้ดีขึ้น
และไม่มีที่ใดที่เป็นจริงมากกว่าในด้านการสนับสนุนลูกค้า ซึ่งการสนับสนุนลูกค้าที่เพิ่ม ASR นั้นมี อัตราการแก้ไขปัญหาในครั้งแรกสูงกว่า 25%
การถอดความและสรุปช่วยทำให้กระบวนการในการค้นหาวิธีแก้ปัญหาตามความรู้สึกและข้อสงสัยของลูกค้าเป็นไปโดยอัตโนมัติ
ผู้ช่วยในรถยนต์
เรากำลังอาศัยผู้ช่วยในบ้านที่นี่แต่ก็คุ้มค่าที่จะกล่าวถึง
การจดจำเสียงช่วยลดภาระทางปัญญาและสิ่งรบกวนทางสายตาของผู้ขับขี่
โดยที่สิ่งรบกวนมีส่วนทำให้ เกิดอุบัติเหตุสูงถึง 30% ดังนั้นการนำเทคโนโลยีมาใช้จึงไม่ใช่เรื่องที่ต้องคิดมากเรื่องความปลอดภัย
พยาธิวิทยาการพูด
ASR ถูกนำมาใช้เป็น เครื่องมือในการประเมินและรักษาพยาธิสภาพการพูด มานานแล้ว
จะเป็นประโยชน์หากจำไว้ว่าเครื่องจักรไม่ได้แค่ทำหน้าที่อัตโนมัติเท่านั้น แต่ยังทำสิ่งที่มนุษย์ทำไม่ได้อีกด้วย
การจดจำเสียงพูดสามารถตรวจจับความละเอียดอ่อนในคำพูดที่หูของมนุษย์แทบจะไม่สามารถรับรู้ได้ โดยจับรายละเอียดของคำพูดที่ได้รับผลกระทบซึ่งปกติแล้วจะไม่สามารถมองเห็นได้
อนาคตของ ASR
STT ดีขึ้นพอแล้วจนเราไม่คิดเรื่องนี้อีกต่อไป
แต่เบื้องหลังนั้น นักวิจัยกำลังทำงานอย่างหนักในการทำให้มันทรงพลังและเข้าถึงได้มากขึ้น — และทำให้สังเกตได้น้อยลง
ฉันหยิบยกแนวโน้มที่น่าตื่นเต้นบางอย่างซึ่งช่วยส่งเสริมความก้าวหน้าใน ASR และแทรกความคิดของฉันเองลงไปด้วย
การจดจำเสียงพูดบนอุปกรณ์
โซลูชัน ASR ส่วนใหญ่ทำงานบนคลาวด์ ฉันแน่ใจว่าคุณคงเคยได้ยินเรื่องนี้มาก่อน ซึ่งหมายความว่า โมเดลนี้ทำงานบนคอมพิวเตอร์ระยะไกล ที่อื่น
พวกเขาทำแบบนี้เพราะโปรเซสเซอร์ตัวเล็กของโทรศัพท์ของคุณอาจไม่สามารถรันโมเดลขนาดใหญ่ของมันได้ หรือไม่ก็อาจใช้เวลานานมากในการถอดเสียงอะไรบางอย่าง
แทนที่จะเป็นเช่นนั้น เสียงของคุณจะถูกส่งผ่านอินเทอร์เน็ตไปยังเซิร์ฟเวอร์ระยะไกลที่ใช้ GPU ซึ่งมีน้ำหนักมากเกินกว่าจะพกพาติดตัวไปได้ GPU จะรันโมเดล ASR และส่งคืนการถอดเสียงไปยังอุปกรณ์ของคุณ

ด้วยเหตุผลด้านประสิทธิภาพการใช้พลังงานและความปลอดภัย (ไม่ใช่ทุกคนต้องการให้ข้อมูลส่วนตัวของตนแพร่กระจายไปบนไซเบอร์สเปซ) จึง มีการวิจัยมากมายเกี่ยวกับการสร้างโมเดลที่มีขนาดกะทัดรัดพอที่จะทำงานบนอุปกรณ์ของคุณได้โดยตรง ไม่ว่าจะเป็นโทรศัพท์ คอมพิวเตอร์ หรือโปรแกรมเบราว์เซอร์
ฉันเขียน วิทยานิพนธ์เกี่ยวกับการวัดปริมาณโมเดล ASR เพื่อให้สามารถทำงานบนอุปกรณ์ได้ Picovoice เป็นบริษัทของแคนาดาที่สร้าง AI ด้วยเสียงบนอุปกรณ์ที่มีค่าความหน่วงต่ำ และพวกเขาก็ดูเจ๋งดี
ASR บนอุปกรณ์ทำให้การถอดเสียงมีต้นทุนต่ำ และมีศักยภาพในการให้บริการชุมชนที่มีรายได้น้อย
UI แรกสำหรับการถอดเสียง
ช่องว่างระหว่างเสียงกับการถอดเสียงกำลังลดลง นั่นหมายความว่าอย่างไร?
โปรแกรมตัดต่อวิดีโออย่าง Premiere Pro และ Descript ช่วยให้คุณสามารถนำทางการบันทึกของคุณผ่านบทบรรยายได้ เพียงแค่คลิกที่คำแล้วระบบจะนำคุณไปที่วันที่และเวลา
ต้องถ่ายหลายครั้งใช่ไหม เลือกเทคที่คุณชอบแล้วลบเทคอื่นๆ ออกด้วยสไตล์แก้ไขข้อความ โปรแกรมจะตัดแต่งวิดีโอให้คุณโดยอัตโนมัติ
มันน่าหงุดหงิดมากที่ต้องทำการแก้ไขแบบนั้นด้วยแค่คลื่นเสียง แต่จะง่ายมากเมื่อคุณมีโปรแกรมแก้ไขที่ใช้การถอดเสียง
บริการส่งข้อความเช่น WhatsApp กำลังถอดเสียงโน้ตของคุณและให้คุณอ่านโน้ตเหล่านั้นผ่านข้อความ เลื่อนนิ้วของคุณไปบนคำ แล้วคุณจะเข้าสู่ส่วนนั้นของการบันทึก

เรื่องตลก: จริงๆ แล้วฉันสร้างสิ่งนี้ขึ้น มาประมาณหนึ่งสัปดาห์ก่อนที่ Apple จะประกาศฟีเจอร์ที่คล้ายกันนี้
ตัวอย่างเหล่านี้แสดงให้เห็นว่าเทคโนโลยีที่ซับซ้อนช่วยนำความเรียบง่ายและใช้งานง่ายมาสู่แอปพลิเคชันของผู้ใช้ปลายทางได้อย่างไร
ความเสมอภาค การรวมกลุ่ม และภาษาที่ใช้ทรัพยากรน้อย
การต่อสู้ยังไม่ชนะ
ASR ทำงานได้ดีในภาษาอังกฤษและภาษาอื่นๆ ที่ใช้ทรัพยากรจำนวนมาก แต่อาจไม่ใช่กรณีนี้สำหรับภาษาที่ใช้ทรัพยากรน้อย
มีช่องว่างระหว่างชนกลุ่มน้อยทางภาษาถิ่น การพูดที่ได้รับผลกระทบ และปัญหาอื่นๆ ที่เกี่ยวข้องกับ ความเท่าเทียมกันในเทคโนโลยีเสียง
ขออภัยที่ขัดขวางบรรยากาศดีๆ ส่วนนี้เรียกว่า “อนาคต” ของ ASR และฉันเลือกที่จะมองไปข้างหน้าสู่อนาคตที่เราจะภาคภูมิใจได้
หากเราต้องการจะก้าวหน้า เราก็ควรทำร่วมกัน หรือไม่เช่นนั้น ความไม่เท่าเทียมกันในสังคมก็จะเพิ่มมากขึ้น
เริ่มใช้ ASR วันนี้
ไม่ว่าธุรกิจของคุณจะเป็นประเภทใด การใช้ ASR ก็ไม่ใช่เรื่องยาก เพียงแต่คุณอาจสงสัยว่าจะเริ่มต้นอย่างไร คุณจะนำ ASR ไปใช้ได้อย่างไร คุณจะส่งต่อข้อมูลนั้นไปยังเครื่องมืออื่นได้อย่างไร
Botpress มาพร้อมการ์ดถอดเสียงที่ใช้งานง่าย สามารถรวมเข้ากับกระบวนการลากและวาง และเพิ่มการบูรณาการต่างๆ มากมายระหว่างแอปพลิเคชันและช่องทางการสื่อสาร
เริ่มสร้างวันนี้ ฟรี
คำถามที่พบบ่อย
ASR สมัยใหม่มีความแม่นยำเพียงใดสำหรับสำเนียงและสภาพแวดล้อมที่มีเสียงดังที่แตกต่างกัน?
ระบบ ASR สมัยใหม่มีความแม่นยำอย่างน่าประทับใจสำหรับสำเนียงทั่วไปในภาษาหลักๆ โดยให้อัตราความผิดพลาดของคำ (WER) ต่ำกว่า 10% ในสภาพเสียงที่ชัดเจน แต่ความแม่นยำจะลดลงอย่างเห็นได้ชัดเมื่อใช้สำเนียงที่หนักแน่น ภาษาถิ่น หรือเสียงรบกวนพื้นหลังที่มาก ผู้ให้บริการอย่าง Google และ Microsoft ฝึกฝนแบบจำลองโดยใช้ข้อมูลเสียงพูดที่หลากหลาย แต่การถอดเสียงที่สมบูรณ์แบบในสภาพแวดล้อมที่มีเสียงรบกวนยังคงเป็นความท้าทาย
ASR เชื่อถือได้สำหรับการถอดความศัพท์เฉพาะหรือเงื่อนไขเฉพาะอุตสาหกรรมหรือไม่
ASR มีความน่าเชื่อถือน้อยกว่าเมื่อนำมาใช้งานจริงสำหรับศัพท์เฉพาะทางหรือคำศัพท์เฉพาะอุตสาหกรรม เนื่องจากข้อมูลการฝึกมักจะเบี่ยงเบนไปในทิศทางของคำพูดทั่วไป คำที่ไม่คุ้นเคยอาจถูกถอดความผิดพลาดหรือถูกละเว้น อย่างไรก็ตาม โซลูชันระดับองค์กรช่วยให้คำศัพท์เฉพาะทาง โมเดลภาษาเฉพาะสาขา และพจนานุกรมการออกเสียงสามารถปรับปรุงการจดจำคำศัพท์ทางเทคนิคในสาขาต่างๆ เช่น การดูแลสุขภาพ กฎหมาย หรือวิศวกรรมศาสตร์
ความแตกต่างระหว่างเครื่องมือ ASR ฟรีกับโซลูชันระดับองค์กรคืออะไร
ความแตกต่างระหว่างเครื่องมือ ASR ฟรีกับโซลูชันระดับองค์กรอยู่ที่ความแม่นยำ ความสามารถในการปรับขนาด การปรับแต่ง และการควบคุมความเป็นส่วนตัว โดยเครื่องมือฟรีมักจะมีอัตราข้อผิดพลาดที่สูงกว่า การรองรับภาษาที่จำกัด และขีดจำกัดการใช้งาน ในขณะที่โซลูชันระดับองค์กรมี WER ที่ต่ำกว่า การปรับแต่งเฉพาะโดเมน การผสานรวม ข้อตกลงระดับบริการ (SLA) และคุณลักษณะด้านความปลอดภัยที่แข็งแกร่งสำหรับการจัดการข้อมูลที่ละเอียดอ่อน
ASR ปกป้องความเป็นส่วนตัวของผู้ใช้และข้อมูลที่ละเอียดอ่อนระหว่างการถอดเสียงได้อย่างไร
ASR ปกป้องความเป็นส่วนตัวของผู้ใช้ผ่านการเข้ารหัสระหว่างการส่งข้อมูล และมีตัวเลือกต่างๆ เช่น การรันโมเดลบนอุปกรณ์เพื่อหลีกเลี่ยงการส่งข้อมูลเสียงไปยังเซิร์ฟเวอร์ภายนอก ผู้ให้บริการองค์กรหลายรายยังปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัว เช่น GDPR หรือ HIPAA และสามารถทำให้ข้อมูลไม่ระบุตัวตนเพื่อปกป้องข้อมูลสำคัญ
บริการ ASR บนคลาวด์มีราคาแพงแค่ไหนเมื่อเทียบกับโซลูชันบนอุปกรณ์?
บริการ ASR บนคลาวด์โดยทั่วไปจะคิดค่าบริการเป็นนาทีเสียงหรือตามระดับการใช้งาน โดยมีค่าใช้จ่ายตั้งแต่ 0.03–1.00 ดอลลาร์ขึ้นไปต่อนาที ขึ้นอยู่กับความแม่นยำและคุณสมบัติ ในขณะที่โซลูชันบนอุปกรณ์นั้นมีค่าใช้จ่ายในการพัฒนาล่วงหน้าและค่าธรรมเนียมใบอนุญาต