การจดจำเสียงพูดอัตโนมัติ (ASR): เทคโนโลยี AI ที่ทรงพลัง

เขียนโดย

เบน ลุคส์

นักภาษาศาสตร์เชิงคำนวณ นักวิจัย AI และ MSc ในด้านเทคโนโลยีเสียง AI

สารบัญ

ขั้นตอนที่ 1. ชื่อของขั้นตอนไปที่นี่ตามที่คาดไว้

สรุป

ASR แปลงคำพูดเป็นข้อความโดยใช้การเรียนรู้ของเครื่องจักร ช่วยให้สามารถสั่งงานด้วยเสียงและถอดเสียงได้แบบเรียลไทม์
ระบบ ASR สมัยใหม่ได้เปลี่ยนจากโมเดลหน่วยเสียงแยกกัน (HMM-GMM) มาเป็นโมเดลการเรียนรู้เชิงลึกที่ทำนายคำศัพท์ทั้งหมด
ประสิทธิภาพ ASR วัดโดยอัตราข้อผิดพลาดของคำ (WER) โดยข้อผิดพลาดจะมาจากการแทนที่ การลบ หรือการแทรก WER ที่ต่ำลง = คุณภาพการถอดรหัสที่ดีขึ้น
อนาคตของ ASR มุ่งเน้นไปที่การประมวลผลบนอุปกรณ์เพื่อความเป็นส่วนตัวและการรองรับภาษาที่ใช้ทรัพยากรต่ำ

ครั้งสุดท้ายที่คุณดูอะไรบางอย่างโดยไม่มีคำบรรยายคือเมื่อไหร่?

คำบรรยายเคยเป็นทางเลือก แต่ตอนนี้คำบรรยายจะเด้งไปมาในวิดีโอสั้น ไม่ว่าเราจะต้องการหรือไม่ก็ตาม คำบรรยายฝังแน่นอยู่ในเนื้อหาจนคุณลืมไปว่าคำบรรยายนั้นอยู่ที่นั่น

การจดจำเสียงพูดอัตโนมัติ (ASR) คือความสามารถในการแปลงคำพูดเป็นข้อความได้อย่างรวดเร็วและแม่นยำ ซึ่งเป็นเทคโนโลยีที่ขับเคลื่อนการเปลี่ยนแปลงครั้งนี้

เมื่อเราคิดถึง ตัวแทนเสียง AI เราจะคิดถึงการเลือกใช้คำ การส่งคำ และเสียงที่มันพูด

แต่เรามักจะลืมไปว่าการโต้ตอบของเรานั้นลื่นไหลเพียงใดนั้นขึ้นอยู่กับว่าบอตเข้าใจเราหรือไม่ และเมื่อมาถึงจุดนี้ — บอตเข้าใจคุณผ่านเสียง “เอ่อ” และ “อะ” ในสภาพแวดล้อมที่มีเสียงดัง — ก็ไม่ใช่เรื่องง่ายเลย

วันนี้เราจะมาพูดคุยถึงเทคโนโลยีที่ใช้ในการสร้างคำบรรยาย นั่นก็คือ การจดจำเสียงพูดอัตโนมัติ (ASR)

ขอแนะนำตัวก่อนนะครับ ผมมีปริญญาโททางด้านเทคโนโลยีการพูด และในเวลาว่าง ผมชอบอ่านข้อมูลล่าสุดเกี่ยวกับ ASR และยัง สร้างสิ่งของต่างๆ ขึ้นมา ด้วย

ฉันจะอธิบายหลักพื้นฐานของ ASR ให้คุณฟัง ดูเบื้องหลังของเทคโนโลยี และลองเดาดูว่าเทคโนโลยีนี้จะไปในทิศทางใดต่อไป

สร้าง AI Chatbots

สร้างแชทบอทตัวแทนที่กำหนดเอง

เริ่มเลย

ASR คืออะไร?

การจดจำเสียงพูดอัตโนมัติ (ASR) หรือการแปลงเสียงเป็นข้อความ (STT) คือกระบวนการแปลงเสียงพูดเป็นข้อความที่เขียนโดยใช้เทคโนโลยีการเรียนรู้ของเครื่องจักร

เทคโนโลยีที่เกี่ยวข้องกับการพูดมักจะรวม ASR ไว้ในบางกรณี เช่น การบันทึกคำบรรยายวิดีโอ การถอดเสียงการโต้ตอบการสนับสนุนลูกค้าเพื่อการวิเคราะห์ หรือส่วนหนึ่งของการโต้ตอบ ผู้ช่วยเสียง เป็นต้น

อัลกอริทึมการแปลงคำพูดเป็นข้อความ

เทคโนโลยีพื้นฐานมีการเปลี่ยนแปลงในช่วงหลายปีที่ผ่านมา แต่การทำซ้ำทั้งหมดประกอบด้วยสององค์ประกอบในรูปแบบใดรูปแบบหนึ่ง: ข้อมูล และ แบบจำลอง

ในกรณีของ ASR ข้อมูลจะถูกระบุว่าเป็นไฟล์เสียงของภาษาพูดและการถอดเสียงที่สอดคล้องกัน

โมเดลคืออัลกอริทึมที่ใช้ทำนายการถอดเสียงจากเสียง ข้อมูลที่มีป้ายกำกับจะถูกใช้เพื่อฝึกโมเดลเพื่อให้สามารถสรุปผลจากตัวอย่างคำพูดที่ไม่เคยเห็นมาก่อนได้

แผนภาพแสดงการทำงานของ ASR กับข้อมูลและโมเดล

มันเหมือนกับการที่คุณสามารถเข้าใจคำศัพท์หลายๆ คำ แม้ว่าคุณจะไม่เคยได้ยินคำเหล่านั้นตามลำดับมาก่อน หรือเป็นคำพูดจากคนแปลกหน้าก็ตาม

อีกครั้ง ประเภทของโมเดลและข้อมูลจำเพาะของโมเดลมีการเปลี่ยนแปลงไปตามกาลเวลา และความก้าวหน้าทั้งหมดในด้านความเร็วและความแม่นยำก็ลดลงเหลือเพียงขนาดและคุณลักษณะของชุดข้อมูลและโมเดล

บทสรุปสั้นๆ: การสกัดคุณลักษณะ

ฉันได้พูดถึง คุณสมบัติหรือการแสดงผล ในบทความเรื่องการแปลงข้อความเป็นเสียง ซึ่งใช้ในโมเดล ASR ทั้งในอดีตและปัจจุบัน

การสกัดคุณลักษณะ — การแปลงคำพูดให้เป็นคุณลักษณะ — ถือเป็นขั้นตอนแรกของกระบวนการ ASR แทบทั้งหมด

โดยสรุปแล้ว คุณลักษณะเหล่านี้ มักจะเป็น สเปกโตรแกรม เป็นผลมาจากการคำนวณทางคณิตศาสตร์ที่ดำเนินการกับคำพูด และ แปลงคำพูดให้เป็นรูปแบบที่เน้นความคล้ายคลึงกันในแต่ละถ้อยคำ และลดความแตกต่างระหว่างผู้พูดให้เหลือน้อยที่สุด

เช่นเดียวกับคำพูดแบบเดียวกันที่พูดโดยผู้พูด 2 คนต่างกันจะมีสเปกโตรแกรมที่คล้ายกัน โดยไม่คำนึงว่าเสียงของผู้พูดจะต่างกันแค่ไหน

ฉันกำลังชี้ให้เห็นเรื่องนี้เพื่อให้คุณทราบว่าฉันจะพูดถึงโมเดล "ที่ทำนายการถอดเสียงจากคำพูด" ซึ่งไม่เป็นความจริงในทางเทคนิค โมเดลกำลังทำนายจาก คุณลักษณะ แต่คุณสามารถคิดถึงส่วนประกอบการแยกคุณลักษณะเป็นส่วนหนึ่งของโมเดลได้

ASR ในระยะแรก: HMM-GMM

โมเดลมาร์คอฟที่ซ่อนอยู่ (HMM) และ โมเดลผสมแบบเกาส์เซียน (GMM) เป็นโมเดลเชิงทำนายก่อนที่ เครือข่ายประสาทลึก จะเข้ามามีบทบาท

HMM ครองตลาด ASR จนกระทั่งเมื่อไม่นานนี้

เมื่อกำหนดไฟล์เสียง HMM จะคาดการณ์ระยะเวลาของหน่วยเสียง และ GMM จะคาดการณ์หน่วยเสียงนั้นเอง

นั่นฟังดูย้อนหลัง และก็ประมาณว่า:

อืมม: “0.2 วินาทีแรกเป็นหน่วยเสียง”
GMM: “หน่วยเสียงนั้นเป็นตัว G เหมือนในคำว่า Gary ”

การแปลงคลิปเสียงเป็นข้อความจะต้องมีส่วนประกอบเพิ่มเติมบางประการ ดังนี้:

พจนานุกรมการออกเสียง: รายการคำศัพท์ที่ครอบคลุมพร้อมการออกเสียงที่สอดคล้องกัน
แบบจำลองภาษา: การรวมคำในคำศัพท์ และความน่าจะเป็นที่จะเกิดขึ้นร่วมกัน

ดังนั้นแม้ว่า GMM จะทำนาย /f/ เหนือ /s/ แต่โมเดลภาษาก็รู้ว่ามีแนวโน้มสูงมากที่ผู้พูดจะพูดว่า "ขอเงินหนึ่งเพนนีสำหรับ ความคิด ของคุณ" ไม่ใช่ ต่อสู้

เรามีชิ้นส่วนทั้งหมดเหล่านี้เพราะว่าพูดตรงๆ ก็คือ ไม่มีส่วนใดของท่อนี้ที่ดีเป็นพิเศษ

HMM จะคาดเดาการจัดตำแหน่งผิด GMM จะเข้าใจผิดว่าเป็นเสียงที่คล้ายกัน: /s/ และ /f/, /p/ และ /t/ และอย่าเพิ่งเริ่มพูดถึงสระเลย

จากนั้นแบบจำลองภาษาจะทำความสะอาดหน่วยเสียงที่ไม่สอดคล้องกันให้เป็นระเบียบเรียบร้อยเพื่อให้เป็นภาษาที่มากขึ้น

ASR แบบครบวงจรพร้อมการเรียนรู้เชิงลึก

ชิ้นส่วนต่างๆ มากมายของท่อ ASR ได้รับการรวมเข้าด้วยกันแล้ว

ทรานสคริปต์ที่ปรับเวลาจากแบบจำลอง ASR — บันทึกเวลาจาก OpenAI แบบจำลอง Whisper ของ 's จาก https:// github .com/jianfch/stable-ts

แทนที่จะฝึกโมเดลแยกกันในการจัดการการสะกดคำ การจัดตำแหน่ง และการออกเสียง โมเดลเดียวจะรับคำพูดและส่งออก (หวังว่า) คำที่สะกดถูกต้อง และในปัจจุบัน ก็มีการระบุเวลาด้วย

(ถึงแม้ว่าการใช้งานมักจะแก้ไขหรือ "ให้คะแนนใหม่" เอาต์พุตนี้ด้วยโมเดลภาษาเพิ่มเติมก็ตาม)

นั่นไม่ได้หมายความว่าปัจจัยต่างๆ เช่น การจัดตำแหน่งและการสะกดคำ ไม่ได้รับความสนใจเป็นพิเศษ ยังมีงานวรรณกรรมมากมายที่เน้นไปที่การแก้ไขปัญหาเฉพาะจุด

นั่นคือ นักวิจัยคิดหาวิธีในการเปลี่ยนสถาปัตยกรรมของโมเดลที่กำหนดเป้าหมายไปที่ปัจจัยเฉพาะของประสิทธิภาพการทำงาน เช่น:

ตัวถอดรหัส RNN-Transducer ที่ปรับสภาพตามเอาต์พุตก่อนหน้าเพื่อปรับปรุงการสะกดคำ
การลดอัตราการสุ่มตัวอย่างแบบ Convolutional เพื่อจำกัดเอาต์พุตว่าง เพื่อปรับปรุงการจัดตำแหน่ง

ฉันรู้ว่ามันไร้สาระ ฉันแค่จะรอให้เจ้านายถามว่า "คุณช่วยยกตัวอย่างภาษาอังกฤษแบบง่ายๆ หน่อยได้ไหม"

คำตอบคือไม่

ไม่ ฉันทำไม่ได้

ประสิทธิภาพการวัดใน ASR เป็นอย่างไร?

เมื่อ ASR ทำงานได้ไม่ดี คุณจะรู้

ฉันเคยเห็น การปรุงคาราเมล โดยใช้ ภาษาเอเชียคอมมิวนิสต์ ความกรอบ สำหรับ คริส พี — คุณเข้าใจใช่ไหม

หน่วยวัดที่เราใช้ในการสะท้อนข้อผิดพลาดทางคณิตศาสตร์คืออัตราข้อผิดพลาดของคำ (WER) สูตรสำหรับ WER คือ:

สูตรสำหรับอัตราข้อผิดพลาดของคำ — จาก wikipedia

ที่ไหน:

S คือจำนวน การแทนที่ (คำที่เปลี่ยนแปลงในข้อความทำนายเพื่อให้ตรงกับข้อความอ้างอิง)
D คือจำนวน การลบ (คำที่หายไปจากผลลัพธ์เมื่อเทียบกับข้อความอ้างอิง)
I คือจำนวน การแทรก (คำเพิ่มเติมในผลลัพธ์เมื่อเทียบกับข้อความอ้างอิง)
N คือจำนวนคำทั้งหมดในเอกสารอ้างอิง

ก็ว่ากันว่าอ้างอิงมาจาก “แมวนั่ง”

ถ้าโมเดลแสดงผลลัพธ์ว่า “แมวจม” นั่นก็ถือเป็นการทดแทน
หากโมเดลแสดงผลลัพธ์ว่า “cat sat” นั่นถือเป็นการลบออก
ถ้าแสดงผลว่า “แมวนั่งแล้ว” แสดงว่าแทรกเข้าไป

ASR มีประโยชน์อะไรบ้าง?

ASR เป็นเครื่องมือที่มีประโยชน์

นอกจากนี้ยังช่วยให้เราปรับปรุงคุณภาพชีวิตด้วยการปรับปรุงความปลอดภัย การเข้าถึง และประสิทธิภาพในอุตสาหกรรมที่สำคัญอีกด้วย

ดูแล สุขภาพ

เมื่อฉันบอกแพทย์ว่าฉันทำการวิจัยเกี่ยวกับการจดจำเสียงพูด พวกเขาก็บอกว่า "โอ้ เหมือน มังกร เลย"

ก่อนที่เราจะมี AI เชิงสร้างสรรค์ในด้านการดูแลสุขภาพ แพทย์จะจดบันทึกด้วยวาจาได้เพียง 30 คำต่อนาที และมีคำศัพท์ที่จำกัด

ASR ประสบความสำเร็จอย่างมากในการควบคุมประสบการณ์ของแพทย์ที่ประสบภาวะหมดไฟอย่างแพร่หลาย

แพทย์ต้องจัดการกับเอกสารจำนวนมากและต้องดูแลผู้ป่วย ในช่วงต้นปี 2018 นักวิจัยได้ เรียกร้องให้มีการใช้การถอดเสียงแบบดิจิทัล ในการให้คำปรึกษาเพื่อปรับปรุงความสามารถของแพทย์ในการให้การรักษา

นั่นเพราะการต้องบันทึกการปรึกษาหารือแบบย้อนหลังไม่เพียงแต่จะทำให้ไม่มีเวลาพบหน้ากับผู้ป่วยเท่านั้น แต่ยังมีความแม่นยำน้อยกว่าการสรุปการถอดความจากการปรึกษาหารือจริงอีกด้วย

บ้านอัจฉริยะ

ฉันก็มีเรื่องตลกแบบนี้เหมือนกัน

เมื่อผมอยากจะปิดไฟแต่ไม่อยากลุก ผมก็จะปรบมือสองครั้งติดต่อกันอย่างรวดเร็ว เหมือนกับว่าผมมีปรบมืออยู่

คู่ของฉันไม่เคยหัวเราะ

‍

บ้านอัจฉริยะที่สั่งงานด้วยเสียงให้ความรู้สึกทั้งล้ำยุคและน่าละอาย หรืออาจดูเหมือนเป็นเช่นนั้น

แน่นอนว่ามันสะดวก แต่ในหลายๆ กรณีมันทำให้สามารถทำสิ่งต่างๆ ที่ไม่สามารถทำได้มาก่อนได้

ตัวอย่างที่ดีคือการใช้พลังงาน: การปรับไฟและเทอร์โมสตัทเล็กๆ น้อยๆ จะไม่สามารถทำได้ตลอดทั้งวันหากคุณต้องลุกขึ้นมาหมุนปุ่มควบคุมต่างๆ

การเปิดใช้งานด้วยเสียงหมายถึงการปรับแต่งเล็กๆ น้อยๆ เหล่านี้ไม่เพียงทำได้ง่ายขึ้นเท่านั้น แต่ยังสามารถอ่านความแตกต่างของคำพูดของมนุษย์ได้อีกด้วย

ตัวอย่างเช่น คุณพูดว่า "คุณทำให้เย็นลงอีกนิดได้ไหม" ผู้ช่วยจะใช้ การประมวลผลภาษาธรรมชาติ เพื่อแปลคำขอของคุณเป็นการเปลี่ยนแปลงอุณหภูมิ โดยคำนึงถึงข้อมูลอื่นๆ มากมาย: อุณหภูมิปัจจุบัน พยากรณ์อากาศ ข้อมูลการใช้งานเทอร์โมสตัทของผู้ใช้รายอื่น เป็นต้น

คุณทำส่วนที่เป็นมนุษย์และปล่อยให้คอมพิวเตอร์จัดการเรื่องคอมพิวเตอร์

ฉันเถียงว่ามันง่ายกว่าการที่คุณต้องเดาว่าจะต้องลดอุณหภูมิลงกี่องศาตามความรู้สึกของคุณ

และยังประหยัดพลังงานมากขึ้นด้วย: มีรายงานว่าครอบครัวต่างๆ ลดการใช้พลังงานลงได้ถึง 80% โดยใช้ระบบไฟแสงสว่างอัจฉริยะที่สั่งการด้วยเสียง เป็นต้น

สนับสนุนลูกค้า

เราได้คุยเรื่องนี้กับด้านการดูแลสุขภาพแล้ว แต่การถอดความและสรุปมีประสิทธิผลมากกว่าการที่ผู้คนสรุปการโต้ตอบกันแบบย้อนหลัง

นอกจากนี้ ยังช่วยประหยัดเวลาและแม่นยำยิ่งขึ้น สิ่งที่เราเรียนรู้ซ้ำแล้วซ้ำเล่าก็คือ ระบบอัตโนมัติช่วยให้ผู้คนมีเวลาว่างมากขึ้นในการทำงานได้ดีขึ้น

และไม่มีที่ใดที่เป็นจริงมากกว่าในด้านการสนับสนุนลูกค้า ซึ่งการสนับสนุนลูกค้าที่เพิ่ม ASR นั้นมี อัตราการแก้ไขปัญหาในครั้งแรกสูงกว่า 25%

การถอดความและสรุปช่วยทำให้กระบวนการในการค้นหาวิธีแก้ปัญหาตามความรู้สึกและข้อสงสัยของลูกค้าเป็นไปโดยอัตโนมัติ

ผู้ช่วยในรถยนต์

เรากำลังอาศัยผู้ช่วยในบ้านที่นี่แต่ก็คุ้มค่าที่จะกล่าวถึง

การจดจำเสียงช่วยลดภาระทางปัญญาและสิ่งรบกวนทางสายตาของผู้ขับขี่

โดยที่สิ่งรบกวนมีส่วนทำให้ เกิดอุบัติเหตุสูงถึง 30% ดังนั้นการนำเทคโนโลยีมาใช้จึงไม่ใช่เรื่องที่ต้องคิดมากเรื่องความปลอดภัย

พยาธิวิทยาการพูด

ASR ถูกนำมาใช้เป็น เครื่องมือในการประเมินและรักษาพยาธิสภาพการพูด มานานแล้ว

จะเป็นประโยชน์หากจำไว้ว่าเครื่องจักรไม่ได้แค่ทำหน้าที่อัตโนมัติเท่านั้น แต่ยังทำสิ่งที่มนุษย์ทำไม่ได้อีกด้วย

การจดจำเสียงพูดสามารถตรวจจับความละเอียดอ่อนในคำพูดที่หูของมนุษย์แทบจะไม่สามารถรับรู้ได้ โดยจับรายละเอียดของคำพูดที่ได้รับผลกระทบซึ่งปกติแล้วจะไม่สามารถมองเห็นได้

กำลังใช้งานตัวแทน AI หรือไม่?

อ่านแผนผังการใช้งาน AI Agent ของเรา

อ่านตอนนี้

อนาคตของ ASR

STT ดีขึ้นพอแล้วจนเราไม่คิดเรื่องนี้อีกต่อไป

แต่เบื้องหลังนั้น นักวิจัยกำลังทำงานอย่างหนักในการทำให้มันทรงพลังและเข้าถึงได้มากขึ้น — และทำให้สังเกตได้น้อยลง

ฉันหยิบยกแนวโน้มที่น่าตื่นเต้นบางอย่างซึ่งช่วยส่งเสริมความก้าวหน้าใน ASR และแทรกความคิดของฉันเองลงไปด้วย

การจดจำเสียงพูดบนอุปกรณ์

โซลูชัน ASR ส่วนใหญ่ทำงานบนคลาวด์ ฉันแน่ใจว่าคุณคงเคยได้ยินเรื่องนี้มาก่อน ซึ่งหมายความว่า โมเดลนี้ทำงานบนคอมพิวเตอร์ระยะไกล ที่อื่น

พวกเขาทำแบบนี้เพราะโปรเซสเซอร์ตัวเล็กของโทรศัพท์ของคุณอาจไม่สามารถรันโมเดลขนาดใหญ่ของมันได้ หรือไม่ก็อาจใช้เวลานานมากในการถอดเสียงอะไรบางอย่าง

แทนที่จะเป็นเช่นนั้น เสียงของคุณจะถูกส่งผ่านอินเทอร์เน็ตไปยังเซิร์ฟเวอร์ระยะไกลที่ใช้ GPU ซึ่งมีน้ำหนักมากเกินกว่าจะพกพาติดตัวไปได้ GPU จะรันโมเดล ASR และส่งคืนการถอดเสียงไปยังอุปกรณ์ของคุณ

ด้วยเหตุผลด้านประสิทธิภาพการใช้พลังงานและความปลอดภัย (ไม่ใช่ทุกคนต้องการให้ข้อมูลส่วนตัวของตนแพร่กระจายไปบนไซเบอร์สเปซ) จึง มีการวิจัยมากมายเกี่ยวกับการสร้างโมเดลที่มีขนาดกะทัดรัดพอที่จะทำงานบนอุปกรณ์ของคุณได้โดยตรง ไม่ว่าจะเป็นโทรศัพท์ คอมพิวเตอร์ หรือโปรแกรมเบราว์เซอร์

ฉันเขียน วิทยานิพนธ์เกี่ยวกับการวัดปริมาณโมเดล ASR เพื่อให้สามารถทำงานบนอุปกรณ์ได้ Picovoice เป็นบริษัทของแคนาดาที่สร้าง AI ด้วยเสียงบนอุปกรณ์ที่มีค่าความหน่วงต่ำ และพวกเขาก็ดูเจ๋งดี

ASR บนอุปกรณ์ทำให้การถอดเสียงมีต้นทุนต่ำ และมีศักยภาพในการให้บริการชุมชนที่มีรายได้น้อย

UI แรกสำหรับการถอดเสียง

ช่องว่างระหว่างเสียงกับการถอดเสียงกำลังลดลง นั่นหมายความว่าอย่างไร?

โปรแกรมตัดต่อวิดีโออย่าง Premiere Pro และ Descript ช่วยให้คุณสามารถนำทางการบันทึกของคุณผ่านบทบรรยายได้ เพียงแค่คลิกที่คำแล้วระบบจะนำคุณไปที่วันที่และเวลา

ต้องถ่ายหลายครั้งใช่ไหม เลือกเทคที่คุณชอบแล้วลบเทคอื่นๆ ออกด้วยสไตล์แก้ไขข้อความ โปรแกรมจะตัดแต่งวิดีโอให้คุณโดยอัตโนมัติ

มันน่าหงุดหงิดมากที่ต้องทำการแก้ไขแบบนั้นด้วยแค่คลื่นเสียง แต่จะง่ายมากเมื่อคุณมีโปรแกรมแก้ไขที่ใช้การถอดเสียง

บริการส่งข้อความเช่น WhatsApp กำลังถอดเสียงโน้ตของคุณและให้คุณอ่านโน้ตเหล่านั้นผ่านข้อความ เลื่อนนิ้วของคุณไปบนคำ แล้วคุณจะเข้าสู่ส่วนนั้นของการบันทึก

แผนภาพของผู้ใช้ที่กำลังอ่านบันทึกข้อความเสียง

เรื่องตลก: จริงๆ แล้วฉันสร้างสิ่งนี้ขึ้น มาประมาณหนึ่งสัปดาห์ก่อนที่ Apple จะประกาศฟีเจอร์ที่คล้ายกันนี้

ตัวอย่างเหล่านี้แสดงให้เห็นว่าเทคโนโลยีที่ซับซ้อนช่วยนำความเรียบง่ายและใช้งานง่ายมาสู่แอปพลิเคชันของผู้ใช้ปลายทางได้อย่างไร

ความเสมอภาค การรวมกลุ่ม และภาษาที่ใช้ทรัพยากรน้อย

การต่อสู้ยังไม่ชนะ

ASR ทำงานได้ดีในภาษาอังกฤษและภาษาอื่นๆ ที่ใช้ทรัพยากรจำนวนมาก แต่อาจไม่ใช่กรณีนี้สำหรับภาษาที่ใช้ทรัพยากรน้อย

มีช่องว่างระหว่างชนกลุ่มน้อยทางภาษาถิ่น การพูดที่ได้รับผลกระทบ และปัญหาอื่นๆ ที่เกี่ยวข้องกับ ความเท่าเทียมกันในเทคโนโลยีเสียง

ขออภัยที่ขัดขวางบรรยากาศดีๆ ส่วนนี้เรียกว่า “อนาคต” ของ ASR และฉันเลือกที่จะมองไปข้างหน้าสู่อนาคตที่เราจะภาคภูมิใจได้

หากเราต้องการจะก้าวหน้า เราก็ควรทำร่วมกัน หรือไม่เช่นนั้น ความไม่เท่าเทียมกันในสังคมก็จะเพิ่มมากขึ้น

เริ่มใช้ ASR วันนี้

ไม่ว่าธุรกิจของคุณจะเป็นประเภทใด การใช้ ASR ก็ไม่ใช่เรื่องยาก เพียงแต่คุณอาจสงสัยว่าจะเริ่มต้นอย่างไร คุณจะนำ ASR ไปใช้ได้อย่างไร คุณจะส่งต่อข้อมูลนั้นไปยังเครื่องมืออื่นได้อย่างไร

Botpress มาพร้อมการ์ดถอดเสียงที่ใช้งานง่าย สามารถรวมเข้ากับกระบวนการลากและวาง และเพิ่มการบูรณาการต่างๆ มากมายระหว่างแอปพลิเคชันและช่องทางการสื่อสาร

เริ่มสร้างวันนี้ ฟรี

สร้าง AI Chatbots

สร้างแชทบอทตัวแทนที่กำหนดเอง

เริ่มเลย

คำถามที่พบบ่อย

ASR สมัยใหม่มีความแม่นยำเพียงใดสำหรับสำเนียงและสภาพแวดล้อมที่มีเสียงดังที่แตกต่างกัน?

ระบบ ASR สมัยใหม่มีความแม่นยำอย่างน่าประทับใจสำหรับสำเนียงทั่วไปในภาษาหลักๆ โดยให้อัตราความผิดพลาดของคำ (WER) ต่ำกว่า 10% ในสภาพเสียงที่ชัดเจน แต่ความแม่นยำจะลดลงอย่างเห็นได้ชัดเมื่อใช้สำเนียงที่หนักแน่น ภาษาถิ่น หรือเสียงรบกวนพื้นหลังที่มาก ผู้ให้บริการอย่าง Google และ Microsoft ฝึกฝนแบบจำลองโดยใช้ข้อมูลเสียงพูดที่หลากหลาย แต่การถอดเสียงที่สมบูรณ์แบบในสภาพแวดล้อมที่มีเสียงรบกวนยังคงเป็นความท้าทาย

ASR เชื่อถือได้สำหรับการถอดความศัพท์เฉพาะหรือเงื่อนไขเฉพาะอุตสาหกรรมหรือไม่

ASR มีความน่าเชื่อถือน้อยกว่าเมื่อนำมาใช้งานจริงสำหรับศัพท์เฉพาะทางหรือคำศัพท์เฉพาะอุตสาหกรรม เนื่องจากข้อมูลการฝึกมักจะเบี่ยงเบนไปในทิศทางของคำพูดทั่วไป คำที่ไม่คุ้นเคยอาจถูกถอดความผิดพลาดหรือถูกละเว้น อย่างไรก็ตาม โซลูชันระดับองค์กรช่วยให้คำศัพท์เฉพาะทาง โมเดลภาษาเฉพาะสาขา และพจนานุกรมการออกเสียงสามารถปรับปรุงการจดจำคำศัพท์ทางเทคนิคในสาขาต่างๆ เช่น การดูแลสุขภาพ กฎหมาย หรือวิศวกรรมศาสตร์

ความแตกต่างระหว่างเครื่องมือ ASR ฟรีกับโซลูชันระดับองค์กรคืออะไร

ความแตกต่างระหว่างเครื่องมือ ASR ฟรีกับโซลูชันระดับองค์กรอยู่ที่ความแม่นยำ ความสามารถในการปรับขนาด การปรับแต่ง และการควบคุมความเป็นส่วนตัว โดยเครื่องมือฟรีมักจะมีอัตราข้อผิดพลาดที่สูงกว่า การรองรับภาษาที่จำกัด และขีดจำกัดการใช้งาน ในขณะที่โซลูชันระดับองค์กรมี WER ที่ต่ำกว่า การปรับแต่งเฉพาะโดเมน การผสานรวม ข้อตกลงระดับบริการ (SLA) และคุณลักษณะด้านความปลอดภัยที่แข็งแกร่งสำหรับการจัดการข้อมูลที่ละเอียดอ่อน

ASR ปกป้องความเป็นส่วนตัวของผู้ใช้และข้อมูลที่ละเอียดอ่อนระหว่างการถอดเสียงได้อย่างไร

ASR ปกป้องความเป็นส่วนตัวของผู้ใช้ผ่านการเข้ารหัสระหว่างการส่งข้อมูล และมีตัวเลือกต่างๆ เช่น การรันโมเดลบนอุปกรณ์เพื่อหลีกเลี่ยงการส่งข้อมูลเสียงไปยังเซิร์ฟเวอร์ภายนอก ผู้ให้บริการองค์กรหลายรายยังปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัว เช่น GDPR หรือ HIPAA และสามารถทำให้ข้อมูลไม่ระบุตัวตนเพื่อปกป้องข้อมูลสำคัญ

บริการ ASR บนคลาวด์มีราคาแพงแค่ไหนเมื่อเทียบกับโซลูชันบนอุปกรณ์?

บริการ ASR บนคลาวด์โดยทั่วไปจะคิดค่าบริการเป็นนาทีเสียงหรือตามระดับการใช้งาน โดยมีค่าใช้จ่ายตั้งแต่ 0.03–1.00 ดอลลาร์ขึ้นไปต่อนาที ขึ้นอยู่กับความแม่นยำและคุณสมบัติ ในขณะที่โซลูชันบนอุปกรณ์นั้นมีค่าใช้จ่ายในการพัฒนาล่วงหน้าและค่าธรรมเนียมใบอนุญาต