ผู้ช่วยเสียงคืออะไร?
ผู้ช่วยเสียงเป็นซอฟต์แวร์ที่สามารถเข้าใจและตอบสนองต่อคําสั่งที่พูดในภาษาธรรมชาติ นอกจากนี้ยังสามารถเรียกได้ว่าเป็นผู้ช่วยอัจฉริยะและนี่อาจเป็นคําอธิบายที่แม่นยํากว่าเพราะในหลายกรณีสามารถเชื่อมต่อกับข้อความผ่านการแชทได้ แน่นอนว่าพวกมันเรียกอีกอย่างว่าบอท
ในช่วงไม่กี่ปีที่ผ่านมาการนํา ผู้ช่วยเสียง มาใช้โดยเฉพาะอย่างยิ่งในรูปแบบของผู้ช่วยที่บ้านที่เปิดใช้งานด้วยเสียงเช่น Alexa และ Google Home
ผลิตภัณฑ์เหล่านี้ช่วยให้ผู้ใช้สามารถสั่งให้ซอฟต์แวร์ทําสิ่งต่าง ๆ ด้วยเสียงของพวกเขา ตัวอย่างเช่น ผู้ใช้สามารถเล่นเพลงบน Spotify หรือเล่นวิดีโอบน Youtube เพียงแค่สั่งให้ผู้ช่วยเสียงอัจฉริยะทําเช่นนั้น
อุปกรณ์ผู้ช่วยส่วนตัวเกิดขึ้นได้จากความก้าวหน้าใน AI โดยเฉพาะในด้านที่เรียกว่าการประมวลผลภาษาธรรมชาติ
ผู้ช่วยเสียงใช้ NLP สําหรับการจดจําเสียงอย่างไร
การประมวลผลภาษาธรรมชาติ เป็นเทคโนโลยีที่ช่วยให้คอมพิวเตอร์เข้าใจเจตนาเบื้องหลังวลีที่พูด ซึ่งแตกต่างจากการรู้จําเสียงซึ่งถอดเสียงคําพูดเป็นข้อความ แน่นอนว่าการรู้จําเสียงเป็นสิ่งจําเป็นสําหรับผู้ช่วยดิจิทัลที่ควบคุมด้วยเสียง การรู้จําเสียงจะถอดเสียงคําพูดเป็นข้อความ และการประมวลผลภาษาธรรมชาติจะกําหนดความตั้งใจของผู้ใช้ที่อยู่เบื้องหลังข้อความ
การประมวลผลภาษาธรรมชาติมีความสําคัญและมีประโยชน์เนื่องจากมนุษย์สั่งสอนผู้ช่วยเสียงโดยใช้วลีต่าง ๆ ที่มีความหมายเหมือนกัน ตัวอย่างเช่น พวกเขาสามารถพูดว่า "เล่น X บน Youtube" หรือ "โปรดค้นหา X บน Youtube และเล่น" หรือ "บน Youtube โปรดเล่นเพลง X" เป็นต้น
NLP สามารถตรวจจับได้ว่าวลีเหล่านี้มีความหมายเหมือนกัน สิ่งนี้มีประโยชน์สําหรับมนุษย์นอกเหนือจากข้อเท็จจริงที่ว่าพวกเขาสามารถโต้ตอบกับอุปกรณ์ด้วยเสียงเท่านั้นเพราะพวกเขาไม่จําเป็นต้องจําคําสั่งหรือไวยากรณ์ที่แน่นอนเพื่อใช้งานอุปกรณ์ NLP ยังเป็นเรื่องง่ายอย่างน่าประหลาดใจสําหรับนักพัฒนาในการ เรียนรู้วิธีการตั้งค่า และด้วยเหตุนี้จึงเป็นส่วนสําคัญของ เฟรมเวิร์กบอทใดๆ
ผู้ช่วยเสียงข้อดีและข้อเสีย
อย่างที่ใครก็ตามที่ลองใช้ผู้ช่วยเสียงจะบอกคุณว่าพวกเขาดีสําหรับบางสิ่งบางอย่าง แต่ไม่สมบูรณ์แบบ คุณไม่สามารถสนทนากับพวกเขาได้เหมือนมนุษย์ เป็นต้น การสนทนาจะพังทลายลงอย่างรวดเร็วหากคุณลอง
นอกจากนี้ยังเป็นเรื่องยากที่จะค้นหาสิ่งที่พวกเขาทําได้หรือทําไม่ได้เพียงแค่โต้ตอบกับพวกเขา เสียงปรากฎว่าเป็นอินเทอร์เฟซที่ไม่ดีสําหรับการดึงข้อมูลจํานวนมากอย่างรวดเร็ว ตัวอย่างเช่น การสแกนหน้าเว็บเป็นวิธีที่ดีกว่ามากในการรับข้อมูลอย่างรวดเร็ว
สิ่งที่พวกเขาเก่งมากคือคําสั่งหรือคําถามเดียว พวกเขาทํางานได้ดีโดยเฉพาะอย่างยิ่งในกรณีที่ผู้ใช้รู้ผลลัพธ์ที่ต้องการเช่นพวกเขาต้องการเล่นวิดีโอเฉพาะบน youtube ที่พวกเขารู้ชื่อและคําตอบสําหรับคําถามคือวลีง่ายๆเช่นคําตอบของ "อุณหภูมิในเมืองของฉันคืออะไร"
เรามักจะลืมไปว่าผู้ช่วยเสียงเหล่านั้นเป็นเพียงอินเทอร์เฟซซอฟต์แวร์อื่น เราเรียกพวกเขาว่าผู้ช่วยเพราะคุณสามารถพูดคุยกับพวกเขาได้ดังนั้นจึงเป็นเรื่องง่ายที่จะกําหนดแนวคิดว่าพวกเขามีคุณภาพเหมือนมนุษย์ แนวคิดนี้ได้รับการเสริมด้วยความจริงที่ว่าเราต้องเรียกพวกเขาด้วยชื่อด้วยคํายอดนิยม" Ok Google", "Alexa", "Siri" เพื่อเปิดใช้งาน ถ้าเราไม่มีคําพูดที่ร้อนแรงพวกเขาจะไม่รู้ว่าพวกเขากําลังพูดด้วยเมื่อใดและเมื่อใดควรตอบกลับ คําฮอตล้างสมองเราให้คิดถึงผู้ช่วยเสียงในฐานะผู้ช่วยที่เกือบจะเป็นมนุษย์มากกว่าเป็นอินเทอร์เฟซซอฟต์แวร์ และมันล้างสมองเด็กเล็กให้เชื่อว่า Google หรือ Alexa เป็น Dieties บางประเภทที่อาจสร้างความเสียหายที่ยั่งยืนให้กับพวกเขาเมื่อพวกเขาค้นพบว่าสิ่งเหล่านี้เป็น บริษัท ที่ครองโลก
ในความเป็นจริงผู้ช่วยเสียงเป็นเพียงอินเทอร์เฟซซอฟต์แวร์อื่นเช่น เทียบเท่ากับอินเทอร์เฟซแบบกราฟิก อินเทอร์เฟซแบบกราฟิกมีบทบาทคล้ายกับอินเทอร์เฟซเสียง แต่ไม่สามารถทําให้เป็นมนุษย์ในลักษณะเดียวกันได้
แน่นอนว่าอินเทอร์เฟซเสียงนั้นแตกต่างจากอินเทอร์เฟซแบบกราฟิก ปรากฎว่าโดยปกติแล้วอินเทอร์เฟซเสียงจะใช้นอกเหนือจากอินเทอร์เฟซแบบกราฟิก แต่ไม่ใช่ในทางกลับกัน
ส่วนหนึ่งเป็นเพราะอินเทอร์เฟซแบบกราฟิกถูกสร้างขึ้นสําหรับแอปพลิเคชันส่วนใหญ่แล้วดังนั้นการเพิ่มอินเทอร์เฟซเสียงให้กับพวกเขาช่วยให้ผู้ใช้มีวิธีอื่นในการโต้ตอบกับซอฟต์แวร์ เช่นเดียวกับการขอให้ผู้ช่วยเสียงเล่นวิดีโอ youtube คุณสามารถเล่นวิดีโอโดยใช้อินเทอร์เฟซแบบกราฟิก แต่จะช้ากว่าที่จะทําเช่นนั้น
นอกจากนี้ยังเป็นที่ถกเถียงกันอยู่ว่าอินเทอร์เฟซแบบกราฟิกนั้นสมบูรณ์กว่าอินเทอร์เฟซแบบเสียง เนื่องจากการทํางานบางอย่างโดยใช้เสียงที่สามารถทําได้ง่ายบนอินเทอร์เฟซแบบกราฟิกจะเป็นเรื่องยากมาก เพื่อให้เข้าใจประเด็นนี้ ให้จินตนาการถึงการพยายามให้เพื่อนร่วมงานสร้างสเปรดชีตให้คุณโดยให้คําแนะนําทางโทรศัพท์กับการสร้างสเปรดชีตด้วยตัวเองโดยใช้อินเทอร์เฟซแบบกราฟิก
แม้ว่าอินเทอร์เฟซเสียงมักจะขาดไม่ได้ แต่ก็ให้ความสะดวกสบายในระดับใหม่ในบางสถานการณ์ โดยปกติจะเป็นความสะดวกสบายที่คุณสามารถอยู่ได้โดยไม่ต้องมีหากจําเป็น ยกเว้นในสถานการณ์ที่หายากซึ่งจําเป็นต้องมีการโต้ตอบแบบแฮนด์ฟรี
อนาคตของผู้ช่วยเสียง
ด้วยข้อ จํากัด ของพวกเขาคําถามคือผู้ช่วยเสียงจะมีความสําคัญมากขึ้นในอนาคตหรือจะยังคงเป็นผลิตภัณฑ์ขอบหรือไม่
เป็นที่ชัดเจนสําหรับเราว่าผู้ช่วยเสียงจะได้รับความนิยมมากขึ้นและใช้กันอย่างแพร่หลายในอนาคตเนื่องจากเหตุผลหนึ่งพวกเขาจะรวมเข้ากับอินเทอร์เฟซผู้ใช้แบบกราฟิกอย่างสมบูรณ์
แม้ว่าจะเป็นการยากที่จะแทนที่อินเทอร์เฟซผู้ใช้แบบกราฟิกด้วยเสียง แต่ก็เป็นไปได้มากที่จะรวมอินเทอร์เฟซแบบเสียงและแบบกราฟิกเข้าด้วยกัน สิ่งนี้กําลังดําเนินการในระดับที่ จํากัด มากในขณะนี้ด้วย Google Assistant (ซึ่งช่วยให้หน้าเว็บสามารถให้บริบทได้) และ Bixby
อินเทอร์เฟซรุ่นต่อไปที่เราจะเรียกว่าอินเทอร์เฟซ "รวมกัน" จะรวมกราฟิกข้อความและเสียงเข้ากับประสบการณ์ที่ดีที่สุดสําหรับผู้ใช้ สิ่งนี้ไม่เพียงแต่ช่วยให้ผู้ใช้ทํางานให้สําเร็จได้เร็วขึ้นและมีช่วงการเรียนรู้น้อยลง (เนื่องจากเสียงช่วยให้ผู้ใช้สามารถโต้ตอบกับซอฟต์แวร์โดยไม่ทราบคําสั่งที่แน่นอน) แต่การตรวจสอบการโต้ตอบของ AI จะช่วยให้อินเทอร์เฟซพัฒนาและดีขึ้นได้ด้วยตัวเอง
คําสั่งเสียงเมื่อเปิดแอปครั้งแรกจะทํางานแตกต่างออกไปเมื่อแอปได้เรียนรู้จากการโต้ตอบหลายพันครั้งว่าแนวทางปฏิบัติที่ดีที่สุดคืออะไร
นอกจากนี้ยังเป็นที่น่าสนใจที่จะพิจารณาว่าเสียงจะถูกนํามาใช้อย่างเต็มที่จะต้องมีการเปลี่ยนแปลงพฤติกรรมของผู้ใช้อย่างไร ตอนนี้ผู้คนพิมพ์ข้อความและใช้อินเทอร์เฟซแบบกราฟิกบนสมาร์ทโฟนมากกว่าที่พวกเขาพูดในโทรศัพท์และใช้ผู้ช่วยเสียง
นี่เป็นเพราะเทคโนโลยีการจดจําเสียงไม่สมบูรณ์แบบ เป็นเวลาหลายทศวรรษที่มีทางลัดด้วยเสียงบนโทรศัพท์และคอมพิวเตอร์ แต่ทางลัดเหล่านี้ไม่ได้ใช้กันอย่างแพร่หลายเนื่องจากอัตราข้อผิดพลาดสูงมากจนความเจ็บปวดจากการบัญชีสําหรับข้อผิดพลาดมีมากกว่าประโยชน์ของความสะดวกสบายหลังจากที่ความแปลกใหม่หมดไป
ลองนึกภาพว่าการจดจําเสียงนั้นสมบูรณ์แบบและไม่มีอัตราข้อผิดพลาดหรือไม่
ในกรณีนี้ ผู้คนจะ "พิมพ์" อีเมลได้เร็วกว่ามาก เช่น ใช้เสียงมากกว่าการพิมพ์บนสมาร์ทโฟน เมื่อถึงจุดวิกฤตินี้ความช่วยเหลือด้วยเสียงจะแพร่หลายสําหรับงานประเภทนี้
สําหรับบอทที่จะถอดทั้ง NLP และเทคโนโลยีการจดจําเสียงจําเป็นต้องทํางานในระดับสูง แม้ว่าการจดจําเสียงจะทํางานได้ดีอยู่แล้ว แต่ NLP ดังที่เราได้กล่าวไปแล้ว จะทํางานได้ดีสําหรับโดเมนแคบเท่านั้น
จุดที่น่าสนใจที่นี่คือการจดจําเสียงทํางานได้ดีกว่ามากในโดเมนแคบ ๆ ด้วยเหตุผลที่ชัดเจนมีคําที่เป็นไปได้น้อยกว่ามากที่ผู้ใช้สามารถพูดได้
ซึ่งหมายความว่าเราอยู่ในจุดที่สามารถ สร้าง chatbots ที่เกือบจะสมบูรณ์แบบในโดเมนแคบ เพียงฟังการสาธิต Google Duplex
สิ่งนี้จะนําไปสู่การยอมรับเสียงอย่างรวดเร็วเมื่อการค้นพบและปัญหาที่เกี่ยวข้องได้รับการแก้ไข
เสียงแรก
แนวคิดคือเสียงจะเป็นช่องทางแรกในการโทรเมื่อมีคนต้องการความช่วยเหลือ
ในอุปกรณ์ Voice First world จะมองไม่เห็นมากขึ้น เนื่องจากผู้คนจะต้องมองไปที่งานที่พวกเขาไม่สามารถใช้เสียงทําได้เท่านั้น
ผู้คนจะไม่ได้มีอุปกรณ์เพียงเครื่องเดียวในห้องนั่งเล่น แต่จะมีอุปกรณ์เสียงราคาถูกในทุกห้อง อุปกรณ์เหล่านี้จะเชื่อมต่อกัน, กับอุปกรณ์ IoT และสมาร์ทโฟนและคอมพิวเตอร์. อุปกรณ์เหล่านี้บางตัวอาจสามารถฉายภาพบนผนังได้
ผู้คนจะสามารถถามคําถามหรือออกคําสั่งขณะอาบน้ําหรือแปรงฟันได้ พวกเขาจะไม่ต้องจําสิ่งต่าง ๆ เพื่อบอกบอทเสียงชั้นล่าง
จะมีวิธีที่ดีกว่ามากในการค้นหาฟังก์ชันการทํางานและ "ฝึกอบรม" มนุษย์เกี่ยวกับวิธีใช้บอทอย่างมีประสิทธิภาพ
แม้ว่าจะมีปัญหามากมายเกี่ยวกับอุปกรณ์ผู้ช่วยเสียงในขณะนี้ แต่ปัญหาเหล่านี้ส่วนใหญ่เกี่ยวข้องกับวิธีการใช้งานมากกว่าเทคโนโลยีพื้นฐาน เราเชื่อว่าในช่วงเวลาสั้น ๆ แอพนักฆ่าสําหรับเสียงกําลังจะเกิดขึ้นและนี่จะเป็นเหตุการณ์ที่เปลี่ยนเกมสําหรับวิธีการใช้ซอฟต์แวร์ สิ่งนี้จะต้องมีการกําหนดมาตรฐานของเทคโนโลยีเสียงและโปรโตคอล แต่สิ่งเหล่านี้เป็นอุปสรรคที่จะไม่ขัดขวางความก้าวหน้าเป็นเวลานาน
เราตั้งตารอโลกแห่งความสะดวกสบายสูงสุดที่อุปกรณ์เสียงพร้อมที่จะช่วยเหลือในเกือบทุกสถานที่หรือทุกเวลา
สารบัญ
ติดตามข่าวสารล่าสุดเกี่ยวกับตัวแทน AI
แบ่งปันสิ่งนี้บน: