Speaking the Future into Existence: Why Voice is the Next Big Thing in Tech | ศูนย์หนังสือจุฬาฯ Botpress บล็อก

สารบัญ

ขั้นตอนที่ 1. ชื่อของขั้นตอนไปที่นี่ตามที่คาดไว้

ในขณะที่หลายคนในอุตสาหกรรมอาจโต้แย้งว่า "สิ่งที่ยิ่งใหญ่ต่อไป" ในเทคโนโลยีคือ blockchain, AI แทนที่คนงานมนุษย์หรือความเป็นจริงเสริม แต่ก็มีเทคโนโลยีที่สําคัญอย่างหนึ่งที่ถูกประเมินต่ําเกินไป: อินเทอร์เฟซผู้ใช้ด้วยเสียง

การวิจัยชี้ให้เห็นว่า 50% ของคําค้นหา จะทําผ่านการค้นหาด้วยเสียงภายในปี 2020 อย่างไรก็ตาม สิ่งที่งานวิจัยนี้ประเมินต่ําไปก็คือการปรับปรุงเล็กน้อยใน UI เสียงมีศักยภาพที่จะเปลี่ยนกระบวนทัศน์การโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์ในปัจจุบันโดยสิ้นเชิง สิ่งนี้นอกเหนือไปจากกรณีการใช้งานการค้นหาไปสู่ UI เสียงแทนที่หรือรวมเข้ากับอินเทอร์เฟซผู้ใช้และแอปแบบกราฟิกอย่างลึกซึ้ง

UI เสียงช่วยให้ผู้คนสามารถสื่อสารกับอุปกรณ์ในภาษาพูดที่เป็นธรรมชาติผ่านลําโพงอัจฉริยะและอุปกรณ์อื่นๆ ซึ่งปัจจุบันพบได้ในอุปกรณ์ต่างๆ เช่น Alexa หรือ Google Home การพูดเป็นพื้นฐานของวิธีที่เราทําสิ่งต่างๆ ให้สําเร็จร่วมกับมนุษย์คนอื่นๆ และจะเป็นพื้นฐานของวิธีที่เราทําสิ่งต่างๆ ให้สําเร็จด้วยคอมพิวเตอร์ในอนาคต

อย่างไรก็ตามขณะนี้เป็นความเห็นที่ผิดเพี้ยน

ในขณะที่ผู้เชี่ยวชาญด้านเทคโนโลยีส่วนใหญ่จะเห็นด้วยว่าเสียงจะยังคงพัฒนาบทบาทเฉพาะในปัจจุบันในระบบนิเวศของเทคโนโลยีหรืออย่างน้อยที่สุดก็เพิ่มขึ้นเรื่อย ๆ เมื่อเทคโนโลยีดีขึ้นการคาดการณ์ของฉันคือเสียงเป็นเหตุการณ์หลักในตัวเอง มันจะเข้ามาครอบงําการโต้ตอบของเรากับซอฟต์แวร์และอุปกรณ์ และยังมีความสําคัญพอๆ กับอินเทอร์เฟซผู้ใช้แบบกราฟิก

ดังที่ได้กล่าวมาแล้วนี่ไม่ใช่ความคิดเห็นกระแสหลัก ผู้เชี่ยวชาญในอุตสาหกรรมหลายคนตระหนักดีว่าเสียงยังคงเป็นความแปลกใหม่และยังไม่บรรลุความพอดีของตลาดผลิตภัณฑ์ที่สมบูรณ์แบบ ตัวอย่างเช่น VC ที่โดดเด่นบางรายมีความเห็นว่าจนกว่าจะบรรลุปัญญาประดิษฐ์ทั่วไปเทคโนโลยีเสียงจะมีความเฉพาะเจาะจงมาก

เนื่องจากข้อจํากัดมากมายในปัจจุบันของผู้ช่วยเสียง จึงเป็นเรื่องยากสําหรับผู้คนที่จะจินตนาการว่าเสียงเป็นคลื่นลูกต่อไปของเทคโนโลยี ในมุมมองของฉันเสียงในปัจจุบันคล้ายกับเว็บ dial-up ในช่วงต้นยุค 90 ในตอนนั้นประสบการณ์ออนไลน์แย่มากจนยากที่จะจินตนาการถึงสิ่งที่จะเป็นไปได้เมื่อแบนด์วิดท์ดีขึ้น นักคิดชั้นนําคาดการณ์ทุกประเภทสําหรับอินเทอร์เน็ตที่ดูอนุรักษ์นิยมอย่างไร้เหตุผลเมื่อมองย้อนกลับไปผู้เชี่ยวชาญบางคนถึงกับคาดการณ์ว่าจะไม่ส่งผลกระทบต่อเศรษฐกิจมากไปกว่าเครื่องแฟกซ์

ความคาดหวังของผู้คนที่มีต่อเสียงนั้นอนุรักษ์นิยมในทํานองเดียวกันในปัจจุบันส่วนหนึ่งเป็นเพราะประสบการณ์เสียงที่หยาบกระด้างยังคงมีอยู่ สมมติฐานคือจนกว่าจะบรรลุปัญญาประดิษฐ์ทั่วไปบอทจะทํางานไม่ดีในการสนทนาและเทคโนโลยีจะไม่มีวันดีจนกว่า chatbots มีความสามารถในการสนทนาอย่างใกล้ชิดกับมนุษย์กับผู้ใช้ อย่างไรก็ตาม สมมติฐานนี้เกี่ยวกับความต้องการปัญญาประดิษฐ์ทั่วไปมีข้อบกพร่อง: มีวิธีรับอย่างแน่นอน chatbots เพื่อให้ได้ประสิทธิภาพระดับเกือบมนุษย์โดยใช้เทคโนโลยีปัจจุบัน

สําหรับผู้ช่วยลําโพงอัจฉริยะทั่วไป ความครอบคลุมของหัวข้อนั้นกว้างมากจนต้องเรียนรู้ด้วยตนเองเกือบทั้งหมด น่าเสียดายที่เทคโนโลยีปัจจุบันไม่ดีพอที่จะสร้างบอทเรียนรู้ด้วยตนเองโดยอัตโนมัติซึ่งสามารถจัดการการสนทนาแบบหลายเทิร์นกับมนุษย์ได้ หากมีเทคโนโลยีดังกล่าวเราจะสามารถถามคําถามติดตามผลบน Google ได้ แต่การให้บอทอัจฉริยะสร้างตัวเองก็เหมือนกับการพยายามทําให้แอปสมาร์ทโฟนสร้างตัวเองโดยไม่ต้องมีส่วนร่วมของมนุษย์ — มันเป็นไปไม่ได้ในขณะนี้

มีอีกวิธีหนึ่งในการบรรลุการสนทนาระดับเกือบมนุษย์กับบอท: จํากัดขอบเขตให้แคบลงอย่างมาก นักพัฒนาสามารถสร้างบอทที่ซับซ้อนสําหรับงานเฉพาะ โดยตั้งโปรแกรมด้วยตนเองเพื่อมีส่วนร่วมในการสนทนาที่มีความหมาย ด้วยบอทประเภทนี้ที่ความก้าวหน้าของเสียงจะมาถึง: ลําโพงอัจฉริยะโทรศัพท์และอุปกรณ์อื่น ๆ จะโฮสต์บอทประเภทนี้สร้างโอกาสที่ยิ่งใหญ่สําหรับผู้ย้ายคนแรกที่ทําสิ่งต่างๆให้ถูกต้อง

การแก้ไขปัญหาของวอยซ์บอทในปัจจุบัน

เพื่อให้เข้าใจถึงความแตกต่างระหว่างประสบการณ์ของบอทเสียงในปัจจุบันกับสิ่งที่เทคโนโลยีนี้จะมีลักษณะในอนาคตเราต้องเริ่มต้นด้วยการทําความเข้าใจว่าทําไมอุปกรณ์เสียงในปัจจุบันจึงเทียบเท่ากับการท่องเว็บบนโมเด็มแบบเรียกผ่านสายโทรศัพท์

ประการแรกการโต้ตอบพื้นฐานกับบอทเสียงยังคงแย่มาก คุณต้องระบุอุปกรณ์ด้วยคํายอดนิยมโดยเฉพาะหลังจากนั้นคุณต้องรอดูว่าบอทเปิดใช้งานสําเร็จหรือไม่ หากเปิดใช้งานคุณต้องพูดหลังจากเสียงบี๊บด้วยความเร็วที่ช้า แต่สม่ําเสมอและกําหนดประโยคของคุณเพื่อรวมพารามิเตอร์ที่จําเป็นทั้งหมดเกือบจะเหมือนกับที่คุณกําลังพูดในคําสั่ง SQL หากคุณหยุดคิดชั่วคราวการโต้ตอบของคุณจะล้มเหลวและคุณจะต้องกลับไปที่จุดเริ่มต้น

ลองดูตัวอย่างในชีวิตจริง:

‍

คุณพูดว่า "Ok Google"

มีการหยุดชั่วคราวในขณะที่คุณรอการตอบรับว่าอุปกรณ์เปิดใช้งานแล้ว

หากเปิดใช้งานแล้ว คุณจะดําเนินการตามคําขอของคุณต่อไป:

"เล่น 'Dark Horse' โดย Katy Perry บน YouTube บนทีวีในห้องนั่งเล่น"

มีความล่าช้าอีกครั้งในขณะที่อุปกรณ์ประมวลผลสิ่งที่คุณพูด

หากคําขอของคุณสําเร็จบางสิ่งจะเริ่มเกิดขึ้นบนทีวีของคุณและวิดีโอจะเล่น

หากไม่ประสบความสําเร็จคุณต้องกลับไปที่จุดเริ่มต้นแล้วลองอีกครั้งอาจมีโครงสร้างประโยคที่แตกต่างกันคําที่แตกต่างกันหรือเพียงแค่พยายามพูดให้ชัดเจนยิ่งขึ้น

‍

ประสบการณ์นี้เต็มไปด้วยความล่าช้าข้อผิดพลาดที่อาจเกิดขึ้นและอาจใช้เวลารีสตาร์ทหลายครั้งเพื่อทํางานให้สําเร็จ นอกจากนี้ บอทเสียงยังไม่ฉลาดและจะไม่ตอบสนองต่อคําสั่งหรือข้อสงสัยที่เกี่ยวข้องเกี่ยวกับสิ่งที่คุณกําลังทําอยู่

วิธีใหม่ในการโต้ตอบกับบอทเสียง

วิธีที่ง่ายที่สุดในการจินตนาการถึงการโต้ตอบกับสมาร์ทบอทแห่งอนาคตคือการถ่ายภาพผู้ปฏิบัติงานที่เป็นมนุษย์ที่ควบคุมอุปกรณ์และให้คําแนะนําโดยเฉพาะเกี่ยวกับการใช้งาน YouTube (และไม่มีอะไรอื่น)

ความแตกต่างประการแรกคือความเร็วของการโต้ตอบ คุณสามารถพูดคุยกับผู้ปฏิบัติงาน "มนุษย์" ด้วยความเร็วปกติโดยไม่มีการหยุดชั่วคราวหรือความล่าช้าในการตอบสนองและไม่มีปัญหาหากคุณหยุดชั่วคราวขณะพูด คุณยังสามารถอ้างอิงถึงผู้ปฏิบัติงานที่เป็นมนุษย์ตรงกลางประโยค เช่น "ฉันต้องการดูทีวี คุณรู้อะไรไหม Alexa โปรดใส่บางอย่างบน YouTube" ในความเป็นจริงคุณอาจไม่ต้องพูดชื่อของพวกเขา (คําร้อน) เลยเพื่อให้พวกเขาตอบกลับ

บอทที่เหมือนมนุษย์นี้จะมีความยืดหยุ่นในแง่ของวิธีที่พวกเขาโต้ตอบกับคุณ:

‍

คุณ:" Alexa ฉันต้องการดู YouTube"

Alexa:" แน่นอนทีวีเครื่องไหน"

คุณ: "ในทีวีในครัว - อาจเป็นบางอย่างโดย Katy Perry"

Alexa: "คุณมีเพลงใดเพลงหนึ่งในใจหรือไม่"

คุณ: "ไม่ คุณแนะนําอะไรได้บ้าง"

มนุษย์: "'คําราม' 'ม้ามืด'? ฉันได้ใส่คําแนะนําเพิ่มเติมบนหน้าจอ"

คุณ: "เยี่ยมมากขอบคุณ เล่น 'ร้อนและเย็น'"

‍

นี่คืออนาคตของการโต้ตอบกับบอท: ราบรื่น ราบรื่น และง่ายต่อการพูดคุยเกี่ยวกับงานหรือหัวข้อที่อยู่ในมือ ลองนึกภาพจักรวาลอันกว้างใหญ่ของบอทเหล่านี้ที่มีจักรวาลอันกว้างใหญ่ไม่แพ้กันของอุปกรณ์เสียงราคาถูกและดัดแปลง มันจะเหมือนกับการมีผู้ปฏิบัติงานที่เป็นมนุษย์ยืนอยู่ในทุกห้องและข้างอุปกรณ์ทุกเครื่อง จะยังคงมี UI แบบกราฟิกมากมาย แต่จะใช้งานผ่านบอทได้ง่ายขึ้นมาก

‍

ก้าวสู่อนาคตของเสียง

ทุกวันนี้ เป็นเรื่องปกติที่จะเห็นพนักงานในสถานที่ต่างๆ เช่น สถานีรถไฟใต้ดิน สนามบิน และซูเปอร์มาร์เก็ตให้ความช่วยเหลือแก่ผู้ที่ใช้หน้าจอสัมผัสแบบบริการตนเอง เช่น บุคคลที่ช่วยคุณใช้เครื่องเช็คอินเพื่อรับบัตรผ่านขึ้นเครื่องที่สนามบิน อย่างไรก็ตามลองนึกภาพว่าบุคคลนี้สามารถเชื่อมต่อกับแอปพลิเคชันเช็คอินได้โดยตรงซึ่งหมายความว่าครึ่งทางของกระบวนการเช็คอินคุณสามารถบอกเครื่องว่าคุณต้องการเปลี่ยนที่นั่งจากตําแหน่งที่คุณเลือกในตอนแรกและแอปพลิเคชันจะแสดงหน้าจอที่เกี่ยวข้องให้คุณ - ทั้งหมดนี้ไม่ได้รับความช่วยเหลือจากผู้ช่วยที่เป็นมนุษย์

นี่คืออนาคต: บอทเสียงจะถูกฝังหรือเข้าถึงได้ในทุกอุปกรณ์หรือบริการที่คุณต้องการมีส่วนร่วม และจะทําตามที่คุณสั่งทันที คุณไม่จําเป็นต้องหยิบโทรศัพท์หรือแล็ปท็อปออกมาทําบางสิ่งให้เสร็จอีกต่อไป แต่สิ่งที่คุณต้องทําคือพูดออกเสียงสิ่งที่คุณต้องการและทุกอย่างจะเข้าที่จากที่นั่น

ในที่สุดการเปลี่ยนไปใช้เสียงจะเป็นเรื่องเกี่ยวกับสิ่งที่ง่ายพอ ๆ กับความสะดวกสบาย ในโลกสมัยใหม่ของเราผู้คนต้องการทําสิ่งต่าง ๆ อย่างรวดเร็วโดยมีความยุ่งยากน้อยที่สุดและความเร็วมีความสําคัญมากกว่าที่เคยเป็นมา แม้ว่าผู้ที่เชื่อมต่อกับอุตสาหกรรมแชทบอทส่วนใหญ่ไม่ได้คาดหวังในขณะนี้ แต่ พวกเรา ที่กําลังวิจัยและพัฒนาเทคโนโลยีคาดการณ์ถึงผลกระทบมหาศาลสําหรับการดําเนินธุรกิจการตลาดการขายการสร้างแบรนด์การจัดจําหน่ายผลิตภัณฑ์และอื่น ๆ เสียงคืออนาคตของเทคโนโลยี และเรามาถึงครึ่งทางแล้ว

แบ่งปันสิ่งนี้บน:

สร้างแชทบอท AI ในแบบของคุณเองได้ฟรี

เริ่มต้นสร้างบอท GPT ส่วนบุคคลด้วยอินเทอร์เฟซแบบลากและวางที่ใช้งานง่ายของเรา

เริ่มต้นใช้งาน – ฟรี! 🤖

ไม่ต้องใช้บัตรเครดิต

ติดตามข่าวสารล่าสุดเกี่ยวกับ AI chatbots

การพูดอนาคตสู่การดํารงอยู่: ทําไมเสียงจึงเป็นเรื่องใหญ่ต่อไปในด้านเทคโนโลยี

การแก้ไขปัญหาของวอยซ์บอทในปัจจุบัน

วิธีใหม่ในการโต้ตอบกับบอทเสียง

ก้าวสู่อนาคตของเสียง

บทความที่เกี่ยวข้อง

วิธีเพิ่มเวิร์กโฟลว์ขั้นสูงให้กับผู้ช่วย OpenAI ของคุณบน Botpress

วิธีเพิ่มประสิทธิภาพต้นทุนการใช้จ่าย AI ใน Botpress

แชทบอทสามารถเพิ่มการสร้างโอกาสในการขายและเพิ่มยอดขายให้กับธุรกิจของคุณได้อย่างไร

สร้างได้ดีขึ้นด้วย Botpress