ขั้นตอนทั่วไปอย่างหนึ่งในการสร้าง บอท คือการกําหนด "เจตนา"
เจตนาอาจเป็น "รีเซ็ตรหัสผ่านของฉัน" "จองเที่ยวบิน" หรือ "ติดต่อฝ่ายสนับสนุน" นักพัฒนาบอทจําเป็นต้องป้อนวลีหลายวลีลงในซอฟต์แวร์ซึ่งทั้งหมดมีความหมายเดียวกันกับเจตนา ตัวอย่างเช่น "ฉันต้องการบินไปปารีส" จะเป็นวลีหนึ่งสําหรับความตั้งใจ "จองเที่ยวบิน"
โดยทั่วไป แพลตฟอร์มการพัฒนาบอท จะขอให้ผู้ใช้ป้อนวลีจํานวนมากสําหรับเจตนาที่กําหนด วลีเหล่านี้เป็นข้อมูลการฝึกอบรมสําหรับอัลกอริทึมการประมวลผลภาษาธรรมชาติ (NLP)
อัลกอริทึม NLP เป็นอัลกอริธึมการเรียนรู้ของเครื่องที่ฝึกตัวเองเกี่ยวกับข้อมูลเพื่อให้สามารถจดจําวลีที่มีความหมายเดียวกันแต่คําต่างกัน (เทียบกับข้อมูลการฝึกอบรม)
อัลกอริทึม NLP ใช้ข้อมูลความตั้งใจที่นักพัฒนาบอทให้มาบวกกับคลังข้อมูลขนาดใหญ่เกี่ยวกับภาษา (ที่ได้รับการฝึกอบรมก่อนหน้านี้) เพื่อปรับเทียบโมเดลภายในเพื่อให้สามารถจดจําวลีใหม่ได้
ยิ่งนักพัฒนาแชทบอทมอบตัวอย่างให้กับอัลกอริทึม NLP มากเท่าใด ก็จะยิ่งสามารถจดจําความหมายเดียวกันในวลีอื่นๆ ที่มีถ้อยคําต่างกันได้แม่นยํามากขึ้นเท่านั้น อย่างน้อยนั่นคือข้อความที่มอบให้กับนักพัฒนาบอท
ปัญหาคือข้อมูลการฝึกอบรมทั้งหมดไม่ได้ถูกสร้างขึ้นเท่ากัน คุณภาพของข้อมูลมีความสําคัญพอๆ กับปริมาณ
ตัวอย่างเช่น ลองนึกภาพว่าฉันต้องการสร้างเจตนาที่เรียกว่า "รีเซ็ตรหัสผ่านของฉัน"
ผู้เขียนบอทอาจเริ่มสร้างวลีต่อไปนี้:
รีเซ็ตรหัสผ่านของฉัน
ฉันลืมรหัสผ่าน
รหัสผ่านของฉันใช้ไม่ได้
รหัสผ่านใหม่โปรด
ปัญหารหัสผ่าน
ฯลฯ
ปัญหาข้างต้นคือวลีทั้งหมดใช้คําว่า "รหัสผ่าน" เดียวกัน ซึ่งหมายความว่าเมื่ออัลกอริทึมฝึกฝนตัวเองกับข้อมูลนี้มันจะแยกแยะกฎที่ว่าหากคําว่า "รหัสผ่าน" อยู่ในวลีเจตนาคือ "รีเซ็ตรหัสผ่านของฉัน" แน่นอนว่าสิ่งนี้ผิด ผู้คนสามารถพูดวลีอื่น ๆ ได้มากมายโดยไม่มีคําว่า "รหัสผ่าน" ซึ่งมีความหมายเดียวกับ "รีเซ็ตรหัสผ่านของฉัน" นอกจากนี้ยังมีวลีมากมายที่มีคําว่า "รหัสผ่าน" ซึ่งไม่ได้หมายถึง "รีเซ็ตรหัสผ่านของฉัน"
ในโลกของอัลกอริทึมปัญหานี้เรียกว่าเหมาะสมกับข้อมูลการฝึกอบรมมากเกินไป อัลกอริทึมได้ทับกับคําว่า "รหัสผ่าน" ดังนั้นจึง "เชื่อ" ว่าทุกวลีที่มีคําว่า "รหัสผ่าน" อยู่ในนั้นหมายถึง "รีเซ็ตรหัสผ่านของฉัน"
มีตัวอย่างอื่น ๆ ของสิ่งนี้สําหรับเจตนาเดียวกัน ตัวอย่างเช่น นักพัฒนาบอทสามารถป้อนวลีต่อไปนี้:
ข้อมูลประจําตัวของฉันใช้ไม่ได้
การเข้าสู่ระบบของฉันไม่ทํางาน
รหัสผ่านของฉันใช้ไม่ได้
ชื่อผู้ใช้ของฉันใช้ไม่ได้
ฯลฯ
แน่นอนว่านี่เป็นตัวอย่างที่รุนแรงกว่าของปัญหา แต่รูปแบบเป็นเรื่องปกติเมื่อสร้างข้อมูลการฝึกอบรม สิ่งนี้จะทําให้อัลกอริทึมพอดีกับข้อมูลอีกครั้ง แต่คราวนี้เป็นวลี "ไม่ทํางาน"
หวังว่าวิธีแก้ปัญหาจะชัดเจนในตอนนี้ แต่ละวลีในข้อมูลการฝึกอบรมจะต้องแตกต่างจากวลีอื่นๆ ในชุดข้อมูลมากที่สุด เช่น:
ข้อมูลประจําตัวของฉันใช้ไม่ได้
ฉันต้องการรีเซ็ตรหัสผ่าน
ฉันจะแก้ไขปัญหาการเข้าสู่ระบบของฉันได้อย่างไร
ใครสามารถช่วยฉันในการลงชื่อเข้าใช้ระบบ
ฯลฯ
แน่นอนว่าการสร้างชุดข้อมูลเช่นข้างต้นต้องใช้ความพยายามมากขึ้น การเปิดอรรถาภิธานเพื่อค้นหาคําพ้องความหมายเพื่อกระตุ้นแนวคิดสําหรับวลีอาจช่วยได้
อีกวิธีหนึ่งที่นักพัฒนาบอทเอาชนะปัญหานี้ได้คือการเข้าถึงข้อมูลการแชทของฝ่ายบริการลูกค้า ซึ่งให้ตัวอย่างมากมายเกี่ยวกับวิธีทั้งหมดที่ลูกค้าจริงจะถามคําถามเดียวกัน ข้อมูลนี้อาจมีค่าอย่างยิ่ง
มีคําถามเกี่ยวกับเวลาที่ อัลกอริทึม NLP จะสามารถทํางานได้ดีกับชุดข้อมูลการฝึกอบรมขนาดเล็ก จะดีกว่าอย่างแน่นอนหากบอททํางานได้อย่างสมบูรณ์โดยใช้ชุดข้อมูลขนาดเล็กเท่านั้น นี่คือสิ่งที่นักวิจัยกําลังดําเนินการอยู่อย่างแน่นอน เนื่องจากไม่เพียงแต่จะลดเวลาและความพยายามที่จําเป็นเท่านั้น สร้าง chatbotsมันจะปรับปรุงคุณภาพของพวกเขาอย่างมากมาย
อัลกอริทึม NLP เป็นกล่องดําสําหรับนักพัฒนาบอทส่วนใหญ่ อย่างไรก็ตาม สิ่งสําคัญคือพวกเขาต้องเข้าใจพื้นฐานของวิธีการทํางานของอัลกอริทึม เพื่อให้พวกเขารู้ว่าข้อมูลการฝึกอบรมประเภทใด (ข้อมูลความตั้งใจ) ที่พวกเขาต้องมอบให้กับอัลกอริทึมเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด
แบ่งปันสิ่งนี้บน:
สร้างแชทบอท AI ในแบบของคุณเองได้ฟรี
เริ่มต้นสร้างบอท GPT ส่วนบุคคลด้วยอินเทอร์เฟซแบบลากและวางที่ใช้งานง่ายของเรา
เริ่มต้นใช้งาน – ฟรี! 🤖ไม่ต้องใช้บัตรเครดิต
ติดตามข่าวสารล่าสุดเกี่ยวกับ AI chatbots