Academy
วิธีเพิ่มประสิทธิภาพไฟล์สำหรับ RAG
การจัดโครงสร้างข้อมูลสำหรับ RAG
ในบทเรียนนี้

เมื่อเตรียมข้อมูลสำหรับ RAG รายละเอียดทุกอย่างในการจัดรูปแบบและโครงสร้างของเอกสารมีความสำคัญ มาเริ่มด้วยพื้นฐานกันก่อน: ประเภทไฟล์ที่คุณกำลังใช้

ขั้นแรก ตรวจสอบให้แน่ใจว่าไฟล์ของคุณอยู่ในรูปแบบที่รองรับ ซึ่งรวมถึงประเภทที่ใช้ทั่วไป เช่น PDF เอกสาร Word ไฟล์ HTML Markdown และข้อความธรรมดา Botpress Studio รองรับรูปแบบไฟล์เหล่านี้ทั้งหมด โดยทั่วไป หลีกเลี่ยงการใช้ประเภทไฟล์ที่ไม่สามารถแยกวิเคราะห์ได้ง่าย เช่น เอกสารที่เป็นรูปภาพที่มีการจัดรูปแบบที่ซับซ้อน หากไม่ได้แยกไฟล์อย่างเหมาะสม ไฟล์เหล่านี้จะไม่สามารถอ่านได้โดยโปรแกรมอื่น LLM ซึ่งจำกัดความสามารถของตัวแทนของคุณในการทำความเข้าใจหรือตอบสนองอย่างถูกต้อง

เมื่อคุณอัปโหลดไฟล์เพื่อใช้เป็นฐานความรู้ของตัวแทนใน Botpress เราจะแปลงไฟล์เป็นมาร์กดาวน์โดยอัตโนมัติ หากคุณต้องการให้แน่ใจว่าตัวแทนของคุณให้คำตอบที่เชื่อถือได้อย่างสม่ำเสมอ คุณสามารถอัปโหลดไฟล์มาร์กดาวน์แบบดิบด้วยตัวเอง หรือใช้ประเภทฐานความรู้ Rich Text ซึ่งก็คือมาร์กดาวน์เช่นกัน

นอกเหนือจากประเภทไฟล์แล้ว วิธีที่คุณจัดระเบียบเนื้อหาเอกสารของคุณก็มีความสำคัญเช่นกัน การแบ่งไฟล์ของคุณออกเป็นโครงสร้างที่ชัดเจนและมีเหตุผล โดยแยกส่วน ชื่อเรื่อง หัวเรื่อง และหัวเรื่องย่อยออกจากกัน จะช่วยเพิ่มความสามารถของตัวแทนของคุณในการทำความเข้าใจและค้นหาข้อมูลได้อย่างมาก ให้ความสำคัญเป็นพิเศษกับหัวเรื่องของเอกสารของคุณ: ด้วยลำดับชั้นข้อมูลที่ชัดเจนซึ่งกำหนดโดยหัวเรื่อง LLM สามารถจัดหมวดหมู่ข้อมูลได้ดีขึ้น และเพิ่มความสามารถในการค้นหาความรู้ที่เกี่ยวข้องตามข้อสอบถามของผู้ใช้

ทฤษฎีที่ครอบคลุมในที่นี้คือการทำให้เอกสารของคุณแยกวิเคราะห์ได้ง่าย กล่าวอีกนัยหนึ่ง หากคุณส่งเอกสารนี้ให้ใครสักคนซึ่งไม่มีบริบทใดๆ เกี่ยวกับอุตสาหกรรมหรือบริการของคุณ พวกเขาควรจะยังสามารถเข้าใจข้อมูลที่อยู่ในเอกสารนั้นได้

Botpress ใช้แนวทางเชิงความหมายกับหัวเรื่องและหัวเรื่องย่อย ซึ่งหมายความว่าในระหว่างขั้นตอนการแปลงเป็นเวกเตอร์ เราจะใส่ใจกับส่วนเชิงตรรกะของไฟล์ของคุณที่ควรจัดกลุ่มเข้าด้วยกันเพื่อเรียกค้นข้อมูล แต่เราต้องอาศัยโครงสร้างเอกสารของคุณเพื่อดำเนินการนี้ให้ถูกต้อง: หากหัวเรื่องของคุณถูกแยกวิเคราะห์เป็นส่วนหนึ่งของเนื้อหาหลักของข้อความ นั่นจะทำให้เกิดปัญหาในความสามารถของตัวแทนของคุณในการเรียกค้นข้อมูลจากส่วนนี้อย่างสม่ำเสมอ

โดยสรุป การใช้เวลาเพียงเล็กน้อยในการจัดระเบียบและทำให้ไฟล์ของคุณเป็นมาตรฐานจะช่วยปรับปรุงความสามารถของตัวแทนของคุณในการประมวลผลและค้นหาข้อมูลที่ถูกต้องได้เป็นอย่างดี

สรุป
โดยสรุป การใช้เวลาเพียงเล็กน้อยในการจัดระเบียบและทำให้ไฟล์ของคุณเป็นมาตรฐานจะช่วยปรับปรุงความสามารถของตัวแทนของคุณในการประมวลผลและค้นหาข้อมูลที่ถูกต้องได้เป็นอย่างดี
บทเรียนทั้งหมดในหลักสูตรนี้