Academy
Cách tối ưu hóa tệp cho RAG
Cấu trúc dữ liệu cho RAG
Trong bài học này

Khi chuẩn bị dữ liệu cho RAG, mọi chi tiết trong định dạng và cấu trúc tài liệu đều quan trọng. Hãy bắt đầu với những điều cơ bản: loại tệp bạn đang sử dụng.

Trước tiên, hãy đảm bảo rằng các tệp của bạn có định dạng được hỗ trợ. Điều này bao gồm các loại thường dùng như PDF, tài liệu Word, tệp HTML, Markdown và văn bản thuần túy. Botpress Studio hỗ trợ tất cả các định dạng tệp này. Nhìn chung, tránh sử dụng các loại tệp không dễ phân tích cú pháp, chẳng hạn như tài liệu dựa trên hình ảnh có định dạng phức tạp. Nếu không trích xuất đúng cách, các tệp này không thể được đọc bởi LLM , điều này hạn chế khả năng hiểu hoặc phản hồi chính xác của tác nhân.

Khi bạn tải lên một tệp để sử dụng làm cơ sở kiến thức của tác nhân trong Botpress , chúng tôi tự động chuyển đổi tệp thành markdown. Nếu bạn muốn đảm bảo rằng tác nhân của bạn cung cấp câu trả lời đáng tin cậy một cách nhất quán, bạn có thể tự tải tệp markdown thô lên hoặc sử dụng loại cơ sở kiến thức Rich Text, cũng chỉ là markdown.

Bây giờ, ngoài loại tệp, cách bạn sắp xếp nội dung tài liệu cũng quan trọng không kém. Chia nhỏ các tệp của bạn thành một cấu trúc rõ ràng và hợp lý—với các phần, tiêu đề, tiêu đề phụ và tiêu đề riêng biệt—có thể cải thiện đáng kể khả năng hiểu và truy xuất thông tin của tác nhân. Hãy đặc biệt chú ý đến các tiêu đề của tài liệu: với hệ thống phân cấp thông tin rõ ràng được chỉ định thông qua các tiêu đề, LLM có thể phân loại thông tin tốt hơn, cải thiện khả năng tìm kiếm kiến thức có liên quan dựa trên truy vấn của người dùng.

Lý thuyết bao quát ở đây là làm cho tài liệu của bạn dễ phân tích cú pháp. Nói cách khác, nếu bạn đưa tài liệu này cho một người không có bất kỳ bối cảnh nào về ngành hoặc dịch vụ của bạn, họ vẫn có thể hiểu được thông tin trong đó.

Botpress sử dụng phương pháp tiếp cận ngữ nghĩa đối với tiêu đề và tiêu đề phụ, nghĩa là trong bước vectơ hóa, chúng tôi chú ý đến các phân đoạn logic của tệp của bạn cần được nhóm lại với nhau để truy xuất. Nhưng chúng tôi dựa vào cấu trúc tài liệu của bạn để thực hiện việc này một cách chính xác: nếu tiêu đề của bạn đang được phân tích cú pháp như một phần của nội dung chính trong văn bản, điều đó sẽ gây ra vấn đề trong khả năng truy xuất thông tin nhất quán từ phần này của tác nhân.

Tóm lại, dành một chút thời gian để sắp xếp và chuẩn hóa các tệp tin sẽ giúp cải thiện đáng kể khả năng xử lý và thu thập thông tin chính xác của nhân viên.

Bản tóm tắt
Tóm lại, dành một chút thời gian để sắp xếp và chuẩn hóa các tệp tin sẽ giúp cải thiện đáng kể khả năng xử lý và thu thập thông tin chính xác của nhân viên.
tất cả các bài học trong khóa học này