Academy
Cách tối ưu hóa tệp cho RAG
Cấu trúc dữ liệu cho RAG
2
rag
8
7
6
5
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
Bài học tiếp theo
Bài học tiếp theo
Trong bài học này

Khi chuẩn bị dữ liệu cho RAG, từng chi tiết về định dạng và cấu trúc tài liệu đều quan trọng. Hãy bắt đầu với những điều cơ bản: loại tệp bạn đang sử dụng.

Trước tiên, hãy đảm bảo các tệp của bạn thuộc định dạng được hỗ trợ. Điều này bao gồm các loại phổ biến như PDF, tài liệu Word, tệp HTML, Markdown và văn bản thuần túy. Botpress Studio hỗ trợ tất cả các định dạng tệp này. Nói chung, nên tránh sử dụng các loại tệp khó phân tích cú pháp, chẳng hạn như tài liệu dạng hình ảnh với định dạng phức tạp. Nếu không trích xuất đúng cách, các tệp này sẽ không thể được LLM đọc, làm hạn chế khả năng hiểu và phản hồi chính xác của agent.

Khi bạn tải lên một tệp để sử dụng làm cơ sở tri thức cho agent trong Botpress, chúng tôi sẽ tự động chuyển đổi tệp đó sang định dạng markdown. Nếu bạn muốn đảm bảo agent luôn cung cấp câu trả lời đáng tin cậy, bạn có thể tự tải lên tệp markdown gốc hoặc sử dụng loại cơ sở tri thức Rich Text, thực chất cũng là markdown.

Ngoài loại tệp, cách bạn tổ chức nội dung tài liệu cũng quan trọng không kém. Việc chia nhỏ tệp thành cấu trúc rõ ràng, hợp lý với các phần riêng biệt, tiêu đề, đề mục và tiêu đề phụ sẽ giúp agent hiểu và truy xuất thông tin tốt hơn. Đặc biệt chú ý đến các đề mục trong tài liệu: với hệ thống phân cấp thông tin rõ ràng qua các đề mục, LLM có thể phân loại thông tin tốt hơn, từ đó nâng cao khả năng truy xuất kiến thức phù hợp với câu hỏi của người dùng.

Nguyên tắc chung ở đây là làm cho tài liệu của bạn dễ phân tích cú pháp. Nói cách khác, nếu bạn đưa tài liệu này cho một người hoàn toàn không biết gì về lĩnh vực hay dịch vụ của bạn, họ vẫn nên có thể hiểu được thông tin bên trong.

Botpress sử dụng phương pháp tiếp cận ngữ nghĩa đối với tiêu đề và tiêu đề phụ, nghĩa là trong bước vector hóa, chúng tôi chú ý đến các đoạn logic trong tệp cần được nhóm lại để truy xuất. Tuy nhiên, chúng tôi dựa vào cấu trúc tài liệu của bạn để thực hiện điều này một cách chính xác: nếu tiêu đề của bạn bị phân tích như một phần của nội dung chính, điều đó sẽ gây khó khăn cho agent trong việc truy xuất thông tin nhất quán từ phần này.

Tóm lại, dành một chút thời gian để sắp xếp và chuẩn hóa các tệp của bạn sẽ giúp cải thiện đáng kể khả năng xử lý và truy xuất thông tin chính xác của agent.

Tóm tắt
Tóm lại, dành một chút thời gian để sắp xếp và chuẩn hóa các tệp của bạn sẽ giúp cải thiện đáng kể khả năng xử lý và truy xuất thông tin chính xác của agent.
tất cả bài học trong khóa học này
Fresh green broccoli floret with thick stalks.