Academy
Cách tối ưu hóa tệp cho RAG
Tiền xử lý văn bản
3
rag
8
7
6
5
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
Bài học tiếp theo
Bài học tiếp theo
Trong bài học này

Bây giờ khi chúng ta đã nói về các loại tệp và định dạng, hãy cùng tìm hiểu về tiền xử lý văn bản. Đây là bước làm sạch và đơn giản hóa nội dung trong từng tài liệu để giúp tác nhân của bạn dễ hiểu và truy xuất thông tin chính xác hơn.

Đầu tiên, việc loại bỏ dữ liệu không liên quan là rất quan trọng. Hãy cân nhắc xem mỗi phần nội dung trong tài liệu của bạn có thực sự hữu ích để trả lời các câu hỏi tiềm năng của người dùng không. Ví dụ, nếu bạn muốn trả lời về danh mục sản phẩm, các tuyên bố pháp lý không liên quan trực tiếp có thể gây rối. Loại bỏ những phần này sẽ giảm nhiễu đáng kể, giúp bộ dữ liệu sạch hơn và dễ tìm kiếm hơn. Bạn cũng nên loại bỏ các siêu dữ liệu dư thừa, cũng như chân trang hoặc đầu trang có thể gây xao nhãng khi lập chỉ mục.

Một phần quan trọng khác của quá trình này là đơn giản hóa chính văn bản. Thuật ngữ chuyên ngành, ngôn ngữ kỹ thuật hoặc câu quá phức tạp đôi khi có thể gây mơ hồ. Nếu tài liệu quá phức tạp, không chỉ làm chậm quá trình xử lý mà còn có thể dẫn đến câu trả lời không rõ ràng. Hãy cân nhắc diễn đạt lại các đoạn dày đặc hoặc loại bỏ các thuật ngữ chuyên ngành nếu không thực sự cần thiết.

Nếu tài liệu của bạn có các đoạn văn dài hoặc câu phức tạp, bạn có thể sử dụng các công cụ tự động đơn giản hóa. Những công cụ này giúp tách ngôn ngữ phức tạp thành các câu ngắn, rõ ràng hơn, giúp Botpress dễ dàng phân đoạn và hiểu nội dung chính xác.

Tóm lại, mục tiêu ở đây là làm cho văn bản càng đơn giản và liên quan càng tốt. Bằng cách loại bỏ dữ liệu không cần thiết và đơn giản hóa ngôn ngữ, bạn đang tạo ra một bộ dữ liệu gọn gàng, tập trung, giúp cải thiện hiệu suất và độ chính xác khi truy xuất.

Hãy nhớ rằng, một nguyên tắc hữu ích là hãy coi tác nhân AI của bạn như một đồng nghiệp mới hoàn toàn chưa biết gì về sản phẩm, ngành nghề hoặc doanh nghiệp của bạn.

Tóm tắt
Loại bỏ dữ liệu không liên quan và đơn giản hóa ngôn ngữ để tạo ra bộ dữ liệu sạch, tập trung, giúp cải thiện hiệu suất và độ chính xác truy xuất của tác nhân AI.
tất cả bài học trong khóa học này
Fresh green broccoli floret with thick stalks.