Academy
Cách tối ưu hóa tệp cho RAG
Hình ảnh và bảng biểu
5
rag
8
7
6
5
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
Bài học tiếp theo
Bài học tiếp theo
Trong bài học này

Chúng ta đã nói nhiều về việc tối ưu hóa văn bản, nhưng nếu tài liệu của bạn có chứa hình ảnh hoặc bảng, bạn cần thực hiện thêm một vài bước để đảm bảo các thành phần này cũng có thể được tác nhân sử dụng. Nội dung phi văn bản như hình ảnh, biểu đồ và bảng có thể chứa thông tin quan trọng, nhưng nếu không chuẩn bị kỹ, LLM có thể bỏ qua hoặc hiểu sai thông tin đó.

Hãy bắt đầu với hình ảnh. Nếu tài liệu của bạn có bất kỳ hình ảnh nào, có thể là ảnh sản phẩm hoặc văn bản được trình bày đặc biệt, bạn nên chuyển chúng thành văn bản thuần túy trước khi tải tệp lên. Dù sao Botpress cũng sẽ xử lý trước các tệp khi bạn tải lên, nhưng cách tốt nhất để có câu trả lời nhất quán là tự chuyển đổi trước.

Lấy ví dụ về thực đơn nhà hàng được trình bày đặc biệt này. Trước khi chuyển sang tệp văn bản thuần, thông tin mà LLM có thể xử lý sẽ như thế này sau khi được phân tích. Thay vào đó, nếu chúng ta chuyển đổi sang markdown trước khi tải lên (hoặc sử dụng trình soạn thảo văn bản phong phú tích hợp của Botpress), kết quả sẽ đáng tin cậy hơn nhiều.

Tiếp theo, hãy nói về bảng và dữ liệu có cấu trúc. Nếu bạn chèn bảng vào tài liệu, hãy nhớ rằng trước khi thực hiện RAG, các tệp của bạn sẽ được chuyển sang markdown. Ở đây, bạn có hai lựa chọn. Bạn có thể sử dụng bảng tích hợp sẵn của Botpress làm cơ sở tri thức để thông tin được cấu trúc, hoặc bạn có thể dùng bảng định dạng markdown như sau.

Tối ưu hóa nội dung phi văn bản nghĩa là xử lý hình ảnh bằng OCR, thêm mô tả cho các hình ảnh phức tạp, và đảm bảo bảng được trình bày theo cách mà tác nhân AI của bạn có thể sử dụng. Mục tiêu ở đây là làm cho toàn bộ bộ dữ liệu—bao gồm cả văn bản và nội dung phi văn bản—dễ dàng cho LLM đọc hiểu.

Tóm tắt
Chuyển đổi hình ảnh và tài liệu có định dạng đặc biệt sang văn bản thuần túy, tối ưu hóa bảng bằng định dạng có cấu trúc hoặc markdown, và xử lý nội dung phi văn bản để đảm bảo tác nhân AI của bạn có thể hiểu và sử dụng chính xác tất cả thông tin trong bộ dữ liệu.
tất cả bài học trong khóa học này
Fresh green broccoli floret with thick stalks.