Trong bài học này

Chúng tôi đã nói rất nhiều về việc tối ưu hóa văn bản, nhưng nếu tài liệu của bạn chứa hình ảnh hoặc bảng, điều quan trọng là phải thực hiện thêm một vài bước để đảm bảo rằng các yếu tố này cũng có thể được đại lý của bạn sử dụng. Nội dung không phải văn bản như hình ảnh, biểu đồ và bảng có thể chứa thông tin có giá trị, nhưng nếu không có sự chuẩn bị cẩn thận, LLM có thể bỏ qua hoặc hiểu sai thông tin chúng chứa đựng.

Hãy bắt đầu với hình ảnh. Nếu tài liệu của bạn chứa bất kỳ hình ảnh nào, có thể là ảnh sản phẩm hoặc thậm chí là văn bản được cách điệu, thì bạn nên chuyển đổi thành văn bản thuần túy trước khi tải tệp lên. Botpress sẽ xử lý trước các tệp của bạn sau khi bạn tải chúng lên, vì vậy cách tốt nhất để có được câu trả lời nhất quán từ các tệp của bạn là tự chuyển đổi chúng.

Hãy lấy ví dụ về thực đơn nhà hàng được cách điệu này. Trước khi chuyển đổi nó thành tệp văn bản thuần túy, thông tin mà LLM phải hoạt động với giao diện như thế này, sau khi nó được phân tích cú pháp. Thay vào đó, nếu chúng ta chuyển đổi nó thành markdown trước khi tải lên (hoặc sử dụng Botpress trình soạn thảo văn bản phong phú), thì chúng ta sẽ có được kết quả đáng tin cậy hơn nhiều.

Tiếp theo, chúng ta hãy nói về bảng và dữ liệu có cấu trúc. Nếu bạn đang đưa bảng vào tài liệu của mình, hãy nhớ rằng trước khi thực hiện RAG, các tệp của bạn được chuyển đổi thành markdown. Ở đây, bạn có hai tùy chọn. Bạn có thể chỉ định một Botpress bảng như một cơ sở kiến thức, để thông tin của bạn được cấu trúc, hoặc bạn có thể sử dụng bảng được định dạng theo markdown như sau.

Tối ưu hóa nội dung không phải văn bản có nghĩa là xử lý hình ảnh bằng OCR, thêm mô tả cho hình ảnh phức tạp và đảm bảo các bảng được trình bày theo cách mà tác nhân AI của bạn có thể sử dụng. Ở đây, mục tiêu của chúng tôi là làm cho toàn bộ tập dữ liệu—bao gồm cả nội dung văn bản và không phải văn bản—dễ dàng cho một LLM để đọc.

Bản tóm tắt
Chuyển đổi hình ảnh và tài liệu cách điệu thành văn bản thuần túy, tối ưu hóa bảng bằng định dạng có cấu trúc hoặc đánh dấu và xử lý nội dung không phải văn bản để đảm bảo tác nhân AI của bạn có thể diễn giải và sử dụng chính xác mọi thông tin trong tập dữ liệu của bạn.
tất cả các bài học trong khóa học này