텍스트 최적화에 대해서는 많이 이야기했지만 문서에 이미지나 표가 포함되어 있는 경우에는 이러한 요소도 상담원이 사용할 수 있도록 몇 가지 추가 조치를 취하는 것이 중요합니다. 이미지, 차트, 표와 같은 비텍스트 콘텐츠는 중요한 정보를 담고 있을 수 있지만 세심한 준비 없이는 LLM 에 포함된 정보를 무시하거나 잘못 해석할 수 있습니다.
이미지부터 시작하겠습니다. 문서에 제품 사진이나 매우 양식화된 텍스트 등 이미지가 포함되어 있는 경우에는 파일을 업로드하기 전에 일반 텍스트로 변환하는 것이 좋습니다. Botpress 에서는 업로드한 파일을 사전 처리하므로 파일에서 일관된 답변을 얻으려면 직접 변환하는 것이 가장 좋은 방법입니다.
이 양식화된 레스토랑 메뉴를 예로 들어 보겠습니다. 일반 텍스트 파일로 변환하기 전에는 구문 분석 후 LLM 의 정보가 다음과 같이 보입니다. 하지만 업로드하기 전에 마크다운으로 변환하거나 기본 제공되는 Botpress 서식 있는 텍스트 편집기를 사용하면 훨씬 더 안정적인 결과를 얻을 수 있습니다.
다음으로 표와 구조화된 데이터에 대해 이야기해 보겠습니다. 문서에 표를 포함하는 경우 RAG를 수행하기 전에 파일이 마크다운으로 변환된다는 점을 기억하세요. 여기에는 두 가지 옵션이 있습니다. 기본 제공되는 Botpress 테이블을 지식창고로 지정하여 정보를 구조화하거나, 다음과 같이 마크다운 형식의 테이블을 사용할 수 있습니다.
비텍스트 콘텐츠를 최적화한다는 것은 OCR로 이미지를 처리하고, 복잡한 시각 자료에 설명을 추가하고, AI 에이전트가 사용할 수 있는 방식으로 표를 표시하는 것을 의미합니다. 여기서 우리의 목표는 텍스트와 비텍스트 콘텐츠를 모두 포함한 전체 데이터 세트를 LLM 에서 쉽게 읽을 수 있도록 만드는 것입니다.