RAG용 데이터를 준비할 때는 문서의 형식과 구조의 모든 세부 사항이 중요합니다. 기본부터 시작해 보겠습니다: 사용 중인 파일 형식입니다.
먼저, 파일이 지원되는 형식인지 확인하세요. PDF, 워드 문서, HTML 파일, 마크다운, 일반 텍스트와 같은 일반적으로 사용되는 형식이 이에 해당합니다. Botpress Studio는 이 모든 파일 형식을 지원합니다. 일반적으로 복잡한 형식의 이미지 기반 문서처럼 쉽게 파싱할 수 없는 파일 형식은 피하는 것이 좋습니다. 적절한 추출이 이루어지지 않으면 이러한 파일은 LLM이 읽을 수 없으므로 에이전트가 정보를 이해하거나 정확하게 응답하는 데 한계가 생깁니다.
Botpress에서 에이전트의 지식 베이스로 사용할 파일을 업로드하면, 해당 파일은 자동으로 마크다운으로 변환됩니다. 에이전트가 항상 신뢰할 수 있는 답변을 제공하도록 하려면, 직접 원본 마크다운 파일을 업로드하거나, 마찬가지로 마크다운 기반인 리치 텍스트 지식 베이스 유형을 사용할 수 있습니다.
이제 파일 형식뿐만 아니라, 문서의 내용을 어떻게 구성하는지도 매우 중요합니다. 파일을 명확하고 논리적인 구조로 나누고, 구분된 섹션, 제목, 헤딩, 하위 헤딩을 사용하면 에이전트가 정보를 더 잘 이해하고 찾아낼 수 있습니다. 특히 문서의 헤딩에 주목하세요. 헤딩을 통해 정보 계층 구조가 명확하게 지정되어 있으면, LLM이 정보를 더 잘 분류할 수 있어 사용자의 질문에 맞는 지식을 더 효과적으로 찾아낼 수 있습니다.
여기서 중요한 원칙은 문서를 쉽게 파싱할 수 있도록 만드는 것입니다. 즉, 해당 분야나 서비스에 대한 배경지식이 전혀 없는 사람에게 이 문서를 건네주더라도, 그 안에 담긴 정보를 이해할 수 있어야 한다는 뜻입니다.
Botpress는 헤딩과 하위 헤딩에 의미 기반 접근 방식을 사용합니다. 즉, 벡터화 단계에서 파일 내에서 논리적으로 함께 묶여야 할 부분에 주목해 정보를 그룹화합니다. 하지만 이를 정확하게 수행하려면 문서의 구조가 잘 갖춰져 있어야 합니다. 예를 들어, 제목이 본문 일부로 파싱된다면, 해당 섹션에서 정보를 일관되게 찾아내는 데 문제가 생길 수 있습니다.
간단히 말해, 파일을 체계적으로 정리하고 표준화하는 데 조금만 시간을 투자해도 에이전트가 정보를 더 정확하게 처리하고 찾아낼 수 있는 능력이 크게 향상됩니다.
