2
rag
17
18
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
10
15
15
13
12
11
10
9
8
7
6
5
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
다음 레슨
다음 레슨
이 단원에서는

RAG용 데이터를 준비할 때는 문서 형식과 구조의 모든 세부 사항이 중요합니다. 가장 기본적인 것부터 시작하겠습니다. 사용 중인 파일 형식입니다.

먼저 파일이 지원되는 형식인지 확인하세요. 여기에는 PDF, Word 문서, HTML 파일, 마크다운 및 일반 텍스트와 같이 일반적으로 사용되는 형식이 포함됩니다. Botpress 스튜디오는 이러한 파일 형식을 모두 지원합니다. 일반적으로 복잡한 서식을 가진 이미지 기반 문서와 같이 쉽게 구문 분석할 수 없는 파일 형식은 사용하지 마세요. 이러한 파일은 제대로 추출하지 않으면 LLM 에서 읽을 수 없으므로 상담원이 정확하게 이해하거나 응답할 수 있는 능력이 제한됩니다.

Botpress 에 상담원의 지식창고로 사용할 파일을 업로드하면 자동으로 파일을 마크다운으로 변환합니다. 상담원이 일관되게 신뢰할 수 있는 답변을 제공하도록 하려면 원시 마크다운 파일을 직접 업로드하거나 마크다운만 있는 서식 있는 텍스트 지식창고 유형을 사용할 수 있습니다.

이제 파일 유형을 넘어 문서의 콘텐츠를 구성하는 방법도 마찬가지로 중요합니다. 뚜렷한 섹션, 제목, 제목, 부제목을 사용하여 파일을 명확하고 논리적인 구조로 나누면 상담원이 정보를 이해하고 검색하는 능력을 크게 향상시킬 수 있습니다. 문서의 제목에 특히 주의를 기울이세요. 제목을 통해 명확한 정보 계층 구조를 지정하면 LLM 정보를 더 잘 분류하여 사용자 쿼리에 따라 관련 지식을 검색하는 능력을 향상시킬 수 있습니다.

여기서 가장 중요한 이론은 문서를 쉽게 파싱할 수 있게 만드는 것입니다. 즉, 업계나 서비스에 대한 배경 지식이 전혀 없는 사람에게 이 문서를 건네더라도 그 사람이 문서에 포함된 정보를 이해할 수 있어야 합니다.

Botpress 는 제목과 부제목에 시맨틱 접근 방식을 사용하므로, 벡터화 단계에서 검색을 위해 함께 그룹화해야 하는 파일의 논리적 부분에 주의를 기울입니다. 하지만 이 작업을 정확하게 수행하기 위해서는 문서의 구조에 의존합니다. 제목이 텍스트 본문의 일부로 구문 분석되는 경우 에이전트가 이 섹션에서 정보를 일관되게 검색하는 데 문제가 발생할 수 있습니다.

요컨대, 파일을 정리하고 표준화하는 데 조금만 시간을 투자하면 상담원이 정확한 정보를 처리하고 검색하는 능력을 향상시키는 데 큰 도움이 됩니다.

요약
요컨대, 파일을 정리하고 표준화하는 데 조금만 시간을 투자하면 상담원이 정확한 정보를 처리하고 검색하는 능력을 향상시키는 데 큰 도움이 됩니다.
이 과정의 모든 레슨