3
rag
8
7
6
5
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
다음 강의
다음 강의
이번 강의에서

이제 파일 유형과 포맷팅을 살펴봤으니, 텍스트 전처리 단계로 넘어가겠습니다. 이 단계에서는 각 문서의 내용을 정리하고 단순화하여, 에이전트가 정보를 더 쉽게 이해하고 올바르게 찾아낼 수 있도록 합니다.

먼저, 불필요한 데이터를 제거하는 것이 중요합니다. 문서의 각 내용이 실제로 사용자의 질문에 답하는 데 도움이 되는지 생각해 보세요. 예를 들어, 제품 카탈로그에 대한 질문에 답하고 싶다면, 직접적으로 관련 없는 법적 고지는 오히려 혼란을 줄 수 있습니다. 이런 부분을 제거하면 데이터셋이 훨씬 깔끔해지고 검색도 쉬워집니다. 또한, 인덱싱 과정에서 방해가 될 수 있는 추가 메타데이터나 푸터, 헤더 등도 정리하는 것이 좋습니다.

이 과정에서 또 중요한 점은 텍스트 자체를 단순화하는 것입니다. 전문 용어나 기술적인 언어, 지나치게 복잡한 문장은 때때로 모호함을 유발할 수 있습니다. 문서가 너무 복잡하면 처리 속도가 느려질 뿐 아니라, 답변이 명확하지 않을 수도 있습니다. 꼭 필요한 경우가 아니라면, 어려운 부분을 다시 표현하거나 업계 특유의 용어를 제거하는 것도 고려해 보세요.

문서에 긴 문단이나 복잡한 문장이 많다면, 자동 단순화 도구를 활용하는 것도 도움이 됩니다. 이런 도구는 복잡한 문장을 더 짧고 명확하게 나눠주어, Botpress가 내용을 더 정확하게 분할하고 해석할 수 있게 해줍니다.

요약하자면, 이 단계의 목표는 텍스트를 최대한 간단하고 관련성 있게 만드는 것입니다. 불필요한 데이터를 제거하고 언어를 단순화함으로써, 검색 성능과 정확도가 향상된 효율적인 데이터셋을 만들 수 있습니다.

항상 기억하세요. 좋은 기준은 AI 에이전트를 제품, 업계, 비즈니스에 대해 아무런 배경지식이 없는 새로운 동료라고 여기고 대하는 것입니다.

요약
불필요한 데이터를 제거하고 언어를 간결하게 다듬어, AI 에이전트의 성능과 검색 정확도를 높이는 깔끔하고 집중된 데이터셋을 만드세요.
이 과정의 모든 강의
Fresh green broccoli floret with thick stalks.