3
rag
17
18
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
10
15
15
13
12
11
10
9
8
7
6
5
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
다음 레슨
다음 레슨
이 단원에서는

파일 유형과 서식 지정에 대해 살펴보았으니 이제 텍스트 사전 처리에 대해 자세히 알아보겠습니다. 이 단계에서는 상담원이 올바른 정보를 쉽게 이해하고 검색할 수 있도록 각 문서의 콘텐츠를 정리하고 단순화합니다.

첫째, 관련 없는 데이터는 모두 제거해야 합니다. 문서의 각 콘텐츠가 잠재적인 사용자의 질문에 답하는 데 유용한지 생각해 보세요. 예를 들어 제품 카탈로그에 대한 질문에 답변하려는 경우, 직접적인 관련이 없는 법적 고지 사항은 문제를 일으킬 수 있습니다. 이를 제거하면 노이즈를 크게 줄여 데이터 집합을 더 깔끔하고 검색하기 쉽게 만들 수 있습니다. 또한 인덱싱 중에 방해가 될 수 있는 바닥글이나 헤더뿐만 아니라 여분의 메타데이터도 정리하는 것이 좋습니다.

이 과정에서 또 다른 중요한 부분은 텍스트 자체를 단순화하는 것입니다. 전문 용어, 기술 용어 또는 지나치게 복잡한 문장은 때때로 모호함을 유발할 수 있습니다. 문서가 너무 복잡하면 처리 속도가 느려질 뿐만 아니라 불명확한 답변으로 이어질 수 있습니다. 꼭 필요한 경우가 아니라면 복잡한 섹션의 문구를 바꾸거나 업계별 용어를 삭제하는 것이 좋습니다.

문서에 긴 단락이나 복잡한 문장이 포함되어 있는 경우 자동화된 간소화 도구를 사용하는 것도 도움이 될 수 있습니다. 이러한 도구는 복잡한 언어를 더 짧고 명확한 문장으로 분해하여 Botpress 에서 콘텐츠를 더 쉽게 정리하고 정확하게 해석할 수 있도록 도와줍니다.

요컨대, 여기서 목표는 텍스트를 가능한 한 간단하고 관련성 있게 만드는 것입니다. 불필요한 데이터를 제거하고 언어를 단순화함으로써 검색 성능과 정확성을 향상시키는 간결하고 집중적인 데이터 집합을 만들 수 있습니다.

좋은 경험 법칙은 AI 상담원을 제품, 업계 또는 비즈니스에 대한 맥락이 전혀 없는 새로운 동료처럼 대하는 것임을 기억하세요.

요약
관련 없는 데이터를 제거하고 언어를 단순화하여 AI 에이전트의 성능과 검색 정확도를 향상시키는 깔끔하고 집중된 데이터 세트를 만들 수 있습니다.
이 과정의 모든 레슨