이제 파일 유형과 포맷팅을 살펴봤으니, 텍스트 전처리 단계로 넘어가겠습니다. 이 단계에서는 각 문서의 내용을 정리하고 단순화하여, 에이전트가 정보를 더 쉽게 이해하고 올바르게 찾아낼 수 있도록 합니다.
먼저, 불필요한 데이터를 제거하는 것이 중요합니다. 문서의 각 내용이 실제로 사용자의 질문에 답하는 데 도움이 되는지 생각해 보세요. 예를 들어, 제품 카탈로그에 대한 질문에 답하고 싶다면, 직접적으로 관련 없는 법적 고지는 오히려 혼란을 줄 수 있습니다. 이런 부분을 제거하면 데이터셋이 훨씬 깔끔해지고 검색도 쉬워집니다. 또한, 인덱싱 과정에서 방해가 될 수 있는 추가 메타데이터나 푸터, 헤더 등도 정리하는 것이 좋습니다.
이 과정에서 또 중요한 점은 텍스트 자체를 단순화하는 것입니다. 전문 용어나 기술적인 언어, 지나치게 복잡한 문장은 때때로 모호함을 유발할 수 있습니다. 문서가 너무 복잡하면 처리 속도가 느려질 뿐 아니라, 답변이 명확하지 않을 수도 있습니다. 꼭 필요한 경우가 아니라면, 어려운 부분을 다시 표현하거나 업계 특유의 용어를 제거하는 것도 고려해 보세요.
문서에 긴 문단이나 복잡한 문장이 많다면, 자동 단순화 도구를 활용하는 것도 도움이 됩니다. 이런 도구는 복잡한 문장을 더 짧고 명확하게 나눠주어, Botpress가 내용을 더 정확하게 분할하고 해석할 수 있게 해줍니다.
요약하자면, 이 단계의 목표는 텍스트를 최대한 간단하고 관련성 있게 만드는 것입니다. 불필요한 데이터를 제거하고 언어를 단순화함으로써, 검색 성능과 정확도가 향상된 효율적인 데이터셋을 만들 수 있습니다.
항상 기억하세요. 좋은 기준은 AI 에이전트를 제품, 업계, 비즈니스에 대해 아무런 배경지식이 없는 새로운 동료라고 여기고 대하는 것입니다.
