- 휴먼인더루프(HITL)는 사람의 감독과 AI 시스템을 결합하여 정확도를 향상시킵니다.
- 사람은 데이터에 주석을 달고, AI 결과물을 검토하고, 에스컬레이션을 처리하고, 모델 개선을 안내하는 등의 방식으로 개입합니다.
- HITL은 안정성을 높이고, 편향을 완화하며, 지속적인 학습을 가능하게 하고, AI 시스템을 더욱 투명하게 만듭니다.
- 사용 사례는 자율 주행 자동차, 리테일 봇, 금융 위험 점검, 의료 의사 결정에 이르기까지 다양합니다.
AI로 비즈니스를 개선하고자 한다면 여러분은 혼자가 아닙니다. AI 챗봇은 가장 빠르게 성장하는 커뮤니케이션 채널로, 이제 더 이상 사치가 아닌 기대의 대상이 되었습니다.
하지만 이러한 통제권을 포기하는 것은 다소 두려운 일이 될 수 있습니다. 중요한 작업을 소위 '블랙박스 알고리즘'에 맡기는 것은 큰 비약처럼 느껴질 수 있습니다.
그렇기 때문에 기업은 AI를 조정하기 위해 사람의 개입에 의존합니다. 거의 모든 AI 에이전트 프레임워크에는 AI 운영에 대한 사람의 감독이 포함됩니다.

이 글에서는 챗봇이 무엇인지, 어떻게 작동하는지 설명하고, 사용자가 AI 챗봇과 상담원을 더 잘 제어할 수 있도록 매일 사람의 개입이 어떻게 사용되고 있는지 몇 가지 예를 들어 보겠습니다.
휴먼 인 더 루프란 무엇인가요?
휴먼 인 더 루프(HITL)는 AI의 기능을 개선하거나 확장하기 위해 사람의 의견을 사용하는 AI에 대한 협업 접근 방식입니다. 이는 사람이 주석을 단 데이터, 수정된 모델 결과물, 또는 AI가 불확실하거나 비효율적이라고 판단되는 경우 사람이 완전한 작업을 수행하도록 하는 등의 형태로 이루어질 수 있습니다.
이 용어는 다소 모호할 수 있습니다. 기술적으로는 데이터 라벨링 및 모델 평가부터 능동 학습 및 에스컬레이션에 이르기까지 AI 애플리케이션의 수명 주기에서 사람이 관여하는 모든 것을 의미합니다.
실제로 AI 제공업체가 HITL 기능을 제공한다는 것은 일반적으로 AI 결과물에 대한 감독, 즉 응답을 검토하고 챗봇 상호작용을 인간 상담원에게 에스컬레이션할 수 있는 기회를 의미합니다.
AI에서 인간은 어떻게 "루프에" 있을까요?
잘 운영되는 AI 파이프라인에는 사람을 위한 여러 진입점이 있습니다.
AI는 학습 데이터에서 패턴을 발견하도록 학습한 다음 이러한 패턴을 보이지 않는 새로운 데이터로 일반화합니다. 우리는 모델이 어떤 데이터를 볼지는 결정하지만, 데이터에서 어떤 패턴을 도출할지는 결정하지 못합니다.
데이터 수집, 교육, 배포 등 프로세스의 모든 단계에서 모델이 예상대로 작동하는지 확인하는 것은 사람의 몫입니다.
이러한 인적 개입이 발생하는 위치와 방식에 따라 다음 범주 중 하나에 속할 수 있습니다:
지속적인 학습을 위한 피드백 제공
ChatGPT 두 가지 응답 중 어떤 것이 더 나은지 물어볼 때를 알고 있나요? 피드백은 모델이 학습할 수 있는 새로운 데이터로 취급될 수 있습니다.

하지만 피드백이 반드시 명시적일 필요는 없습니다.
소셜 미디어 추천을 생각해 보세요. 예측 모델은 사용자의 기록을 기반으로 지속적으로 콘텐츠를 추천합니다. 플랫폼을 사용하면서 사용자가 선택한 콘텐츠는 추천 모델을 지속적으로 학습시키는 데이터로 사용됩니다.
이 경우 사용자가 바로 사람입니다. 그리고 앱을 사용하면서 향후 추천을 위한 가이드 역할을 하게 됩니다.
모델이 데이터를 학습하고, 사용자가 모델과 상호 작용하며, 이러한 상호 작용을 통해 모델이 다시 한 번 학습할 데이터를 생성하는 것이 바로 이 단계입니다.
에스컬레이션된 상황 처리하기
HITL이 반드시 시스템을 개선하는 것만은 아닙니다. 때로는 어려운 케이스를 사람에게 미루는 것이기도 합니다.
고객 지원 챗봇을 생각해 보세요. 챗봇은 질문의 95%에 명확하고 간결하며 정확하게 답변하여 팀의 업무 부담을 상당 부분 덜어줍니다.
하지만 그 5%가 있습니다.
일부 사례는 매우 구체적이거나 모호하여 AI가 파악할 수 없을 정도로 모호할 수 있습니다. 이 경우 사람이 개입한다고 해서 모델이 개선되지는 않지만, 인간과 머신러닝이 공생할 수 있는 좋은 예입니다.
교육용 데이터에 주석 달기
기술적으로 말하면, 거의 모든 머신러닝은 HITL 메커니즘으로 구축됩니다. 그렇기 때문에 HITL에 대해 이야기할 때는 주로 위의 카테고리를 언급합니다.
그렇긴 하지만 머신러닝 루프에서 인간의 노동력과 전문성에 주목하지 않는다면 실수일 것입니다.
데이터는 AI의 근간이며, AI는 인간에게 의존합니다. AI 모델은 입력 데이터를 기반으로 레이블을 예측하도록 학습됩니다. 레이블은 AI의 예상 결과물이며, 레이블을 만드는 것은 인간의 몫입니다.
휴먼 라벨링의 몇 가지 예는 다음과 같습니다:
- 대규모 언어 모델LLMs 학습을 위한 프롬프트에 손으로 직접 응답하기
- 음성 인식 모델용 오디오 파일을 트랜스크립션합니다.
- 객체 감지 모델을 위한 이미지의 객체 주석 달기
- 이메일 클라이언트의 스팸 탐지기를 위해 샘플 이메일을 스팸 또는 스팸이 아닌 것으로 표시하기
모델 성능 평가
AI 모델 구축에 소요되는 시간 중 가장 큰 비중을 차지하는 것은 모델을 개선하는 방법을 찾는 것입니다. 정확도나 회상률과 같이 계산할 수 있는 지표는 무궁무진하지만, 모델이 어떻게 작동하는지, 더 중요한 것은 무엇을 해야 하는지 파악하려면 전문가의 인사이트가 필요합니다.
예를 들어 연구자가 이 모델이 개 사진은 잘 식별하지만 핫도그는 잘 식별하지 못하는 것을 발견할 수 있습니다. 일반적으로 핫도그 사진을 추가하거나 다양화하면 이 문제를 해결할 수 있습니다.
가끔 채팅 모델이 이전 메시지의 정보를 기억하는 데 어려움을 겪을 수 있습니다. 연구자는 일반적으로 모델의 아키텍처나 생성 방법을 낮은 수준으로 조정하여 이 문제를 해결합니다.
휴먼 인더 루프 AI의 이점
AI는 미묘한 패턴을 인식하는 데 매우 효율적이고 효과적일 수 있지만, 사람은 똑똑합니다.
HITL은 인간 수준의 뉘앙스와 AI 워크플로 자동화의 효율성을 결합하여 사용자와 제공자가 원하는 경험에 맞는 응답을 제공하는 것입니다.
1. 정확성 및 신뢰성
이것은 생각할 필요도 없습니다. 일반 AI보다 나은 점은 무엇인가요? 바로 보정된 AI입니다.
엣지 케이스 해결에 최적화되어 있을 뿐만 아니라 사용자가 결과물을 지속적으로 검토하고 개선할 수 있다는 점에서 신뢰할 수 있습니다.

2. 편향성 완화
데이터는 불완전하며, 모델 출력은 이를 반영합니다. 편향성(특정 결과값이 다른 결과값보다 치우치는 현상)은 머신러닝과 AI 전반에 걸친 문제입니다.
인종에 따른 이미지 생성이나 성별에 따른 직업 자격 판단 등은 AI가 학습 데이터에 존재하는 편견을 반영하는 방법의 예입니다.
HITL을 통해 사람들은 이러한 문제를 표시하고 더 공정한 결과를 위해 모델을 조정할 수 있습니다.
3. 지속적인 개선 및 적응성
모델이 프로덕션에 사용된다고 해서 학습이 끝난 것은 아닙니다. HITL을 사용하면 새로운 데이터에 대한 모델 학습을 계속하여 보이지 않는 사례에 대한 일반화를 개선할 수 있습니다.
예를 들어, 생성된 텍스트를 편집하거나 사용자가 선택한 콘텐츠를 팔로우하면 모델이 개선에 사용할 수 있는 더 많은 데이터를 얻을 수 있습니다.
하지만 모델이 개선되는 것만으로는 충분하지 않으며, 모델도 변화해야 합니다.
우리는 끊임없이 변화하는 세상에 적응하는 방식을 당연하게 생각하기 쉽습니다. 하지만 AI를 활용하면 그렇지 않습니다. HITL은 전문 지식과 미묘한 판단력을 결합하여 모델의 결과물을 시대에 맞게 유지합니다.
4. 투명성과 신뢰
사람이 참여하면 AI의 결정이 더욱 투명해집니다. 사람이 출력을 수정하거나 불확실성이 낮은 사례를 해결하면 사용자는 합리적인 알고리즘과 상호 작용하고 있다는 확신을 가질 수 있습니다.
이를 통해 우리는 AI를 통제할 수 있고, 그 반대는 불가능합니다.
휴먼 인 더 루프 사용 사례
1. 자율 주행

향후 10년간 시장 가치가 3조 9천억USD 달할 것으로 예상되는 자율 주행은 AI의 차세대 개척지가 될 수 있습니다. 자율 주행은 물체 감지 모델과 순간별 의사 결정을 활용하여 사람의 운전을 시뮬레이션합니다.
하지만 이토록 자동화된 시스템은 인간에게 크게 의존합니다. 모델은 인간의 운전 패턴을 지속적으로 관찰하고, 인간의 의사 결정을 자체 예측과 비교합니다.
2. 소매
리테일 챗봇은 고객과의 상호작용을 자동화하는 동시에 개인화된 경험을 제공할 수 있는 좋은 방법입니다. HITL을 사용하면 이러한 경험을 비즈니스와 연계하여 원활하게 유지할 수 있습니다. 예를 들어
- 봇의 제품 추천을 검토하고 수정하세요.
- 상담원 파견 전에 고객이 기본적인 요구 사항에 대해 이야기하도록 합니다.
3. 금융
금융 챗봇은 AI 자동화와 인간의 전문성을 결합할 수 있는 좋은 방법입니다.
사기 탐지 시스템은 거래에서 의심스러운 활동을 찾아내는 데 능숙합니다. 하지만 모든 의심스러운 활동이 악의적인 것은 아니며, 커피 주문을 변경할 때마다 카드가 취소되는 것을 원치 않으실 것입니다.
HITL은 불확실성이 낮고 위험도가 낮은 사례는 사람에게 맡길 수 있습니다.
대출 위험 평가는 AI가 뛰어난 또 다른 영역으로, 서로 관련이 없어 보이는 모든 종류의 데이터에서 확률을 계산하는 데 능숙합니다. 하지만 이러한 데이터에는 어느 정도 편향성이 있을 수밖에 없습니다.
공정성을 유지하고 편견을 완화하려면 실제 사람의 도움이 필요한 경우가 많습니다.
4. 건강 관리

클라우드로 인해 생명을 구한 Reddit 사용자는 의료 분야에서 AI의 잠재력을 가장 먼저 옹호한 사람이 될 것입니다.
의료용 AI 챗봇은 그 잠재력을 일부 보여줬지만, 그 이상도 가능합니다: AI는 MRI 판독 결과를 바탕으로 진단을 내리거나 검사 결과에 따라 후속 조치를 제안하는 데 도움을 줄 수 있습니다. 하지만 아직 의사를 포기할 준비가 되지 않았습니다.
HITL은 의사가 놓칠 수 있는 사례를 포착하는 동시에 최종 결정을 내릴 수 있도록 하는 두 가지 장점을 모두 제공합니다.
지금 바로 인간 증강 AI 사용
Botpress 사람의 감독 없이 수천 개의 봇을 배포할 수 있으며, 업계에서 가장 유연한 AI 에이전트 플랫폼입니다.
Botpress HITL 통합, 시각적 드래그 앤 드롭 빌더, 모든 인기 커뮤니케이션 채널( Slack, Telegram, WhatsApp, 웹 포함)에 배포할 수 있는 기능을 제공하므로 AI를 사용한다고 해서 인간적인 느낌을 포기할 필요는 없습니다.
지금 바로 구축을 시작하세요. 무료입니다.
자주 묻는 질문
AI 시스템에 사람의 개입이 필요한지 어떻게 알 수 있나요?
AI 시스템이 중대한 결정을 처리하거나, 모호하거나 드문 상황에 자주 직면하거나, 편향되거나 유해한 결과를 초래할 위험이 있거나, 규정 준수 또는 고객 신뢰를 위해 절대적인 정확성과 사람의 판단이 필수적인 영역에서 작동하는 경우 사람의 개입이 필요할 수 있습니다.
휴먼 인 더 루프는 비기술적인 비즈니스 프로세스에서 사용할 수 있나요, 아니면 AI 모델에서만 사용할 수 있나요?
휴먼 인 더 루프는 고객 불만 검토나 콘텐츠 조정과 같은 비기술적인 비즈니스 프로세스에서 사용할 수 있는데, 이는 기계의 결정만으로는 불충분할 수 있는 자동화된 워크플로에 사람의 판단을 삽입하는 것을 의미하기 때문입니다.
휴먼 인 더 루프를 사용한다는 것은 내 AI 시스템이 덜 발전했다는 뜻인가요?
휴먼 인 더 루프를 사용한다고 해서 AI 시스템이 덜 발전했다는 의미는 아닙니다. AI의 속도와 패턴 인식에 인간의 판단력을 결합하여 미묘한 결정을 내리는 데 필수적인 안전과 공정성을 우선시하고 있음을 보여줍니다.
휴먼 인 더 루프 AI는 소규모 기업에게 비용 효율적일까요, 아니면 대기업에만 적합한가요?
최신 도구를 사용하면 까다로운 경우에만 사람을 선택적으로 참여시켜 인건비를 최소화하면서 대규모 인력 없이도 정확도와 신뢰도를 높일 수 있기 때문에 소규모 비즈니스에서 휴먼 인 더 루프 AI의 비용 효율성이 점점 더 높아지고 있습니다.
AI 시스템에 휴먼 인더 루프 프로세스를 추가하는 데 드는 비용은 얼마인가요?
사내 직원을 가끔 사용하는 경우 최소한의 비용부터 전담 검토자나 전문 계약업체가 필요한 경우 매달 수백, 수천 dollars 이르는 상당한 비용이 들 수 있으며, 이 비용은 주로 사람이 처리해야 하는 작업의 양과 복잡성에 따라 결정됩니다.