포르투갈어 챗봇은 포르투갈어로 대화를 이해하고 분석할 수 있는 프로그램입니다. 오늘날 이러한 챗봇은 사람과 컴퓨터 간의 대화를 매우 자연스럽게 이어갈 수 있습니다.

자연어 처리(NLP, 이 글에서는 PLN으로 표기)의 최근 발전으로 포르투갈어의 특성을 고려한 챗봇 개발이 가능해졌습니다. 이러한 발전은 기계 학습(ML)을 활용해 언어 구조뿐 아니라 단어의 의미와 맥락까지 이해할 수 있게 합니다.

포르투갈어로 AI 챗봇 만들기

포르투갈어는 세계에서 여섯 번째로 많이 사용되는 언어이며, 그 절반이 브라질에 있습니다. 모든 라틴계 언어와 가까우면서도 두 가지 뚜렷한 특징이 있습니다:

  • 수많은 거짓 동족어가 존재합니다. 겉보기에는 비슷하지만 의미가 다른 단어들입니다. 포르투갈(PT)에서 propina는 월별 납부금이지만, 브라질(PT-BR)에서는 뇌물을 의미합니다. 심지어 브라질 내에서도 단어의 의미가 달라질 수 있습니다. 예를 들어, 북동부에서는 'cabra'가 남자를 뜻하지만, 다른 지역에서는 동물만을 가리킵니다.
  • 맥락 사용이 많으면 포르투갈어 챗봇의 해석 작업이 매우 어려워집니다. "chega"라는 단어는 동사("ela chega amanhã") 또는 중단 요청("chega dessa conversa")으로 쓰일 수 있습니다.

게다가, 서로 다른 국가의 사람들이 사용하는 관용구도 완전히 달라서, 때로는 전체 문장을 이해하기 어렵게 만듭니다.

이런 특이점들 때문에 포르투갈어 챗봇을 만드는 일이 어렵냐고요? 놀랍지 않게도, 답은 '그렇다'입니다.

포르투갈어 챗봇: NLP의 도전과제

위 내용은 포르투갈어 챗봇의 자연어 처리에 도전 과제를 제시합니다. 자연어 처리 알고리즘의 첫 단계는 언어를 이해하는 것, 즉 문장을 의미 단위인 '토큰'으로 분석하는 것입니다. 이 작업을 '토큰화'라고 하며, 브라질 포르투갈어의 특징 중 하나는 외국어를 차용해 포르투갈어화하는 것입니다. 언어가 체계적이고 정돈될수록 토큰화가 쉬워집니다.

최신 자연어 처리 모델의 의미를 이해하려면, 먼저 기존 자연어 처리 모델이 어떻게 만들어졌는지 알아야 합니다.

과거에

어떤 면에서, 포르투갈어(혹은 다른 언어) 챗봇이 어떻게 만들어지는지 이해하는 것은 시간 여행과도 같습니다.

언어의 예측 불가능성을 다루기 위한 초기 연구는 1940년대에 시작되었습니다. MIT의 신경해부학자이자 정신과 의사인 Warren McCulloch와 일리노이 대학교의 수학자 Walter Pitts의 논문에서 그 흔적을 찾을 수 있습니다. 이들은 John von Neumann이 1940년대 말에 “The General and Logical Theory of Automata”를 쓸 수 있도록 이론적 토대를 마련했습니다.

컴퓨터의 처리 능력이 점점 더 강력해지면서, 자연어 처리(NLP) 연구는 과학 연구소에서 기업과 정부 기관의 실생활 기술 연구로 확장되었습니다.

NLP의 역사는 1950년대 Alan Turing이 “Computing Machinery and Intelligence”라는 논문을 발표하며 본격적으로 시작됩니다. 이 논문에서 그는 오늘날 튜링 테스트라 불리는 지능의 기준을 제안했습니다.

하지만 1980년대 후반부터는 기계 학습 알고리즘이 언어 처리를 위해 도입되면서 NLP에 혁명이 일어났습니다. 이는 컴퓨팅 파워의 지속적인 증가와, 언어학 이론(특히 촘스키언 이론)의 영향력이 점차 줄어들면서 가능해졌습니다. 촘스키언 이론은 기계 학습 기반 언어 처리에 필요한 언어 코퍼스 구축을 저해했기 때문입니다. 이 자동화는 문장을 더 작은 단위로 나누고, 통계적 규칙을 적용해 이들 간의 관계를 분류·식별하는 방식으로 이루어졌습니다. 이 과정을 “토크나이제이션”이라고 하며, 위에서 이미 설명했습니다.

하지만 언어를 토크나이즈하는 작업은 NLP 연구자에게 많은 수작업을 요구했습니다. 각 언어마다 독립적으로, 사실상 수동으로 토크나이즈해야 했습니다.

특히 맥락에 따라 의미가 크게 달라지는 언어를 다루는 챗봇에게 이 작업은 매우 어려웠습니다.

언어가 토크나이즈되고 나면, AI 알고리즘을 적용해 언어를 이해할 수 있습니다. 즉, 언어 내 단어들이 어떻게 연결되는지 의미 지도를 만드는 것입니다.

이 언어 이해 단계는 토크나이제이션이 신뢰할 수 있다면 자동화할 수 있습니다. 하지만 토크나이제이션 자체가 복잡했기 때문에, 이해 알고리즘도 토크나이제이션과 함께 수동으로 설정해야 했습니다.

결과적으로 성능은 만족스럽지 못했습니다. 예를 들어, 포르투갈어의 이해 수준은 영어에 비해 중간 정도였습니다. 영어 연구에 더 많은 집중이 있었던 것도 사실이지만, 포르투갈어의 맥락 처리 난이도 때문에 좋은 결과를 얻기 어려웠습니다.

AI 연구자들은 자연스럽게 토크나이제이션 자체도 기계 학습으로 처리할 수 있을지 고민했습니다. 만약 가능하다면, 토크나이제이션과 이해 알고리즘 모두 언어에 구애받지 않게(언어 불가지론적으로) 만들 수 있고, AI 훈련 속도와 품질도 크게 향상될 수 있습니다.

인공지능의 최근 발전

2018년 말, 혁신이 이루어진 지점이 바로 여기였습니다. AI가 포르투갈어로 별도의 수작업 없이 학습될 수 있었고, 그 결과 NLP 성능이 크게 향상되었습니다.

포르투갈어 챗봇용 AI 플랫폼은 즉시 더 나은 성능을 보일 수 있었고, 포르투갈어 이해도는 다른 언어와 비슷한 수준에 도달했습니다.

이러한 발전이 있었다고 해서 포르투갈어 챗봇의 전반적인 품질이 즉시 향상된 것은 아닙니다. 고객이 이점을 체감하려면, AI를 사용하는 챗봇 플랫폼이 최신 기술을 적용하도록 알고리즘을 업데이트해야 했습니다.

기존 기술에 투자한 만큼, 플랫폼들이 이를 빠르게 적용하지는 않았습니다.

또한, 포르투갈어 챗봇이 최종 사용자에게 좋은 경험을 제공하려면 몇 가지 기능이 필요합니다. 예를 들어, 동의어 블록을 구축하고 다양한 맥락에서의 사용을 매핑해, 챗봇이 단어를 잘못 이해하지 않도록 해야 합니다.

다국어 플랫폼

여러 마켓플레이스 플랫폼에서 다양한 언어를 사용하는 것은 어려울 수 있습니다. 일부 플랫폼은 언어별 챗봇을 별도의 봇으로 구축해야 하므로, 확장성과 유지보수 측면에서 비효율적입니다.

따라서 좋은 플랫폼은 진정한 다국어 지원을 제공하며, 동일한 콘텐츠의 여러 번역본을 사용자 인터페이스에서 관리할 수 있어야 합니다.

또한 언어는 대화의 변수로 설정되어야 하며, AI가 이를 정확히 감지하고 대화 디자이너가 언어별 논리를 설계할 수 있어야 합니다.

언어별 기능 외에도, 어떤 언어로든 훌륭한 챗봇을 만들기 위해서는 챗봇 플랫폼의 전반적인 기능이 뛰어나야 합니다. 중요한 기능은 두 가지 범주로 나뉩니다.

  • 첫 번째는 일반적인 자연어 이해 기술(또는 앞서 언급한 NLP 알고리즘)입니다. 성능이 좋은 플랫폼은 언어에 독립적일 뿐 아니라, 기본 NLP 알고리즘이 최신 기술을 사용하고 전반적으로 잘 작동해야 합니다. 슬롯 채우기(맥락에서 정보를 추출해 '키/값' 형식으로 구성)나 대화 맥락 기반 의도 매칭 등 NLP 관련 기능이 플랫폼에 있는 것이 중요합니다.
  • 두 번째 카테고리는 플랫폼의 전반적인 기능성입니다. 디자이너가 최종 사용자에게 매우 만족스러운 챗봇 경험을 쉽게 만들 수 있어야 하며, 레거시 및 타사 시스템과의 손쉬운 통합도 지원해야 합니다. 이러한 기능이 없거나 사용이 어렵다면, 플랫폼이 포르투갈어를 지원하든 아니든 중요하지 않습니다.

결국, 최종 사용자에게 제공되는 챗봇 경험의 품질은 언어 이해부터 그래픽/텍스트 인터페이스 접근 방식까지, 이를 만드는 도구의 역량과 직접적으로 연결되어 있습니다.

최고의 포르투갈어 챗봇 만들기

좋은 플랫폼이 있어도 포르투갈어 챗봇을 만드는 데에는 여전히 도전과제가 있습니다. 인공지능 분야에서 포르투갈어 연구가 제한적이기 때문에, 프로젝트에 적합한 리소스를 찾는 것이 상당히 어렵습니다.

기본적인 자연어 처리 알고리즘을 직접 작성할 필요는 없지만, 다양한 포르투갈어 사용자 그룹의 언어적 차이를 이해하는 디자이너를 찾는 것은 쉽지 않습니다. 포르투갈어는 맥락에 따라 다양한 관용구가 많이 쓰이기 때문에 더욱 그렇습니다.

따라서 챗봇 플랫폼은 비전문가도 콘텐츠와 번역을 쉽게 업데이트하고 관리할 수 있어야 하며, 디자이너와 개발자가 포르투갈어의 문화적 특성을 모두 알지 못할 수 있기 때문입니다.

물론, 고품질 포르투갈어 챗봇의 정확도가 높아지면서 이 기술의 도입도 앞으로 더욱 늘어날 것입니다. 이러한 확산은 리소스 부족 문제를 해결하고, 기술 구매자들이 최적의 결과를 얻기 위한 모범 사례를 명확히 파악할 수 있게 해줄 것입니다.

요약

PLN(자연어 처리) 기술의 혁신은 포르투갈어 챗봇뿐 아니라 다양한 AI 응용 프로그램에도 적용되고 있습니다. 이제는 포르투갈어 AI를 활용해 뉴스와 댓글의 감정 분석, 요약, 또는 예전에는 사람만 할 수 있었던 텍스트 생성까지 다양한 방식으로 사용되고 있습니다. 일반적으로 포르투갈어 챗봇은 다양한 AI 기술의 사용자 인터페이스로 활용될 뿐 아니라, 최종 사용자가 웹사이트나 웹앱 등 다른 시스템을 쉽게 사용할 수 있도록 돕거나, 쇼핑 조언 및 의사결정 지원 역할도 합니다.

물론, 포르투갈어 PLN의 성능이 크게 향상되었지만, 결과는 항상 더 나아질 수 있습니다. 연구는 계속되고 있으며, 앞으로도 새로운 발전이 있을 것입니다. PLN이 인간 수준에 도달할 때까지는 항상 개선할 부분이 남아 있습니다.

언어와 상관없이 모든 PLN 엔진의 다음 단계는 다중 턴 대화 상자에서 더 나은 성능을 내는 것입니다. 즉, 사용자가 챗봇과 제한된 주제 내에서 여러 단계로 대화할 수 있도록 하는 것이며, 단순히 명령이나 질문만 하는 것이 아닙니다. 챗봇 플랫폼의 다음 과제는 다중 턴 대화 생성 과정을 더 쉽게 만드는 것입니다.

다중 턴 대화는 Alexa 같은 음성 인터페이스나 Google Home과 같은 기기에서 특히 중요합니다.

머신러닝 기반 토크나이징의 발전과 포르투갈어 PLN에 미치는 영향에 대해 논의했지만, 관련 주제로는 포르투갈어 음성-텍스트 변환이 있습니다. 포르투갈어 음성-텍스트 변환은 여전히 다른 언어에 비해 발전 중이지만, 성능 차이는 빠르게 줄어들고 있습니다. 여기서 설명한 PLN의 발전과 전 세계적으로 이루어지는 연구가 앞으로 이 격차를 더욱 줄여줄 것으로 기대합니다.