- GPT-4o는 GPT-4 Turbo보다 두 배 빠르고 비용은 절반으로, AI 챗봇의 가격을 크게 낮추고 응답 속도를 높입니다.
- 새로운 모델은 음성, 영상, 실시간 번역, 비전 등 고급 멀티모달 기능을 지원해 챗봇의 활용 범위를 텍스트를 넘어 혁신적으로 확장합니다.
- 토크나이징 효율이 특히 비로마자 언어에서 크게 향상되어, 글로벌 챗봇 배포 시 상당한 비용 절감 효과를 가져옵니다.
- 속도 개선은 사용자 경험을 직접적으로 높여, 기존에 챗봇 이용자들이 느꼈던 대기 시간의 불편을 줄여줍니다.
두 배 빠르고 가격은 절반 – GPT-4o가 AI 챗봇에 어떤 의미가 있을까?
미스터리한 예고 이후, OpenAI가 최신 플래그십 모델인 GPT-4o를 공개했습니다.
최신 모델은 멀티모달 기능만 업그레이드된 것이 아닙니다. GPT-4 Turbo보다 더 빠르고 저렴합니다. 대중 매체는 ChatGPT의 영상 및 음성 기능에 주목하고 있지만, 새로운 가격과 속도 역시 앱에 GPT를 적용하는 사용자들에게 큰 영향을 줍니다.

“4o의 도입은 빌더와 사용자 경험 모두에 큰 변화를 가져올 수 있습니다.”라고 Botpress의 소프트웨어 엔지니어 리드 Patrick Hamelin은 말합니다. “그 영향은 우리가 생각하는 것보다 더 큽니다.”
그렇다면 새로운 모델이 AI 챗봇에 어떤 변화를 가져올지 자세히 살펴보겠습니다.
모델 기능
새로운 플래그십 모델은 음성 및 영상 기능 강화, 실시간 번역, 더 자연스러운 언어 처리 등 다양한 업데이트와 새로운 기능을 제공합니다. 이미지를 분석하고, 더 다양한 오디오 입력을 이해하며, 요약 지원, 실시간 번역, 차트 생성까지 가능합니다. 사용자는 파일을 업로드하고 음성 대화도 할 수 있습니다. 데스크톱 앱도 제공됩니다.
OpenAI의 출시 영상 시리즈에서는 직원들과 Khan Academy의 Sal Khan 등이 최신 GPT 버전으로 면접 준비, 노래, 표정으로 감정 파악, 수학 문제 풀이, 다른 ChatGPT-4o와의 상호작용을 시연합니다.
출시 영상은 AI 모델이 아이의 노트 필기를 분석하고 답변하는 새로운 현실을 보여줍니다. 분수 덧셈 개념을 처음 설명하고, 아이의 이해도에 따라 설명 방식과 어조를 바꿀 수 있습니다. 챗봇을 넘어 개인 튜터 역할까지 할 수 있습니다.

GPT-4o가 LLM 챗봇에 어떤 의미가 있을까?
LLM 기반 AI 챗봇은 OpenAI와 같은 기업이 모델을 업데이트할 때마다 새로운 기능을 얻게 됩니다. LLM 에이전트가 Botpress와 같은 챗봇 제작 플랫폼에 연결되어 있다면, 최신 GPT 모델의 모든 이점을 챗봇에서 바로 누릴 수 있습니다.
GPT-4o 출시로 AI 챗봇은 이제 더 발전된 모델을 선택해 기능, 가격, 속도를 바꿀 수 있습니다. 새 모델은 GPT-4 Turbo보다 5배 높은 속도 제한을 제공하며, 분당 최대 1,000만 토큰을 처리할 수 있습니다.
Botpress에서 Twilio와 같은 오디오 연동을 사용하는 챗봇의 경우, 음성 기반 상호작용의 새로운 시대가 열렸습니다. 기존의 제한된 오디오 처리에서 벗어나, 챗봇이 인간과의 대화에 한층 더 가까워졌습니다.
무엇보다 유료 사용자에게는 비용 절감이 가장 큰 장점입니다. 동일한 기능의 챗봇을 절반의 비용으로 운영할 수 있어, 전 세계적으로 접근성과 경제성이 크게 향상됩니다. Botpress 사용자는 추가 AI 비용 없이 챗봇을 운영할 수 있으므로, 절감 효과가 빌더에게 직접 돌아갑니다.
사용자 입장에서도 GPT-4o는 훨씬 나은 경험을 제공합니다. 누구도 기다리는 것을 좋아하지 않습니다. 응답 시간이 짧아지면 AI 챗봇 사용자 만족도가 높아집니다.

사용자는 속도를 좋아합니다
챗봇 도입의 핵심은 사용자 경험 개선입니다. 대기 시간을 줄이는 것만큼 사용자 경험을 높이는 방법이 또 있을까요?
“확실히 더 나은 경험이 될 겁니다.”라고 Hamelin은 말합니다. “누군가를 기다리는 건 누구도 원하지 않죠.”
사람들은 기다리는 걸 싫어합니다. 이미 2003년 한 연구에서도 웹페이지가 로드되는 데 약 2초 이상 걸리면 사람들이 기다리지 않는다는 결과가 있었습니다. 우리의 인내심은 그때보다 더 늘지 않았습니다.
모두가 기다림을 싫어합니다
대기 시간을 줄여주는 다양한 UX 팁이 있습니다. 실제 속도를 개선하기 어렵다면, 사용자가 시간이 더 빨리 가는 것처럼 느끼게 하는 데 집중합니다. 로딩 바와 같은 시각적 피드백도 대기 시간을 짧게 느끼게 하기 위해 존재합니다.
엘리베이터 대기 시간에 관한 유명한 이야기가 있습니다. 뉴욕의 한 오래된 건물에서 주민들이 엘리베이터가 1~2분씩 늦게 오는 것에 불만을 쏟아냈습니다. 건물은 엘리베이터를 교체할 수 없었고, 주민들은 계약 해지를 위협했습니다.
심리학을 전공한 신입 직원이 문제의 본질이 2분의 시간 손실이 아니라 지루함임을 알아냈습니다. 그는 거울을 설치해 대기 중에 자신이나 다른 사람을 볼 수 있게 하자고 제안했습니다. 이후 엘리베이터 불만은 사라졌고, 지금은 엘리베이터 로비에 거울이 흔하게 설치되어 있습니다.
시각적 피드백 등 우회적인 방법 대신, OpenAI는 경험의 근본을 개선했습니다. 속도는 사용자 경험의 핵심이며, 효율적인 상호작용만큼 만족스러운 방법은 없습니다.
모두를 위한 비용 절감
이 새로운 AI 모델을 사용하면 애플리케이션 운영 비용이 갑자기 훨씬 저렴해졌습니다.
대규모로 AI 챗봇을 운영하면 비용이 많이 들 수 있습니다. 챗봇이 사용하는 LLM에 따라 대규모 사용자 상호작용 시 지불해야 하는 비용이 결정됩니다(최소한 Botpress에서는 AI 비용을 LLM 비용과 1:1로 맞춥니다).
이 절감 효과는 API를 사용하는 개발자뿐만 아니라 모든 사용자에게 해당됩니다. ChatGPT-4o는 GPT-3.5와 함께 LLM의 최신 무료 버전입니다. 무료 사용자도 ChatGPT 앱을 비용 없이 사용할 수 있습니다.
더 나은 토크나이징
로마자가 아닌 언어로 모델과 상호작용할 경우, GPT-4o는 API 비용을 더욱 낮춰줍니다.

새 모델은 사용량 제한도 개선되었습니다. 특히 일부 비영어권 언어에서 토크나이징 효율이 크게 향상되었습니다.
새로운 토크나이징 모델은 입력 텍스트를 처리할 때 더 적은 토큰이 필요합니다. 문자 대신 기호나 문자를 사용하는 표의문자 언어에서 훨씬 더 효율적입니다.
이러한 이점은 주로 로마자를 사용하지 않는 언어에 집중되어 있습니다. 절감 효과는 다음과 같이 추정됩니다.
- 힌디어, 타밀어, 구자라티 등 인도계 언어는 토큰이 2.9~4.4배 감소
- 아랍어는 약 2배 토큰 감소
- 중국어, 일본어, 베트남어 등 동아시아 언어는 1.4~1.7배 토큰 감소
AI 디지털 격차 해소
디지털 시대는 오래전부터 존재해온 부의 격차를 디지털 격차로 확장시켰습니다. 부와 인프라 접근이 일부 인구에 한정되듯, AI와 그에 따른 기회 및 혜택 역시 일부에게만 주어집니다.
유엔개발계획(UNDP) 최고디지털책임자 로버트 옵은 AI 플랫폼의 존재가 한 국가의 발전 지표를 좌우할 수 있다고 설명했습니다:

GPT-4o의 비용을 절반으로 낮추고 무료 요금제를 도입함으로써, OpenAI는 AI 분야의 가장 큰 문제 중 하나를 해소하고 정책 입안자와 경제학자들이 우려하는 불평등 문제에 직접 대응하는 중요한 조치를 취하고 있습니다.
AI 업계에 긍정적인 이미지는 생각보다 더 필요합니다. AI가 우리의 일상에 점점 더 깊이 들어오면서, 지지자와 회의론자 모두 AI를 ‘선한 목적’에 어떻게 활용할 수 있을지 질문하고 있습니다.

AI 박사이자 교육자인 루이 부샤르에 따르면, AI의 폭넓은 접근성을 높이는 것이 바로 그 방법입니다. “AI를 모두가 사용할 수 있게 하는 것이 AI를 ‘선하게’ 활용하는 한 방법, 아니 어쩌면 가장 좋은 방법입니다.” 그 이유는? AI 기술의 긍정적·부정적 영향력을 완전히 통제할 수 없다면(적어도 초기에는), 그 잠재적 이점을 모두가 평등하게 누릴 수 있도록 하는 것이 중요하기 때문입니다.
확장된 멀티모달 가능성
대부분의 기업 챗봇은 텍스트로 소통하지만, OpenAI의 새로운 AI 모델이 제공하는 향상된 멀티모달 기능 덕분에 앞으로는 이 방식이 달라질 수 있습니다.
앞으로 1년 동안, 새롭게 제공되는 오디오, 비전, 비디오 기능을 활용한 다양한 애플리케이션이 개발자들에 의해 출시될 것으로 보입니다.
예를 들어, GPT 기반 챗봇은 다음과 같은 기능을 제공할 수 있습니다:
- 고객에게 반품할 상품의 사진을 요청해 제품을 식별하고 손상 여부를 확인
- 지역별 방언까지 반영한 실시간 오디오 번역 제공
- 팬에 올려진 스테이크 사진만으로 익힘 정도를 판별
- 비용 없이 개인 맞춤형 투어 가이드 역할을 하며, 오래된 성당 사진을 기반으로 역사적 맥락을 설명하고, 실시간 번역과 양방향 음성 안내를 제공
- 음성 입력을 듣고, 입 모양 영상을 분석해 발음 피드백을 주거나, 이미지와 비디오를 활용해 수어를 가르치는 언어 학습 앱 제공
- 오디오와 비디오 해석 능력을 결합해 저렴한 비용으로 비응급 심리 상담 지원
이미지와 오디오를 해석할 수 있는 AI 모델 덕분에, LLM이 우리에게 제공할 수 있는 서비스의 범위가 빠르게 넓어지고 있습니다.
멀티모달 기능은 곧 접근성입니다
이러한 향상된 멀티모달 기능이 이미 사회적 선을 위해 활용되고 있습니다. 대표적인 예가 OpenAI와 Be My Eyes의 협력입니다.
Be My Eyes는 시각장애인과 시각 자원봉사자를 연결하는 덴마크 스타트업입니다. 사용자가 슈퍼마켓에서 올바른 통조림을 고르거나 티셔츠 색상을 확인하는 등 도움이 필요할 때, 앱은 스마트폰 영상을 통해 전 세계 자원봉사자와 연결해줍니다.

OpenAI의 새로운 비전 기능은 Be My Eyes 사용자에게 더욱 유용한 경험을 제공합니다. 이제 시각장애인은 실시간으로 이미지를 해석해줄 자원봉사자를 기다릴 필요 없이, 사진이나 영상을 기기에 전달하면 AI 모델이 오디오 정보로 응답해줍니다.
OpenAI와 Be My Eyes는 이제 신뢰받는 파트너로, 전 세계 시각장애인의 더 큰 자립을 위한 길을 열고 있습니다. Be My Eyes의 CEO 마이클 버클리는 그 영향력을 이렇게 설명합니다:

이 새로운 서비스는 2024년 여름, 처음으로 출시될 예정입니다. 얼리 액세스 사용자는 새로운 비전, 비디오, 오디오 기능을 미리 체험하며 호평을 받고 있습니다. AI의 영향에 대해 우려하는 시각도 있지만, 이 협력은 AI가 가져올 수 있는 긍정적인 변화를 보여주는 분명한 사례입니다. 첨단 AI가 사회적 선에 기여한다는 점을 이해하는 것은 PR 측면에서 매우 중요합니다.
앞으로의 LLM 모델은 어떻게 평가될까요?
경쟁사들이 더 저렴하고 빠른 LLM 개발 경쟁을 이어가면서, 앞으로의 AI 모델을 어떻게 평가할 것인지에 대한 질문이 생깁니다.
머지않아 주요 LLM 개발사(아마도 OpenAI와 Google)는 모델의 속도와 비용에서 한계점에 도달할 것입니다. 비용과 속도가 안정화된 이후에는, 어떤 기준으로 시장을 선도하는 모델을 선정하게 될까요?
앞으로는 어떤 것이 시대의 상징이 될까요? 인공지능 모델의 다양한 성격, 비디오 향상 기능, 무료 사용자에게 제공되는 기능, 혹은 지금은 알 수 없는 새로운 지표 등, 차세대 LLM이 곧 우리 곁에 다가오고 있습니다.
AI 챗봇, 쉽게 만들기
AI 챗봇이 GPT의 모든 업데이트와 자동으로 동기화된다면 어떨까요?
Botpress는 2017년부터 맞춤형 AI 챗봇 솔루션을 제공해왔으며, 개발자들이 최신 LLM의 강력함을 활용해 손쉽게 챗봇을 구축할 수 있도록 필요한 도구를 제공합니다. Botpress 챗봇은 웹사이트나 제품 카탈로그 등 맞춤형 지식 소스로 학습할 수 있고, 비즈니스 시스템과도 원활하게 연동됩니다.
코딩 없이도 바로 시작할 수 있고, 무한한 맞춤화와 확장이 가능한 유일한 플랫폼인 Botpress는 챗봇에 최신 GPT 버전의 기능을 자동으로 적용할 수 있게 해줍니다. 별도의 노력이 필요 없습니다.
지금 바로 시작하세요. 무료입니다.
자주 묻는 질문
1. 기존 챗봇을 Botpress에서 GPT-4o로 전환하려면 어떻게 해야 하나요?
기존 챗봇을 Botpress에서 GPT-4o로 전환하려면, Botpress Studio에서 어시스턴트의 LLM 설정으로 이동해, 모델 선택 드롭다운에서 GPT-4o를 선택하세요. 코드 변경 없이 즉시 적용됩니다.
2. Botpress 플랫폼에서 GPT-4o를 사용하려면 사전 요구 사항이 있나요? (예: SDK, API 버전 등)
아니요, Botpress에서 GPT-4o를 사용하기 위한 별도의 사전 요구사항은 없습니다. 플랫폼이 모든 SDK, API 업데이트, 백엔드 의존성을 자동으로 관리하므로, 설정에서 GPT-4o만 선택하면 바로 활성화됩니다.
3. GPT-4o를 Botpress를 통해 특정 비즈니스 용도에 맞게 파인튜닝하거나 맞춤화할 수 있나요?
GPT-4o는 Botpress 내에서 전통적인 방식의 미세 조정은 지원하지 않지만, 프롬프트 엔지니어링, 워크플로우 논리, 지식 베이스, 변수 등을 활용해 응답과 동작을 맞춤화할 수 있습니다. 이를 통해 모델을 재학습하지 않고도 비즈니스 상황에 맞는 컨텍스트 기반 동작이 가능합니다.
4. Botpress 워크플로우 내에서 멀티모달 기능(음성, 비전) 사용에 제한이 있나요?
네, 현재 Botpress는 Twilio나 Dialogflow Voice Gateway와 같은 연동을 통해 음성 기능을 지원하지만, 이미지나 비디오 처리와 같은 멀티모달 기능은 아직 완전히 지원되지 않습니다. 비전 기반 입력은 아직 검토 중이거나 우회 방법이 필요합니다.
5. 실시간 번역이나 비전 입력과 같은 GPT-4o의 고급 기능을 사용할 때 숨겨진 비용이 있나요?
아니요, Botpress에서 GPT-4o의 고급 기능을 사용할 때 추가 비용은 없습니다. GPT-4o의 속도와 효율성은 기존 Botpress 요금제에 포함되어 있으며, LLM 비용도 Botpress에서 부담하므로 사용자는 별도의 추가 요금을 내지 않아도 됩니다.





.webp)
