2배 빠른 속도와 절반의 가격 - GPT-4o는 AI 챗봇에 어떤 의미일까요?
미스터리한 발표에 이어 OpenAI 에서 최신 버전의 플래그십 모델을 출시했습니다: GPT-4o.
최신 모델은 멀티모달 기능만 화려하게 업그레이드한 것이 아닙니다. GPT -4 터보보다 더 빠르고 저렴합니다. 주류 언론은 새로운 플래그십 모델의 비디오 및 음성 기능에 매료되었지만, GPT 을 사용하여 앱을 구동하는 사람들에게는 새로운 비용과 속도도 큰 영향을 미쳤습니다.
의 소프트웨어 엔지니어 리드인 Patrick Hamelin 는 "4o의 가용성은 빌더와 사용자 경험을 모두 크게 개선할 수 있는 힘을 가지고 있습니다."라고 말했습니다. Botpress. "그 영향력은 우리가 생각하는 것보다 훨씬 더 광범위합니다."
이제 새로운 모델이 AI를 어떻게 변화시킬지 자세히 알아보겠습니다 chatbots.
모델 기능
새로운 플래그십 모델에는 향상된 음성 및 동영상 기능, 실시간 번역, 더욱 자연스러운 언어 기능 등 흥미로운 업데이트와 새로운 기능이 포함되어 있습니다. 이미지 분석, 더 다양한 오디오 입력 이해, 요약 지원, 실시간 번역, 차트 작성 등의 기능을 제공합니다. 사용자는 파일을 업로드하고 음성 대 음성 대화를 할 수 있습니다. 데스크톱 앱도 함께 제공됩니다.
출시 동영상 시리즈에서 OpenAI 직원(및 Khan 아카데미의 Sal Khan과 같은 직원)은 최신 버전의 GPT 사용자가 면접을 준비하고, 노래를 부르고, 표정을 통해 사람의 감정을 파악하고, 수학 방정식을 풀고, 심지어 다른 ChatGPT-4o와 상호작용하는 모습을 시연합니다.
이 출시는 AI 모델이 자녀의 공책에 적힌 글을 분석하고 응답할 수 있는 새로운 현실을 보여줬습니다. 처음으로 분수를 더하는 개념을 설명하고, 아이의 이해도에 따라 어조와 전략을 바꾸는 등 챗봇에서 개인 과외의 경계를 넘나들 수 있습니다.
LLM 챗봇에서 GPT-4o는 무엇을 의미하나요?
LLMs 에서 실행되는 AI 챗봇은 OpenAI 과 같은 회사가 모델을 업데이트할 때마다 업데이트를 선물로 받습니다. 챗봇이 Botpress 와 같은 봇 구축 플랫폼에 연결되어 있는 경우 자체 챗봇에서 최신 GPT 모델의 모든 이점을 누릴 수 있습니다.
GPT-4o가 출시됨에 따라 이제 AI 챗봇은 고급 모델에서 실행하도록 선택할 수 있으며, 기능, 가격, 속도가 변경됩니다. 새로운 모델은 GPT-4 터보보다 5배 더 높은 속도 제한을 가지며 분당 최대 1,000만 개의 토큰을 처리할 수 있습니다.
Botpress 에서 Twilio 와 같은 오디오 통합을 사용하는 봇의 경우 음성 기반 상호 작용의 새로운 세계가 열렸습니다. chatbots 은 과거의 오디오 처리에 국한되지 않고 인간과의 상호작용을 모방하는 데 한 걸음 더 다가서고 있습니다.
아마도 가장 중요한 것은 유료 사용자의 비용이 낮아진다는 점일 것입니다. 비슷한 성능의 챗봇을 절반의 비용으로 운영하면 전 세계적으로 접근성과 경제성을 크게 높일 수 있습니다. 그리고 Botpress 사용자는 봇에 대한 추가 AI 비용을 지불하지 않으므로 이러한 절감 효과는 개발자에게 직접 돌아갑니다.
그리고 사용자 측면에서 보면 GPT-4o는 훨씬 더 나은 사용자 환경을 의미합니다. 기다리는 것을 좋아하는 사람은 없습니다. 응답 시간이 짧을수록 AI 챗봇 사용자의 만족도가 높아집니다.
사용자가 좋아하는 속도
챗봇 도입의 핵심은 사용자 경험 개선입니다. 그렇다면 대기 시간을 줄이는 것보다 더 사용자 경험을 개선하는 것은 무엇일까요?
하멜린은 "확실히 더 나은 경험이 될 것입니다."라고 말합니다. "누군가를 기다리는 것은 가장 피하고 싶은 일이죠."
인간은 기다리는 것을 싫어합니다. 2003년에도 한 연구에 따르면 사람들은 웹 페이지가 로드될 때까지 약 2초 정도만 기다린다고 합니다. 그 이후로 인간의 인내심은 확실히 증가하지 않았습니다.
모두가 기다리는 것을 싫어합니다.
체감 대기 시간을 줄이기 위한 수많은 UX 팁이 시중에 나와 있습니다. 이벤트의 속도를 개선할 수 없는 경우가 많기 때문에 사용자가 시간이 더 빨리 지나간다고 느끼도록 하는 방법에 집중합니다. 로딩 바 이미지와 같은 시각적 피드백은 체감 대기 시간을 단축하기 위해 존재합니다.
엘리베이터 대기 시간에 관한 유명한 이야기로, 뉴욕의 한 오래된 건물에 불만이 쏟아지고 있었습니다. 주민들은 엘리베이터가 도착할 때까지 1~2분씩 기다려야 했습니다. 이 건물은 엘리베이터를 최신 모델로 업그레이드할 수 없었고, 주민들은 임대 계약을 파기하겠다고 위협하고 있었습니다.
심리학을 전공한 신입 사원은 2분이라는 시간 손실이 아니라 지루함이 진짜 문제라는 것을 알아냈습니다. 그는 주민들이 기다리는 동안 자신이나 다른 사람을 볼 수 있도록 거울을 설치하자고 제안했습니다. 엘리베이터에 대한 불만은 사라졌고 지금은 엘리베이터 로비에서 거울을 보는 것이 일상화되었습니다.
시각적 피드백과 같은 사용자 경험을 개선하기 위해 지름길을 택하는 대신, OpenAI 은 근본적인 경험을 개선했습니다. 속도는 사용자 경험의 핵심이며, 효율적인 상호작용의 만족도를 능가하는 요령은 없습니다.
모두를 위한 절약
이 새로운 AI 모델을 사용하여 애플리케이션을 실행하는 비용이 갑자기 저렴해졌습니다. 훨씬 더 저렴해졌습니다.
AI 챗봇을 대규모로 운영하려면 비용이 많이 들 수 있습니다. 봇이 구동되는 LLM 에 따라 대규모의 각 사용자 상호작용에 대해 지불할 금액이 결정됩니다(적어도 Botpress 에서는 AI 지출과 LLM 비용을 1:1로 매칭합니다).
이러한 절감 효과는 API를 사용하는 개발자에게만 해당되는 것이 아닙니다. ChatGPT-4o는 GPT-3.5와 함께 LLM 의 최신 무료 버전입니다. 무료 사용자는 ChatGPT 앱을 무료로 사용할 수 있습니다.
더 나은 토큰화
로마 알파벳을 사용하지 않는 언어로 모델과 상호 작용하는 경우 GPT-4o를 사용하면 API 비용이 훨씬 더 줄어듭니다.
새 모델에는 사용 한도가 개선되었습니다. 토큰화 효율성이 크게 향상되었으며, 주로 특정 비영어권 언어에 집중되어 있습니다.
새로운 토큰화 모델은 입력 텍스트를 처리하는 데 더 적은 토큰이 필요합니다. 이는 로고그래픽 언어(개별 문자 대신 기호와 문자를 사용하는 언어)에 훨씬 더 효율적입니다.
이러한 혜택은 주로 로마 알파벳을 사용하지 않는 언어에 집중되어 있습니다. 절감액은 다음과 같이 추산되었습니다:
- 힌디어, 타밀어, 구자라트어와 같은 인도 언어의 경우 토큰이 2.9~4.4배 감소합니다.
- 아랍어는 토큰이 최대 2배 감소합니다.
- 중국어, 일본어, 베트남어와 같은 동아시아 언어의 경우 토큰이 1.4~1.7배 감소합니다.
AI 디지털 격차 해소
디지털 시대는 오래전부터 잘 알려진 부의 격차, 즉 디지털 격차의 확장을 가져왔습니다. 부와 강력한 인프라에 대한 접근성이 특정 인구에게만 주어지는 것처럼, AI와 그에 수반되는 기회와 혜택에 대한 접근성도 마찬가지입니다.
유엔개발계획(UNDP)의 최고 디지털 책임자인 로버트 옵은 AI 플랫폼의 존재가 국가 전체의 개발 지표를 좌우할 수 있다고 설명했습니다:
GPT-4o의 비용을 절반으로 낮추고 무료 티어를 도입함으로써 OpenAI 은 AI의 가장 큰 문제 중 하나인 불평등을 무력화하고 정책 입안자와 경제학자들의 마음속에 있는 불평등을 직접적으로 해결하기 위한 중요한 발걸음을 내딛고 있습니다.
거대 인공지능에 대한 긍정적인 홍보가 생각보다 더 필요합니다. AI가 일상 생활에 점점 더 많이 등장함에 따라 옹호론자와 회의론자 모두 AI를 '선하게' 사용할 수 있는 방법에 대해 질문해 왔습니다.
AI 박사이자 교육자인 루이스 부샤드는 AI에 대한 접근성을 넓히는 것이 바로 그 방법이라고 말합니다: "AI에 대한 접근성을 높이는 것이 최선은 아니더라도 AI를 '선하게' 사용할 수 있는 한 가지 방법입니다." 그의 논리는 무엇일까요? 적어도 초기에는 AI 기술의 긍정적인 영향과 부정적인 영향을 완전히 통제할 수 없다면, 그 대신 잠재적인 이점에 대한 동등한 접근성을 보장할 수 있습니다.
확장된 멀티모달 잠재력
비즈니스 챗봇과 소통하는 가장 일반적인 방법은 텍스트를 통한 것이지만, OpenAI의 새로운 AI 모델의 향상된 멀티모달 기능은 앞으로 이러한 방식이 바뀔 수 있음을 시사합니다.
내년에는 새롭게 접근 가능한 오디오, 시각 및 비디오 기능을 최대한 활용하는 새로운 애플리케이션을 출시하는 개발자들이 늘어날 것으로 보입니다.
예를 들어 GPT- 기반 챗봇은 다음과 같은 기능을 가질 수 있습니다:
- 고객에게 반품하는 품목의 이미지를 요청하여 제품을 식별하고 손상되지 않았는지 확인합니다.
- 지역별 방언을 고려한 실시간 대화 오디오 번역 제공
- 팬에 있는 스테이크의 이미지로 스테이크가 익었는지 확인하세요.
- 오래된 성당의 이미지를 기반으로 역사적 맥락을 제공하고, 실시간으로 번역을 제공하며, 앞뒤로 소통하고 질문할 수 있는 맞춤형 음성 투어를 제공하는 무료 개인 투어 가이드 기능을 제공합니다.
- 오디오 입력을 듣고, 입 움직임의 비디오를 기반으로 발음에 대한 피드백을 제공하거나 이미지와 비디오를 통해 수화를 가르칠 수 있는 언어 학습 애플리케이션을 구동하세요.
- 오디오 및 비디오 통역 기능을 결합하여 비긴급 정신 건강 지원 제공, 저렴한 비용으로 대화 치료 가능
이미지와 오디오를 해석할 수 있는 AI 모델을 통해 LLMs 을 어떻게 활용할 수 있는지에 대한 이해가 빠르게 확장되고 있습니다.
멀티모달리티는 접근성을 의미합니다.
우리는 이미 향상된 멀티모달 기능이 사회적 선에 기여하는 것을 보았습니다. 대표적인 예가 OpenAI와의 파트너십입니다.
비 마이 아이즈는 시각 장애를 가진 사용자와 시각 자원봉사자를 연결해주는 덴마크의 스타트업입니다. 이 앱은 사용자가 슈퍼마켓에서 통조림을 고르거나 티셔츠의 색상을 식별하는 등 도움이 필요할 때 스마트폰으로 영상을 통해 전 세계의 시각 자원봉사자와 연결해 줍니다.
OpenAI의 새로운 시각 기능은 Be My Eyes 사용자에게 훨씬 더 유용한 경험을 제공할 수 있습니다. 시각장애인 사용자는 이미지나 동영상을 실시간으로 시각적으로 해독하기 위해 지원자에게 의존하는 대신, 모델이 오디오 정보와 함께 응답할 수 있는 이미지나 동영상을 기기에 전달할 수 있습니다.
OpenAI 와 신뢰할 수 있는 파트너인 비 마이 아이즈는 전 세계 시각장애인의 자립을 위한 길을 열어가고 있습니다. 비 마이 아이즈 CEO 마이클 버클리가 그 영향력을 설명합니다:
새로운 서비스는 2024년 여름에 처음으로 출시될 예정입니다. 얼리 액세스 사용자들은 새로운 비전, 비디오, 오디오 기능의 베타 테스트를 통해 극찬을 아끼지 않았습니다. 인공지능의 영향력에 회의적인 시각을 가진 사람들도 있지만, 이번 파트너십은 인공지능이 가져올 수 있는 긍정적인 영향에 대한 분명한 신호입니다. 고급 AI가 가져올 사회적 이익을 이해하는 것은 홍보를 위한 중요한 단계입니다.
향후 LLM 모델을 어떻게 판단할 것인가요?
경쟁사들이 가장 저렴하고 빠른 LLM 제품을 만들기 위해 바닥을 향한 경쟁을 계속하는 가운데, 미래의 AI 모델을 어떻게 판단할 것인가에 대한 질문이 생깁니다.
미래의 어느 시점에 주요 LLM 제작자( OpenAI 및 Google일 가능성이 높습니다)는 모델 실행 속도와 액세스 제공 비용에서 정체기를 맞이할 것입니다. 비용과 속도 면에서 안정권에 도달하면 어떻게 시장을 선도하는 모델이 될 수 있을까요?
무엇이 새로운 시대의 징표가 될까요? 인공지능 모델의 개인화 기능, 동영상 향상 기능, 무료 사용자에게 제공되는 기능, 현재 우리가 이해하고 있는 것 이상의 새로운 지표 등, 차세대 LLMs 가 우리 앞에 다가왔습니다.
AI Chatbots 쉽게 만들기
AI 챗봇이 모든 GPT 업데이트와 자동으로 동기화된다면 어떨까요?
Botpress 는 2017년부터 맞춤형 AI 챗봇 솔루션을 제공해 왔으며, 개발자가 최신 LLMs. Botpress 챗봇은 웹사이트나 제품 카탈로그와 같은 맞춤형 지식 소스를 학습하고 비즈니스 시스템과 원활하게 통합할 수 있습니다.
코드 설정이 필요 없고 무한한 커스터마이징과 확장성을 갖춘 유일한 플랫폼인 Botpress 을 사용하면 별도의 노력 없이도 챗봇에 최신 GPT 버전의 강력한 기능을 자동으로 적용할 수 있습니다.
↪CF_200D↩오늘 구축 시작하기. 무료입니다.