Tốc độ gấp đôi và giá chỉ bằng một nửa - cái gì GPT-4o có nghĩa là cho chatbot AI?
Sau thông báo bí ẩn của họ, OpenAI Ra mắt phiên bản mới nhất của mô hình hàng đầu của họ: GPT-4o.
Mô hình mới nhất không chỉ nhận được một ánh sáng hào nhoáng trong khả năng đa phương thức. Nó nhanh hơn và rẻ hơn GPT-4 Turbo. Trong khi các phương tiện truyền thông chính thống say mê với khả năng video và giọng nói của mẫu flagship mới, chi phí và tốc độ mới cũng có tác động đến những người sử dụng GPT để cung cấp năng lượng cho ứng dụng của họ.
"Sự sẵn có của 4o có sức mạnh cải thiện đáng kể cả trình xây dựng và trải nghiệm người dùng", ông nói Patrick Hamelin, trưởng nhóm kỹ sư phần mềm tại Botpress. "Tác động sâu rộng hơn chúng ta nghĩ."
Vì vậy, hãy đi sâu vào cách mô hình mới sẽ làm rung chuyển AI chatbots.
Khả năng mô hình
Mô hình hàng đầu mới đi kèm với một danh sách các bản cập nhật thú vị và các tính năng mới: khả năng thoại và video nâng cao, dịch thời gian thực, khả năng ngôn ngữ tự nhiên hơn. Nó có thể phân tích hình ảnh, hiểu nhiều loại đầu vào âm thanh hơn, cung cấp hỗ trợ tóm tắt, tạo điều kiện dịch thời gian thực và tạo biểu đồ. Người dùng có thể tải tệp lên và trò chuyện bằng giọng nói. Nó thậm chí còn đi kèm với một ứng dụng dành cho máy tính để bàn.
Trong loạt video ra mắt của họ, OpenAI nhân viên (và các cộng sự như Sal Khan của học viện Khan) trình diễn phiên bản mới nhất của GPT Chuẩn bị cho người dùng phỏng vấn xin việc, hát, xác định cảm xúc của con người thông qua nét mặt, giải các phương trình toán học bằng văn bản và thậm chí tương tác với người khác ChatGPT-4o.
Sự ra mắt minh họa một thực tế mới, trong đó một mô hình AI có khả năng phân tích chữ viết trong sổ tay của con bạn và có thể phản hồi. Nó có thể giải thích khái niệm thêm phân số lần đầu tiên, thay đổi giọng điệu và chiến thuật dựa trên sự hiểu biết của con bạn - nó có thể vượt qua ranh giới từ chatbot đến gia sư cá nhân.
Cái gì GPT-4o có nghĩa là cho LLM Chatbot?
Chatbot AI chạy trên LLMs được tặng một bản cập nhật mỗi khi các công ty thích OpenAI Cập nhật mô hình của họ. Nếu một chatbot được kết nối với một nền tảng xây dựng bot như Botpress, họ nhận được tất cả các lợi ích của mới nhất GPT mô hình hóa trong chatbot của riêng họ.
Với việc phát hành GPT-4o, chatbot AI giờ đây có thể chọn chạy trên mô hình tiên tiến, thay đổi khả năng, giá cả và tốc độ của chúng. Mô hình mới có giới hạn tỷ lệ cao hơn gấp 5 lần từ GPT-4 Turbo, với khả năng xử lý lên đến 10 triệu token mỗi phút.
Đối với các bot sử dụng tích hợp âm thanh như Twilio trên Botpress, một thế giới mới của tương tác bằng giọng nói đã xuất hiện. Thay vì bị giới hạn trong việc xử lý âm thanh của những năm trước, chatbots là một bước gần hơn để bắt chước sự tương tác của con người.
Có lẽ quan trọng nhất là chi phí thấp hơn cho người dùng trả phí. Chạy một chatbot có khả năng tương tự với một nửa chi phí có thể làm tăng đáng kể khả năng truy cập và khả năng chi trả trên toàn thế giới. Và Botpress người dùng không phải trả thêm chi phí AI cho bot của họ - vì vậy những khoản tiết kiệm này được chuyển trực tiếp đến các nhà xây dựng.
Và về phía người dùng của phương trình, GPT-4o có nghĩa là trải nghiệm người dùng tốt hơn nhiều. Không ai thích chờ đợi. Thời gian phản hồi ngắn hơn có nghĩa là sự hài lòng của người dùng cao hơn đối với người dùng chatbot AI.
Người dùng yêu thích Tốc độ
Một đối tượng thuê chính của việc áp dụng chatbot là cải thiện trải nghiệm người dùng. Và điều gì cải thiện trải nghiệm người dùng hơn là cắt giảm thời gian chờ đợi?
"Chắc chắn đó sẽ là một trải nghiệm tốt hơn", Hamelin nói. "Điều cuối cùng bạn muốn làm là chờ đợi ai đó."
Con người ghét chờ đợi. Thậm chí vào năm 2003, một nghiên cứu cho thấy mọi người chỉ sẵn sàng đợi khoảng 2 giây để tải một trang web. Sự kiên nhẫn của chúng tôi chắc chắn đã không tăng lên kể từ đó.
Và mọi người đều ghét chờ đợi
Có rất nhiều mẹo UX ngoài kia để cắt giảm thời gian chờ đợi nhận thức. Thường thì chúng tôi không thể cải thiện tốc độ của các sự kiện, vì vậy chúng tôi tập trung vào cách làm cho người dùng cảm thấy thời gian trôi qua nhanh hơn. Phản hồi trực quan, như hình ảnh thanh tải, tồn tại để rút ngắn thời gian chờ nhận thức.
Trong một câu chuyện nổi tiếng về thời gian chờ đợi thang máy, một tòa nhà cũ ở New York đã nhận được một loạt các khiếu nại. Người dân phải chờ 1-2 phút để thang máy đến. Tòa nhà đã không thể nâng cấp thang máy lên một mô hình mới hơn và cư dân đang đe dọa phá vỡ hợp đồng thuê của họ.
Một nhân viên mới, được đào tạo về tâm lý học, đã tìm ra rằng vấn đề thực sự không phải là hai phút mất thời gian - đó là sự nhàm chán. Ông đề nghị lắp đặt gương để người dân có thể nhìn vào bản thân hoặc người khác trong khi chờ đợi. Những lời phàn nàn về thang máy đã chấm dứt, và bây giờ, việc nhìn thấy gương ở hành lang thang máy là điều phổ biến.
Thay vì sử dụng các phím tắt để nâng cao trải nghiệm người dùng - như phản hồi trực quan - OpenAI đã cải thiện trải nghiệm tại nguồn. Tốc độ là trung tâm của trải nghiệm người dùng và không có thủ thuật nào phù hợp với sự hài lòng của một tương tác hiệu quả.
Tiết kiệm cho mọi người
Sử dụng mô hình AI mới này để chạy các ứng dụng đột nhiên rẻ hơn. Rẻ hơn rất nhiều.
Chạy một chatbot AI ở quy mô lớn có thể tốn kém. Các LLM Bot của bạn được cung cấp bởi xác định số tiền bạn sẽ trả cho mỗi tương tác của người dùng ở quy mô lớn hơn (ít nhất là ở Botpress, nơi chúng tôi khớp chi tiêu AI 1: 1 với LLM chi phí).
Và những khoản tiết kiệm này không chỉ dành cho các nhà phát triển sử dụng API. ChatGPT-4o là phiên bản miễn phí mới nhất của LLMdọc GPT-3.5. Người dùng miễn phí có thể sử dụng ChatGPT ứng dụng miễn phí.
Mã thông báo tốt hơn
Nếu bạn tương tác với mô hình bằng ngôn ngữ không sử dụng bảng chữ cái La Mã, GPT-4o thậm chí còn giảm thêm chi phí API của bạn.
Mô hình mới đi kèm với giới hạn sử dụng được cải thiện. Nó cung cấp một bước nhảy vọt đáng kể về hiệu quả mã hóa, phần lớn tập trung vào một số ngôn ngữ không phải tiếng Anh.
Mô hình token hóa mới yêu cầu ít token hơn để xử lý văn bản đầu vào. Nó hiệu quả hơn nhiều đối với các ngôn ngữ biểu tượng (tức là các ngôn ngữ sử dụng các ký hiệu và ký tự thay vì các chữ cái riêng lẻ).
Những lợi ích này phần lớn tập trung vào các ngôn ngữ không sử dụng bảng chữ cái La Mã. Việc giảm tiết kiệm đã được ước tính như sau:
- Các ngôn ngữ Ấn Độ, như tiếng Hindi, Tamil hoặc Gujarati, giảm 2,9 - 4,4 lần mã thông báo
- Tiếng Ả Rập có mức giảm ~ 2 lần trong mã thông báo
- Các ngôn ngữ Đông Á, như tiếng Trung, tiếng Nhật và tiếng Việt có mức giảm token gấp 1,4 – 1,7 lần
Thu hẹp khoảng cách kỹ thuật số AI
Kỷ nguyên kỹ thuật số đã kéo theo sự mở rộng của khoảng cách giàu nghèo lâu đời, được ghi nhận rõ ràng - khoảng cách kỹ thuật số. Cũng giống như việc tiếp cận với sự giàu có và cơ sở hạ tầng mạnh mẽ chỉ dành riêng cho một số quần thể nhất định, thì quyền truy cập vào AI cũng như các cơ hội và lợi ích đi kèm với nó.
Robert Opp, Giám đốc kỹ thuật số tại Chương trình Phát triển Liên Hợp Quốc (UNDP), giải thích rằng sự hiện diện của các nền tảng AI có khả năng tạo ra hoặc phá vỡ các chỉ số phát triển của cả một quốc gia:
Bằng cách giảm một nửa chi phí GPT-4o và giới thiệu một bậc miễn phí, OpenAI đang thực hiện một bước quan trọng để vô hiệu hóa một trong những vấn đề lớn nhất trong AI - và trực tiếp giải quyết sự bất bình đẳng trong tâm trí của các nhà hoạch định chính sách và nhà kinh tế.
Một động thái PR tích cực cho AI lớn là cần thiết hơn những gì những người đam mê có thể nghĩ. Khi AI hiện diện ngày càng nhiều trong cuộc sống hàng ngày của chúng ta, những người ủng hộ và hoài nghi đều đã hỏi làm thế nào chúng ta có thể sử dụng AI 'cho tốt'.
Theo tiến sĩ và nhà giáo dục AI Louis Bouchard, phân phối quyền truy cập rộng hơn vào AI là cách chúng tôi thực hiện chính xác điều đó: "Làm cho AI có thể truy cập được là một cách, nếu không phải là tốt nhất, để sử dụng AI 'cho tốt'." Lý luận của hắn? Nếu chúng ta không thể kiểm soát hoàn toàn các tác động tích cực và tiêu cực của công nghệ AI - ít nhất là trong những ngày đầu - thay vào đó chúng ta có thể đảm bảo quyền truy cập bình đẳng vào các lợi ích tiềm năng của nó.
Mở rộng tiềm năng đa phương thức
Cách phổ biến để tương tác với chatbot của doanh nghiệp là thông qua văn bản, nhưng khả năng đa phương thức nâng cao của OpenAIMô hình AI mới cho thấy điều này có thể thay đổi trong tương lai.
Trong năm tới, chúng ta có thể sẽ thấy một làn sóng các nhà phát triển tung ra các ứng dụng mới tận dụng tối đa các khả năng âm thanh, tầm nhìn và video mới có thể truy cập.
Chẳng hạn GPTCác chatbot được hỗ trợ có thể có khả năng:
- Yêu cầu khách hàng cung cấp hình ảnh của mặt hàng họ đang trả lại để nhận dạng sản phẩm và đảm bảo sản phẩm không bị hư hỏng
- Cung cấp bản dịch âm thanh trong cuộc trò chuyện thời gian thực chiếm các phương ngữ cụ thể theo khu vực
- Cho biết bít tết của bạn có được nấu chín hay không từ hình ảnh của nó trong chảo
- Hoạt động như một hướng dẫn viên du lịch cá nhân miễn phí, cung cấp bối cảnh lịch sử dựa trên hình ảnh của một nhà thờ cũ, dịch thuật trong thời gian thực và đưa ra một chuyến tham quan bằng giọng nói tùy chỉnh cho phép giao tiếp qua lại và các câu hỏi
- Cung cấp năng lượng cho một ứng dụng học ngôn ngữ lắng nghe đầu vào âm thanh, có thể cung cấp phản hồi về cách phát âm dựa trên video về chuyển động miệng của bạn hoặc dạy ngôn ngữ ký hiệu thông qua hình ảnh và video
- Cung cấp hỗ trợ sức khỏe tâm thần không khẩn cấp bằng cách kết hợp khả năng diễn giải âm thanh và video, cho phép liệu pháp trò chuyện chi phí thấp
Với các mô hình AI có thể diễn giải hình ảnh và âm thanh, sự hiểu biết của chúng ta về cách thức LLMs có thể phục vụ chúng tôi đang nhanh chóng mở rộng.
Đa phương thức có nghĩa là khả năng tiếp cận
Chúng ta đã thấy các tính năng đa phương thức nâng cao được đưa vào lợi ích xã hội. Một ví dụ hoàn hảo là OpenAI'hợp tác với Be My Eyes.
Be My Eyes là một công ty khởi nghiệp của Đan Mạch kết nối người dùng khiếm thị với các tình nguyện viên. Khi người dùng cần hỗ trợ - như chọn đúng đồ hộp tại siêu thị hoặc xác định màu áo phông - ứng dụng sẽ kết nối họ với một tình nguyện viên nhìn thấy trên khắp thế giới thông qua video qua điện thoại thông minh.
OpenAIKhả năng thị lực mới của Be My Eyes có thể cung cấp trải nghiệm hữu ích hơn nữa cho người dùng Be My Eyes. Thay vì dựa vào tình nguyện viên của con người để giải mã trực quan hình ảnh hoặc video trong thời gian thực, người dùng khiếm thị có thể chuyển tiếp hình ảnh hoặc video đến thiết bị của họ mà mô hình có thể phản hồi bằng thông tin âm thanh.
OpenAI và Be My Eyes, hiện là đối tác đáng tin cậy, đang mở đường cho sự độc lập hơn cho những người mù hợp pháp trên toàn thế giới. Giám đốc điều hành Michael Buckley của Be My Eyes giải thích tác động của nó:
Dịch vụ mới sẽ sớm được triển khai, vào mùa hè năm 2024, lần đầu tiên. Người dùng truy cập sớm đã thử nghiệm beta các tính năng hình ảnh, video và âm thanh mới để nhận được nhiều đánh giá. Mặc dù tác động của AI có thể gây lo ngại cho những người hoài nghi, nhưng sự hợp tác này là một dấu hiệu rõ ràng về những tác động tích cực mà nó có thể mang lại. Hiểu được lợi ích xã hội đi kèm với AI tiên tiến là một bước quan trọng để PR của nó.
Chúng ta sẽ đánh giá tương lai như thế nào LLM Mô hình?
Khi các đối thủ cạnh tranh tiếp tục trong một cuộc đua xuống đáy - để tạo ra rẻ nhất, nhanh nhất LLM - nó đặt ra câu hỏi: chúng ta sẽ đánh giá các mô hình AI của ngày mai như thế nào?
Tại một số thời điểm trong tương lai, chuyên ngành LLM Người sáng tạo (có khả năng OpenAI và Google) sẽ ổn định về tốc độ chạy của các mô hình của họ và mức độ rẻ mà họ có thể cung cấp quyền truy cập. Một khi chúng tôi đạt được sự ổn định về chi phí và tốc độ, làm thế nào chúng tôi sẽ đăng quang mô hình dẫn đầu thị trường?
Điều gì sẽ trở thành dấu chỉ mới của thời đại? Cho dù đó là tính cách có sẵn của mô hình trí tuệ nhân tạo của bạn, khả năng nâng cao video, các tính năng có sẵn cho người dùng miễn phí hay các số liệu hoàn toàn mới ngoài sự hiểu biết hiện tại của chúng tôi, thế hệ tiếp theo của LLMs đang ở trước cửa nhà chúng tôi.
AI Chatbots Dễ dàng
Điều gì sẽ xảy ra nếu chatbot AI của bạn tự động đồng bộ hóa với mọi GPT cập nhật?
Botpress đã cung cấp các giải pháp chatbot AI có thể tùy chỉnh từ năm 2017, cung cấp cho các nhà phát triển các công cụ họ cần để dễ dàng xây dựng chatbot với sức mạnh mới nhất LLMs. Botpress Chatbot có thể được đào tạo về các nguồn kiến thức tùy chỉnh - như trang web hoặc danh mục sản phẩm của bạn - và tích hợp liền mạch với các hệ thống kinh doanh.
Nền tảng duy nhất bao gồm từ không cần thiết lập mã đến khả năng tùy chỉnh và khả năng mở rộng vô tận, Botpress cho phép bạn tự động nhận được sức mạnh của mới nhất GPT Phiên bản trên chatbot của bạn - không cần nỗ lực.
Bắt đầu xây dựng ngay hôm nay. Nó miễn phí.
Mục lục
Cập nhật thông tin mới nhất về các tác nhân AI
Chia sẻ điều này trên: