- GPT-4o dua kali lebih laju dan separuh kos berbanding GPT-4 Turbo, secara drastik menurunkan harga dan mempercepatkan masa respons untuk chatbot AI.
- Model baharu ini membolehkan keupayaan multimodal lanjutan—termasuk suara, video, terjemahan masa nyata, dan penglihatan—yang membuka peluang penggunaan inovatif untuk chatbot melebihi sekadar teks.
- Peningkatan kecekapan dalam pengekodan token, terutamanya untuk bahasa yang tidak menggunakan abjad Roman, bermakna penjimatan kos yang ketara untuk pelaksanaan chatbot di seluruh dunia.
- Peningkatan kelajuan secara langsung meningkatkan pengalaman pengguna, mengurangkan masa menunggu yang biasanya mengecewakan pengguna chatbot.
Dua kali lebih laju dan separuh harga – apa maksud GPT-4o untuk chatbot AI?
Selepas pengumuman misteri mereka, OpenAI melancarkan versi terbaru model utama mereka: GPT-4o.
Model terbaru ini bukan sahaja menerima peningkatan ketara dalam keupayaan multimodal. Ia lebih pantas dan murah berbanding GPT-4 Turbo. Walaupun liputan media arus perdana tertarik dengan keupayaan video dan suara model utama baharu untuk ChatGPT, kos dan kelajuan baharu ini sama pentingnya untuk mereka yang menggunakan GPT untuk menggerakkan aplikasi mereka.

"Ketersediaan 4o berpotensi meningkatkan pengalaman pembina dan pengguna dengan ketara," kata Patrick Hamelin, ketua jurutera perisian di Botpress. "Kesan ini lebih meluas daripada yang kita sangka."
Mari kita lihat bagaimana model baharu ini akan mengubah dunia chatbot AI.
Keupayaan Model
Model utama baharu ini hadir dengan senarai kemas kini dan ciri baharu yang menarik: keupayaan suara dan video yang dipertingkat, terjemahan masa nyata, keupayaan bahasa yang lebih semula jadi. Ia boleh menganalisis imej, memahami pelbagai input audio, membantu membuat ringkasan, memudahkan terjemahan masa nyata, dan mencipta carta. Pengguna boleh memuat naik fail dan berbual suara ke suara. Ia juga hadir dengan aplikasi desktop.
Dalam siri video pelancaran mereka, kakitangan OpenAI (dan rakan seperti Sal Khan dari Khan Academy) menunjukkan versi terkini GPT membantu pengguna bersedia untuk temu duga kerja, menyanyi, mengenal pasti emosi manusia melalui ekspresi wajah, menyelesaikan persamaan matematik bertulis, dan juga berinteraksi dengan ChatGPT-4o lain.
Pelancaran ini menggambarkan realiti baharu di mana model AI mampu menganalisis tulisan dalam buku nota anak anda dan memberi respons. Ia boleh menerangkan konsep penambahan pecahan buat kali pertama, mengubah nada dan pendekatan mengikut pemahaman anak anda – ia boleh melangkaui chatbot menjadi tutor peribadi.

Apa maksud GPT-4o untuk Chatbot LLM?
Chatbot AI yang dijalankan dengan LLM akan menerima kemas kini setiap kali syarikat seperti OpenAI mengemas kini model mereka. Jika agen LLM disambungkan ke platform pembinaan bot seperti Botpress, mereka akan menerima semua manfaat model GPT terkini dalam chatbot mereka sendiri.
Dengan pelancaran GPT-4o, chatbot AI kini boleh memilih untuk menggunakan model lanjutan ini, mengubah keupayaan, harga, dan kelajuan mereka. Model baharu ini mempunyai had kadar 5x lebih tinggi daripada GPT-4 Turbo, dengan keupayaan memproses sehingga 10 juta token seminit.
Untuk bot yang menggunakan integrasi audio seperti Twilio di Botpress, dunia baharu interaksi berasaskan suara kini terbuka. Daripada terhad kepada pemprosesan audio lama, chatbot kini semakin hampir meniru interaksi manusia.
Mungkin yang paling penting ialah kos lebih rendah untuk pengguna berbayar. Menjalankan chatbot dengan keupayaan serupa pada separuh kos boleh meningkatkan akses dan kemampuan di seluruh dunia. Dan pengguna Botpress tidak perlu membayar tambahan untuk penggunaan AI pada bot mereka – jadi penjimatan ini terus kepada pembina.
Dan dari sudut pengguna, GPT-4o bermakna pengalaman pengguna yang jauh lebih baik. Tiada siapa suka menunggu. Masa respons yang lebih singkat bermakna kepuasan pengguna chatbot AI yang lebih tinggi.

Pengguna Suka Kelajuan
Prinsip utama penerimaan chatbot ialah meningkatkan pengalaman pengguna. Dan apa yang lebih baik untuk pengalaman pengguna selain mengurangkan masa menunggu?
"Ia pasti akan jadi pengalaman yang lebih baik," kata Hamelin. "Perkara terakhir yang anda mahu ialah menunggu seseorang."
Manusia memang tidak suka menunggu. Sejak tahun 2003 lagi, satu kajian mendapati orang hanya sanggup menunggu kira-kira 2 saat untuk laman web dimuatkan. Kesabaran kita pasti tidak bertambah sejak itu.
Dan semua orang benci menunggu
Terdapat pelbagai tip UX untuk mengurangkan masa menunggu yang dirasai. Selalunya kita tidak dapat mempercepatkan sesuatu, jadi kita fokus bagaimana membuat pengguna rasa masa berlalu lebih cepat. Maklum balas visual, seperti imej bar pemuatan, wujud untuk memendekkan masa menunggu yang dirasai.
Dalam kisah terkenal tentang masa menunggu lif, sebuah bangunan lama di New York menerima banyak aduan. Penduduk perlu menunggu 1-2 minit untuk lif tiba. Bangunan itu tidak dapat menaik taraf lif dan penduduk mengancam untuk membatalkan sewa.
Seorang pekerja baharu yang berlatih dalam bidang psikologi menyedari masalah sebenar bukanlah dua minit yang hilang – tetapi kebosanan. Dia mencadangkan memasang cermin supaya penduduk boleh melihat diri sendiri atau orang lain semasa menunggu. Aduan tentang lif pun berhenti, dan kini, cermin di lobi lif menjadi perkara biasa.
Daripada mengambil jalan pintas untuk meningkatkan pengalaman pengguna – seperti maklum balas visual – OpenAI telah memperbaiki pengalaman itu dari sumbernya. Kelajuan adalah teras pengalaman pengguna, dan tiada helah yang dapat menandingi kepuasan interaksi yang cekap.
Penjimatan untuk Semua
Menggunakan model AI baharu ini untuk menjalankan aplikasi kini menjadi jauh lebih murah.
Menjalankan chatbot AI pada skala besar boleh menjadi mahal. LLM yang digunakan oleh bot anda menentukan berapa banyak anda perlu bayar untuk setiap interaksi pengguna pada skala besar (sekurang-kurangnya di Botpress, di mana perbelanjaan AI kami sepadan 1:1 dengan kos LLM).
Dan penjimatan ini bukan hanya untuk pembangun yang menggunakan API. ChatGPT-4o ialah versi LLM percuma terkini, bersama GPT-3.5. Pengguna percuma boleh menggunakan aplikasi ChatGPT tanpa sebarang kos.
Pengekodan Token yang Lebih Baik
Jika anda berinteraksi dengan model dalam bahasa yang tidak menggunakan abjad Roman, GPT-4o dapat mengurangkan lagi kos API anda.

Model baharu ini hadir dengan had penggunaan yang lebih baik. Ia memberikan lonjakan besar dalam kecekapan pengekodan token, terutamanya untuk bahasa bukan Inggeris tertentu.
Model pengekodan token baharu ini memerlukan lebih sedikit token untuk memproses teks input. Ia jauh lebih cekap untuk bahasa logografik (iaitu bahasa yang menggunakan simbol dan aksara, bukan huruf individu).
Manfaat ini kebanyakannya tertumpu kepada bahasa yang tidak menggunakan abjad Roman. Penjimatan yang dianggarkan adalah seperti berikut:
- Bahasa India, seperti Hindi, Tamil, atau Gujarati, mengalami pengurangan token sebanyak 2.9 – 4.4x
- Bahasa Arab mengalami pengurangan token sekitar 2x
- Bahasa Asia Timur, seperti Cina, Jepun, dan Vietnam mengalami pengurangan token sebanyak 1.4 – 1.7x
Merapatkan jurang digital AI
Era digital telah membawa lanjutan jurang kekayaan yang telah lama wujud – jurang digital. Seperti mana akses kepada kekayaan dan infrastruktur kukuh hanya untuk populasi tertentu, begitu juga akses kepada AI dan peluang serta manfaat yang datang bersamanya.
Robert Opp, Ketua Pegawai Digital di United Nations Development Programme (UNDP), menjelaskan bahawa kehadiran platform AI boleh menentukan kejayaan atau kegagalan metrik pembangunan sesebuah negara:

Dengan mengurangkan separuh kos GPT-4o dan memperkenalkan pelan percuma, OpenAI mengambil langkah penting untuk mengatasi salah satu masalah terbesar dalam AI – dan secara langsung menangani isu ketidaksamaan yang menjadi perhatian pembuat dasar dan ahli ekonomi.
Langkah PR positif untuk AI besar lebih diperlukan daripada yang disangka oleh para peminat. Apabila AI semakin menjadi sebahagian daripada kehidupan harian kita, penyokong dan pengkritik sama-sama bertanya bagaimana kita boleh menggunakan AI untuk kebaikan.

Menurut Louis Bouchard, PhD AI dan pendidik, memperluaskan akses kepada AI adalah caranya: "Menjadikan AI mudah diakses adalah salah satu cara, jika bukan yang terbaik, untuk menggunakan AI untuk kebaikan." Alasannya? Jika kita tidak dapat sepenuhnya mengawal kesan positif dan negatif teknologi AI – sekurang-kurangnya pada peringkat awal – kita boleh memastikan akses yang sama rata kepada manfaatnya.
Potensi Multimodal yang Diperluas
Cara paling biasa untuk berinteraksi dengan chatbot perniagaan adalah melalui teks, tetapi keupayaan multimodal yang dipertingkatkan dalam model AI baharu OpenAI menunjukkan bahawa ini mungkin akan berubah pada masa akan datang.
Dalam tahun yang akan datang, kita mungkin akan melihat gelombang pembangun melancarkan aplikasi baharu yang memanfaatkan keupayaan audio, visual, dan video yang kini lebih mudah diakses.
Sebagai contoh, chatbot berkuasa GPT boleh berupaya untuk:
- Meminta pelanggan menghantar gambar barang yang ingin dipulangkan untuk mengenal pasti produk dan memastikan ia tidak rosak
- Memberi terjemahan audio secara masa nyata dalam perbualan yang mengambil kira dialek mengikut kawasan
- Menentukan sama ada stik anda sudah masak melalui gambar di dalam kuali
- Berfungsi sebagai pemandu pelancong peribadi tanpa kos, memberikan konteks sejarah berdasarkan gambar katedral lama, menawarkan terjemahan secara langsung, dan menyediakan lawatan suara tersuai yang membolehkan komunikasi dua hala dan soalan
- Menggerakkan aplikasi pembelajaran bahasa yang mendengar input audio, memberi maklum balas tentang sebutan berdasarkan video pergerakan mulut anda, atau mengajar bahasa isyarat melalui gambar dan video
- Memberi sokongan kesejahteraan mental bukan kecemasan dengan menggabungkan keupayaan mentafsir audio dan video, membolehkan terapi percakapan kos rendah
Dengan model AI yang boleh mentafsir gambar dan audio, pemahaman kita tentang bagaimana LLM boleh membantu semakin berkembang pesat.
Multimodaliti bermakna kebolehcapaian
Kita sudah melihat ciri multimodal yang dipertingkatkan digunakan untuk kebaikan sosial. Contoh terbaik ialah kerjasama OpenAI dengan Be My Eyes.
Be My Eyes ialah syarikat permulaan dari Denmark yang menghubungkan pengguna kurang penglihatan dengan sukarelawan yang boleh melihat. Apabila pengguna memerlukan bantuan – seperti memilih barang tin yang betul di pasar raya atau mengenal pasti warna baju-T – aplikasi ini menghubungkan mereka dengan sukarelawan di seluruh dunia melalui video di telefon pintar.

Keupayaan penglihatan baharu OpenAI boleh memberikan pengalaman yang lebih membantu kepada pengguna Be My Eyes. Daripada bergantung kepada sukarelawan manusia untuk mentafsir gambar atau video secara langsung, pengguna buta boleh menghantar gambar atau video ke peranti mereka dan model akan memberi maklumat audio sebagai respons.
OpenAI dan Be My Eyes, kini rakan kongsi yang dipercayai, membuka jalan kepada lebih banyak kebebasan untuk individu yang buta secara sah di seluruh dunia. CEO Be My Eyes, Michael Buckley, menerangkan impaknya:

Perkhidmatan baharu ini akan dilancarkan tidak lama lagi, pada musim panas 2024, buat pertama kalinya. Pengguna akses awal telah menguji ciri penglihatan, video, dan audio baharu ini dan memberikan maklum balas yang sangat positif. Walaupun kesan AI boleh menimbulkan kebimbangan kepada pengkritik, kerjasama ini jelas menunjukkan impak positif yang boleh dibawa. Memahami kebaikan sosial yang datang bersama AI canggih adalah langkah penting untuk PR-nya.
Bagaimana kita akan menilai model LLM pada masa hadapan?
Apabila pesaing berlumba-lumba untuk menghasilkan LLM yang paling murah dan pantas, timbul persoalan: bagaimana kita akan menilai model AI pada masa akan datang?
Pada satu ketika nanti, pencipta LLM utama (kemungkinan OpenAI dan Google) akan mencapai had dari segi kepantasan model mereka dan kos akses yang boleh ditawarkan. Setelah kita mencapai kestabilan dari segi kos dan kelajuan, bagaimana kita akan menentukan model terunggul di pasaran?
Apakah yang akan menjadi penanda baharu zaman? Sama ada personaliti yang tersedia dalam model kecerdasan buatan anda, keupayaan penambahbaikan video, ciri yang boleh digunakan secara percuma, atau metrik baharu yang belum kita fahami, generasi seterusnya LLM kini semakin hampir.
Chatbot AI Kini Lebih Mudah
Bagaimana jika chatbot AI anda diselaraskan secara automatik dengan setiap kemas kini GPT?
Botpress telah menyediakan penyelesaian chatbot AI yang boleh disesuaikan sejak 2017, membolehkan pembangun membina chatbot dengan mudah menggunakan kuasa LLM terkini. Chatbot Botpress boleh dilatih menggunakan sumber pengetahuan tersuai – seperti laman web atau katalog produk anda – dan diintegrasikan dengan sistem perniagaan tanpa masalah.
Satu-satunya platform yang menawarkan dari tetapan tanpa kod hingga penyesuaian dan peluasan tanpa had, Botpress membolehkan anda secara automatik mendapatkan kuasa versi GPT terkini pada chatbot anda – tanpa sebarang usaha.
Mula membina hari ini. Ia percuma.
Soalan Lazim
1. Bagaimana saya menukar chatbot sedia ada saya kepada GPT-4o di Botpress?
Untuk menukar chatbot sedia ada anda kepada GPT-4o di Botpress, pergi ke Botpress Studio, navigasi ke tetapan LLM pembantu anda, dan pilih GPT-4o daripada senarai model yang tersedia. Perubahan ini berkuat kuasa serta-merta tanpa memerlukan perubahan kod.
2. Adakah terdapat prasyarat untuk menggunakan GPT-4o dalam platform Botpress (contohnya, SDK, versi API)?
Tidak, tiada prasyarat untuk menggunakan GPT-4o dalam Botpress. Platform ini menguruskan semua SDK, kemas kini API, dan kebergantungan backend secara automatik, jadi anda hanya perlu memilih GPT-4o dalam tetapan untuk mengaktifkannya.
3. Bolehkah GPT-4o ditala atau disesuaikan untuk kes penggunaan perniagaan tertentu melalui Botpress?
Walaupun GPT-4o tidak boleh disesuaikan secara tradisional dalam Botpress, anda boleh menyesuaikan respons dan kelakuannya menggunakan kejuruteraan prompt, logik aliran kerja, pangkalan pengetahuan, dan pembolehubah. Ini membolehkan GPT-4o bertindak secara kontekstual mengikut keperluan perniagaan anda tanpa perlu melatih semula model.
4. Adakah terdapat had penggunaan ciri multimodal (suara, visual) dalam aliran kerja Botpress?
Ya, Botpress kini menyokong ciri suara melalui integrasi seperti Twilio atau Dialogflow Voice Gateway, tetapi keupayaan multimodal seperti pemprosesan gambar atau video masih belum disokong sepenuhnya. Input berasaskan penglihatan masih dalam pertimbangan atau memerlukan penyelesaian alternatif.
5. Adakah terdapat kos tersembunyi untuk menggunakan ciri lanjutan GPT-4o seperti terjemahan masa nyata atau input visual?
Tidak, tiada kos tersembunyi untuk menggunakan ciri lanjutan GPT-4o dalam Botpress. Kelebihan kelajuan dan kecekapan GPT-4o termasuk dalam pelan Botpress anda, dan kos LLM ditanggung oleh Botpress – jadi pengguna tidak dikenakan bayaran tambahan untuk menggunakan penambahbaikan GPT-4o.







