- GPT-4o เร็วขึ้นสองเท่าและราคาถูกลงครึ่งหนึ่งเมื่อเทียบกับ GPT-4 Turbo ลดต้นทุนและเพิ่มความเร็วในการตอบสนองของแชทบอท AI อย่างมาก
- โมเดลใหม่นี้รองรับความสามารถมัลติโหมดขั้นสูง เช่น เสียง วิดีโอ การแปลแบบเรียลไทม์ และการประมวลผลภาพ ซึ่งเปิดโอกาสให้แชทบอทนำไปใช้ในรูปแบบใหม่ ๆ ที่มากกว่าข้อความ
- ประสิทธิภาพที่ดีขึ้นในการประมวลผลโทเคน โดยเฉพาะสำหรับภาษาที่ไม่ได้ใช้ตัวอักษรโรมัน ช่วยลดต้นทุนอย่างมีนัยสำคัญสำหรับการใช้งานแชทบอททั่วโลก
- ความเร็วที่เพิ่มขึ้นช่วยยกระดับประสบการณ์ผู้ใช้โดยตรง ลดเวลารอที่มักสร้างความหงุดหงิดให้กับผู้ใช้แชทบอท
เร็วขึ้นสองเท่าและราคาถูกลงครึ่งหนึ่ง – GPT-4o หมายถึงอะไรสำหรับแชทบอท AI?
หลังจากประกาศอย่างลึกลับ OpenAI ได้เปิดตัวเวอร์ชันล่าสุดของโมเดลหลักของพวกเขา: GPT-4o
โมเดลใหม่นี้ไม่ได้แค่เพิ่มความสามารถมัลติโหมดที่โดดเด่นเท่านั้น แต่ยังเร็วและราคาถูกกว่า GPT-4 Turbo ด้วย ขณะที่สื่อกระแสหลักให้ความสนใจกับความสามารถด้านวิดีโอและเสียงของโมเดลใหม่ใน ChatGPT แต่ต้นทุนและความเร็วที่ดีขึ้นก็มีผลกระทบอย่างมากต่อผู้ที่ใช้ GPT ในการขับเคลื่อนแอปของตนเช่นกัน

“การมาถึงของ 4o มีศักยภาพในการยกระดับประสบการณ์ทั้งฝั่งผู้สร้างและผู้ใช้” Patrick Hamelin หัวหน้าวิศวกรซอฟต์แวร์ที่ Botpress กล่าว “ผลกระทบนี้กว้างไกลกว่าที่เราคิด”
มาดูกันว่าโมเดลใหม่นี้จะเปลี่ยนแปลงแชทบอท AI อย่างไร
ความสามารถของโมเดล
โมเดลหลักตัวใหม่นี้มาพร้อมกับการอัปเดตและฟีเจอร์ใหม่ที่น่าตื่นเต้น เช่น ความสามารถด้านเสียงและวิดีโอที่ดีขึ้น การแปลแบบเรียลไทม์ และการเข้าใจภาษาธรรมชาติที่เป็นธรรมชาติมากขึ้น สามารถวิเคราะห์ภาพ เข้าใจเสียงหลากหลายรูปแบบ ช่วยสรุปข้อมูล แปลภาษาแบบเรียลไทม์ และสร้างกราฟได้ ผู้ใช้สามารถอัปโหลดไฟล์และสนทนาเสียงต่อเสียงได้ และยังมีแอปเดสก์ท็อปให้ใช้งานด้วย
ในวิดีโอเปิดตัว OpenAI และพันธมิตร (เช่น Sal Khan จาก Khan Academy) ได้สาธิต GPT เวอร์ชันล่าสุดที่ช่วยเตรียมผู้ใช้สัมภาษณ์งาน ร้องเพลง วิเคราะห์อารมณ์จากสีหน้า แก้สมการคณิตศาสตร์ที่เขียนด้วยมือ และแม้แต่โต้ตอบกับ ChatGPT-4o อีกตัวหนึ่ง
การเปิดตัวนี้แสดงให้เห็นความเป็นจริงใหม่ที่โมเดล AI สามารถวิเคราะห์ลายมือในสมุดของลูกคุณและตอบกลับได้ สามารถอธิบายแนวคิดการบวกเศษส่วนครั้งแรก ปรับโทนและวิธีการตามความเข้าใจของเด็ก – ข้ามเส้นจากแชทบอทไปสู่บทบาทติวเตอร์ส่วนตัว

GPT-4o หมายถึงอะไรสำหรับแชทบอท LLM?
แชทบอท AI ที่ทำงานบน LLM จะได้รับการอัปเดตทุกครั้งที่บริษัทอย่าง OpenAI อัปเดตโมเดลของตน หาก LLM agent เชื่อมต่อกับแพลตฟอร์มสร้างบอทอย่าง Botpress ก็จะได้รับประโยชน์จาก GPT เวอร์ชันล่าสุดในแชทบอทของตนทันที
เมื่อ GPT-4o เปิดตัว แชทบอท AI สามารถเลือกใช้โมเดลขั้นสูงนี้ได้ทันที ส่งผลต่อความสามารถ ราคา และความเร็ว โมเดลใหม่นี้มีขีดจำกัดการใช้งานสูงกว่า GPT-4 Turbo ถึง 5 เท่า สามารถประมวลผลได้สูงสุด 10 ล้านโทเคนต่อนาที
สำหรับบอทที่ใช้ระบบเสียง เช่น Twilio บน Botpress โลกใหม่ของการโต้ตอบด้วยเสียงได้เริ่มต้นขึ้นแล้ว แชทบอทไม่ต้องจำกัดอยู่กับการประมวลผลเสียงแบบเดิม ๆ อีกต่อไป เข้าใกล้การสนทนาแบบมนุษย์มากขึ้น
สิ่งสำคัญที่สุดคือราคาที่ถูกลงสำหรับผู้ใช้แบบชำระเงิน การใช้งานแชทบอทที่มีความสามารถใกล้เคียงกันในราคาครึ่งหนึ่ง ช่วยให้เข้าถึงและใช้งานได้ง่ายขึ้นทั่วโลก และผู้ใช้ Botpress ไม่ต้องจ่ายค่า AI เพิ่มสำหรับบอทของตน – ประหยัดนี้ส่งตรงถึงผู้สร้าง
ในมุมของผู้ใช้ GPT-4o ยังหมายถึงประสบการณ์ที่ดีขึ้น ไม่มีใครชอบรอ การตอบกลับที่เร็วขึ้นทำให้ผู้ใช้แชทบอท AI พึงพอใจมากขึ้น

ผู้ใช้ชอบความเร็ว
หัวใจสำคัญของการนำแชทบอทมาใช้คือการยกระดับประสบการณ์ผู้ใช้ แล้วอะไรจะช่วยประสบการณ์ผู้ใช้ได้มากไปกว่าการลดเวลารอ?
“แน่นอนว่าประสบการณ์จะดีขึ้น” Hamelin กล่าว “ไม่มีใครอยากรอใครนาน ๆ หรอก”
มนุษย์ไม่ชอบการรอ แม้แต่ในปี 2003 การศึกษา ก็พบว่าคนยอมรอหน้าเว็บโหลดได้แค่ประมาณ 2 วินาทีเท่านั้น ทุกวันนี้ความอดทนของเราก็ไม่ได้เพิ่มขึ้นเลย
และทุกคนก็ไม่ชอบการรอ
มีเคล็ดลับ UX มากมายที่ช่วยลดความรู้สึกว่าต้องรอนาน บ่อยครั้งเราไม่สามารถเร่งเหตุการณ์ให้เร็วขึ้นได้ จึงต้องหาวิธีทำให้ผู้ใช้รู้สึกว่าเวลาผ่านไปเร็วขึ้น เช่น การแสดงภาพโหลดเพื่อให้รู้สึกว่ารอไม่นาน
ใน เรื่องราวชื่อดังเกี่ยวกับเวลารอลิฟต์ อาคารเก่าแห่งหนึ่งในนิวยอร์กได้รับคำร้องเรียนมากมาย เพราะผู้อยู่อาศัยต้องรอลิฟต์ 1-2 นาที อาคารไม่สามารถเปลี่ยนลิฟต์ใหม่ได้ และผู้อยู่อาศัยขู่ว่าจะยกเลิกสัญญาเช่า
พนักงานใหม่ที่มีพื้นฐานด้านจิตวิทยาสังเกตว่าปัญหาจริงไม่ใช่เวลาที่เสียไปสองนาที แต่คือความเบื่อ เขาแนะนำให้ติดกระจกเงาเพื่อให้ผู้อยู่อาศัยมองตัวเองหรือคนอื่นขณะรอ หลังจากนั้นก็ไม่มีใครบ่นเรื่องลิฟต์อีกเลย และทุกวันนี้เราจึงเห็นกระจกในโถงลิฟต์ทั่วไป
แทนที่จะใช้ลูกเล่นเพื่อเพิ่มประสบการณ์ผู้ใช้ เช่น ภาพโหลด OpenAI ได้ปรับปรุงประสบการณ์ตั้งแต่ต้นทาง ความเร็วคือหัวใจของประสบการณ์ผู้ใช้ และไม่มีเทคนิคใดจะเทียบได้กับความพึงพอใจจากการโต้ตอบที่รวดเร็ว
ประหยัดสำหรับทุกคน
การใช้โมเดล AI ใหม่นี้เพื่อรันแอปพลิเคชันกลายเป็นเรื่องที่ถูกลงมาก
การรันแชทบอท AI ในระดับใหญ่มีต้นทุนสูง LLM ที่บอทของคุณใช้จะเป็นตัวกำหนดว่าคุณต้องจ่ายเท่าไรต่อการโต้ตอบของผู้ใช้ในระดับใหญ่ (อย่างน้อยใน Botpress ที่เราคิดค่าใช้จ่าย AI ตามต้นทุน LLM จริง)
และการประหยัดนี้ไม่ได้มีแค่สำหรับนักพัฒนาที่ใช้ API เท่านั้น ChatGPT-4o คือเวอร์ชัน LLM ฟรีล่าสุด เช่นเดียวกับ GPT-3.5 ผู้ใช้ทั่วไปสามารถใช้แอป ChatGPT ได้โดยไม่มีค่าใช้จ่าย
การประมวลผลโทเคนที่ดีขึ้น
หากคุณใช้โมเดลนี้กับภาษาที่ไม่ได้ใช้ตัวอักษรโรมัน GPT-4o จะช่วยลดค่าใช้จ่าย API ลงไปอีก

โมเดลใหม่นี้มาพร้อมขีดจำกัดการใช้งานที่ดีขึ้น ให้ประสิทธิภาพในการประมวลผลโทเคนสูงขึ้นมาก โดยเฉพาะกับบางภาษาที่ไม่ใช่ภาษาอังกฤษ
โมเดลการประมวลผลโทเคนใหม่นี้ใช้โทเคนน้อยลงในการประมวลผลข้อความ เหมาะอย่างยิ่งสำหรับภาษาที่ใช้สัญลักษณ์หรืออักษรภาพแทนตัวอักษรแต่ละตัว
ประโยชน์เหล่านี้ส่วนใหญ่เกิดขึ้นกับภาษาที่ไม่ได้ใช้ตัวอักษรโรมัน โดยมีการประเมินการประหยัดไว้ดังนี้:
- ภาษาอินเดีย เช่น ฮินดี ทมิฬ หรือคุชราต ลดจำนวนโทเคนได้ 2.9 – 4.4 เท่า
- ภาษาอาหรับลดจำนวนโทเคนได้ประมาณ 2 เท่า
- ภาษาเอเชียตะวันออก เช่น จีน ญี่ปุ่น และเกาหลี ลดจำนวนโทเคนได้ 1.4 – 1.7 เท่า
ลดช่องว่างทางดิจิทัลของ AI
ยุคดิจิทัลได้นำช่องว่างทางความมั่งคั่งที่มีมานานและถูกบันทึกไว้อย่างดีให้ขยายออกไปอีก – ช่องว่างทางดิจิทัล เช่นเดียวกับที่ความมั่งคั่งและโครงสร้างพื้นฐานที่ดีมีเฉพาะบางกลุ่ม การเข้าถึง AI และโอกาสหรือประโยชน์ที่ตามมาก็เช่นกัน
Robert Opp ประธานเจ้าหน้าที่ฝ่ายดิจิทัลของโครงการพัฒนาแห่งสหประชาชาติ (UNDP) อธิบาย ว่าการมีอยู่ของแพลตฟอร์ม AI สามารถส่งผลต่อดัชนีพัฒนาของประเทศทั้งประเทศได้

ด้วยการลดค่าใช้จ่ายของ GPT-4o ลงครึ่งหนึ่งและเปิดให้ใช้ฟรี OpenAI กำลังเดินหน้าสำคัญเพื่อลดปัญหาใหญ่ในวงการ AI และตอบโจทย์ความเหลื่อมล้ำที่ผู้กำหนดนโยบายและนักเศรษฐศาสตร์กังวล
การสร้างภาพลักษณ์เชิงบวกให้กับ AI รายใหญ่เป็นสิ่งจำเป็นมากกว่าที่ผู้สนับสนุนบางคนคิด เมื่อ AI เข้ามามีบทบาทในชีวิตประจำวันมากขึ้น ทั้งผู้สนับสนุนและผู้ตั้งคำถามต่างก็อยากรู้ว่าเราจะใช้ AI เพื่อประโยชน์ส่วนรวมได้อย่างไร

ตามความเห็นของ Louis Bouchard นักวิจัยและผู้สอนด้าน AI การกระจายโอกาสเข้าถึง AI คือวิธีที่เราจะทำสิ่งนั้นได้จริง “การทำให้ AI เข้าถึงได้ คือหนึ่งในวิธีที่ดีที่สุดในการใช้ AI เพื่อประโยชน์ส่วนรวม” เหตุผลของเขาคือ หากเราไม่สามารถควบคุมผลดีผลเสียของเทคโนโลยี AI ได้เต็มที่ อย่างน้อยเราก็ควรทำให้ทุกคนเข้าถึงประโยชน์ของมันได้อย่างเท่าเทียม
ศักยภาพมัลติโหมดที่ขยายขึ้น
ปกติแล้วผู้ใช้มักโต้ตอบกับแชทบอทของธุรกิจผ่านข้อความ แต่ความสามารถมัลติโหมดที่เพิ่มขึ้นของโมเดล AI ใหม่จาก OpenAI อาจเปลี่ยนแปลงวิธีนี้ในอนาคต
ในปีข้างหน้า เราน่าจะได้เห็นนักพัฒนาจำนวนมากเปิดตัวแอปพลิเคชันใหม่ ๆ ที่ใช้ประโยชน์จากความสามารถด้านเสียง ภาพ และวิดีโอที่เข้าถึงได้มากขึ้น
ตัวอย่างเช่น แชทบอทที่ขับเคลื่อนด้วย GPT อาจสามารถ:
- ขอให้ลูกค้าส่งภาพสินค้าที่ต้องการคืน เพื่อระบุสินค้าและตรวจสอบว่าสินค้าไม่ได้รับความเสียหาย
- แปลเสียงแบบเรียลไทม์ในบทสนทนา โดยคำนึงถึงสำเนียงเฉพาะภูมิภาค
- บอกได้ว่าสเต๊กของคุณสุกหรือยังจากภาพในกระทะ
- ทำหน้าที่เป็นไกด์นำเที่ยวส่วนตัวฟรี ให้ข้อมูลประวัติศาสตร์จากภาพโบสถ์เก่า แปลภาษาแบบเรียลไทม์ และให้ทัวร์เสียงแบบโต้ตอบถามตอบได้
- ขับเคลื่อนแอปเรียนภาษาที่ฟังเสียงผู้ใช้ ให้ข้อเสนอแนะเรื่องการออกเสียงจากวิดีโอการขยับปาก หรือสอนภาษามือผ่านภาพและวิดีโอ
- ให้การสนับสนุนสุขภาพจิตแบบไม่เร่งด่วน ด้วยการวิเคราะห์เสียงและวิดีโอ ช่วยให้บริการพูดคุยบำบัดต้นทุนต่ำ
เมื่อโมเดล AI สามารถเข้าใจภาพและเสียงได้ ความเป็นไปได้ในการนำ LLM มาใช้ประโยชน์ก็ขยายตัวอย่างรวดเร็ว
มัลติโหมดหมายถึงการเข้าถึง
เรามีตัวอย่างการนำฟีเจอร์มัลติโหมดมาใช้เพื่อสังคมแล้ว ตัวอย่างที่ชัดเจนคือ ความร่วมมือของ OpenAI กับ Be My Eyes
Be My Eyes คือสตาร์ทอัพจากเดนมาร์กที่เชื่อมต่อผู้มีปัญหาด้านการมองเห็นกับอาสาสมัครที่มองเห็นได้ เมื่อผู้ใช้ต้องการความช่วยเหลือ เช่น เลือกของกระป๋องที่ถูกต้องในซูเปอร์มาร์เก็ต หรือดูว่าสีเสื้อเป็นสีอะไร แอปจะเชื่อมต่อกับอาสาสมัครผ่านวิดีโอบนสมาร์ทโฟน

ความสามารถด้านการมองเห็นใหม่ของ OpenAI สามารถมอบประสบการณ์ที่มีประโยชน์ยิ่งขึ้นให้กับผู้ใช้ Be My Eyes แทนที่จะต้องพึ่งอาสาสมัครในการอธิบายภาพหรือวิดีโอแบบเรียลไทม์ ผู้ใช้ที่ตาบอดสามารถส่งภาพหรือวิดีโอให้กับอุปกรณ์เพื่อให้โมเดลตอบกลับด้วยข้อมูลเสียงได้ทันที
OpenAI และ Be My Eyes ซึ่งเป็นพันธมิตรที่เชื่อถือได้ กำลังเปิดทางสู่ความเป็นอิสระมากขึ้นสำหรับผู้พิการทางสายตาทั่วโลก Michael Buckley ซีอีโอของ Be My Eyes อธิบายถึงผลกระทบนี้ว่า

บริการใหม่นี้จะเริ่มเปิดให้ใช้ในช่วงฤดูร้อนปี 2024 เป็นครั้งแรก ผู้ใช้กลุ่มแรกได้ทดสอบฟีเจอร์ใหม่ทั้งด้านภาพ วิดีโอ และเสียงแล้ว ซึ่งได้รับเสียงตอบรับดีมาก แม้ AI จะสร้างความกังวลให้กับบางคน แต่ความร่วมมือนี้แสดงให้เห็นถึงผลดีที่ AI สามารถนำมาได้ การเข้าใจประโยชน์ทางสังคมของ AI ขั้นสูงเป็นก้าวสำคัญสำหรับภาพลักษณ์ของเทคโนโลยีนี้
เราจะประเมินโมเดล LLM ในอนาคตอย่างไร?
เมื่อคู่แข่งต่างเร่งสร้าง LLM ที่ถูกและเร็วที่สุด คำถามคือ เราจะใช้เกณฑ์อะไรตัดสินโมเดล AI ในวันข้างหน้า?
ในอนาคต ผู้สร้าง LLM รายใหญ่ (เช่น OpenAI และ Google) อาจถึงจุดที่ความเร็วและต้นทุนของโมเดลไม่สามารถพัฒนาได้มากกว่านี้ เมื่อถึงจุดที่ต้นทุนและความเร็วคงที่ เราจะตัดสินว่าโมเดลไหนเป็นผู้นำตลาดได้อย่างไร?
อะไรจะกลายเป็นสัญลักษณ์ใหม่ของยุคสมัย? ไม่ว่าจะเป็นบุคลิกของโมเดล AI ความสามารถด้านวิดีโอ ฟีเจอร์สำหรับผู้ใช้ฟรี หรือเกณฑ์ใหม่ ๆ ที่เรายังไม่รู้จัก รุ่นถัดไปของ LLM กำลังจะมาถึงแล้ว
สร้างแชทบอท AI ได้ง่ายขึ้น
ถ้าแชทบอท AI ของคุณซิงค์กับทุกอัปเดตของ GPT โดยอัตโนมัติล่ะ?
Botpress ให้บริการโซลูชันแชทบอท AI ที่ปรับแต่งได้ตั้งแต่ปี 2017 มอบเครื่องมือให้นักพัฒนาสร้างแชทบอทที่ใช้ LLM รุ่นล่าสุดได้อย่างง่ายดาย แชทบอทของ Botpress สามารถฝึกจากแหล่งข้อมูลเฉพาะ เช่น เว็บไซต์หรือแค็ตตาล็อกสินค้า และเชื่อมต่อกับระบบธุรกิจได้อย่างไร้รอยต่อ
แพลตฟอร์มเดียวที่รองรับตั้งแต่การตั้งค่าแบบไม่ต้องเขียนโค้ด ไปจนถึงการปรับแต่งและขยายได้ไม่สิ้นสุด Botpress ช่วยให้คุณได้รับพลังของ GPT เวอร์ชันล่าสุดบนแชทบอทของคุณโดยอัตโนมัติ โดยไม่ต้องทำอะไรเพิ่ม
คำถามที่พบบ่อย
1. จะเปลี่ยนแชทบอทที่มีอยู่ให้ใช้ GPT-4o บน Botpress ได้อย่างไร?
หากต้องการเปลี่ยนแชทบอทที่มีอยู่ให้ใช้ GPT-4o บน Botpress ให้ไปที่ Botpress Studio เลือกตั้งค่า LLM ของผู้ช่วยของคุณ แล้วเลือก GPT-4o จากรายการโมเดลที่มี การเปลี่ยนแปลงจะมีผลทันทีโดยไม่ต้องแก้ไขโค้ด
2. มีข้อกำหนดเบื้องต้นในการใช้ GPT-4o บนแพลตฟอร์ม Botpress หรือไม่ (เช่น SDK, เวอร์ชัน API)?
ไม่มีข้อกำหนดเบื้องต้นในการใช้ GPT-4o บน Botpress แพลตฟอร์มจะจัดการ SDK, การอัปเดต API และส่วนที่เกี่ยวข้องทั้งหมดโดยอัตโนมัติ คุณเพียงแค่เลือก GPT-4o ในหน้าตั้งค่าเพื่อเปิดใช้งาน
3. สามารถปรับแต่งหรือฝึก GPT-4o เพิ่มเติมสำหรับกรณีใช้งานทางธุรกิจเฉพาะผ่าน Botpress ได้หรือไม่?
แม้จะไม่สามารถปรับ GPT-4o ในเชิงเทคนิคแบบเดิมได้ใน Botpress แต่คุณสามารถปรับแต่งการตอบสนองและพฤติกรรมของมันได้ผ่าน prompt engineering, การออกแบบ workflow, ฐานความรู้ และตัวแปรต่าง ๆ ซึ่งช่วยให้ GPT-4o ทำงานได้ตรงตามบริบทธุรกิจของคุณโดยไม่ต้องฝึกโมเดลใหม่
4. มีข้อจำกัดในการใช้ฟีเจอร์มัลติโหมด (เสียง, ภาพ) ภายในเวิร์กโฟลว์ของ Botpress หรือไม่?
ปัจจุบัน Botpress รองรับฟีเจอร์เสียงผ่านการเชื่อมต่อกับ Twilio หรือ Dialogflow Voice Gateway แต่ความสามารถแบบมัลติโหมด เช่น การประมวลผลภาพหรือวิดีโอยังไม่รองรับอย่างสมบูรณ์ การรับข้อมูลจากภาพยังอยู่ระหว่างการพิจารณาหรืออาจต้องใช้วิธีแก้ไขเฉพาะ
5. มีค่าใช้จ่ายแอบแฝงในการใช้ฟีเจอร์ขั้นสูงของ GPT-4o เช่น การแปลภาษาแบบเรียลไทม์หรือการรับข้อมูลภาพหรือไม่?
ไม่มีค่าใช้จ่ายแอบแฝงในการใช้ฟีเจอร์ขั้นสูงของ GPT-4o บน Botpress ความเร็วและประสิทธิภาพของ GPT-4o รวมอยู่ในแผน Botpress ของคุณแล้ว และค่าใช้จ่าย LLM ก็ครอบคลุมโดย Botpress ผู้ใช้จึงไม่ต้องจ่ายเพิ่มสำหรับการใช้ฟีเจอร์ใหม่ของ GPT-4o





.webp)
