2025 年十大最佳大型語言模型LLMs)

撰寫人

Aryan Kargwal

AI 開發人員、博士生及內容創造者 (edtr newsletter &Botpress)

步驟 1。步驟的標題按預期顯示在此處

摘要

大型語言模型LLMs) 是在大量文字資料集上訓練的人工智能系統，可理解並產生類似人類的語言，從而執行摘要、推理和會話互動等任務。
頂尖的LLM 供應商，包括OpenAI、Anthropic、Google DeepMind、Meta、DeepSeek、xAI 和 Mistral，各自專精於不同的強項，例如多模態、推理、開放性或企業準備。
最好的會話LLMs （如GPT 和 Claude Sonnet 4）擅長處理細微的對話、上下文保留和語氣轉換，而 DeepSeek R1 和 Gemini 2.5 Pro 等專注於推理的模型則能處理複雜的多步驟任務。

我的 X feed 上每天都有新的 AI 模型。一眨眼，您就錯過了下一個「開放重量、GPT- 水準」的下降。

我還記得 LLaMA 出來的時候，感覺像是一件大事。Vicuna 接著出現。之後一切都模糊了。Hugging Face 一夜之間變成了 AI 首頁。

如果您正在使用這些東西進行建置，您很難不懷疑 - 我要跟上所有的東西嗎？還是只挑一個能用的，祈禱它不會壞？

我在真實的產品中嘗試了大部分的產品。有些很適合聊天。有些一用在llm 代理或工具鏈中就會崩潰。

構建 AI Chatbots

建立自訂的代理聊天機器人

立即開始

什麼是大語言模型？

大型語言模型LLMs) 是經過訓練的人工智能系統，可在各種任務中理解並產生人類語言。

這些模型是在大量的文字上訓練出來的，從書籍、網站、程式碼到對話，什麼都有，因此它們可以學習語言在實務中是如何運作的。

您已經在工作中見過它們，當AI 聊天機器人了解您的問題時，即使經過追問，也能明白，因為它了解上下文。

LLMs 精通文件摘要、回答問題、編寫程式碼、語言之間的翻譯，以及進行連貫的對話等工作。

對於思維鏈提示等概念的研究日益增加，也使得將LLMs 變成AI 代理成為可能。

前 7 大LLM 提供者

在細分最佳機型之前，我們應該先瞭解製造這些機型的廠商。

每個供應商對於模式設計都有不同的看法 - 有些著重於原始規模，有些著重於安全性或多種模式，有些則推動開放存取。

瞭解一個模型的來源，可以讓您更清楚地瞭解它的行為方式和製作對象。

OpenAI

OpenAI 是 ChatGPT和GPT 系列背後的公司。目前，大多數LLMs 團隊不是直接使用他們的模型，就是與他們競爭。

OpenAI 既是研究實驗室，也是商業平台，透過 API 和產品整合提供模型。

OpenAI 專注於建立具有廣泛功能的通用GPT 聊天機模型，例如GPT。它持續塑造了目前商業與開發人員所使用的 AI 的大部分版圖。

Anthropic

Anthropic 是一家位於舊金山的人工智能公司，由一群前OpenAI 研究人員於 2021 年創立，其中包括 Dario 和 Daniela Amodei 兄妹。

該團隊專注於建立在較長對話中安全、可操縱、可解釋且可靠的語言模型。

他們的 Claude 系列以強大的指令跟隨性和情境保持力而聞名，這些價值觀清楚地表現在模型如何處理細微的提示和多輪會話。

Google DeepMind

DeepMind 是 Google 的 AI 研究部門，原本以遊戲和強化學習的突破而聞名。

它現在是 Gemini 模型系列背後的團隊，為 Google 的許多 AI 產品提供動力。

Gemini 模型專為多模態推理和長內容任務所建立，並已整合在其生態系統中，例如搜尋、YouTube、Drive 和 Android。

深度搜尋

DeepSeek 是一家總部設在中國的人工智能公司，因發布具有競爭力的開放重量模型，並專注於推理和檢索而迅速獲得關注。

他們的模型深受尋求系統建置與部署透明化與控制的開發人員歡迎。

xAI

xAI 是一家人工智能公司，定位為與 X（前 Twitter）密切合作的獨立研發團隊。

其 Grok 模型已整合至 X 產品中，旨在結合會話功能與即時資料存取。

Mistral

Mistral 是一家位於巴黎的 AI 創業公司，以發佈高效能、開放重量的模型而聞名。

他們的工作重點在於效率和存取性，模型通常用於本機或低延遲部署。

10 款最佳大型語言機型

我們大多數人都不是從排行榜上選擇模特兒，而是挑選感覺對的模特兒。

而「最佳」並不表示最大的機型或在某些評估中獲得最高分數。它的意思是：我是否會用它來支援代理、管理我的編碼管道、回應客戶，或是在高風險任務中撥打電話？

我挑選的機型都是

現正積極維護與提供
正在實際應用中進行測試
真正擅長某方面：會話、推理、速度、開放性或多模態深度

當然，新機型還會不斷推出。但這些機型已經在實際應用中證明了自己的優勢 - 如果您今天正在建置產品，這些機型值得您了解。

LLM	多式聯運	推理	工具使用
GPT	✅	🟡	✅
Claude 4 Sonnet	✅	✅	✅
Grok 3	❌	✅	✅
o3	❌	✅	✅
Claude 4 作品	✅	✅	✅
雙子星 2.5 Pro	✅	✅	✅
DeepSeek R1	❌	✅	✅
Gemma 3 (4B)	❌	❌	❌
Mistral Small 3.1	✅	🟡	🟡
Qwen 3 (4B)	❌	🟡	✅

最佳會話型LLMs

最好的會話模式能在轉彎時保持上下文，根據您的語氣調整，即使會話轉移或回圈時也能保持連貫。

要上榜，模型必須讓人有投入感。它應該能夠處理亂七八糟的措辭、從中斷中優雅地恢復，並且在回應時讓人感覺到有人在聆聽。

型號	語音支援	上下文視窗	成本（每 100 萬代用幣）
GPT	✅	128K	$5 進 / $15 出
Claude 4 Sonnet	❌	200K	$3入/$15出
Grok 3	✅	131K	$3入/$15出

1.GPT4o

標籤對話式 AI、即時語音、多模態輸入、封閉源碼

GPT 是OpenAI最新的旗艦機型，將於 2024 年 5 月發佈 - 這是LLMs 處理即時、多模態互動的一大躍進。

它可以接收文字、檔案、影像和音訊作為輸入，並以其中任何一種格式回應。

我最近一直在使用GPT 廣泛的語言理解能力來練習法文，它是很難被超越的。

語音回應幾乎是即時的（約 320 毫秒），甚至還能反映語氣和情緒，讓人感覺非常人性化。

OpenAI 是互聯網上被採用最多的聊天機器人之一，也是最受企業青睞的聊天機器人，因為OpenAI 生態系統提供了額外的功能和工具。

2.Claude 4 Sonnet

標籤對話式人工智能、長內容記憶、企業就绪、封閉源碼

Claude Sonnet 4 是Anthropic最新的會話式 AI模型，於 2025 年 5 月發表。

它專為自然的對話而設計，在不犧牲速度的情況下讓人感到貼心，在企業聊天環境中表現尤其出色。

它能在長時間的交換中維持上下文，可靠地遵循指示，並快速適應主題或使用者意圖的轉變。

相較於 Claude 3.7 等先前版本，Sonnet 4 所產生的答案更有重點，對於動詞的控制也更為嚴謹，同時不失連貫性。

3.Grok 3 (xAI)

標籤對話式人工智能、即時感知、幽默、封閉源碼

Grok 3 感覺就像一個上網太久的人。與 X 連線，它其實不需要綁在網際網路 API 上就能跟上新聞。

LLM 的幽默通常是悲劇性的，但 Grok 至少知道自己在說笑。有時它會落地。有時它是螺旋式的。無論如何，它都會繼續說下去。

在嘈雜、反應激烈的場合最能發揮作用。例如在產品發佈會中群聊沸騰，或媒體機器人在即時頭條旁邊冷嘲熱諷。

您有時會發現 Grok 或它的混沌雙生體「Gork」潛伏在 X 主題中，幫助別人確認地球是否是圓的。所以也許你可以留意一下。

最佳推理LLMs

有些機型專為速度而打造。這些機型則是為思考而生。它們會遵循複雜的指示，並在長時間、多層次的任務中保持專注。

這表示他們不只是產生答案，而是追蹤已經完成的工作，根據結果進行調整，並有意識地規劃下一步。

它們大多使用 ReAct 和 CoT 等推理框架，非常適合建立需要結構而非速度的AI 代理和問題。

型號	開放源碼	上下文視窗	成本（每 100 萬代用幣）
OpenAI o3	❌	200K	$10 進 / $40 出
Claude 4 作品	❌	200K	$15 進 / $75 出
雙子星 2.5 Pro	❌	1M	$1.25 進 / $10 出
DeepSeek R1	✅	128K	進$0.55/出$2.19

4.OpenAI o3

標籤：推理LLM、思維連鎖、代理就緒、封閉源碼

OpenAI 的 o3 是一個以推理為重點的模型，設計用來處理需要結構化思考的複雜任務。

它在數學、編碼和科學解決問題等領域都很出色，利用從OpenAI o1傳承下來的思考鏈技術，將問題分解成可管理的步驟。

OpenAI 使用商議式排列來更好地規劃其行動。 模型在前進之前，會根據安全指南檢查自己的決策。

就我們所見，OpenAI 很可能會將 o3 的大腦與 4o 的彈性結合到GPT 中，從而融合兩者的優點。

5.Claude 4 作品

標籤：推理LLM、長內容記憶體、企業就绪、封閉源碼

Claude 4 Opus 是Anthropic的旗艦型號 - 雖然它明顯比 Sonnet 慢且昂貴。

作為Anthropic 迄今為止訓練過的最大模型，該模型可以在長時間的輸入過程中保持專注，並掌握每個步驟背後的邏輯。

它能很好地處理密集的資料。您可以給它一份完整的報告或流程文件，它就會根據上下文和參考資料詳細說明。

這對於建立可在龐大工作區域進行推理的 AI 系統的企業團隊而言，意義重大。

6.雙子星 2.5 Pro

標籤：推理LLM、長內容任務、規劃能力、封閉源碼

Gemini 2.5 Pro 是 DeepMind 最有能力的機型 - 如果您用對地方的話。

在 啟用深度研究的AI Studio 內 ，它會以完整的推理鏈作出回應，並以清晰的邏輯勾勒出決策。

推理使其在多步工作流程和代理系統中具有優勢。

當 Gemini 2.5 Pro 有思考的空間和工具時，它會展現出最佳的效能。這讓它成為建立有基礎、邏輯感知的應用程式團隊的強大選擇，這些應用程式需要結構來擴充。

7.DeepSeek R1

標籤：推理LLM、長內容、研究導向、開放源碼

DeepSeek R1 隨著開放權重下降，並在核心推理基準上表現優於 Claude 和 o1，在爭取封閉版本的團隊中引發了非常真實的恐慌時刻。

它的優勢來自於架構。R1 傾向於結構，著重於簡潔的代幣處理 ，並清楚知道當對話變長時，注意力應該如何擴充。

如果您要建立需要邏輯落地和步驟保持的代理，R1 讓您能夠以自己的條件非常輕鬆地執行基礎層級的效能，而且硬體是推理模型中唯一的開放原始碼模型。

最佳輕量級LLMs

機型越小，您就越能感受到取捨 - 但如果做得好，就不會覺得小。

大多數小型模型都是從大型版本中提煉出來的，經過訓練以保留足夠的原始技能，同時降低尺寸。

您可以在邊緣裝置、低規格設備，甚至是筆記型電腦上執行它們。

您不一定需要深入推理或長時間聊天。您追求的是精確和快速的輸出，而不需要使用完整的雲端stack。

型號	多式聯運	上下文視窗	成本（每 100 萬代用幣）
Gemma 3 (4B)	❌	32K	$0.02 進 / $0.04 出
Mistral Small 3.1	✅	128K	$0.15 進 / $0.15 出
Qwen 3 (4B)	❌	32K	進$0.11/出$1.26

8.Gemma 3 (4B)

標籤：輕量級LLM、在裝置上使用、開放源碼

Gemma 3 (4B) 來自 Google 較大的 Gemma 產品線，將參數縮減至 40 億，因此可在不需雲端連結的一般硬體上執行。

它保留了母機型的指令遵循規範，但卻能以行動代理或離線聊天 Widget 所需的速度回應。

將它丟入本機工作流程中，它會快速啟動，並在嚴格的記憶體限制下保持穩定。

9.Mistral Small 3.1

標籤：輕量級LLM、在裝置上使用、開放源碼

Mistral Small 3.1 以早期的 Mistral Small 系列為基礎，但仍保持足够輕巧的體積，可在單一消費者 GPU 上執行，同時仍提供128 k-token 視窗。

它每秒可串流約 150 個字元，並可處理文字和基本圖像提示，因此是邊緣聊天層或嵌入式代理的最佳選擇。

10.Qwen 3 (4B)

標籤：輕量級LLM、多語言、開放源碼

Qwen 3 4B 將阿里巴巴規模較大的 Qwen-3 架構縮小為一個擁有 40 億個參數的模型，但仍能理解100 多種語言，並能乾淨地插入工具呼叫框架。

它以 Apache 式的授權開放重量，可在一般的 GPU 上執行，並在開發人員需要快速推理的代理任務中獲得關注。

如何使用您最喜愛的LLM建立代理

選好機型了嗎？太好了。現在是時候讓它開始工作了。

要知道LLM 是否真的適合您的使用個案，最好的方法就是使用它進行建置 - 看看它如何處理真實的輸入和部署流程。

在這個快速建置中，我們將使用Botpress - AI 聊天機與代理的視覺化建置工具。

部署 AI 代理？

閱讀我們的 AI Agent 實作藍圖

立即閱讀

步驟 1：定義代理的範圍和角色

在開啟平台之前，您需要先弄清楚機器人應該扮演什麼角色。

一個好的做法是先從幾個任務開始，看看它們的可行性和採用情況，然後在此基礎上再進一步發展。

從常見問題聊天機器人開始，可以幫助您瞭解資料的使用方式，以及結構化參數在LLMs 或工具之間的移動。

步驟 2：建立基本代理

在Botpress Studio 中，開啟一個新的機器人，並為代理撰寫清楚的Instructions。

這會告訴LLM 它需要如何行為，以及要完成什麼工作。行銷聊天機器人的指令集範例可以是

"您是 [公司] 的行銷助理。幫助使用者瞭解我們的產品、回答常見問題，並鼓勵他們預約演示或註冊電子郵件更新。言簡意賅、樂於助人、主動積極"。

步驟 3：新增重要文件和網站

上傳或寫入資訊到知識庫，這樣聊天機器人就能回答類似的問題：

產品比較
定價細目
登陸頁面 URL
關鍵 CTA（演示、試用、聯絡表單連結）

內容越符合您的漏斗，機器人的表現就越好。

步驟 4：轉換至您喜歡的LLM

一般機器人設定完成後，您就可以變更聊天機器人中特定作業所使用的LLMs 。

您可以前往儀表板左側的Bot Settings在它們之間切換。

前往LLM 選項，從這裡您可以選擇喜愛的LLM。

Botpress 支援OpenAI、Anthropic、Google、Mistral、DeepSeek 及其他 - 因此您可以隨心所欲地平衡效能與預算。

步驟 5：部署至您選擇的頻道

為您的 AI 代理決定完美的LLM 之後，您就可以在不同的平台上同時部署聊天機器人。

聊天機器人可以非常容易地變成Whatsapp 聊天機器人或Telegram 聊天機器人，開始支援任何領域的使用者。

立即部署LLM代理程式

槓桿作用LLMs 在您的日常工作中使用自訂 AI 代理程式。

有了大量的聊天機器人平台，您可以輕鬆設定 AI 代理來滿足您的特定需求。Botpress 是一個無限擴充的 AI 代理平台。

透過預先建立的整合程式庫、拖放式工作流程和全面的教學，讓不同專業階段的建置者都能使用。

插入任何LLM ，即可在任何使用情況下為您的 AI 專案提供動力。

今天就開始建立- 這是免費的。

構建 AI Chatbots

建立自訂的代理聊天機器人

立即開始

常見問題

1.除了基礎架構之外，託LLMs 與開放原始碼LLMs 有哪些差異？

託LLMs 與開放原始碼LLMs 之間的差異不僅限於基礎架構：託管式LLMs （如GPT 或 Claude 3.5）透過 API 提供易用性，但它們是封閉式原始碼並限制客製化。開放原始碼LLMs （如 LLaMA 3 或 Mistral）則提供完整的控制功能，非常適合需要合規性或內部部署的企業。

2.我可以針對自己的資料微調GPT 或 Claude 3.5 等託LLMs ？

您無法使用自訂權重完全微調託管的LLMs ，但您可以使用系統提示、函式呼叫、嵌入和 RAG (retrieval-augmented generation) 等工具來調整它們的行為，這些工具可讓您在不改變基礎模型的情況下注入相關知識。

3.LLMs 與傳統基於規則的 NLP 系統比較如何？

LLMs 與傳統基於規則的 NLP 系統不同之處在於，LLMs 根據從大型資料集學習到的統計模式產生回應，使其具有彈性，並能夠處理含糊不清的情況。基於規則的系統遵循嚴格的邏輯，並會因意外輸入而破壞。

4.LLMs 是否會保留先前互動的記憶，以及如何處理？

預設情況下，大多數LLMs 都是無狀態的，不會記得之前的對話。記憶體必須使用情境注入來模擬（例如，使用儲存在會話中的聊天記錄），雖然有些平台（例如OpenAI ）現在提供原生記憶體功能來進行持久性個人化。

5.評估商業用途的LLM 時，最重要的指標是什麼？

在評估商業用途的LLM 時，應優先考慮精確度 (其輸出的正確程度)、延遲 (其回應速度)、成本 (尤其是大量使用時)，以及安全性 (其避免幻覺或有害內容的能力)。其他考慮因素包括多語言能力和整合彈性。

2025 年十大最佳大型語言模型LLMs)

什麼是大語言模型？

前 7 大LLM 提供者

OpenAI

Anthropic

Google DeepMind

Meta

深度搜尋

xAI

Mistral

10 款最佳大型語言機型

最佳會話型LLMs

1.GPT4o

2.Claude 4 Sonnet

3.Grok 3 (xAI)

最佳推理LLMs

4.OpenAI o3

5.Claude 4 作品

6.雙子星 2.5 Pro

7.DeepSeek R1

最佳輕量級LLMs

8.Gemma 3 (4B)

9.Mistral Small 3.1

10.Qwen 3 (4B)

如何使用您最喜愛的LLM建立代理

步驟 1：定義代理的範圍和角色

步驟 2：建立基本代理

步驟 3：新增重要文件和網站

步驟 4：轉換至您喜歡的LLM

步驟 5：部署至您選擇的頻道

立即部署LLM代理程式

常見問題

1.除了基礎架構之外，託LLMs 與開放原始碼LLMs 有哪些差異？

2.我可以針對自己的資料微調GPT 或 Claude 3.5 等託LLMs ？

3.LLMs 與傳統基於規則的 NLP 系統比較如何？

4.LLMs 是否會保留先前互動的記憶，以及如何處理？

5.評估商業用途的LLM 時，最重要的指標是什麼？