6
你的第一個 AI 代理人
8
7
6
5
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
下一課
下一課
本課內容

決定哪一個大型語言模型來驅動你的智能代理,是專案中最重要的技術決策之一。

這會影響你的智能代理表現如何、營運成本多少,以及長期下來行為是否穩定可預期。

沒有單一最好的模型。正確的選擇取決於你的目標、預算,以及你對輸出結果的控制需求。

團隊如果太快做出這個決定,往往會後悔。關鍵在於及早測試、明確設定優先順序,並避免讓自己被單一供應商或架構綁死。

一個好的 LLM 策略要回答四個主要問題:

  1. 你選用哪個模型?為什麼?
  2. 你多久會測試其他替代方案?
  3. 對你的應用來說,速度還是效能更重要?
  4. 如果模型失效或表現變差,你的備案是什麼?

我們來逐一說明這些問題。

選擇模型重點在於適合,而不是名氣。有些模型速度快、成本低,有些則雖然慢但擅長複雜推理。

如果你的應用場景是簡短的客戶互動,延遲和成本可能比深度更重要。

如果你的應用需要多步驟推理或詳細摘要,效能可能才是首要考量。

及早且頻繁測試,能幫你了解模型在你的資料下的表現。每個 LLM 都有自己的特性,有的擅長執行指令,有的則在語氣一致性或精確度上表現較好。只有用你自己的實際案例測試,才能發現這些差異。

備案規劃同樣重要。即使是最穩定的 API 偶爾也會行為改變、效能下降或暫時無法使用。一定要設定備用模型,以及當效能低於標準時的切換規則。(或者確保你的智能代理平台有預設備用方案,就像 Botpress 一樣)

在 Terminal Roast,會計 Ross 負責計算成本。團隊希望他們的智能代理能即時處理顧客關於咖啡和糕點的簡單對話。經過幾輪測試後,他們決定採用 Gemini 2.5 Flash。這個模型速度快、成本低,推理能力也足夠應付日常顧客服務。

作為備案,他們設定系統在延遲或錯誤率超過門檻時自動切換到次要模型。這樣能確保用戶體驗順暢,營運成本也可預期。

Ross 也提醒團隊,未來如果要讓智能代理處理更複雜的任務,還可以再重新評估模型選擇。

每一次模型選擇同時也是商業決策。選錯模型可能讓營運成本翻倍,或讓用戶體驗變慢。選對模型則能在效能與成本間取得平衡,帶來理想的體驗。

彈性同樣重要。避免讓你的系統過度依賴單一模型,否則日後要更換會很困難。建議使用抽象層或支援多模型的供應商,這樣才能隨著市場變化靈活調整。

這種彈性讓你的系統更有韌性,也不會被單一供應商的規劃或價格綁住。

要建立真正的 LLM 策略,請記錄三件事:

  • 你的主要模型,以及選擇它的原因。
  • 你的效能與成本門檻,也就是什麼情況下要考慮切換。
  • 你的備用模型,以及啟用它的規則。

至少每季重新檢視這些決策。LLM 生態系變化極快,新模型常常以更低成本帶來更好表現。把這當作持續優化,而不是一次性的設定。

Terminal Roast 選擇優先考慮速度與穩定性,而非極致效能,讓他們的首次部署能長期運作。這不僅讓顧客滿意,也控制了成本,並能在技術穩定下收集實際數據。

這種平衡——選擇合適的模型、規劃變動、保持彈性——正是實驗性專案與正式產品的分水嶺。

你的 LLM 策略應該支援你的商業目標,而不是限制它們。

行動: 寫下你打算使用哪個模型、對你的應用來說最重要的是什麼(速度、成本或深度),以及你的備用方案。隨著你收集使用數據,請定期檢視這些選擇。

摘要
如何根據效能、成本、延遲和長期穩定性,為 AI 智能代理選擇合適的大型語言模型。
本課程所有單元
Fresh green broccoli floret with thick stalks.