6
your-first-ai-agent
6
5
4
2
3
1
5
15
11
9
20
18
19
17
16
15
14
13
12
11
10
8
7
6
5
4
3
2
1
10
18
17
16
14
13
12
10
9
8
7
6
4
3
2
1
9
8
7
6
5
4
3
2
1
7
6
5
4
3
2
1
6
5
4
3
2
1
下一课
下一课
本课内容

选择哪一个大语言模型为你的智能体提供支持,是你项目中最重要的技术决策之一。

它会影响你的智能体表现如何、运营成本多少,以及其行为在长期内的可预测性。

没有绝对最好的模型。正确的选择取决于你的目标、预算,以及你对输出结果的控制需求。

仓促做出这个决定的团队往往会后悔。关键在于尽早测试,明确优先级,并避免把自己锁定在单一供应商或方案上。

一个好的大语言模型策略需要回答四个主要问题:

  1. 你使用的是哪种模型,为什么选择它?
  2. 你多久会测试一次其他备选模型?
  3. 对你的应用场景来说,速度还是能力更重要?
  4. 如果模型失效或性能下降,你的备用方案是什么?

让我们逐一来看这些问题。

选择模型要看是否适合,而不是看名气。有些模型速度快、成本低,有些则更擅长复杂推理但速度较慢。

如果你的应用场景是简短的客户交流,延迟和成本可能比深度更重要。

如果你的应用需要多步推理或详细总结,模型能力可能更优先。

尽早且频繁地测试有助于你了解模型在你的具体数据下的表现。每个大语言模型都有自己的特点。有的更擅长执行指令,有的在语气一致性或精准度上表现更好。只有通过你自己的实际工作流程示例,才能发现这些差异。

备用方案同样重要。即使是最稳定的API也偶尔会行为变化、性能下降或宕机。始终要定义一个备用模型,并制定在性能低于基线时切换的策略。(或者确保你的智能体构建平台像Botpress一样,默认提供备用选项)

在 Terminal Roast,财务人员 Ross 负责核算。团队希望他们的智能体能快速处理关于咖啡和糕点的简单客户对话,不出现明显延迟。经过几轮测试后,他们决定使用 Gemini 2.5 Flash。它速度快、成本低,并且在日常客户交流中有足够的推理能力。

作为备用方案,他们配置系统,当延迟或错误率超过阈值时自动切换到次选模型。这样既保证了用户体验流畅,也让运营成本可控。

Ross 还指出,如果以后要让智能体处理更复杂的任务,可以重新评估模型选择。

每一次模型选择其实也是一次业务决策。错误的选择可能让你的运营成本翻倍,或导致用户交流出现不必要的延迟。正确的选择则能在性能和成本之间取得平衡,契合你想要提供的体验。

灵活性同样重要。避免让你的技术架构过度依赖某一个模型,以至于后续切换变得困难。使用抽象层或支持多模型的供应商,这样可以随着行业变化灵活调整。

这种灵活性让你的系统更具韧性,也避免了对单一供应商的路线图或定价模式产生依赖。

要制定真正的大语言模型策略,需要记录三件事:

  • 你的主用模型及其选择原因。
  • 你的性能和成本阈值,用于判断何时需要切换。
  • 你的备用模型及其启用规则。

至少每季度重新审视这些决策。大语言模型领域变化极快,新模型常常以更低成本超越旧模型。把这当作持续评估,而不是一次性配置。

Terminal Roast 优先考虑速度和可预测性,而不是单纯追求强大能力,这让他们的首次部署变得可持续。这样既让客户满意,又控制了成本,还能在技术稳定的前提下收集真实数据。

这种平衡——选择合适的模型、规划变化、保持灵活——正是实验性项目与生产级项目的分水岭。

你的大语言模型策略应始终服务于你的业务目标,而不是反过来。

行动: 写下你计划使用的模型、对你的应用场景来说最重要的因素(速度、成本或深度),以及你的备用方案。随着你收集到更多使用数据,定期回顾这些选择。

摘要
如何根据性能、成本、延迟和长期可靠性为AI智能体选择合适的大语言模型。
本课程全部课程
Fresh green broccoli floret with thick stalks.