- 自定义LLM可以帮助您降低成本、保护敏感数据并提升特定任务的表现,是实现业务定制化解决方案的战略工具。
- LLM的规模会影响质量和成本,因此在选择使用GPT-4等大型模型还是更小更快的模型前,需要在响应速度、准确性和预算之间做好平衡。
- RAG、微调、n-shot学习和提示工程等技术是定制LLM行为的重要工具,每种方法在成本、复杂性和维护上都有不同权衡。
LLM正在改变我们构建AI解决方案的方式。市面上不断有更好、更强大的现成模型发布。
我经常被问到:为什么要选择自定义LLM,而不是直接用现成的解决方案?
如果您正在进行AI项目,比如构建AI代理或AI聊天机器人,您可能会选择使用定制的大型语言模型(LLM)。
为LLM代理使用自定义LLM有很多理由,也有多种选择。本文将带您了解为AI项目定制LLM的不同方式。
为什么要使用自定义LLM?
使用自定义LLM有多种原因:
- 您希望专注于对业务场景重要的特定任务,从而降低成本或减少延迟。
- 您可能希望所有数据都保持私有,或使用公司内部的LLM。
- 您可能希望提升某一特定任务的回答质量。
无论原因如何,定制LLM都能让您优化性能,在准确性、速度和成本之间找到最适合业务需求的平衡。
选择LLM
LLM有两个影响AI项目的关键特性:规模(以参数数量衡量)和回答质量。
可以把参数想象成大脑中的神经元。大脑越大通常越聪明,但并非总是如此。大脑的某些部分也可以针对特定任务(如视觉)高度优化。
对于AI项目,模型规模通常影响响应速度,并极大影响成本。需要低延迟的项目通常会用更小的模型,但会牺牲回答质量。
选择模型时要问什么
挑选模型时,您可以参考以下问题清单:
- 我可以使用云端LLM,还是必须自行部署?
- 我需要多快的响应速度?
- 我需要多高的响应准确率?
- 我的项目能节省或创造多少资金/收益?那么,价格应该低于多少?
- 我需要多长的回答?
一般来说,提升强大模型的速度或降低其成本很难,而提升不够准确的模型则相对容易。
不过,使用强大模型可以更快启动项目,如果能满足需求,工程投入也会更少(而且更易维护)。
RAG、微调、N-Shot学习与提示工程的选择
有五个通用概念可以提升LLM回答质量:
- 从预训练模型开始
- RAG
- 微调
- N-shot提示
- 提示工程
这些方法不仅适用于自定义模型,无论如何都值得考虑,因为它们可以相互配合。
从模型开始
首先要做的是选择一个起点模型。网上有很多排行榜对比不同模型。
比如:
如果公司有内部模型,可以考虑用它来控制预算并保护数据隐私。如果需要自部署模型,可以考虑开源模型。

微调
微调是给模型提供示例,让它学会如何做好某项任务。如果您希望模型擅长介绍产品,可以提供公司最佳销售通话的示例。
如果模型是开源的,您需要评估团队是否有足够的工程能力进行微调。
如果模型是闭源并以服务形式提供——如GPT-4或Claude——通常可以通过API让工程师微调自定义模型。这种方式价格通常会大幅提升,但几乎无需维护。
但对于许多场景来说,微调并不是优化模型的第一步。
微调非常适合为静态知识构建知识型机器人。通过提供问答示例,模型未来就能直接回答这些问题,无需查找答案。但对于实时信息来说,这不是实用方案。
检索增强生成
RAG其实就是我们在ChatGPT里常做的事:粘贴一段文本,然后提问。
典型例子是询问某电商网站某商品是否有货,聊天机器人会在产品目录中查找(而不是全网搜索)。
在开发速度和获取实时信息方面,RAG是必不可少的。
它通常不会影响您选择哪个模型,但完全可以创建一个LLM API端点来查询信息并回答问题,把它当作独立LLM使用。
用RAG做知识型聊天机器人通常更易维护,因为无需微调模型和持续更新,也能降低成本。
N-shot学习
提升回答质量最快的方法,是在一次LLM API调用中直接提供示例。
Zero-shot——即不提供任何示例——是我们大多数人使用ChatGPT的方式。加一个示例(one-shot)通常就能显著提升回答质量。
多个示例就是n-shot。与微调不同,n-shot不会改变模型本身。每次提问时,您只是临时提供示例。
但这种策略不能滥用:LLM有最大上下文长度,且按消息大小计费。微调可以消除n-shot示例的需求,但需要更多时间调优。
其他提示工程技巧
还有其他提示工程技巧,比如chain-of-thought,让模型在回答前先“思考”并表达推理过程。
这种方法能提升回答质量,但会增加回答的长度、成本和响应速度。
我的建议
每个项目都有其独特的需求,但我可以谈谈我的一些看法。
可以先用一个兼顾速度和质量的现成模型,比如GPT-4o Mini。先关注回答质量、响应速度、成本和上下文窗口需求,再决定哪些方面需要优化。
然后,针对具体场景,可以先尝试简单的提示工程,再用RAG,最后是微调。每一步都能带来性能提升,因此选择合适方法时需要仔细权衡。
隐私考量
在理想情况下,每个LLM都应完全由你自己掌控,任何数据都不会泄露。
但现实并非如此——而且有充分理由。
首先,部署和维护自定义模型需要大量工程投入,成本极高。模型宕机会影响业务指标,因此部署必须非常稳定。
另一个原因是行业领先者(如OpenAI、Google和Anthropic)不断推出更强大、更便宜的新模型,使得微调工作很快被淘汰。自ChatGPT 3.5发布以来一直如此,且趋势未变。
如果您的场景涉及极为敏感的数据,确实有必要用自有模型并针对需求优化。如果需要符合GDPR,有很多现成的合规模型可选。
选定LLM后的开发工作
一旦你选择了一个LLM,就可以开始规划如何构建和维护你的AI项目。举个例子,我会以我最熟悉的项目类型为例:AI智能体或AI聊天机器人。
你可以通过回答以下问题来确定你的项目范围:
- 我希望我的AI智能体部署在哪里?(Slack、WhatsApp、网站小部件等)
- 它应该具备哪些知识,这些知识在哪里?
- 除了知识问答之外,它还需要具备哪些能力(如果有的话)?
- 它是否需要在业务中某些事件发生时自动启动?
减少工程投入以节省成本
保持精简的预算对于项目落地至关重要。实现这一目标的方法之一是通过拆分需求来减少工程时间。
如今我们可以使用低代码解决方案,如Flutterflow、Shopify,这些工具可以让产品经理等非技术角色也能参与开发。聊天机器人也不例外,有些AI自动化平台甚至允许你使用自己的LLM。
你可以让工程师专注于托管LLM并与自动化平台集成。这样,业务分析师、产品经理等相关角色就可以根据业务需求构建AI智能体。
当有额外需求时,这些平台通常也支持工程师添加代码。这样,你既能保留自定义模型的优势,又能获得灵活性、开发速度和成本效益。
为工程师提供解决业务问题的自由度
另一方面,有时业务问题本身就非常难以解决。
比如完全隔离网络的LLM应用、本地设备应用,或者需要让聊天机器人具备远超于简单数据同步的高级能力的项目。
在这些情况下,让工程师自由选择他们最擅长的工具是合理的。通常就是直接编写代码,相关方只需作为项目管理者参与。
定制LLM的战略考量
为你的AI项目选择定制LLM不仅仅是挑选最好的模型——更是要做出与你目标相符的战略决策。
定制模型带来灵活性、可控性,并有可能针对特定任务进行优化,但同时也会增加复杂性。建议先从现成模型入手,尝试提示工程,逐步优化。
请记住,合适的模型应当契合你的业务需求,而不仅仅是你的技术栈。
借助强大平台进行定制
准备好让你的AI项目更进一步了吗?
Botpress是一个完全可扩展且灵活的AI智能体平台。我们的技术栈让开发者能够为各种应用场景构建聊天机器人和AI智能体。
我们拥有完善的学习平台Botpress Academy,以及内容丰富的YouTube频道。我们的Discord社区有超过2万名机器人开发者,随时为你提供支持。
立即开始构建。 免费使用。
常见问题
1. 如何评估为我的企业定制LLM的投资回报率?
要评估为企业定制LLM的投资回报率,需要将总成本(如基础设施、开发时间、微调和托管等)与可衡量的收益(如减少人工成本和提升转化率)进行对比。
2. 应该跟踪哪些KPI来衡量定制LLM的效果?
你应跟踪的KPI包括响应准确率(精确率/召回率或任务完成率)、延迟(平均响应时间)、用户满意度(CSAT/NPS)、问题解决率,以及每次交互成本。这些指标能反映模型的技术表现及其对业务成果的影响。
3. 如何估算定制LLM方案的长期维护成本?
要估算定制LLM方案的长期维护成本,应包括基础设施(云计算、存储)、工程更新、再训练或微调频率、监控工具,以及适应合规要求的费用。如果你的业务数据变化较快,未来再训练和验证的投入也会更高。
4. 如何针对我的行业或领域对不同LLM进行基准测试?
通过使用具有代表性的行业专属提示对不同LLM进行测试,并比较其在准确性、清晰度、语气和任务相关性方面的表现。你可以使用内部数据集,或根据行业选择开源基准,如金融领域的FinancialQA或医疗领域的MedQA。
5. 如果我要处理用户数据,定制LLM应符合哪些合规标准?
如果你需要处理用户数据,定制LLM应符合GDPR(欧盟数据隐私)、SOC 2 Type II(运营安全)和HIPAA(医疗数据合规)等标准。LLM提供商应支持基于角色的访问控制、数据传输和存储加密、审计日志,以及明确的数据保留和删除政策。







