2025 年十大最佳大型语言模型LLMs)

撰写人

阿利安-卡格瓦尔

人工智能开发人员、博士候选人和内容创作者（edtr 新闻通讯和Botpress

摘要

大型语言模型LLMs）是在海量文本数据集上进行训练的人工智能系统，可以理解和生成类似人类的语言，从而完成摘要、推理和对话互动等任务。
顶级LLM 提供商（包括OpenAI、Anthropic、Google DeepMind、Meta、DeepSeek、xAI 和 Mistral）各自擅长不同的优势，如多模态、推理、开放性或企业就绪性。
用于对话的最佳LLMs （如GPT 和 Claude Sonnet 4）擅长处理细微对话、语境保留和语气转换，而 DeepSeek R1 和 Gemini 2.5 Pro 等注重推理的模型则能处理复杂的多步骤任务。

我的 X feed 上每天都有新的人工智能模型。一眨眼，你就错过了下一个 "开放重量、GPT- 级别 "的下降。

我还记得《LLaMA》问世时的情景，当时我觉得这是件大事。维库娜》随后问世。然后一切都模糊了。Hugging Face 一夜之间变成了人工智能主页。

如果你正在使用这些东西，你很难不去想--我应该跟上所有的东西吗？还是只选一个能用的，然后祈祷它不会坏？

我在真实产品中试用过其中的大部分。有些非常适合聊天。有的一用在llm 代理或工具链中就崩溃了。

构建人工智能Chatbots

构建自定义代理聊天机器人

现在开始

什么是大型语言模型？

大型语言模型LLMs）是经过训练的人工智能系统，可在各种任务中理解和生成人类语言。

这些模型是在海量文本（从书籍和网站到代码和对话）中训练出来的，因此它们可以学习语言在实践中是如何运作的。

你一定在工作中见过，人工智能聊天机器人能理解你的问题，即使是在跟进之后，因为它了解上下文。

LLMs 精通文件摘要、回答问题、编写代码、语言间翻译和连贯对话等任务。

对 "思维链提示 "等概念的研究不断深入，也使得将LLMs 变成人工智能代理成为可能。

七大LLM 机构

在介绍最佳机型之前，我们先来了解一下这些机型的制造商。

每个提供商对模式设计都有不同的看法--有的注重原始规模，有的注重安全性或多模态性，还有的提倡开放式获取。

了解了模型的来源，就能更清楚地了解它的性能和制造对象。

OpenAI

OpenAI 是 ChatGPT和GPT 系列背后的公司。目前，大多数使用LLMs 团队要么直接使用他们的模型，要么与他们竞争。

OpenAI 既是研究实验室，也是商业平台，通过应用程序接口和产品集成提供模型。

OpenAI 专注于构建具有广泛功能的通用GPT 聊天机器人模型，如GPT。它将继续塑造当前商业和面向开发者的人工智能领域的大部分格局。

Anthropic

Anthropic 是一家位于旧金山的人工智能公司，由一群前OpenAI 研究人员（包括达里奥和丹妮拉-阿莫迪兄妹）于 2021 年创立。

该团队致力于建立在较长时间对话中安全、可转向、可解释和可靠的语言模型。

他们的克劳德系列以强烈的指令跟随性和情境保持性著称，这些价值在模型如何处理细微的提示和多轮对话中得到了清晰的体现。

谷歌 DeepMind

DeepMind 是谷歌的人工智能研究部门，最初以游戏和强化学习方面的突破而闻名。

现在，它是 Gemini 模型系列背后的团队，该模型系列为谷歌的许多人工智能产品提供了动力。

Gemini 模型专为多模态推理和长语境任务而构建，并已集成到搜索、YouTube、Drive 和 Android 等生态系统中。

梅塔

Meta 是 LLaMA 型号背后的公司，LLaMA 型号是当今最强大的开放式LLMs 型号。

虽然根据许可证对访问进行了限制，但这些模型完全可以下载，通常用于私人部署和实验。

Meta 的工作重点是发布有能力的模型，让更多人可以在不依赖外部应用程序接口的情况下对其进行微调、托管或构建到系统中。

深度搜索

DeepSeek 是一家总部位于中国的人工智能公司，该公司因发布具有竞争力的开放重量级模型而迅速赢得关注，其重点是推理和检索。

它们的模式深受那些希望系统构建和部署过程具有透明度和可控性的开发人员的欢迎。

xAI

xAI 是一家人工智能公司，定位为与 X（前 Twitter）密切合作的独立研发团队。

其 Grok 模型集成到 X 产品中，旨在将对话功能与实时数据访问相结合。

Mistral

Mistral 是一家位于巴黎的人工智能初创公司，以发布高性能、开放式模型而闻名。

他们的工作重点是效率和可访问性，模型通常用于本地或低延迟部署。

10 款最佳大型语言机型

我们中的大多数人并不是从排行榜上选择模特，而是选择感觉正确的模特。

而 "最佳 "并不意味着最大的机型或某项评估的最高分。它意味着我是否会用它为代理提供动力、管理我的编码管道、响应客户或在高风险任务中拨打电话？

我挑选的型号都是

目前正在积极维护和提供
正在实际应用中进行测试
真正擅长某些方面：谈话、推理、速度、开放性或多模态深度

当然，新型号还会不断涌现。但这些新型号已经在野外证明了自己的实力，如果您今天正在建造房屋，这些新型号值得您了解。

LLM	多式联运	推理	工具使用
GPT-4o	✅	🟡	✅
克劳德 4 号十四行诗	✅	✅	✅
Grok 3	❌	✅	✅
o3	❌	✅	✅
克劳德 4 号作品	✅	✅	✅
双子座 2.5 Pro	✅	✅	✅
DeepSeek R1	❌	✅	✅
杰玛 3 (4B)	❌	❌	❌
Mistral Small 3.1	✅	🟡	🟡
Qwen 3 (4B)	❌	🟡	✅

最佳会话LLMs

最好的对话模式能在不同的转折中保持语境，根据你的语气进行调整，即使在对话转换或回环时也能保持连贯。

要上榜，模特必须有参与感。它应该能够处理混乱的措辞，从容应对打断，并以一种让人感觉有人在倾听的方式做出回应。

模型	语音支持	上下文窗口	成本（每 100 万代币）
GPT-4o	✅	128K	入场费 5 美元/出场费 15 美元
克劳德 4 号十四行诗	❌	200K	进价 3 美元/出价 15 美元
Grok 3	✅	131K	进价 3 美元/出价 15 美元

1.GPT4o

标签对话式人工智能、实时语音、多模态输入、闭源

GPT 是OpenAI的最新旗舰机型，将于 2024 年 5 月发布，它是LLMs 处理实时多模态交互方式的一次重大飞跃。

它可以将文本、文件、图像和音频作为输入，并以其中任何一种格式作出响应。

最近，我一直在使用GPT 的广泛语言理解能力来练习法语，它的效果难以超越。

语音回复几乎是即时的（约 320 毫秒），甚至还能反映出语气和情绪，让人感觉非常人性化。

OpenAI 是互联网上使用最多的聊天机器人之一，也是最受企业青睐的聊天机器人，因为OpenAI 生态系统提供了更多的功能和工具。

2.克洛德 4 号十四行诗

标签对话式人工智能、长语境记忆、企业就绪、闭源

Claude Sonnet 4 是Anthropic最新的对话式人工智能模型，于 2025 年 5 月发布。

它专为自然对话而设计，在不影响速度的情况下让人感觉体贴入微，在企业聊天环境中表现尤为出色。

它能在长时间交流中很好地保持上下文，可靠地遵循指令，并能快速适应主题或用户意图的变化。

与以前的版本（如 Claude 3.7）相比，Sonnet 4 生成的答案更有针对性，并能在不失连贯性的前提下更严格地控制措辞。

3.Grok 3 (xAI)

标签对话式人工智能、实时感知、幽默、闭源

Grok 3 给人的感觉就像一个上网太久的人。它与 X 相连，不需要连接互联网 API 就能了解新闻。

LLM 的幽默通常是悲剧性的，但 Grok 至少知道自己在讲笑话。有时它落地。有时会戛然而止。无论如何，它都会继续说下去。

在嘈杂、反应激烈的环境中效果最佳。例如，在产品发布期间，群组聊天会沸腾，媒体机器人会在实时头条新闻旁嗤之以鼻。

有时，你会发现 Grok 或它的混沌孪生兄弟 "Gork"潜伏在 X 主题中，帮助别人确认地球是否是圆的。所以，也许你可以留意一下。

最佳推理LLMs

有些机型为速度而生。而这些是为思考而生的。它们能够遵循复杂的指令，在长时间、多层次的任务中保持专注。

这意味着，他们不只是生成答案，而是跟踪已完成的工作，根据结果进行调整，并有意识地计划下一步。

它们大多使用 ReAct 和 CoT 等推理框架，非常适合构建人工智能代理和解决需要结构而非速度的问题。

模型	开放源代码	上下文窗口	成本（每 100 万代币）
OpenAI o3	❌	200K	10 美元进/40 美元出
克劳德 4 号作品	❌	200K	15 美元进/75 美元出
双子座 2.5 Pro	❌	1M	输入 1.25 美元/输出 10 美元
DeepSeek R1	✅	128K	输入 0.55 美元/输出 2.19 美元

4.OpenAI o3

标签推理LLM、思维链、代理就绪、闭源

OpenAI 的 o3 是一个以推理为重点的模型，旨在处理需要结构化思维的复杂任务。

它擅长数学、编码和科学问题解决等领域，利用从OpenAI o1传承下来的思维链技术，将问题分解为易于管理的步骤。

OpenAI 利用协商对齐来更好地规划自己的行动。 该模型在前进之前会根据安全指南检查自己的决策。

从我们的观察来看，OpenAI 很可能会将 o3 的大脑和 4o 的灵活性结合到GPT 中，从而融合两者的优点。

5.克劳德 4 作品

标签推理LLM、长语境记忆、企业就绪、闭源

Claude 4 Opus 是Anthropic的旗舰机型，但其速度和价格明显低于 Sonnet。

作为Anthropic 迄今训练过的最大模型，该模型可以在长时间输入时保持专注，并牢牢把握每一步背后的逻辑。

它能很好地处理密集的资料。你可以给它一份完整的报告或流程文档，它就会根据上下文和参考文献详细说明。

这对于企业团队构建能够在巨大工作空间中进行推理的人工智能系统来说意义重大。

6.双子座 2.5 Pro

标签推理LLM、长情境任务、规划能力、闭源

双子座 2.5 Pro 是 DeepMind 功能最强大的机型--前提是你用对了地方。

在 启用了深度研究功能的人工智能工作室中 ，它能以完整的推理链做出响应，并以清晰的逻辑概述决策。

这种推理能力使其在多步骤工作流程和代理系统中更具优势。

当 Gemini 2.5 Pro 拥有足够的思考空间和工具时，它就能展现出最佳性能。这使它成为构建有基础、有逻辑意识、需要结构扩展的应用程序的团队的最佳选择。

7.DeepSeek R1

标签推理LLM、长语境、面向研究、开源

DeepSeek R1 随着开放权重的下降，在核心推理基准测试中的表现优于 Claude 和 o1，这引发了整个团队的恐慌，他们急于发布封闭版本。

它的优势来自于架构。R1 专注于简洁的标记处理 ，并清楚地意识到当对话时间变长时，注意力应如何扩展，从而使结构更加紧凑。

如果您正在构建需要逻辑着陆和步骤保持的代理，R1 可以让您根据自己的条件非常轻松地运行基础级性能，而且硬件是推理模型中唯一的开源模型。

最佳轻量级LLMs

机型越小，你就越能感受到这种取舍--但如果做得好，就不会觉得小。

大多数小模型都是从大模型中提炼出来的，经过训练后，既保留了原模型的技能，又缩小了尺寸。

您可以在边缘设备、低配置设备甚至笔记本电脑上运行它们。

在这里，您不一定要追求深入的推理或长时间的聊天。您追求的是精确和快速的输出，而无需启动整个云stack。

模型	多式联运	上下文窗口	成本（每 100 万代币）
杰玛 3 (4B)	❌	32K	0.02 美元进/0.04 美元出
Mistral Small 3.1	✅	128K	0.15 美元进/0.15 美元出
Qwen 3 (4B)	❌	32K	输入 0.11 美元/输出 1.26 美元

8.杰玛 3 (4B)

标签轻量级LLM、在设备上使用、开源

Gemma 3（4B）来自谷歌更大的 Gemma 系列，参数缩减到 40 亿个，因此无需云连接即可在适中的硬件上运行。

它保持了其母机型的指令遵循规则，同时还能以移动代理或离线聊天小工具所需的速度进行应答。

将其放入本地工作流程中，启动速度很快，并能在严格的内存限制下保持稳定。

9.Mistral Small 3.1

标签轻量级LLM、在设备上使用、开源

Mistral Small 3.1 建立在早期 Mistral Small 系列的基础上，但在提供128 k 标记窗口的同时，保持了足够轻的占用空间，可在单个消费 GPU 上运行。

它每秒可流式传输约 150 个 token，可处理文本和基本图像提示，是边缘聊天层或嵌入式代理的理想选择。

10.曲文 3 (4B)

标签轻量级LLM、多语言、开源

Qwen 3 4B 将阿里巴巴较大的 Qwen-3 架构缩减为一个拥有 40 亿个参数的模型，但仍能理解100 多种语言，并能方便地插入工具调用框架。

它在 Apache 式许可证下开放，可在适中的 GPU 上运行，在开发人员需要快速推理的代理任务中备受关注。

如何使用您最喜爱的LLM建立代理

选好型号了吗？好极了现在是时候让它发挥作用了。

了解LLM 是否真正适合您的用例的最佳方法是使用它进行构建--看看它是如何处理实际输入和部署流程的。

在这个快速构建过程中，我们将使用Botpress ，这是一款用于人工智能聊天机器人和代理的可视化构建工具。

部署人工智能代理？

阅读我们的人工智能代理实施蓝图

立即阅读

步骤 1：确定代理的范围和作用

在开放平台之前，您需要明确机器人应该扮演什么角色。

一个好的做法是先从几项任务开始，了解其可行性和采用情况，然后在此基础上进行扩展。

从常见问题聊天机器人开始，可以帮助您了解数据的使用情况，以及结构化参数在LLMs 或工具之间的移动情况。

步骤 2：创建基本代理

在Botpress Studio 中，打开一个新的机器人，为代理编写清晰的说明。

这就告诉了LLM 它的行为方式和要完成的任务。营销聊天机器人的指令集示例如下

"你是【公司】的营销助理。帮助用户了解我们的产品，回答常见问题，鼓励他们预约演示或注册电子邮件更新。言简意赅、乐于助人、积极主动。

步骤 3：添加关键文件和网站

上传或编写信息到知识库，这样聊天机器人就能回答类似的问题：

产品比较
定价细目
登陆页面 URL
关键 CTA（演示、试用、联系表单链接）

内容与漏斗的匹配度越高，机器人的表现就越好。

第 4 步：转读您喜欢的LLM

一般的机器人设置完成后，您就可以更改聊天机器人中用于特定操作的LLMs 了。

您可以前往仪表板左侧的 "机器人设置 "在它们之间切换。

前往LLM 选项，在这里您可以选择自己喜欢的LLM。

Botpress 支持OpenAI、Anthropic、Google、Mistral、DeepSeek 等，因此您可以随心所欲地平衡性能和预算。

第 5 步：部署到您选择的渠道

为您的人工智能代理确定完美的LLM 后，您就可以将聊天机器人同时部署到不同的平台上。

聊天机器人可以很容易地变成Whatsapp 聊天机器人或Telegram 聊天机器人，为任何领域的用户提供支持。

立即部署LLM代理

通过自定义人工智能代理，在日常工作中利用LLMs 。

有了大量的聊天机器人平台，您就可以轻松设置一个人工智能代理来满足您的特定需求。Botpress 是一个可无限扩展的人工智能代理平台。

通过预建的集成库、拖放工作流程和全面的教程，各阶段的专业人员都可以使用它。

插入任何LLM ，即可在任何使用情况下为您的人工智能项目提供动力。

今天就开始构建- 免费。

构建人工智能Chatbots

构建自定义代理聊天机器人

现在开始

常见问题

除基础设施外，托管式LLMs 与开源LLMs 有哪些不同？

托管式LLMs 通过应用程序接口（API）易于使用，无需设置，但它们是封闭系统，控制能力有限。相比之下，开源LLMs 允许完全透明、定制和再培训，因此更适合需要可解释性的用例。

我可以根据自己的数据对托管的LLMs （如GPT 或 Claude 3.5）进行微调吗？

在大多数情况下，托管模型不支持完全微调。不过，它们通常提供系统指示、提示工程和检索增强生成（RAG）等配置选项，以便在不重新训练模型的情况下调整响应。

LLMs 与传统的基于规则的 NLP 系统相比如何？

基于规则的 NLP 就像是给计算机一个非常严格的剧本，而LLMs 更像是即兴演员。他们从大量数据中总结出模式，可以处理更模糊、更开放的语言。

LLMs 是否会保留以前互动的记忆，如何处理？

开箱即用的大多数LLMs 不记得过去的聊天记录。必须通过会话跟踪或添加上下文来手动管理内存。但有些平台（如具有内存功能的GPT ）开始提供内置内存功能。

在评估用于商业用途的LLM 时，最重要的衡量标准是什么？

考虑准确性（是否能给出正确答案？）、延迟性（速度有多快？）、成本（应用程序接口的价格会增加！）和安全性（是否能避免奇怪或有风险的输出？）多语种支持或易于集成等方面也要加分。