矢量数据库：改变游戏规则的人工智能搜索技术

撰写人

本-卢克斯

计算语言学家、人工智能研究员、人工智能语音技术硕士

步骤 1：该步骤的标题如期出现在这里

摘要

矢量数据库以数字嵌入的形式存储数据，可捕捉数据的含义，从而实现基于语义相似性而非关键字的搜索和推荐。
嵌入模型可将文本、图像或其他数据转化为高维向量，使系统能够理解同义词、上下文和想法之间的关系等概念。
矢量数据库可支持检索增强生成（RAG）、个性化推荐以及跨文本、图像等多模态搜索等用例。
构建具有语义搜索功能的人工智能代理需要定义用例、选择平台、准备数据、制定明确的指令，以及反复测试和改进，以提高相关性和准确性。

如果您正在尝试构建一个人工智能代理或搜索引擎，您很可能听说过一些关于向量数据库的话题。

矢量数据库在数据、资源和查询之间的相互作用中发挥着至关重要的作用，但解决这些问题可能令人望而生畏。我也曾经历过这种情况：浏览嵌入和模糊搜索等深奥的术语，不知道自己是过度工程化了，还是遗漏了一些基本的东西。

谁决定推荐哪些 YouTube 视频？搜索引擎如何克服错别字？Instagram 为什么总能让我看到完美的绒毛狗？

在本文中，我们将解读向量、相似性和语义搜索的世界，以及如何构建更加个性化的应用。

什么是矢量数据库？

矢量数据库将数据存储为数字表示（称为矢量）的集合，以捕捉数据的含义。这样就可以根据相似性进行搜索，而不仅仅是特定的关键字。

矢量数据库是现代聊天、搜索和推荐系统背后的一项关键技术。

构建人工智能Chatbots

构建自定义代理聊天机器人

现在开始

矢量数据库如何工作？

矢量数据库将文本、图像和电子表格存储为一系列矢量，也称为嵌入。每个矢量都是一串数字，从表面上看并不起眼，但在内部却能捕捉到数据的抽象含义。

这些数据，无论是电子邮件、会议记录还是产品描述，都不会被一串数字所取代，而是被编入索引。

这些微小、密集的嵌入使得信息检索既高效又有意义。通过它们，我们可以根据相似性对项目进行比较。

关键概念

什么是嵌入模型？

嵌入模型是经过训练的机器学习模型，用于将数据转换为嵌入式数据。

这些模型经过训练，可以将数据压缩成一个向量（我们的嵌入），然后重新生成。压缩后的向量尽可能多地存储了数据中的语义信息。

这意味着它们不仅存储文字，还存储文字背后的思想。例如，嵌入可以捕捉到以下内容：

"小狗 "和"狗 "密切相关
"如何重置我的密码？"与"无法登录我的账户 "意思相似
"经济型笔记本电脑 "和"经济型电脑 "指的是同一件事

这类模式有助于人工智能代理和搜索引擎根据输入内容的含义进行比较，而不仅仅是匹配关键词。

什么是语义搜索？

那么，如何比较嵌入式的相似性呢？

如前所述，嵌入向量是一系列数字。这些数字代表了高维空间中的一个点。我们可以用二维或三维将事物可视化，但 384 怎么样？我们有数以百计的值，而不是 X、Y 和 Z，所有这些值汇聚在一起，指定了一个唯一的点。

通过这些矢量，我们可以衡量两篇内容的 "接近程度"--不是在字数上，而是在意义上。

语义搜索将查询转化为向量，并在数据库中搜索最接近的向量。原则上，这些结果向量应与用户的查询最为相似。

近似近邻 (ANN) 搜索

语义搜索采用近似近邻（ANN）算法。ANN 的目标是回答 "数据库中哪个向量与我的查询最相似？

有几种 ANN 算法，每种算法都有自己的优势。例如

分层导航小世界（HNSW）

HNSW针对实时、低延迟搜索进行了优化。它非常适合个性化内容馈送和推荐系统--任何需要通过频繁更新的数据进行快速搜索的场景。

反转文件索引 (IVF)

IVF更适合大规模、大部分不变的数据。想想电子商务目录或学术论文目录。

实际上，算法将隐藏在用于实现搜索的引擎或平台中。

矢量数据库用例

既然我们已经了解了矢量是如何创建和匹配的，那么让我们来看看使用矢量为应用程序提供动力的不同方法。

RAG（检索-增强生成）

这种LLM 生成策略似乎成了城中的热门话题，这是有道理的：RAG 可靠、准确，并能提供具体的回应，而这一切都离不开矢量数据库。

使用RAG 时，用户的查询会被嵌入，并与数据库中的其他类似项目进行比较。然后，模型会在生成响应时参考这些项目。

RAG 避免依赖模型的内部知识或对话历史，因为这两者都可能是错误的或无关紧要的。

假设你要求总结拿破仑的童年。模型的回答似是而非，但准确吗？有了 RAG，与您的查询相关的文档将用于指导模型的响应。这样，您就可以检查主要资源，保持模型输出的可验证性。

如果您想了解实际操作情况，这里有一份使用 RAG 构建聊天机器人的指南。

产品和内容建议

矢量数据库不仅用于响应用户查询。它们还可用于优化用户体验。

跟踪用户的导航历史并对类似项目进行聚类，可帮助企业确定向用户推荐的最佳产品或内容。

这就是我们所说的算法的一个很好的例子：战略性内容推荐和有针对性的广告。

试想一下视频共享平台：每个视频都有自己的嵌入式内容存储在数据库中。当你观看一个视频时，系统会向你推荐其他具有附近嵌入的视频--这意味着内容相似，即使标题或标签完全不同。

随着时间的推移，你的观看历史会成为一种个性化的嵌入式 "云"，帮助系统了解你的偏好，并推荐你下一步想看的内容。

部署人工智能代理？

阅读我们的人工智能代理实施蓝图

立即阅读

矢量数据库相对于传统数据库的优势

既然我们已经了解了矢量数据库的原理和特点，下面我们就来谈谈为什么：矢量数据库在聊天机器人和搜索引擎中能为您带来哪些优势？

1.为聊天机器人提供更多语境

LLMs 在长时间对话中容易出现遗忘和幻觉。用户和开发人员无法清楚地知道哪些信息会被保留下来。

使用 RAG 等策略时，模型会根据您的查询搜索数据库，找到准确回复所需的任何信息。

矢量数据库不是无数次地提醒和纠正模型，而是存储相关信息并明确引用。

2.使搜索结果不出现错别字

即使我们知道确切的关键词，搜索也是一团糟。

golfen retriever ≠ golden retriever，但你的搜索引擎应该更清楚。

如果我们按字面意思匹配查询，那么一个错字或拼写错误的单词就会取消相关选项的资格。

当我们抽象出搜索查询的含义时，具体的拼写或措辞就不那么重要了。

3.允许用户进行模糊搜索

搜索与其说是搜索关键词，不如说是搜索✨氛围✨。

将文本抽象为嵌入向量，可以将其存储在不可言传的振动空间中。因此，从表面上看

"这附近哪里能买到超赞的纯白咖啡？"

不像

"附近最适合补充咖啡因的地方"、

但您的搜索引擎会将它们一一匹配。这是因为这两个短语的嵌入式非常接近，尽管它们的措辞不同。

4.矢量数据库可对不同模式进行比较

数据有各种形状、大小和类型。我们经常需要对不同类型的数据进行比较。例如，使用文本搜索和过滤产品图片。

多模态模型经过训练，可以比较不同类型的数据，如文本、图像、音频和视频。

这让您更容易谈论您的内容。通过描述产品图片来查找产品，或使用通俗易懂的语言询问图表信息。

如何构建具有智能搜索功能的人工智能代理

如果你是语义搜索的新手，你可能会被各种问题淹没：

如何准备数据？

我应该包括哪些数据？

我应该使用哪种嵌入模式......我怎么知道它是否有效？

幸运的是，您不必事先想好一切。以下是几个简单步骤的入门方法：

1.定义用例

从简单有用的东西开始。这里有几个例子可以让你开始行动：

A 零售聊天机器人能根据顾客的需求和喜好帮助他们找到合适的产品。问它："150 美元以下适合徒步旅行的冬季夹克有哪些？

A 票务机器人 实时分流员工的 IT 请求。询问"是否还有与 VPN 访问相关的高优先级票单尚未分配？

A 业务流程自动化 从始至终管理订单执行的代理。问它："史密斯的订单发货了吗？我们发送确认电子邮件了吗？

所有这些都能快速构建，易于测试，并立即产生价值。

2.选择平台

如果矢量数据库让人感到困惑或抽象，有很多聊天机器人平台会在幕后为您处理嵌入和聚类问题。

3.收集数据

从您已有的文本文件、PDF 文件和电子表格开始。一个好的平台会为你处理格式化问题。只需上传您的内容，它就会在幕后处理嵌入和索引。

一些具体细节取决于您使用的平台。以下是一些充分利用数据的技巧。

4.添加说明

用简短、通俗的语言描述机器人的用途。

这有助于设定基调和期望：机器人应如何与用户交谈、它能提出哪些问题以及它能参考哪些数据。

例如：
"你是人力资源团队的支持助理。帮助员工查找政策并回答有关 PTO 和福利的问题。使用员工手册和人力资源文件中的信息。态度要明确、礼貌。如果你不知道什么，请用户联系人力资源部门"。

5.测试和调整

用真实查询测试您的设置。询问客户会问的问题。结果是否相关？准确吗？

根据需要调整机器人：

结果不完整？提高分块数以获得更完整的回复。
反应慢？选择速度更快的机型。
回答不正确？尝试更准确的模型，或添加相关数据。

平台具有很强的定制性，因此解决问题通常只需进行配置，如使用可用模型或更改描述。

构建更智能的搜索功能

随着人工智能技术的不断进步，可搜索数据已不仅仅是 "可有可无"，而逐渐成为人们的默认期望。

您不必掌握 ANN 或嵌入式技术，也能构建更智能的搜索引擎。我们的平台为您提供即插即用的工具，用于语义搜索和检索增强生成。无需数据准备。

今天就开始建设。它是免费的。

构建人工智能Chatbots

构建自定义代理聊天机器人

现在开始

常见问题

1.如何评估矢量数据库的性能？

要评估矢量数据库的性能，可以测量其查询延迟（返回结果的速度）、召回率或精确度（这些结果的相关性）以及可扩展性（处理数据和查询增长的能力）。您应该使用真实查询进行测试，以确保它在负载情况下能够达到预期的速度和准确性。

2.大规模矢量数据的存储要求是什么？

大规模矢量数据的存储要求取决于矢量的数量和维度，例如，使用 32 位浮点运算的 100 万个 768 维矢量需要超过 3 GB 的原始存储空间。在大规模情况下（数百万到数十亿矢量），预计需要数十或数百 GB 的存储空间，并使用压缩或近似索引等选项来降低存储成本。

3.如果由于噪声或模型偏差，两份截然不同的文档具有相似的嵌入，会发生什么情况？

如果两个不相关的文档生成了相似的嵌入，搜索系统可能会返回错误的结果。要解决这个问题，可以根据特定领域的数据对嵌入模型进行微调，或者使用混合搜索技术，将向量与元数据或关键词过滤器结合起来进行消歧。

4.如何对矢量数据进行版本控制和长期管理？

通过跟踪输入数据和用于生成向量的嵌入模型，对向量数据进行版本控制。常见的做法包括存储带有时间戳的快照和标记索引版本。

5.能否将传统的关键词搜索与矢量搜索结合起来？

是的，将传统的关键字搜索与向量搜索相结合被称为混合搜索，许多平台都支持这种方法，如 Elasticsearch 或 Vespa。这种方法通过使用词性匹配来精确查询，使用语义向量相似性来理解上下文，从而提高相关性。