Redis 作为向量数据库快速入门指南

了解如何使用 Redis 作为向量数据库

本快速入门指南将帮助您

  1. 理解什么是向量数据库
  2. 创建一个 Redis 向量数据库
  3. 创建向量嵌入并存储向量
  4. 查询数据并执行向量搜索
注意

本指南使用 RedisVL,这是一个高度专注于向量处理的 Redis Python 客户端库。您可能也对我们其他客户端库的向量查询示例感兴趣

理解向量数据库

数据通常是非结构化的,这意味着它没有由定义明确的模式来描述。非结构化数据的例子包括文本段落、图像、视频或音频。存储和搜索非结构化数据的一种方法是使用向量嵌入。

什么是向量? 在机器学习和人工智能中,向量是代表数据的一系列数字。它们是模型的输入和输出,以数值形式封装了底层信息。向量将文本、图像、视频和音频等非结构化数据转换为机器学习模型可以处理的格式。

  • 为什么它们重要? 向量捕获数据中固有的复杂模式和语义意义,使其成为各种应用的强大工具。它们允许机器学习模型更有效地理解和处理非结构化数据。
  • 增强传统搜索。 传统的关键字或词法搜索依赖于单词或短语的精确匹配,这可能具有局限性。相比之下,向量搜索(或语义搜索)利用了向量嵌入捕获的丰富信息。通过将数据映射到向量空间,相似的项目会根据其含义被放置在彼此附近。这种方法允许获得更准确和更有意义的搜索结果,因为它考虑了查询的上下文和语义内容,而不仅仅是使用的确切单词。

创建一个 Redis 向量数据库

您可以将 Redis Open Source 用作向量数据库。它允许您

  • 将向量和相关元数据存储在哈希或 JSON 文档中
  • 创建和配置用于搜索的辅助索引
  • 执行向量搜索
  • 更新向量和元数据
  • 删除和清理

最简单的入门方式是使用 Redis Cloud

  1. 创建 免费账户

  2. 按照说明创建一个免费数据库。

这个免费的 Redis Cloud 数据库开箱即用,包含所有 Redis Open Source 功能。

您也可以使用安装指南在本地机器上安装 Redis。

安装所需的 Python 包

创建一个 Python 虚拟环境并使用 pip 安装以下依赖项

  • redis:您可以在本文档站点的客户端部分找到有关 redis-py 客户端库的更多详细信息。
  • pandas:Pandas 是一个数据分析库。
  • sentence-transformers:您将使用 SentenceTransformers 框架生成全文嵌入。
  • tabulatepandas 使用 tabulate 来渲染 Markdown。

您还需要在 Python 代码中导入以下内容

连接

连接到 Redis。默认情况下,Redis 返回二进制响应。要对其进行解码,您需要传递 decode_responses 参数并将其设置为 True


提示
除了使用本地 Redis 服务器,您还可以从 Redis Cloud 数据库配置页面复制粘贴连接详情。以下是一个托管在 AWS 区域 us-east-1 并监听端口 16379 的 Cloud 数据库连接字符串示例:redis-16379.c283.us-east-1-4.ec2.cloud.redislabs.com:16379。连接字符串格式为 host:port。您还必须复制粘贴 Cloud 数据库的用户名和密码。使用默认用户连接的代码行将变为 client = redis.Redis(host="redis-16379.c283.us-east-1-4.ec2.cloud.redislabs.com", port=16379, password="your_password_here", decode_responses=True)

准备演示数据集

本快速入门指南还使用了 bikes 数据集。以下是其中一个文档示例

{
  "model": "Jigger",
  "brand": "Velorim",
  "price": 270,
  "type": "Kids bikes",
  "specs": {
    "material": "aluminium",
    "weight": "10"
  },
  "description": "Small and powerful, the Jigger is the best ride for the smallest of tikes! ..."
}

description 字段包含关于自行车的自由格式文本描述,将用于创建向量嵌入。

1. 获取演示数据

您首先需要将演示数据集作为 JSON 数组获取

检查一个自行车 JSON 文档的结构

2. 将演示数据存储到 Redis 中

现在遍历 bikes 数组,使用 JSON.SET 命令将数据作为 JSON 文档存储到 Redis 中。以下代码使用了管道来最小化网络往返时间

加载完成后,您可以使用 JSONPath 表达式从 Redis 中的 JSON 文档中检索特定属性

3. 选择一个文本嵌入模型

HuggingFace 拥有大量文本嵌入模型目录,这些模型可以通过 SentenceTransformers 框架在本地提供服务。这里我们使用在搜索引擎、聊天机器人和其他 AI 应用中广泛使用的 MS MARCO 模型。

from sentence_transformers import SentenceTransformer

embedder = SentenceTransformer('msmarco-distilbert-base-v4')

4. 生成文本嵌入

遍历所有前缀为 bikes: 的 Redis 键

将这些键作为 JSON.MGET 命令的输入,并指定 $.description 字段,以将描述收集到一个列表中。然后,将描述列表传递给 .encode() 方法

使用 JSON.SET 命令将向量化描述插入到 Redis 中的自行车文档中。以下命令将一个新字段插入到每个文档的 JSONPath $.description_embeddings 下。再次强调,使用管道来避免不必要的网络往返

使用 JSON.GET 命令检查其中一个更新后的自行车文档

注意
当在 JSON 文档中存储向量嵌入时,嵌入会存储为一个 JSON 数组。在上面的示例中,为了可读性,该数组被大大缩短了。

创建索引

1. 创建一个带有向量字段的索引

您必须创建一个索引来查询文档元数据或执行向量搜索。使用 FT.CREATE 命令

以下是 VECTOR 字段定义的详细说明

  • $.description_embeddings AS vector:向量字段的 JSON 路径及其字段别名 vector
  • FLAT:指定索引方法,可以是平面索引或分层可导航小世界图 (HNSW)。
  • TYPE FLOAT32:设置向量分量的浮点精度,此处为 32 位浮点数。
  • DIM 768:嵌入的长度或维度,由所选的嵌入模型决定。
  • DISTANCE_METRIC COSINE:所选的距离函数:余弦距离

您可以在向量参考文档中找到有关所有这些选项的更多详细信息。

2. 检查索引状态

执行 FT.CREATE 命令后,索引过程会在后台运行。很快,所有 JSON 文档都将被索引并准备好进行查询。要验证这一点,您可以使用 FT.INFO 命令,该命令提供有关索引的详细信息和统计信息。特别值得关注的是成功索引的文档数量和失败数量。

执行向量搜索

本快速入门指南重点介绍向量搜索。但是,您可以在文档数据库快速入门指南中了解更多如何基于文档元数据进行查询。

1. 嵌入您的查询

以下代码片段展示了您将在 Redis 中执行向量搜索的文本查询列表

首先,使用相同的 SentenceTransformers 模型将每个输入查询编码为向量嵌入


提示
至关重要的是,用于嵌入查询的嵌入模型必须与用于嵌入文档的模型相同。使用不同的模型将导致语义搜索结果不佳或出现错误。

KNN 算法根据所选距离函数计算查询向量与 Redis 中每个向量之间的距离。然后返回与查询向量距离最小的前 K 个项目。这些是最语义相似的项目。

现在构建一个查询来完成这项任务

query = (
    Query('(*)=>[KNN 3 @vector $query_vector AS vector_score]')
     .sort_by('vector_score')
     .return_fields('vector_score', 'id', 'brand', 'model', 'description')
     .dialect(2)
)

让我们分解一下上面的查询模板

  • 过滤器表达式 (*) 表示 all。换句话说,没有应用过滤。您可以将其替换为按附加元数据过滤的表达式。
  • 查询的 KNN 部分搜索前 3 个最近邻居。
  • 查询向量必须作为参数 query_vector 传入。
  • 与查询向量的距离作为 vector_score 返回。
  • 结果按此 vector_score 排序。
  • 最后,它为每个结果返回 vector_scoreidbrandmodeldescription 字段。
注意
要使用 FT.SEARCH 命令执行向量查询,您必须指定 DIALECT 2 或更高版本。

您必须将向量化查询作为字节数组传入,参数名为 query_vector。以下代码从查询向量创建一个 Python NumPy 数组,并将其转换为紧凑的字节级别表示,该表示可以作为参数传递给查询

client.ft('idx:bikes_vss').search(
    query,
    {
      'query_vector': np.array(encoded_query, dtype=np.float32).tobytes()
    }
).docs

有了查询模板,您就可以在循环中执行所有查询。请注意,脚本将每个结果的 vector_score 计算为 1 - doc.vector_score。因为余弦距离用作度量标准,所以距离最小的项目更接近查询,因此与查询更相似。

然后,循环遍历匹配的文档并创建结果列表,该列表可以转换为 Pandas 表以可视化结果

查询结果显示了每个查询的前三个最佳匹配项(我们的 K 参数)以及每辆自行车的 id、品牌和型号。

例如,对于查询“Best Mountain bikes for kids”(适合儿童的最佳山地自行车),相似度得分最高(0.54),因此最接近的匹配是“Nord”品牌“Chook air 5”自行车型号,其描述为

Chook Air 5 为六岁及以上儿童提供了一款耐用且超轻的山地自行车,适合他们在赛道上初次体验以及在森林和田野中轻松骑行。较低的上管使他们在任何情况下都可以轻松上下车,从而提高了孩子在小径上的安全性。Chook Air 5 是山地自行车的完美入门选择。

从描述来看,这款自行车非常适合年幼的儿童,并且嵌入准确地捕获了描述的语义。

查询 分数 ID 品牌 型号 描述
适合儿童的最佳山地自行车 0.54 bikes:003 Nord Chook air 5 Chook Air 5 为六岁及以上儿童提供了一款耐用且超轻的山地自行车,适合他们在赛道上初次体验以及在森林和田野中轻松骑行。较低的上管使他们在任何情况下都可以轻松上下车,从而提高了孩子在小径上的安全性。Chook Air 5 是山地自行车的完美入门选择。
0.51 bikes:010 nHill Summit 这款 nHill 的经济型山地自行车在自行车道和小径上都表现出色。100 毫米行程的前叉可吸收崎岖路面的震动。加宽的 Kenda Booster 轮胎在弯道和湿滑小径上提供抓地力。Shimano Tourney 传动系统提供了足够的齿轮,方便找到舒适的爬坡速度,Tektro 液压碟刹制动平稳。无论您是想要一辆价格实惠、既能上班又能周末越野骑行的自行车,还是仅仅追求稳定,...
0.46 bikes:001 Velorim Jigger Jigger 小巧而强大,是最小孩子们的最佳座驾!这是市场上最小的儿童脚踏自行车,没有倒刹,Jigger 是那些罕见的渴望骑行的小骑士的首选。我们说罕见是因为这款酷炫的小自行车不适合紧张的初学者,但对于真正的速度爱好者来说,它绝对能让他们兴奋不已。Jigger 是一款 12 英寸轻量级儿童自行车,它将满足您的孩子对速度的需求。它是一款单速...

后续步骤

  1. 通过阅读向量参考文档,您可以了解更多关于查询选项的信息,例如过滤器和向量范围查询。
  2. 完整的Redis 查询引擎文档可能会让您感兴趣。
  3. 如果您想更具交互性地跟随代码示例,那么您可以使用启发本快速入门指南的Jupyter notebook
  4. 如果您想看到更多 Redis 向量数据库的实际高级示例,请访问 GitHub 上的Redis AI Resources 页面。

继续在 Redis University 学习

请参阅Redis 向量数据库课程中的学习模块。

评价本页面
回到顶部 ↑