FT.AGGREGATE
FT.AGGREGATE index query [VERBATIM] [LOAD count field [field ...]] [TIMEOUT timeout] [ GROUPBY nargs property [property ...] [ REDUCE function nargs arg [arg ...] [AS name] [ REDUCE function nargs arg [arg ...] [AS name] ...]] ...]] [ SORTBY nargs [ property ASC | DESC [ property ASC | DESC ...]] [MAX num] [WITHCOUNT] [ APPLY expression AS name [ APPLY expression AS name ...]] [ LIMIT offset num] [FILTER filter] [ WITHCURSOR [COUNT read_size] [MAXIDLE idle_time]] [ PARAMS nargs name value [ name value ...]] [DIALECT dialect]
- 可用版本
- Redis Stack / 搜索 1.1.0
- 时间复杂度
- O(1)
在索引上运行搜索查询,并对结果执行聚合转换,从结果中提取统计信息等。
必需参数
index
是要执行查询的索引名称。您必须首先使用 FT.CREATE
创建索引。
query
是检索文档的基本过滤查询。它遵循与搜索查询完全相同的语法,包括过滤器、并集、非、可选等。
可选参数
VERBATIM
如果设置,则不尝试使用词干提取进行查询扩展,而是按字面意义搜索查询词。
LOAD {nargs} {identifier} AS {property} …
从源文档加载文档属性。
identifier
是散列和 JSON 的属性名称,或者 JSON 的 JSON 路径表达式。property
是结果中使用的可选名称。如果没有提供,则使用identifier
。这应该避免。- 如果
*
用作nargs
,则加载文档中的所有属性。
聚合所需的属性应存储为 SORTABLE
,这样它们就可以以非常低的延迟提供给聚合管道。LOAD
会显著影响聚合查询的性能,因为每个处理的记录都需要执行等效于 HMGET
的操作针对 Redis 键,当在数百万个键上执行时,会导致很高的处理时间。
GROUPBY {nargs} {property}
根据一个或多个属性对管道中的结果进行分组。每个组应至少有一个 *reducer*,即处理组条目的函数,要么对它们进行计数,要么执行多个聚合操作(见下文)。
REDUCE {func} {nargs} {arg} … [AS {name}]
使用约简函数将每个组中匹配的结果约简为单个记录。例如,COUNT
计算组中的记录数量。约简器可以使用 AS {name}
可选参数具有自己的属性名称。如果没有给出名称,则结果名称将是约简函数的名称和组属性。例如,如果没有为属性 @foo
给 COUNT_DISTINCT
指定名称,则结果名称将为 count_distinct(@foo)
。
有关详细信息,请参阅 支持的 GROUPBY 约简器。
SORTBY {nargs} {property} {ASC|DESC} [MAX {num}]
使用属性列表对管道直到 SORTBY
的位置进行排序。
- 默认情况下,排序是升序,但可以为每个属性添加
ASC
或DESC
。 nargs
是排序参数的数量,包括ASC
和DESC
,例如,SORTBY 4 @foo ASC @bar DESC
。MAX
用于优化排序,仅对 n 个最大元素进行排序。虽然它与LIMIT
没有关联,但对于普通查询,通常只需要SORTBY … MAX
。
SORTBY
所需的属性应存储为 SORTABLE
,以便以非常低的延迟提供。
排序优化:在不同的场景中,针对 DIALECT 4
上的排序操作优化了性能
- 跳过排序器 - 当没有任何排序时适用。查询可以在达到
LIMIT
请求的结果后返回。 - 部分范围 - 当在数字字段上存在
SORTBY
子句时适用,并且没有过滤器或使用相同数字字段进行过滤,查询将遍历一个足够大的范围以满足LIMIT
请求的结果。 - 混合 - 当在数字字段上存在
SORTBY
子句以及另一个非数字过滤器时适用。一些结果将被过滤,并且初始范围可能不够大。然后迭代器将使用以下范围倒回,并将进行额外的迭代以收集LIMIT
请求的结果。 - 无优化 - 如果按分数或按非数字字段排序,则除了检索所有结果并比较它们的值外别无选择。
计数行为:可选的 WITHCOUNT
参数返回具有排序的查询结果的准确计数。此操作处理所有结果以获得准确的计数,比优化选项(DIALECT 4
上的默认行为)性能低。
APPLY {expr} AS {name}
对一个或多个属性应用一对一转换,并将结果存储为管道中的新属性,或者使用此转换替换任何属性。
expr
是一个表达式,可用于对数字属性执行算术运算,或对属性应用函数,具体取决于它们的类型(见下文),或任何组合。例如,APPLY "sqrt(@foo)/log(@bar) + 5" AS baz
会为管道中的每条记录动态计算此表达式,并将结果存储为名为 baz
的新属性,该属性可以由管道中进一步的 APPLY
/SORTBY
/GROUPBY
/REDUCE
操作引用。
有关详细信息,请参阅 APPLY 表达式。
LIMIT {offset} {num}
限制返回的结果数量,仅返回从索引offset
(从零开始)开始的num
个结果。如果您只对限制排序操作的输出感兴趣,使用SORTBY … MAX
会更有效。如果键在查询期间过期,尝试load
键的值将返回一个空数组。
但是,limit 可以用于在不排序的情况下限制结果,或者用于对由SORTBY MAX
确定的前 n 个结果进行分页。例如,获取前 100 个结果中的第 50-100 个结果,最有效的方式是使用SORTBY 1 @foo MAX 100 LIMIT 50 50
。从SORTBY
中删除MAX
会导致管道对所有记录进行排序,然后对第 50-100 个结果进行分页。
FILTER {expr}
使用与每个结果中的值相关的谓词表达式过滤结果。它们在查询后应用,并与管道的当前状态相关。
WITHCURSOR {COUNT} {read_size} [MAXIDLE {idle_time}]
使用比LIMIT
更快的替代方案扫描部分结果。有关更多详细信息,请参见Cursor API。
TIMEOUT {milliseconds}
如果设置,将覆盖模块的超时参数。
PARAMS {nargs} {name} {value}
定义一个或多个值参数。每个参数都有一个名称和一个值。
您可以在query
中通过$
,后跟参数名称来引用参数,例如$user
。搜索查询中对参数名称的每个此类引用都将被相应的参数值替换。例如,对于参数定义PARAMS 4 lon 29.69465 lat 34.95126
,表达式@loc:[$lon $lat 10 km]
将被评估为@loc:[29.69465 34.95126 10 km]
。您不能在不允许具体值的查询字符串中引用参数,例如在字段名称中,例如@loc
。要使用PARAMS
,请将DIALECT
设置为2
或大于2
。
DIALECT {dialect_version}
选择执行查询的方言版本。如果未指定,查询将在模块初始加载期间或通过FT.CONFIG SET
命令设置的默认方言版本下执行。
返回值
FT.AGGREGATE 返回一个数组回复,其中每一行都是一个数组回复,表示一个聚合结果。位置1
处的整数回复不代表有效值。
返回多个值
参见返回多个值 in FT.SEARCH
DIALECT
可以在 FT.AGGREGATE 命令中指定为参数。如果未指定,则使用DEFAULT_DIALECT
,可以通过FT.CONFIG SET
设置,或者在加载redisearch
模块时将其作为参数传递。例如,使用以下文档和索引
127.0.0.1:6379> JSON.SET doc:1 $ '[{"arr": [1, 2, 3]}, {"val": "hello"}, {"val": "world"}]'
OK
127.0.0.1:6379> FT.CREATE idx ON JSON PREFIX 1 doc: SCHEMA $..arr AS arr NUMERIC $..val AS val TEXT
OK
注意有无DIALECT 3
时的不同回复
127.0.0.1:6379> FT.AGGREGATE idx * LOAD 2 arr val
1) (integer) 1
2) 1) "arr"
2) "[1,2,3]"
3) "val"
4) "hello"
127.0.0.1:6379> FT.AGGREGATE idx * LOAD 2 arr val DIALECT 3
1) (integer) 1
2) 1) "arr"
2) "[[1,2,3]]"
3) "val"
4) "[\"hello\",\"world\"]"
复杂度
非确定性的。取决于执行的查询和聚合,但通常与返回的结果数量成线性关系。
示例
按天对页面访问进行排序
查找对页面about.html
的访问,按访问日期分组,计算访问次数,并按日期排序。
FT.AGGREGATE idx "@url:\"about.html\""
APPLY "day(@timestamp)" AS day
GROUPBY 2 @day @country
REDUCE count 0 AS num_visits
SORTBY 4 @day
查找有史以来出版的书籍最多
查找单年出版书籍最多的书籍。
FT.AGGREGATE books-idx *
GROUPBY 1 @published_year
REDUCE COUNT 0 AS num_published
GROUPBY 0
REDUCE MAX 1 @num_published AS max_books_published_per_year
减少所有结果
最后一个示例使用了GROUPBY 0
。使用GROUPBY 0
对来自聚合管道最后一步的所有结果应用REDUCE
函数——这适用于初始查询和后续的GROUPBY
操作。
搜索距离经度 -73.982254 和纬度 40.753181 10 公里以内的图书馆,然后用它们的位置与这些坐标之间的距离对它们进行标注。
FT.AGGREGATE libraries-idx "@location:[-73.982254 40.753181 10 km]"
LOAD 1 @location
APPLY "geodistance(@location, -73.982254, 40.753181)"
在这里,请注意,由于@location
属性是 GEO 属性,因此需要使用LOAD
来预加载它。
接下来,按用户(actor)对 GitHub 事件进行计数,以产生最活跃的用户。
127.0.0.1:6379> FT.AGGREGATE gh "*" GROUPBY 1 @actor REDUCE COUNT 0 AS num SORTBY 2 @num DESC MAX 10
1) (integer) 284784
2) 1) "actor"
2) "lombiqbot"
3) "num"
4) "22197"
3) 1) "actor"
2) "codepipeline-test"
3) "num"
4) "17746"
4) 1) "actor"
2) "direwolf-github"
3) "num"
4) "10683"
5) 1) "actor"
2) "ogate"
3) "num"
4) "6449"
6) 1) "actor"
2) "openlocalizationtest"
3) "num"
4) "4759"
7) 1) "actor"
2) "digimatic"
3) "num"
4) "3809"
8) 1) "actor"
2) "gugod"
3) "num"
4) "3512"
9) 1) "actor"
2) "xdzou"
3) "num"
4) "3216"
[10](10)) 1) "actor"
2) "opstest"
3) "num"
4) "2863"
11) 1) "actor"
2) "jikker"
3) "num"
4) "2794"
(0.59s)