垃圾回收
垃圾回收详情
RediSearch 中的垃圾回收 (GC)
GC 的必要性
- 当用户删除文档时,Redis 仅在全局文档表中将它们标记为已删除,而不是直接删除它们。这样做是为了提高效率。根据文档的长度,删除可能是一个漫长的操作。
- 这意味着不再为已删除的文档分配内部数字 ID。当遍历索引时,会检查是否已删除。
- 属于已删除文档 ID 的所有倒排索引条目都是垃圾。
- 更新文档基本上与删除文档然后使用新的增量内部 ID 再次添加文档相同。不执行差异化,并且索引被追加,因此 ID 保持递增,并且更新速度很快。
以上所有内容意味着,如果有很多更新和删除,我们的倒排索引的大部分将变成垃圾,既会减慢速度,又会消耗不必要的内存。
您希望优化索引,但又不想干扰正常操作。这意味着优化或垃圾回收应该是一个非侵入性的后台进程。它只需要在足够长的时间内快于删除速率,这样您就不会创建比您收集的更多的垃圾。
垃圾回收单项索引
单项倒排索引是一个块数组,每个块都包含一个编码的记录列表;例如,文档 ID 增量以及其他取决于索引编码方案的数据。当其中一些记录引用已删除的文档时,这称为垃圾。
算法很简单
- 为每个块创建一个读取器和写入器。
- 逐个读取每个块的记录。
- 如果没有记录无效,则不执行任何操作。
- 当找到垃圾记录时,读取器会提前,但写入器不会提前。
- 当找到至少一个垃圾记录时,下一个记录将被编码到写入器,重新计算增量。
伪代码
foreach index_block as block:
reader = new_reader(block)
writer = new_write(block)
garbage = 0
while not reader.end():
record = reader.decode_next()
if record.is_valid():
if garbage != 0:
# Write the record at the writer's tip with a newly calculated delta
writer.write_record(record)
else:
writer.advance(record.length)
else:
garbage += record.length
对数字索引进行 GC
数字索引是倒排索引树,其中包含 (docId 增量、值) 的特殊编码。这意味着可以将相同的算法应用于它们,仅遍历树中的每个倒排索引对象。
FORK GC
有关 FORK GC 的信息可以在此 博客 中找到。
自 v1.6 以来,FORK GC 是默认 GC 策略,并且已被证明在清理索引和不降低查询和索引性能方面非常有效,即使对于非常密集的写入用例也是如此。