dot Redis 8 发布了——而且它是开源的

了解更多

什么是数据采集?

数据采集是指收集、存储和处理大量高多样性、高速度的数据,这带来了若干复杂的设计挑战——特别是在物联网 (IoT)、电子商务、安全、通信、娱乐、金融和零售等领域。鉴于响应迅速、及时准确的数据驱动决策是这些业务的核心,实时数据收集和分析至关重要。

实现实时数据分析的重要第一步是确保有足够的资源来有效捕获快速数据流。虽然物理基础设施(包括高速网络、计算、存储和内存)在此发挥着重要作用,但软件栈必须与物理层的性能相匹配,否则组织最终可能会面临海量的数据积压、数据丢失或不完整、误导性的数据。


快速数据采集的挑战与最佳实践

高速数据采集通常涉及不同类型的复杂性

  1. 海量数据突发到达: 突发数据需要一个能够在最小延迟下处理海量数据的解决方案。理想情况下,它应该能够以亚毫秒级延迟,使用最少的资源执行每秒数百万次写入。
  2. 来自多个来源/格式的数据: 数据采集解决方案还必须足够灵活,以处理多种不同格式的数据,如果需要保留源标识符,并实时进行转换或标准化。
  3. 需要过滤、分析或转发的数据: 大多数数据采集解决方案有一个或多个使用者消费数据。这些通常是在相同或不同位置运行的不同应用程序,具有不同的假设。在这种情况下,数据库不仅必须转换数据,还必须根据消费应用程序的要求过滤或聚合数据。
  4. 管理生产者与各类消费者之间的稳定数据通道: 如果数据到达模式不是连续的,那么生产者和消费者需要一个通道,使他们能够异步传输数据。该通道还必须能够弹性应对连接丢失和硬件故障。在许多用例中,生产者和消费者的操作速率不同。这可能导致数据积压,进一步延迟消费者对数据采取行动。
  5. 来自地理分布式来源的数据: 在这种情况下,底层架构通常会方便地将数据收集节点部署在靠近数据源的位置。这样,这些节点本身就成为快速数据采集解决方案的一部分,用于收集、处理、转发或重新路由采集的数据。

我们让快速数据采集变得更容易

以最少的服务器数量实现高性能

在性能方面,Redis Enterprise 已经过基准测试,证明在 AWS 上仅使用 40 个节点集群即可在亚毫秒级延迟下处理每秒超过 2 亿次读/写操作。这使得 Redis Enterprise 成为市场上资源效率最高的 NoSQL 数据库。

灵活的数据结构和模块,用于实时分析:Redis Streams、Pub/Sub、Lists、Sorted Sets、Time Series

Redis 提供了多种数据结构,如 Streams、Lists、Sets、Sorted Sets 和 Hashes,它们提供了简单而灵活的数据处理,从而高效地结合高速数据采集和实时分析。

Redis 的 Pub/Sub 功能使其能够充当地理分布式数据采集节点之间高效的消息代理。数据生成应用程序将流数据以所需格式发布到通道,消费应用程序订阅与其相关的通道,并在消息发布时异步接收消息。

Lists 和 Sorted Sets 可以用作连接生产者和消费者的数据通道。您也可以使用这些数据结构异步传输数据。与 Pub/Sub 不同,Lists 和 Sorted Sets 提供持久性。

Streams 可以做更多事情,为生产者和消费者提供一个持久的数据采集通道。使用 Streams,您可以使用消费者组来横向扩展消费者数量。消费者组还在消费者在消费和处理数据过程中失败时实现类似事务的数据安全。

最后,Time Series 提供增强的快速数据采集功能集,包括降采样、对最后采集值的特殊计数器操作、双增量压缩,并结合实时分析功能,例如使用内置搜索、聚合、范围查询进行数据标记,以及与 Grafana 和 Prometheus 等领先监控和分析工具的内置连接器。

Active-Active Geo-Distribution 部署

Redis Enterprise 基于 CRDTs 的 Active-Active 技术实现了跨地理位置的复杂数据采集和消息传递操作,并支持应用程序以完全分布式的方式部署,从而显著提高可用性和应用程序响应时间。

使用 SSD 和持久内存扩展 Redis DRAM

Redis Enterprise 的 Auto Tiering 技术支持使用 SSD 和持久内存扩展 DRAM,允许存储超大型的多 TB 数据集,而基础设施成本与基于磁盘的数据库相同,同时即使在 Redis Enterprise 集群的每个节点上每秒采集超过 1M 个项目时,数据库延迟仍保持在亚毫秒级。


相关资源

帖子

2019年6月27日

RedisTimeSeries GA:让第四维度真正沉浸式

今天我们很高兴地宣布 RedisTimeSeries v1.0 正式发布 (GA)。RedisTimeSeries 是 Redis 开发的一个 Redis 模块,旨在增强您管理时间序列的体验…

帖子

2018年6月26日

Active-Active Redis – 现在支持 Sorted Sets 和 Lists

我们很高兴地宣布 Redis Enterprise v5.2 的可用性,其中包含备受期待的功能,例如:这些功能简化了应用程序开发,并为您的 Redis Enterprise 提供了更大的安全性…

wpx-文档

2017年8月18日

Redis 用于快速数据采集

大数据用例通常需要实时流数据采集。Redis Enterprise 可以做到。