基于云的实时分析和 AI 驱动的应用程序浪潮正在多个行业中势头强劲。企业希望利用新兴技术赋能业务和团队,而 AI 和 ML 计划是许多企业关注的重点。我们正处于 AI 和 ML 的黄金时代。它正成为全球企业的重要组成部分,其重要性在 COVID-19 大流行期间得到了加速。Subspace 的 CTO 兼联合创始人威廉·金撰写的这篇内容丰富且全面的文章,探讨了实时 AI 的未来,以及 Redis 技术如何成为推动其发展的力量。从 ML 特征存储等基础示例到科学和医学研究的 NLP 等更垂直的特定应用,Redis 被广泛应用于将实时性引入 AI/ML 用例中。而这仅仅是开始。
感谢您与我们分享您的见解,威廉!
— 泰穆尔
————————————
实时应用程序性能是一种视角练习;您可以从用户体验或企业盈利能力的角度来看待它,具体取决于受众。然而,最终的结论仍然是:世界越来越需要即时数据处理和响应能力,而能够提供这些能力的人将获得更大的成功。
实时功能在工业自动化、物联网 (IoT) 服务、网络安全、多人游戏、商务通信、自动驾驶汽车和飞机以及无数其他领域变得越来越重要。人工智能 (AI) 的要求在这些领域不断应用和演变。
可以说,实时应用程序面临的最大挑战是实现具有无缝、潜在无限可扩展性的即时性能。打个比方,想想车辆速度与货物容量的关系。
一辆只有乘客座椅的性能跑车可以实现高响应性和速度。您能从一辆满载的 18 轮卡车获得同样的结果吗?
这就是 Redis 致力于使用其开源内存数据结构存储(也称为 Redis)的原因。
正如该公司 描述的那样,Redis 可以通过各种数据结构“用作数据库、缓存和消息代理”。Redis 提供了磁盘持久化、异步复制、高可用性和自动分区。对于本讨论而言,最重要的是,Redis 通过将数据集保存在内存中来实现其实时结果。在传统的数据架构中,应用程序总数据集的子集(通常是最“热门”或最需要立即使用的数据)驻留在基于 DRAM 的系统内存中,而大部分数据则存储在速度较慢但成本低得多的磁盘(和/或 SSD)存储中。内存架构吞下了更高的成本苦果,以避免从高容量存储介质中获取数据所带来的时间消耗。
2021 年 4 月,该公司 宣布 了其新的 Redis 7.0 平台,该平台包含多个组件和技术。例如,Redis 7.0 不再强迫用户在可扩展性和性能之间进行选择,或者在可能在全球范围内分布的节点之间进行数据一致性选择,它提供了两全其美的方案。部分功能依赖于 Redis 的“主动-主动”技术,该技术允许应用程序在任何云模型或位置部署,以使数据尽可能靠近客户。当与公司的 AI 推理引擎 RedisAI 结合使用时,用户可以在 AI 特征存储的任何地方部署实时 AI 应用程序,从而提高“基于 AI 的应用程序性能,最高可达两个数量级”。
对于那些不是每天都处理数据库的人来说,很容易忽视 Redis 7 的重要性。然而,这些进步表明了世界是如何朝着实时应用程序迈进的,并突出了使这些进步成为可能的底层技术。更好地理解 Redis 可以为塑造未来应用程序环境的更广泛趋势提供宝贵的见解。
如前所述,内存架构有利于实时应用程序的性能,因为它将数据保存在 RAM 中,更靠近 CPU。该架构最大限度地减少了数据传输时间。同样,Redis 的主动-主动地理分布式拓扑结构跨多个节点集群跨越全球数据库。该系统通过并发更新和数据复制的网状结构实现节点间一致性。即使数据库中的大多数节点以某种方式出现故障,剩余的地理复制节点也将继续提供不间断的服务,并保持完整的数据完整性。这种分散式方法与互联网自身的架构(旨在实现最大网络可用性)相呼应,同时允许用户从尽可能近的点访问数据,从而实现接近本地的性能。同样,目标是最大限度地减少读/写数据传输时间,而不会牺牲一致性。
Redis 至少从 2018 年开始就在宣传其 主动-主动地理分布式 拓扑结构,但每年都会带来迭代改进和扩展。例如,Redis 7.0 更新了平台的实现,不仅接受数据交换格式 JSON 作为支持的数据类型,而且还支持带有主动-主动地理分布的 JSON。有了这个补充,Redis 突破了其通常的异步复制。现在,Redis 通过启用读/写执行而无需等待来自任何单个集中式主节点的提交,从而促进了本地操作自主性。无需等待权限意味着更快的操作性能。
问题依然存在
**现在这种主动-主动地理分布式技术已经存在,它如何能够从根本上改善传统的应用程序方法?**
Redis 毫不犹豫地宣扬其实现高吞吐量、亚毫秒延迟和全球分布的能力,如何帮助其将最大的传统数据库系统赶出其市场固守的位置。
正如 Redis 解释的那样,传统的应用程序架构需要一个主数据库 (DB) 来处理大多数请求,除非请求特别紧急。然后,应用程序将求助于辅助 DB(如 Redis)来执行缓存和排队等功能。凭借其最新的增强功能,Redis 本质上是说,“是的,我们的数据库也可以做……所有事情。然后以实时方式完成。”
Redis 越是扩展其数据库功能和功能,就越是让其竞争对手变得过时。因此,Redis 将其方法称为“DBLess”,尽管这个词不仅仅是指数据库,而是表达了一种比传统方法所产生的新技术更有效率的想法。
Redis 认为,其实时 DBLess 架构在解决方案价值方面提供了足够大的飞跃,可以颠覆主要的现有企业,并有可能改变市场。
与这种 DBLess 推动并行,Redis 加强了对 RedisAI 中特征存储功能的支持。简而言之,特征是一个可能在多个原始数据点中包含的有用片段。正如您在处理太字节到拍字节规模的数据集时可能预期的那样,组织机器学习 (ML) 训练的特征可能是艰苦的,并且非常耗时。特征存储既用作存储库,也用作自动输入和管理特征的系统。如果这听起来像是适合 Redis 的东西,那么当然它就是。将 RedisAI 的 ML 模型与像 Redis 7.0 这样的闪电般快速、全球可扩展的平台相结合,将为世界提供一种新的方式,以基于实时、地理位置分散的条件来加速向实时 AI 系统迈进。
Redis 和 AI 在该公司的 RedisConf 2021 黑客马拉松 中也占有重要地位。Alexander Mikhalev 博士凭借其“模式:机器学习自然语言处理遇见 VR/AR”的参赛作品获得了五项铂金奖之一。(编辑注:查看 模式 以及您可以在 Redis Launchpad 上使用 Redis 完成的其他示例。) Mikhalev 发现,即使参考了 发表在《美国生物医学科学与研究杂志》上的一篇有趣的论文,“声称吃类似蝙蝠的宝可梦引发了 COVID-19 的传播”,现代医学来源缺乏适当的审查和验证。(这篇论文的目的是突出掠夺性科学期刊。)他使用 Redis AI 和 UX 工具将文档转换为可分析的语言,然后可以将其搜索并可视化为三维图形。然后,用户可以在增强现实或虚拟现实中更直观地探索这些图形。
另一位铂金奖得主 Dustin Wilson 使用了多个 Redis 工具来创建一个 赫尔辛基地铁系统的实时视图。(编者注:查看Redis Launchpad上的此应用程序以及您可以使用 Redis 执行的其他示例。)用户可以点击任何运输工具以追踪其位置和过去两小时的延迟状态。实时视图(类似于优步,显示运输工具实时移动)的准确性在五秒钟内。另一个视图允许用户点击任何社区以查看该区域内运输工具的当前平均速度和延迟时间。
Redis 在解决各种挑战方面的适用性令人印象深刻。一位钻石奖得主创建了一个电子学习平台,其中包含面向教育者的后端指标。一位银奖得主创建了一个RSS 阅读器应用程序,而另一位创建了一个电影爱好者社交网络。
我们不能不提由 Janis Vilks 创作的金奖得主俯视角射击游戏。该游戏因是世界上第一个主动-主动地理分布式街机射击游戏而引人注目,其图形让雅达利 1977 年的射击游戏Combat看起来像莫奈的画作。这就是创新,这仅仅是未来一些有趣事物的概念验证。
虽然其中一些应用程序看起来很简单,但 Redis 仍然证明自己是一个能够为世界上一些最大的实时应用程序提供动力的平台。例如,Twitter 使用 Redis 的列表数据结构存储用户的 800 条最新推文,以帮助提高应用程序响应速度和扩展性。Pinterest 使用广泛的 Redis 分片来最大限度地利用资源并突破以前系统在大规模图形数据时遇到的缓存瓶颈。Malwarebytes 使用 Redis 进行安全数据摄取、聚合和可视化,而英国能源公司 Utilitywise 使用 Redis 来增强其物联网应用程序的性能和正常运行时间。有很多例子;性能、扩展性和覆盖范围不断突破界限。
长期以来,组织一直不得不做出艰难的选择,是使用数据库来处理结构化(SQL)还是非结构化(NoSQL)数据。幸运的是,Redis 一直处于解决 SQL/NoSQL 难题的前沿,它提供了两全其美:满足当今数据处理的灵活性以及扩展所需的高一致性水平。这种一体化适用性使 Redis 非常适合现代人工智能和机器学习的多样化需求,这些需求需要在现代应用程序的整个范围内运行,即使是在行业中最苛刻、最尖端的组织中。
“机器学习算法在模拟中的使用不断增长,以提高科学研究的效率和准确性,”惠普企业人工智能与高级生产力总监Benjamin Robbins 指出。“通过在 SmartSim 中利用 Redis 和 RedisAI,我们新的开源人工智能框架推动了在超级计算机上运行的模拟,用户可以在模拟运行时在现有模拟和内存数据库之间交换数据。简便的数据交换有助于释放新的机器学习机会,例如在线推理、在线学习、在线分析、强化学习、计算引导和交互式可视化,这些机会可以进一步提高模拟的准确性并加速科学发现。”
本新闻稿中提到了 Forrester Consulting 的一项研究,该研究发现
40% 的受访者认为他们“当前的数据架构将无法满足他们未来的模型推理需求”。
38% 的领导者正在“大约三分之一”的人工智能/机器学习模型上进行实时开发。
44% 的人将性能列为部署模型面临的主要挑战。
架构、性能和成就之间的联系继续挑战着当今的商业创新者。无论集群速度有多快,或者分散式数据框架有多先进,网络延迟在跨公共互联网工作时仍然是一个阻碍因素。Subspace 创建了一个与公共互联网协同工作的 高性能网络,专门用于解决这些性能瓶颈。
这种低级解决方案可以更快地访问各种类型的数据,这引起了我对技术和个人观点的共鸣。从技术上讲,我喜欢看到像这样的大障碍开始被解决,因为这意味着人们亲眼看到了性能问题,并开始思考互联网需要运作的这种新方式。
现在,相当多的一批 DevOps 和网络工程师正在拿起工具开始着手解决问题。解决这些类型的问题之后,自然会出现一种向新的做事方式转变的采用曲线;我认为我们现在正处于这条曲线的中间阶段。
就个人而言,任何致力于改善我们对互联网这个巨型数据存储的访问的组织都在做着有益的工作,尤其是在他们试图利用新的架构和技术来实现这一目标的情况下。这就是创新的开始,也是它持续的原因。
Redis 有趣之处在于,它正在推动我们实时计算的边界,同时还能实现稳定的访问。我一定会密切关注它们,看看接下来会有什么创新出现。
了解 Subspace 如何帮助您优化并加速实时通信。
————————————
准备开始您的实时人工智能之旅了吗?免费试用 Redis Enterprise。