dot 未来速度的到来即将在您的城市举办一场活动。

加入我们在 Redis 发布会上

首届特征存储峰会的主要收获

两周前是首届 特征存储峰会 活动,充满了演讲、小组讨论以及一个活跃的 Slack 频道,拥有超过 800 名活跃成员。峰会汇聚了来自 25 多家组织的行业思想领袖和实践者,他们都专注于特征存储!峰会规模和与会者热情表明 特征存储的重要性不断提升,以及他们在机器学习操作中发挥的关键作用。

该活动是在线举办的,由 featurestore.org 主办,涵盖了会议方面(感谢 Jim Dowling)和 Slack 频道(感谢 Helena Paic),包括每次演讲后的 Slack 问答环节。在两天的时间里,21 场演讲、4 个小组讨论以及多个投票涵盖了关键主题,包括:1) 解决大规模最难的问题,2) 谁能从特征存储中受益,3) 特征存储的未来,以及 4) 是构建更好还是购买更好。

此外,我们的首席商务发展官 Taimur Rashid 与来自 Kaskada 的 Davor Bonaci 和 Dr. Charna Parkey 共同发表了一篇名为“使用特征存储和特征引擎从基于事件的数据创建和操作机器学习模型”的演讲。在演讲中,他们还强调了在生产中为服务特征提供可扩展、可靠、低延迟在线存储的重要性。关于他们的 演讲 的更多细节将在下面第三点中提供。

以下是我们从活动中得到的四个主要收获。

1. 实时 AI 方兴未艾

很大一部分且不断增长的 机器学习 (ML) 用例依赖于实时数据。特征存储峰会的一个反复出现的主题是使用实时数据和低延迟提供机器学习用例,以及在线存储在提供这些用例中的重要性。始终如一地、可靠地且快速地为在线预测的机器学习模型提供新鲜数据非常困难且复杂,尤其是对于需要超低延迟的实时应用程序而言。

例如,大多数实时应用程序需要 100 毫秒的端到端延迟,而一些用例(如 AT&T 欺诈检测)需要 小于 50 毫秒的延迟。这在 AT&T、TwitterZomatoSpotifyDoorDash 等公司运营的规模上尤其复杂,这些公司拥有数千个特征、多 TB 大小甚至 PB 大小的数据集,以及每秒数万次预测。如果以 DoorDash 的规模为例,那么特征值对的总数将超过数十亿。DoorDash 对高容量用例(如商店排名)所需的吞吐量达到 每秒数千万次读取

Hopworks slide from Feature Store Summit. The most AI value comes from real-time machine learning.
来源

我们发现上面来自 Hopswork 演示文稿的幻灯片非常有见地,有助于解释为什么公司如此努力地提供大规模实时 AI 来解决最难的问题。正如幻灯片中所说明的效用函数所示,延迟越低,公司及其用户的商业价值就越大,这种相关性呈指数级增长!请注意实时 ML 和操作 ML 之间的区别:虽然两者都在线进行预测(例如,当用户与网站交互时),但操作 ML(以及所有其他情况)使用来自批处理源的数据。只有实时 ML 才能在消耗新鲜数据(即来自流式源的实时特征)的同时提供在线预测

2. 构建与购买:构建仍然比购买更受欢迎

在峰会期间,进行了一项关于特征存储最佳策略的投票。您应该构建一个特征存储,还是购买一个?以下是结果

Building vs. Buying a Feature Store. 50% build, 35% buy, 15% are still deciding.

尽管特征存储作为一个类别已经越来越成熟,但 50% 的受访公司更愿意构建自己的特征存储,而不是购买现成的商业解决方案,只有 35% 的公司更愿意购买,而 15% 的公司仍在决定。采用构建策略的公司包括 SpotifyWixUberDoorDash

还有一种混合方法,使用开源解决方案(如 Feast 或 Hopsworks)。这样一来,公司就不需要重新发明轮子,而是可以利用所有投入开源项目的成果。同时,公司仍然可以自定义开源解决方案,使其能够自由灵活地根据自己的独特需求调整特征存储。与从头开始相比,这可以节省大量时间和开发工作。选择这种混合方法的公司包括 SalesforceRobinhoodWildlife StudiosTwitterUdaan

构建与购买的决定取决于许多内部因素,包括您在机器学习旅程中的位置、机器学习平台的成熟度以及团队的技能、规模的大小、独特的需求等等。但是,随着未来几年开源和现成商业解决方案的类别不断发展和成熟,我们预计越来越多的公司将选择购买现成的特征存储或使用 云中的托管特征存储,而不是自己构建。

3. 现代特征存储超越存储

虽然人们非常重视管理和存储特征的集中性,但现代特征平台还拥有其他功能,包括跨数据工程、数据科学和机器学习工程团队之间的标准化通信和治理层。这一点在峰会上传递的许多故事中都有所体现。例如,Salesforce 讨论了他们的公司如何利用特征存储在团队之间构建协作环境,而 Twitter 描述了他们如何通过集中特征存储来解决团队之间协作和特征可共享性的挑战。

除了协作之外,强大的特征引擎还能确保适当的数据准备并最大程度地减少(理想情况下是防止)数据泄露等挑战,这也是特征平台的标志性功能。Vaso Bank 分享了他们的集中式特征存储如何使他们能够构建一个避免训练和推理偏差的欺诈检测系统。这有助于他们最大限度地提高可重用性、可发现性和一致性。Kaskada 和 Redis 分享了他们如何将可扩展的特征引擎与时间旅行和低延迟内存中 Redis 特征存储相结合,以将基于事件的机器学习模型投入运营(请参见下面的幻灯片)。

Core machine learning and AI computing and serving with Kaskada as a feature engine and Redis as a primary data store.

现代特征平台提供了一个能够闭环整个过程的解决方案。首先,您有一个用于低延迟服务的在线特征存储,然后是一个用于训练和批处理推理的离线特征存储。模型二进制文件存储在模型存储中,当模型用于预测时,模型监控用于确定模型的有效性。这些信息将被捕获到评估存储中,然后可以反馈给特征引擎,以便在特征不再具有预测性时更新模型(如上所述)。这种架构超越了存储,并确保机器学习特征是实时、新鲜和快速的,从而能够支持低延迟服务、增强的向量预测以及低延迟的持续重新训练。

4. 信任是用户采用的关键

峰会期间反复出现的另一个主题是如何推动用户采用。一旦您为机器学习操作购买或构建了特征存储,如何说服数据科学家和机器学习工程师改变他们的行为并开始使用特征存储?如何投入时间注册每个特征?如何共享他们以后需要维护和支持的特征?

正如 Spotify 演示文稿中所解释的那样,引入针对快速迭代的“杀手级功能”,例如时间点连接和自动回填至关重要,此外,还需要确保特征存储能够解决从批处理评分到近实时再到实时的各种机器学习用例。但更重要的是在特征存储中灌输信任。这种信任首先通过特征存储一致性建立起来。尽管特征存储环境的性质是动态的(包括数据、特征和模型),但确保特征存储的一致性至关重要。

Twitter 的 David Liu 谈到了四种一致性级别,他指出在基础级别,最重要的级别(也是最常讨论的级别)是 **离线到在线的一致性**,如下图所示,由 Twitter 提供。Twitter 通过在离线和在线存储中使用标准化的模式和结构来确保离线/在线一致性,该模式和结构 **非常严格**,因此可以进行 **可靠的特征数据传输**。

来源

特征存储中其他增强信任度的重要方面包括

  • **可靠的基础设施** - 符合在线特征存储的延迟和吞吐量 SLA(特征新鲜度、特征查找)、GDPR 合规性等。
  • **高质量特征** - 确保在特征存储中共享的特征质量高,并且可以信任用于我的用例。

总结

几年前,特征存储作为一个类别甚至不存在,但现在它已成为数据架构中至关重要的组成部分,它通过结合数据科学模型和现实世界数据,将过去与现在联系起来。考虑到它迄今为止取得的惊人进展和成就,特征存储这个新兴概念将持续存在是显而易见的。

特征存储解决了机器学习运营中的一些最棘手的问题,通常被认为是 MLOps 的 **基石**。通过 特征存储峰会 了解未来,我们看到了特征存储的有趣方向,并期待着这些方向在不久的将来实现。

这总结了我们从第一届特征存储峰会中获得的关键要点。我们从中学到了很多,并很高兴与 Kaskada 共同进行演示。我们期待着下一届特征存储峰会!衷心感谢 featurestore.org 组织了此次活动,我们明年再见!

准备将 Redis 作为您的特征存储的数据存储进行测试?免费试用 Redis Enterprise Cloud!