首届特征存储峰会的关键要点

两周前，首届特征存储峰会举行，内容包括讲座、小组讨论以及一个活跃的 Slack 频道，其中有 800 多名活跃成员。峰会汇集了来自 25 多个组织的行业思想领袖和从业者——他们都专注于特征存储！峰会的规模和与会者的热情表明特征存储的重要性日益增长，以及它们在机器学习运营中发挥的关键作用。

本次活动以虚拟方式举行，由 featurestore.org 主办，包括会议方面（感谢 Jim Dowling）和 Slack 频道方面（感谢 Helena Paic），包括每次讲座后的 Slack 问答环节。在两天的时间里，21 场讲座、4 场小组讨论和多项投票涵盖了关键主题，包括：1) 解决大规模的最困难问题，2) 谁能从特征存储中受益，3) 特征存储的未来，以及 4) 构建还是购买更好。

此外，我们的首席业务发展官 Taimur Rashid 与来自 Kaskada 的 Davor Bonaci 和 Charna Parkey 博士一起发表了题为 *使用特征存储和特征引擎从基于事件的数据创建和操作 ML 模型* 的演讲。在其中，他们还介绍了拥有一个可扩展、可靠、低延迟的在线商店以在生产中提供特征的重要性。关于他们的演讲的更多细节在下面的第三点中提供。

以下是我们从本次活动中获得的四个关键要点。

1. 实时 AI 势不可挡

越来越多的机器学习 (ML) 用例依赖于实时数据。特征存储峰会的一个反复出现的主题是使用低延迟的实时数据交付 ML 用例——以及在线商店在交付它方面的重要性。持续、可靠且快速地为在线预测的 ML 模型提供新鲜数据是困难且复杂的，特别是对于需要极低延迟的实时应用程序而言。

例如，大多数实时应用程序需要 100 毫秒的端到端延迟，而某些用例（如 AT&T 欺诈检测）则需要小于 50 毫秒的延迟。在像 AT&T、Twitter、Zomato、Spotify 和 DoorDash 这样的公司所运营的规模下，这尤其复杂，这些公司拥有数千个特征、多 TB 大小甚至 PB 大小的数据集，以及每秒 10 万次以上的预测。如果我们以 DoorDash 的规模为例，那么特征值对的总数超过数十亿。 DoorDash 高容量用例（如商店排名）所需的吞吐量达到每秒数千万次读取！

Hopworks slide from Feature Store Summit. The most AI value comes from real-time machine learning. — 来源

我们发现 Hopswork 的演讲中的上面这张幻灯片非常有洞察力，并且有助于解释为什么公司如此努力地提供大规模的实时 AI 来解决这个最困难的问题。正如幻灯片中的效用函数所说明的那样，延迟越低，公司及其用户的业务价值就越大——而且这种相关性是指数级的！ 请注意实时 ML 和运营 ML 之间的区别：虽然两者都在线进行预测（例如，当用户与网站互动时），但运营 ML（以及下面的所有其他案例）使用来自批处理来源的数据。只有实时 ML 在提供 在线预测 的同时，还消耗 新鲜数据，即来自流处理来源的实时特征。

2. 构建 vs 购买：构建仍然优于购买

在峰会期间，就特征存储的最佳策略进行了一项投票。您应该构建一个特征存储，还是购买一个特征存储？以下是结果

Building vs. Buying a Feature Store. 50% build, 35% buy, 15% are still deciding.

尽管特征存储作为一个类别越来越成熟，但 50% 的受访公司更喜欢构建自己的特征存储，而不是购买现成的商业解决方案，而只有 35% 的公司更喜欢购买，还有 15% 的公司仍在犹豫。采用构建策略的公司包括 Spotify、Wix、Uber 和 DoorDash。

还有一种混合方法，使用像 Feast 或 Hopsworks 这样的开源解决方案。这样，公司就不需要重新发明轮子，而是可以利用所有投入到开源项目中的工作。与此同时，公司仍然可以自定义开源解决方案，使其能够自由灵活地根据自己独特的需求调整特征存储。与从头开始相比，这可以节省大量时间和开发精力。选择这种混合方法的公司包括 Salesforce、Robinhood、Wildlife Studios、Twitter 和 Udaan。

构建与购买的决定取决于许多内部因素，包括您在 ML 旅程中所处的位置、ML 平台的成熟度以及团队的技能、您的规模大小、您的独特需求等等。然而，随着未来几年开源和现成商业解决方案的类别不断发展和成熟，我们预计越来越多的公司将选择购买现成的特征存储，或使用云中的托管特征存储，而不是自己构建。

3. 现代特征存储超越了存储

虽然人们非常强调管理和存储特征的集中性质，但现代特征平台还具有其他功能，包括数据工程、数据科学和 ML 工程团队之间标准化的通信和治理层。在峰会上分享的许多故事都证明了这一点。例如，Salesforce 讨论了他们的公司如何利用特征存储来构建跨团队的协作环境，而 Twitter 描述了他们如何通过集中特征存储来解决团队之间的协作和特征共享的挑战。

除了协作之外，强大的特征引擎还可以确保正确的数据准备并最大限度地减少（或理想情况下防止）诸如数据泄漏之类的挑战，这些也是特征平台所需的标志性功能。 Vaso Bank 分享了他们的集中式特征存储如何让他们构建一个避免训练和推理偏差的欺诈检测系统。这有助于他们最大限度地提高可重用性、可发现性并确保一致性。 Kaskada 和 Redis 分享了他们如何将可扩展的特征引擎与时间旅行和具有低延迟内存 Redis 的特征存储相结合，以从基于事件的数据运营 ML 模型（参见下面的幻灯片）。

Core machine learning and AI computing and serving with Kaskada as a feature engine and Redis as a primary data store.

现代特征平台提供了一个闭环的解决方案。首先，您有一个用于低延迟服务的在线特征存储，然后是一个用于训练和批处理推理的离线特征存储。模型二进制文件存储在模型存储中，并且当模型用于预测时，模型监控用于确定模型有效性。这被捕获到评估存储中，然后可以将其反馈到特征引擎，以便在特征不再具有预测性时（如上所述）更新模型。这种架构远远超出了存储范围，并确保 ML 特征是实时的、新鲜的且快速的，从而使它们能够支持低延迟服务、增强向量预测和低延迟的持续重新训练。

4. 信任是用户采用的关键

贯穿峰会的另一个反复出现的主题是如何推动用户采用。一旦您为您的 ML 运营购买或构建了一个特征存储，您如何说服数据科学家和 ML 工程师改变他们的行为并开始使用特征存储？投入时间注册每个特征？分享他们以后需要维护和支持的特征？

正如 Spotify 的演示中所述，引入“杀手级功能”以实现快速迭代（例如时间点连接和自动回填）至关重要，同时还要确保特征存储能够解决从批量评分到近实时再到实时的各种 ML 用例。但更重要的是在特征存储中建立信任。 这种信任首先通过特征存储一致性来建立。尽管特征存储环境具有动态性（包括数据、特征和模型），但确保特征存储的一致性至关重要。

Twitter 的 David Liu 谈到了四个级别的一致性，在基础级别，最重要的级别（也是讨论最多的）是离线到在线的一致性，如下面 Twitter 的幻灯片所示。 Twitter 通过标准化的模式和结构来确保离线/在线一致性，这种模式和结构在离线和在线存储中都非常严格，因此可以实现特征数据的可靠传输。

特征存储中建立信任的其他重要方面包括：

可靠的基础设施 – 遵守在线特征存储的延迟和吞吐量 SLA（特征新鲜度、特征查找），确保符合 GDPR 等。
高质量特征 – 确保在特征存储中共享的特征具有高质量，并且可以信任它们用于我的用例。

总结

特征存储作为一个类别，几年前甚至不存在，但现在它是数据架构的关键组成部分，通过结合数据科学模型和真实世界数据将过去与现在联系起来。考虑到它迄今为止取得的令人难以置信的吸引力和进步，很明显，特征存储这一新兴概念将长期存在。

特征存储解决了机器学习运营中最困难的一些问题，并且经常被认为是 MLOps 的基石。通过 Feature Store Summit 展望未来，我们看到了特征存储的有趣方向，我们期待看到这些方向在不久的将来如何实现。

这总结了我们从第一次 Feature Store Summit 获得的主要收获。我们从中学习了很多，并且很高兴与 Kaskada 共同展示。我们期待下一次 Feature Store Summit！非常感谢 featurestore.org 组织这次活动，我们明年再见！

—