数据经济播客

主持人：迈克尔·克里格斯曼

数据经济播客 / 主持人：迈克尔·克里格斯曼

使用实时分析、流媒体、物联网和人工智能来现代化应用程序并增加商业价值

诺姆·犹大，前微软企业 CTO
麦克·瓜尔蒂耶里，副总裁兼首席分析师 / Forrester

“如果你能以合适的速度获得正确的数据并进行相应处理，那么‘缓慢’的流程可以变得更快”

诺姆·犹大
前微软企业 CTO

微软前 CTO 诺姆·犹大和 Forrester 副总裁分析师麦克·瓜尔蒂耶里讨论了使用实时数据和人工智能进行应用程序现代化的挑战和潜力。在本集中，我们将简化这些问题，讨论技术，并讨论领导者可以用来加速创新并为客户提供服务的策略。

作为微软前 CTO，诺姆为全球客户制定并推动技术战略。在行业工作 40 年后，他退休了，目前是一名传播者和战略与领导力顾问，在创新和数字化转型领域担任重要发言人。诺姆还是 EPAM System Inc. 和 Model9 的董事会顾问。在加入微软之前，他在帝国石油公司开发了领先的交易处理和实时分布式系统。

作为 Forrester 的副总裁分析师，麦克的研究重点是人工智能技术、平台和实践，这些技术、平台和实践使技术专业人员能够交付应用程序，从而带来先见之明的数字体验和突破性的运营效率。他撰写了 130 多份研究报告，并获得了 Forrester 勇气奖，因为他大胆地呼吁 Forrester 客户做出伟大的商业和技术决策。

文字记录

迈克尔·克里格斯曼：我们正在与微软前企业 CTO 诺姆·犹大以及 Forrester Research 的行业分析师麦克·瓜尔蒂耶里讨论实时数据和机器学习。

非常感谢 Redis 使这次对话成为可能。我非常感谢 Redis 让我们能够做到这一点。对于商业领袖来说，实时数据问题，以及机器学习的使用，以及分析这些数据，以及支持创新并为我们的客户带来卓越成果，仍然很复杂。

在这次对话中，我们将简化这些问题。我们将讨论技术，我们将讨论数据，我们将讨论机器学习，我们将把所有这些汇集在一起，供商业人士、商业领袖做出关于这些主题的知情决策。以及如何使用数据进行创新，并为您的客户带来卓越的成果。

那么诺姆，请告诉我们您的关注领域。我知道您是微软的企业 CTO。您拥有非常广泛的背景。欢迎，我很高兴听到您正在做的事情。

诺姆·犹大：嗨，迈克尔。谢谢你。对我来说，为了说明一下，我大约在四年前退休了。我以为我什么也不会做，但我并没有。我实际上在这个领域非常活跃。但在那之前的 40 年实际上花在了两个大方面。大约 12 年为埃克森美孚公司从事炼油厂控制领域的实时系统工作。然后在微软工作了 28 年，从企业业务的突破开始，一直到人工智能。因此，拥有广泛的背景，主要是在企业领域，也在消费者领域。

迈克尔·克里格斯曼：太好了。麦克·瓜尔蒂耶里，很高兴能与您交谈。请告诉我们您在 Forrester 工作的重点领域。

麦克·瓜尔蒂耶里：嗯，我是一名行业分析师，所以我的工作是帮助我们的企业客户了解技术格局、用例和最佳实践。我特别关注的领域是实时数据——实时数据和人工智能的交叉点。

我认为大约在 12 年前，我做了第一个 Forrester Wave，当时是关于 CEP，复杂事件处理，这在当时是一种热门的新技术，是关于分析实时数据的。大部分是当时的金融和交易数据。从那时起，我认为我们即将讨论它，流式数据无处不在，实时数据无处不在。

迈克尔·克里格斯曼：那么诺姆，当我们谈论实时数据，或者有时称为高速数据时，我们实际上指的是什么？

诺姆·犹大：是的，两者之间存在细微的差别，或者说差别很大。我认为对我来说，最有趣的是，如果你有这些信息可用，你可以用它做什么？存在某种开放的——开放循环控制系统部分，即你获取数据，以某种方式处理它，然后你采取一些行动，或者你建议采取行动。

光谱的另一端是闭环，即你获得实时数据，并根据它做出实时决策。这与开放循环咨询与闭环执行的观点截然不同。数据的速度和决策的速度定义了业务流程，并且与业务流程相结合。

因此，例如，如果你的流程很慢，比如抵押贷款发放。这是一个相当慢的系统。那里发生的决策很慢。今天，它可能以小时为单位，更有可能以天为单位。你获得的数据不必非常快，决策也不必非常快。光谱的另一端是你在自动驾驶汽车或炼油厂的某个安全关闭系统中，当事件发生时，你必须超快速地做出该决定，以防止发生某些事情。

因此，这种速度范围实际上与业务流程的半衰期相关联。慢速流程可以使用慢速数据。高速流程，快速数据。我看到犯的错误是人们关注慢速流程，并坚持他们拥有超高速数据，而决策是以小时、分钟或天为单位做出的。因此，了解数据的性质以及要用数据做出的决策实际上是你最终开始的地方。

我们创造了这个关于足够实时性的短语。你的执行时间必须与流程的半衰期时间相匹配。因此，在这种模式下，实时数据是从正在执行的流程中输出的数据。这可能是自动化。但实际上可能是网站正在获得大量的数据，用引号引起来说是“实时”的。然后，你如何处理它、执行它、提取它、存储它、分析它，以及你将用它做的所有事情开始在一定程度上决定数据的特征，以及用它做出的决策。

你获得高速数据，这可能是视频数据，这是超高速的，但除非你实际上在实时编辑，否则你不需要对该数据做出实时决策，这可能会发生。因此，数据流以及你如何处理它们决定了业务流程，并相应地决定了用它们做出的决策。你如何存储数据和处理数据，这实际上是我们今天希望进行的对话。

麦克·瓜尔蒂耶里：是的，我完全同意诺姆的观点。我经常告诉人们的是，这是业务时间，对吧？正如你把它放在业务流程的背景下。因此，华尔街交易算法，微秒级。 Uber 站在一个角落等待更新，汽车即将绕过角落，可能需要几秒钟。但从业务用例的角度来看，两者都可以被描述为实时用例。非常非常不同的时间范围，但我会将它们都描述为实时用例。

诺姆·犹大：我认为有趣的是用户对实时定义的看法。因此，你的 Uber 示例非常有趣，因为五到十年前，如果我在 10 分钟内收到回复，那就太好了。

[笑声]

远比出租车好。现在，我正在查看几秒钟，因为这是一个需要做出的实时决策。甚至包括抵押贷款发放示例。如果有一家公司可以在你在线时实际分析你的抵押贷款，并在几秒钟内说是或否，那么他们今天就拥有令人难以置信的商业优势。因此，我认为这其中一个有趣的后果是，如果你能以合适的速度获得正确的数据并进行相应处理，那么那些“缓慢”的流程可以变得更快。

麦克·瓜尔蒂耶里：是的，迈克尔，我过去与企业架构师进行的对话总是会讨论什么时间范围是实时的。我们不再进行这种对话了。因此，我认为人们更普遍地理解它是业务时间。由于我们正在讨论术语，高速、实时，我作为分析师收到的很多问题都以流媒体的形式出现。

我们想谈谈流媒体用例。有时这意味着，正如诺姆所说，它是高速数据，但我们不会立即对其做任何处理。但另一些时候，流媒体用例意味着它是实时数据，我们将立即对其进行分析或做出决策。因此，我认为流媒体也是这些重叠术语之一。

诺姆·犹大：关于实时的一个有趣的事情是，如果我将该数据流带入内存，并且我将其保存在内存中，我是否必须保留历史记录，或者我是否只保留当前值？我正在使用的有用数据是什么？在某些情况下，它是当前值。我不在乎你是怎么来的，但我关心现在的度量是什么。

在另一些情况下，你对导致当前位置的数据流非常感兴趣。在这种情况下，存储需求实际上是正交不同的，因为如果我实时存储大量数据，我是否应该存储所有数据？或者我是否每秒存储一次，或每两秒存储一次？我是否存储平均值？我是否实际存储所有实例？这再次取决于分析师对数据的更深入了解及其使用场景，以便能够确定这一点。因为在很多情况下，我只对当前值感兴趣。我感兴趣的是——

迈克尔·克里格斯曼：给我们一些例子。那么，存储数据与存储它的历史记录有什么区别？此外，这会带来什么影响？

NORM JUDAH: 举个例子，比如工业环境中的某种紧急关闭系统。我们继续用物联网的例子。有一个发射器，它会检查阀门是否打开。它每秒发送一条消息说：“我开着，我开着，我开着，我开着，我开着。” 然后出现一个信号说：“由于某种原因，我关了。” 你关心它已经开了一个半小时吗？还是关心它在特定时间点关闭？所以我不需要存储所有打开的数据，我只需要知道状态是相同的，并且在特定的基准时间点它存在。

当我实际看到它——或者说实例，对不起，不是第二秒，而是实例，当我看到它关闭时，我可能需要采取行动。所以我可能想存储所有的数据流，也可能不想。这取决于要解决的实际业务问题。但有很多这样的情况，你对实例感兴趣，而不是对历史感兴趣。在其他情况下，我实际上并不关心当前的测量值。我关心你是如何达到这个值的，在这种情况下，你对整个数据流感兴趣。

MIKE GUALTIERI: 是的，另一个例子——另一个物联网的例子，就是一个传感器不断发出温度数据。同样是90度，90度，90度。你并不一定关心它是否上升到100度又回到90度，而是关心它上升的速度，即变化率。如果突然从90度升到100度，那么可能就是那个紧急关闭的情况。这就是流式分析。这就是存储的概念。它是“有状态”的。意味着你一直在保持着这种状态。

这让我想到了另一个非常重要的实时数据例子，有时被称为复杂事件处理。但你感兴趣的是在特定时间段内发生的一系列事件。所以如果在一分钟内，这台机器的温度飙升，并且这台机器的振动水平下降。如果这种情况在一分钟内发生，我们就感兴趣，对吧？

你也可以想象金融场景。如果这只股票的价格上涨，而这只股票的价格在同一时间段内下跌，我们就会感兴趣。因此，为了处理这种情况，你必须存储结果。你必须——它必须是一个有状态的分析，你需要持续维护在实时数据上。

MICHAEL KRIGSMAN: 那么你在关注数据的数量和数据的速度，显然这将对你构建系统的方式，以及如何消费和存储这些数据产生影响。

NORM JUDAH: 是的，想象一下你是数据架构师或存储架构师。想象一下在那种情况下，就像 Mike 描述的那样。我不知道这个例子。我不知道这个用例。我知道我正在接收大量数据，并且我必须决定如何存储和存储什么。你实际上并不真正了解所有可能的最终用户案例，因此每个人做出的默认决定是：我将永远存储所有内容。然后我再构建这个东西，这可能是错误的答案。

所以数据分析师或存储架构师面临着一个可怕的困境，那就是试图理解可能的场景，以及他最终需要做什么才能开启这个功能，它会说：“我今天不会存储每个实例。我只会存储状态变化。” 但我实际上有能力开启一个系统，该系统会存储到该点的所有数据轨迹。如果我愿意，我可以打开和关闭它，而无需更改我的整体存储架构，因为事后重新进行存储方式将非常复杂。

MICHAEL KRIGSMAN: Mike，你刚刚要插一句。

MIKE GUALTIERI: 所以我的意思是，如果实时数据只有两个用例，一个是用例是单个事件发生。有单个数据，你关心这单个数据。 Norm 大致将此表示为第一个用例。但还有第二个更复杂的用例，我们一直在讨论，即对这些实时数据进行分析。

有以序列形式传入的数据，会影响某个分析或你在时间上检测到的某个模式。企业很容易想到第一个用例。发生这种情况，我就做这个。发生这种情况，我就做这个。他们很难想象后一种流媒体的用例，但这才是蕴藏着大量机会的地方。

NORM JUDAH: 我认为由此产生的一个有趣的场景是，假设你已经拥有——我们稍后会谈到这一点——一个可以进行异常检测的机器学习模型。在单个事件上进行异常检测非常容易。阀门打开了，我发现了异常，采取措施。但是如果你有多个指标的多个数据流，例如物联网场景、银行场景或交易场景，你就会有多个输入数据流。

你将这些数据输入到某个家伙编写、在某个地方训练的这个美妙的 ML 引擎中，突然它抛出一个异常。了解导致异常的所有这些变量之间的因果关系。这开始变得非常有趣，而且人类实际上无法直观地看到异常。需要一台具有这种复杂性的机器才能识别出异常。

但是人类必须决定如何处理它。深入了解正在发生的事情，了解系统的动态，以便能够利用该异常并采取相应的措施。这实际上是最有趣的问题之一，因为机器学习系统总是会抛出你意想不到的东西，那么你该怎么办？了解纠正措施、最佳行动方案，如果你能正确解释它，这可能具有难以置信的商业价值。或者产生的后果是：什么都不做，然后建筑物就烧毁了。

MIKE GUALTIERI: 正如 Norm 和我所描述的那样，有一些令人惊叹的用例机会。但企业对实时数据更感兴趣的是一些更平凡的用例，那就是——看看一个大型企业，看看应用程序组合。我和一家大型银行谈过，他们有 3,000 个应用程序。为什么？他们与所有这些公司合并——收购了所有这些公司，所以他们现在拥有所有这些不同的应用程序，甚至他们的财富管理部门可能有六个不同的应用程序，或者旅游和酒店业。

因此，对于许多企业来说，实时数据仅仅意味着在一个系统中发生了某些事情，我需要将其传递到另一个系统。我给你举一个非常简单的例子。旅游公司，航空公司。在预订系统上进行预订。忠诚度系统在那里，对吧？而且他们为客户构建了一个应用程序。因此，客户期望他们在进行预订时，当他们转到忠诚度系统时，他们会看到该预订在那里，并且他们将获得积分。

以前是通过大型批处理完成的。就像我们进行了预订，我们运行了作业，我们转储了文件，然后我们进行批处理，我们更新了忠诚度系统。这不足以创造出色的客户体验。期望更高了。

因此，对于某些企业来说，实时仅仅意味着当我们进行预订时，我们希望立即发送它并更新忠诚度系统。因此，当你查看非常流行的开源项目 Kafka 时。它的用例就是交付用例。因此，许多企业都是从该用例开始的，而这本身就提供了很大的价值。

NORM JUDAH: 我只是想——Mike，对不起。我想稍微谈一下，因为这会产生一个非常有趣的后果，那就是模式理解。实际上要确保我发送给你的信息，你将其解释为与我的解释方式相同。

因为预订在你的两个系统中可能意味着不同的东西。确认的预订与保留的预订，当你开始量化预订时，它开始意味着不同的东西。我看到——特别是在一个公司内部或跨公司的不同组织中，你谈到的积分系统实际上可能位于第三方系统中。

这两个系统之间缺乏互操作性是一个巨大的问题，因为当我向你发送数据时，我指的是某个意思，而你将其解释为其他意思。因此，数据的速度是一个真正的问题，但对数据的理解实际上同样重要。因此，关于自我描述数据存在着有趣的难题，即当我实际移动数据包时，我不仅移动了数据点，而且还移动了数据的描述。

现在这是一个约定的描述，你可以回顾多年前的 EDI，它实际上试图使用自我描述数据来做到这一点。我们嘲笑 EDI，但他们实际上在那个时间段内做了一些很棒的事情，以确保实时数据是自我描述的。并且可以跨越某些边界，并且仍然有意义。

MICHAEL KRIGSMAN: 因此，我们刚刚讨论了实时数据的性质以及一些应用程序。那么，与创建可以处理和管理此类数据的业务系统相关的技术挑战是什么？

MIKE GUALTIERI: 嗯，我首先总是喜欢说关于实时数据的是，什么数据不是实时产生的？对吧？因为从系统的角度来看，它会立即以实时形式具体化，并且必须对该数据进行处理。也许不是从业务角度出发，更多时候是从业务角度出发，但必须对该数据进行一些技术处理。

它要么必须存储，要么必须移动，要么必须发送到另一个系统。因此，我们有一个框架来描述实时数据的三种场景，我大致提到了其中一种，即交付，对吧？数据在某个系统中产生，需要立即交付到其他地方。 A 点、B 点、C 点、D 点、E 点，对吧？可能不只是点对点，它可能是广播，但必须交付，而这就是你试图用它做的一切。你可以像 Norm 谈到的那样做一些小的丰富。你可以使用模式做一些事情，以某种每个人都理解的标准化方式广播它。

第二个是我们谈到的场景，即分析型，这是一个有状态的查询。你在查看实时数据流，并对其进行实时分析。这种实时分析将决定你采取的行动。这种实时分析可以是机器学习模型，可以是简单的平均值，也可以是某种复杂的顺序模式检测。它可以是地理位置，比如进入了不同的区域。所以这里有交付，有分析。

最后一个用例我称之为实时数据处理。在这里，你需要转换这些数据，必须实时转换这些数据，并通常将其交付到更大的存储库，以供临时使用。这可能是一个数据仓库，也可能是一个数据湖，人们正在查询它，并且需要查询它。因此，它需要实时更新。可能一个小时内不会被查询，但也可能立即被查询。这就是三个用例，它们需要非常不同的技术，我们可以谈谈这些技术。

NORM JUDAH：我想回到交付，因为数据交付还有另一个核心要素，特别是对于物联网来说，顺序很重要。这就是保证仅按顺序交付一次。说起来容易，做起来难得多，因为数据的顺序非常重要。获得这种事务性交付，并确保它连贯地发生。触发我的想法是，当 Mike 谈到扇出时，如果我有一个数据源被发送到多个地方，你实际上想确保他们都获得相同的数据，以相同的顺序，用于正确的应用程序。

它并不适用于所有人，但在正确的顺序中，交易实际上就是一个例子。因此，在这种交付上能够做到这一点的底层网络是你做出的选择。我们谈到了一些技术。当你开始部署和理解这些系统时，这会成为你可以做出的选择。但是，更高级的分析可能完全依赖于顺序。如果你获得了正确的数据，但顺序错误，你绝对可能做出错误的决定。

MIKE GUALTIERI：是的，作为补充，有些事件有时间戳，有些则没有。如果没有时间戳，那么时间戳就是你获得它的时间。当某个特定技术获得它时。但如果它有时间戳，某些技术可以在一定程度上处理乱序事件，对吧？如果在一定的时间窗口内，它可以根据延迟到达的事件重新处理分析，所以这可能会变得复杂。

MICHAEL KRIGSMAN：数据库当然是所有这些内容中非常重要的一部分。是否有适合实时数据的数据库的特殊特征？

MIKE GUALTIERI：哦，嗯，数据库领域发生了很多事情。首先，绝对的，数据库已经是一个实时的工具，对吧，如果你想到一个事务性数据库，那就是它。我们正在更新这个记录。我们正在进行一个实时发生的事务，或者应该如此。但是，数据库处理流数据的概念现在也成为现实，对吧？

因为很多你认为是传入的事务，不一定是应用程序通过 API 或应用程序来完成这些事务。它实际上可能是事件驱动的。意味着只是有实时数据传入，并且需要进入该数据库。因此，我们越来越多地看到数据库技术能够适应这种摄取。这里的技术挑战是，嗯，数据库的技术挑战始终是在不影响其他工作负载的情况下处理这些不同的工作负载，对吧？

所以，这就是为什么至少在历史上，你会看到事务性数据库非常擅长事务处理，而数据库非常擅长数据仓库，比如全表扫描查询。而流式传输增加了另一种工作负载，它会饱和网络带宽，并做一大堆其他糟糕的事情，从而影响其他工作负载。因此，数据库供应商正在通过能够适应这些工作负载来做出响应，但以一种平衡不同需求的性能的方式来管理它们。

NORM JUDAH：我认为 Michael，如果你将所谓的数据库问题分解成几个片段，其中一个片段是关于存储，以及将东西保存更长时间。数据库的另一部分是让应用程序可以使用这些信息进行处理。这里有一个有趣的挑战，它围绕着这两个镜像以及它们之间的同步性。因为平均而言，它们实际上是相同的。但在任何瞬间，它们实际上可能都不是。但是，在一整天的时间里，一天的积分对于它们来说是相同的，但在任何特定时刻它们都不是。

因此，你如何看待数据库，并设置你的业务存储需求，无论是存档存储还是其他，以及应用程序的可用性。你需要将这些层彼此分离，并了解使用场景。它们都可能是不同的，因为你可能不需要最终的存储，但你需要高速的信息可用性，例如 API。因此，数据库是一个非常广泛的术语。你必须开始将其分解，并开始查看子系统。并更好地了解你如何需要这些子系统，以及如何获取数据、使用数据、摄取数据、发布数据等等，以便能够更好地理解你架构的正确选择。

MICHAEL KRIGSMAN：所以你们都使用了“机器学习”这个术语。机器学习如何与实时数据交叉？ Mike，你想跳进来回答这个问题吗？

MIKE GUALTIERI：是的。这可能是一个复杂的问题，但让我来回答。让我先用一个简单的方式来回答。一个在其他地方的历史数据上训练出来的机器学习模型，是一个模型资产。它接收输入。它会产生一个输出，对吧？因此，在最简单的层面上，机器学习模型可以是一种服务，可以在传入的实时数据上调用它来做出决策。因此，它可以查看一个事件，并且它可以说，是的，这样做，不要那样做，或者它甚至可以增强它。因此，在最简单的层面上，在实时数据中使用机器学习非常非常简单。

现在，训练和创建那个模型可能非常困难，并且可能是在不同的平台上完成的。继续思考使用机器学习模型。从开发人员的角度来看，就像，嗯，有哪些参数输入？我能得到什么输出？但有时，实时数据流并不是很丰富。它可能只是一个设备 ID，仅此而已。但是，机器学习模型需要另外三个变量。它需要知道设备类型。它需要知道关于该设备的其他一些信息，以便做出预测。

因此，挑战变成了用数据丰富数据流。这就是 - 这就是许多机器学习的 - 机器学习的使用可能会崩溃的地方，就是数据的丰富，因为这可能成为一个完整的项目，只是为了将这三个额外的数据片段放在一起。因为它们可能存在于另一个数据库中，所以你最终会缓存它。这是第一点。

MICHAEL KRIGSMAN：给我们举个例子。

MIKE GUALTIERI：你的 - 我们一直在使用物联网的例子。所以我试图想出一个不同的例子，但是一个物联网的例子，其中有一个，让我们假设它是一辆送货卡车。其中一家大型送货卡车服务公司。那台机器有一个 ID，所以每次车辆停止时，它都会流式传输该车辆的 ID。并且它想要预测它接下来应该去哪里，对吧？它没有预先编程的路线。它会 - 每次停止时，它都会决定接下来去哪里。

因此，实时数据是那个设备 ID，但机器模型需要更多信息。它需要知道司机，它需要知道当前位置，它可能会通过 GPS 获得当前位置，但这还不够好，然后它需要知道街道。因此，你看，模型需要所有这些查找信息才能实际决定下一步应该做什么。因此，引入那些参考数据通常你需要将它保存在内存中。在内存数据库中，或内存缓存中来参考数据。

NORM JUDAH：实际上，我可以给你另一个你们可能熟悉的例子。假设你有一辆电动汽车，它具有一定的电池容量，然后在你的显示屏上它显示你已经使用了 x，还剩下 237 英里。显示了某个精确的数字。

然后你快乐地行驶着，你看到数字开始逐渐减少。然后你到达一个山口，你沿着山口向上行驶，山口顶部很冷。突然，你以为你还有 50 英里可以行驶，但现在系统说，不，不，不，你需要往回走，因为温度条件和海拔实际上已经改变了电池的特性。

在这种情况下，我不仅对地理位置感兴趣，而且实际上我对你正在去的地方感兴趣，所以你知道我的目标。你知道我正在走的路径，你可以更准确地预测环境因素将对电池产生的影响。因此，我的速度和位置是必要的，但远远不足以做出我是否掉头去给汽车充电的正确决定。

MIKE GUALTIERI：Michael，想想 - 这里还有一个例子。想想电子商务网站上的聊天机器人或数字助理，对吧？那是实时的，对吧？你是实时的。你正在询问有关产品或服务的问题，并且你期望得到响应。现在，如果该响应来自机器人，你需要实时处理它，并且是机器学习模型正在执行此操作。

一个不复杂的机器人不会是有状态的。它不会记住对话中的元素以便返回。它只会独立地处理每个问题。但是，一个更聪明的机器人将能够回溯，并且会看到整个对话的流程，所有这些都由机器学习驱动。并且所有这些都在用户进行此对话的实时环境中进行。

MICHAEL KRIGSMAN：在商业实践中，使用机器学习模型方面，我们现在处于什么状态？

MIKE GUALTIERI：嗯，我 -

MICHAEL KRIGSMAN：当涉及到实时数据时。

MIKE GUALTIERI：当涉及到实时数据时。嗯，让我给你一些我们拥有的数据点。多年来，我们一直在调查大型全球企业，询问，嘿，你们在做什么 - 你们在多大程度上在做 AI？我们没有定义它。我们只是说，你的公司在做什么？因此，目前 2020 年的回复率实际上我认为是 64％，好的。在 2019 年之前，它在 56％左右。在此之前的几年里，它也在上升。因此，我们有了一个非常非常大的峰值。

现在，除非是像互联网原生公司那样，或者像一些老牌公司那样，有 200 个用例，否则他们不会做很多。大多数公司只做六个或十几个，但当我们问那些正在使用这些用例的公司，它产生了多大程度的积极影响时，73% 的人表示它产生了积极影响。而且我们从调查数据中也知道，我还没有记住这些数据，但现在它是战略性的。它不是实验性的。公司正在前进。他们想要使用这些用例。

现在，你问到了这些用例的实时性。它们正变得越来越实时。我们一直在讨论这些用例。虽然也有用于机器学习的批量用例，就像有用于数据的批量用例一样。但我们认为人工智能——智能需要在实时环境中。因此，大多数用例不是实时的，不是因为人工智能是实时的，而是因为企业变得更加实时。人工智能因此也变得实时了。

NORM JUDAH：Michael，我认为如果你真的看一下这些非常大的模型，在海量数据集（包括私有和公共数据集）上训练的大模型，这些模型非常庞大，由此产生的系统也非常庞大。你需要强大的处理能力。在某些情况下，需要非常强大的处理能力来运行模型。而另一方面，是一个非常专注于单个用例、使用非常简单数据的模型。这是一个小得多的模型，可以在较低的配置下更快地执行。

因此，你可以看到物联网场景，其中模型在云中训练，但下载到边缘。并在边缘运行，可以进行一些非常成功且具有高价值的人工智能，但它不是可以在远离网络的地方完成的更大的全球性问题。因此，你有在边缘运行的 ML，在网络中运行的 ML，然后在云中运行的 ML。

它们的复杂性和执行环境的规模都不同。因此，如果你回到关于这些事情发生在何处的问题，我看到很多关于人工智能的事情实际上发生在云中。人们在云中进行大型模型实验。而在边缘，你实际上会看到非常专注的工作。如果你在边缘拥有合适的计算环境，实际上会更容易一些。

摄像头识别就是其中之一，它可以识别你家门口的人。我们看到它现在正被疯狂地商业化，但如果你想想你的摄像头里正在发生什么，与五年前相比，这真是太有趣了。因此，你正在看到机器学习被广泛部署，以至于你没有意识到它正在发生。

另一方面，在云中的复杂问题上，我们看到这些问题——特别是在银行和制造业，在消费品中，它们正在云中由大型团队开发，具有巨大的价值。因此，你的问题需要从整个角度来审视。我想再补充一点——抱歉。

MICHAEL KRIGSMAN：你知道——请继续。我不想打断你。

NORM JUDAH：所以我想再补充一个维度，那就是做这项工作的公司的性质，以及某种程度上是市场机会。因为我们正在谈论的场景通常对于那些从 IT 角度来看相对复杂的公司而言，他们可以自己承担这项任务，或者花钱让别人以某种方式为他们做。

而且他们已经试验了一段时间。Mike 谈到了那些在战略和执行方面上升的数字。但是，在中型公司中存在着一个可靠的机会，他们没有能力做到这一点。因此，至少在我看来，其结果将是一个模型市场，这是一个中型企业。

我将能够出去购买一个足够好的模型，但可能不是超级棒，但它足以推动我前进。而且我认为你会在较慢的环境中看到这一点，也会在更实时的环境中看到这一点，在那里你将能够购买模型并快速部署和执行它们，因为它们已经包含在这种完整的运行时环境中，而且你——如果愿意，可以预先训练它们。它们可能并不完美，但它们足以增加价值。

MICHAEL KRIGSMAN：所有这些引出了一个问题，商业领袖应该如何思考使用实时数据来支持他们的业务、他们的商业模式、他们的客户？对于一个商人来说，正确的方法是什么？Mike，你想试试吗？

MIKE GUALTIERI：当然。所以这个建议不仅适用于实时数据，也适用于人工智能。因为它们都适用于相同的流程，那就是审视你的业务流程。先忘记实时，忘记人工智能这个词，如果需要的话，就在白板上逐步分析一个业务流程。分析每一个步骤，然后问自己两个问题。我可以在这里预测些什么，让这个过程更智能？例如跳过一个步骤，或者做出更好的自动化决策。我可以在这个过程中更快地做些什么？

当你这样做，并且以这种方式提问，把技术放在一边。很快，你就会有六个以上的机会来改进这个过程。这些机会将对应于人工智能和机器学习中的一个或两个。

现在，关于投资其中任何一个，都是有成本的，对吧？你一开始并不担心这个，对吧？然后，你将不得不请一些技术专家来进行直观的评估，看看我们是否可以这样做，因为你必须优先考虑这些用例。而机器学习和投资令人讨厌的地方在于，你尝试之前，你不知道它是否有效。

因为如果你要做自定义模型，你实际上必须尝试用你拥有的数据来训练一个模型。我的意思是，Norm 提出了关于预训练模型的一个很好的观点，对吧？这些模型已经完全成熟，你可以直接使用。但是你必须以类似于风险投资公司投资公司的方式投资于机器学习模型用例。

他们进行尽职调查，他们相信他们都会成功，但从概率上讲，会有两个巨大的成功。因此，这也是一种不同的投资应用方式。而且在某种程度上，这也适用于流式传输，因为获得并在同一过程中使用流式传输数据也会产生一些成本。

MICHAEL KRIGSMAN：Norm，这听起来有点难看。如果我是一个商人——我不是风险投资家。我想要可预测性，我想要一个团队，获得技术，并且我想知道它会奏效。

NORM JUDAH：我喜欢你在其中提到的“商业领袖”这个词，因为我所看到的关于人工智能的实验，主要是那些技术人员玩得很开心，决定他们应该使用哪个引擎，或者他们有什么数据，但没有真正的商业成果。他们做实验，他们做一些事情，你会看到一个梯形，即看到对开发的兴趣。你看到我们在尝试它，然后它就下降了，因为什么都没有发生。

因此，正如 Mike 所说，我认为非常重要的一点是，业务负责人，销售副总裁或营销副总裁实际上是这项活动的发起人。他们定义了假设。让 IT 人员定义业务假设是没用的。必须有人定义我们正在努力加速的业务假设，或者我们可以实际执行的预测性质。

你需要限定时间。你需要说，好的，我们将给你六到八周的时间来做这件事，最后将有一个关于这项实验的退出标准。我们可以决定实验是否成功，以便进入下一个阶段。回到你的风险投资模式，在我们完成实验后，我们将进行 A 轮融资。

因此，这个概念是，你正在尝试解决一个业务流程。因此，业务购买不是一个重要的——而是来自业务的领导。因此，这不是一个技术问题。实际上，可能有很多技术可以解决它，甚至太多了。业务参与至关重要。如果没有它，你最好不要这样做，因为你会玩得很开心，但你实际上不会看到由此产生的商业利益。

MIKE GUALTIERI：是的，Michael，与其说这是一个难看的流程，不如说这是一个美丽的流程。

MICHAEL KRIGSMAN：好的，我是销售副总裁，我听到你们谈论这些，从理智上我明白了。但我开始呼吸困难，我感到心悸。

MIKE GUALTIERI：不，不。

MICHAEL KRIGSMAN：我想我该如何管理这种团队。

MIKE GUALTIERI：因为——好的，所以 Michael 作为销售副总裁，停止思考人工智能，停止思考机器学习，相反，告诉我你想要预测什么。我告诉你你想要预测什么。你可能想要预测将哪些销售人员分配给哪些客户。你可能想要预测他们达到配额的能力，而且你可能每天都想要更新这些信息。现在——

MICHAEL KRIGSMAN：是的，你被雇用了。你被雇用了。好的，很好。

MIKE GUALTIERI：我会为你构建模型。所以你不需要——所以这是关于你想在机器学习上预测什么的问题，我喜欢 Norm 表达的方式。然后我还会问你，你想要加速哪些流程？我知道答案。销售。一般来说，但我们会更详细地分解它。

NORM JUDAH：所以我想——让我说一下，因为既有销售预测，也让我给你一个关于财务预测的例子。这实际上是一个真实的用例。想象一下你是一家大型跨国公司，每个季度你实际上都需要汇总实际结果和下个季度的预测。每个大公司都有这个流程。

还有这种极其复杂且繁琐的申请流程，每个国家的销售副总裁都必须给出预测。这个预测会交给财务总监，财务总监会进行一些调整，然后当地国家的总经理会对预测做出判断。之后预测会提交到地区，地区也会做出判断，最后汇总到总部，你就会得到这个最终预测。

但如果你拥有过去 10 年每个国家的预测数据和实际数据，并且运行一个模型，那么看看这个模型对预测的准确性如何会很有意思。当然，这很复杂，因为你必须了解一个国家的经济状况。那里的动态，比如 COVID 这样的事件是无法预测的。

但如果你能创建一个模型，而不是让每个国家的七个人都接触数据，实际上只需要一两个人。而且，你可以创建一个更准确的预测，因为你不仅有预测，还有实际数据与预测的历史记录。我实际上可以彻底改变这个流程。这家特定的公司实际上已经这样做了，他们改变了他们进行预测的方式，并且从很多人手中夺走了预测的权力。而且他们实际上——因为他们有实际数据和预测，他们就可以变得更加真实。

MICHAEL KRIGSMAN：我喜欢这样。所以我可以更快地做出决定，我可以更有效地利用人力，而且我可以更准确地预测哪些客户可能会购买，以及如何像 Mike 描述的那样匹配销售代表。但有一件事仍然让我——我不喜欢这样，但有一件事仍然让我感到紧张，那就是我的团队内部是否需要进行某种文化转变，围绕以这种方式思考数据的使用？

NORM JUDAH：嗯，我不确定这是否真的是思考，因为 AI 只是另一种帮助你做出预测的方式。它非常复杂，因为它使用了大量的历史数据。它里面有很多模型，但这只是另一种分析工具，你可以利用它来让自己更具预测性。它的价值在于它实际上具有处理人类无法识别的复杂数据的强大能力。

模型可以做到的事情，人类至少在今天的情况下很难做到，即能够达到那个目标。所以这只是另一种看待分析的方式。如果你回到 CRM 系统，以之前的例子为例，并且我今天在 CRM 系统中查看一个销售管道。作为销售经理，我正在查看这个管道，我知道因为我的转化率是 30%，所以我的管道需要是我目标的 3 倍。

为什么？为什么你的管道应该有 3 倍的转化率，而别人的管道应该有 2 倍的转化率？因此，AI 帮助你做到这一点的能力就在于此，它可以处理那些复杂的场景。所以这和你今天做的事情没有什么不同。我认为真正的区别在于，作为销售副总裁，你之前所做的事情是直观的。那是你的思考方式。那是你的运作方式。你解释了信息。现在，你有了这个更复杂的工具，可以为你提供额外的输入，让你真正做出判断。

当 ML 系统，当 AI 系统，给你一个非直观的建议时，有趣的挑战就出现了。你作为一个人会说，不，不，不，不，我知道得更多，还是你实际上会相信机器的话？这就是判断部分变得非常有趣的地方。

MIKE GUALTIERI：是的，Michael，你对模型黑盒效应的担忧很普遍。但是机器学习社区，以及供应商，和开源社区在过去两年里在可解释性模型方面做了大量工作。所以现在你有了所有这些复杂的可解释性模型，它们是可消费的，并且是为商业人士设计的，他们会说，好吧，这里是变量。这是它做出这个决定的原因。现在，有些模型比其他模型更容易解释，但是有一个整体运动致力于可解释性，以帮助解决其中的一些问题。

NORM JUDAH：所以 Michael，我认为我对那些商业领袖的建议是，你需要去参加商业 AI 学校。就像你可能去参加过商业数据仓库学校一样。你需要去参加商业 AI 学校，这不是关于强化学习的深度，以及引擎实际如何工作，而是理解这些场景以及它能为你带来什么。因为如果你不这样做，你所有的竞争对手都会这样做，而且他们会因为他们获得的额外优势而抢走你的午餐。

MICHAEL KRIGSMAN：在我们结束的时候，让我问你们每个人同样的问题。Mike，让我从你开始。你对商业领袖在使用实时数据进行创新，并为他们的客户完成伟大事项方面有什么建议？

MIKE GUALTIERI：从流式传输开始。这是最简单的用例。它是关于数据在实时地从一个系统产生，并且可以立即在另一个系统中变得有价值。事实上，这是我们目前看到的实时数据最大的用例。所以这是可能的最低——这是那个问题最容易实现的目标。

而且那种类型的问题的分解就像我们之前所说的那样。它可以基于用户体验，你希望事情更快地更新，或者基于更快的业务流程。所以这是我的主要建议，这将让你的企业架构师和你的解决方案架构师忙碌很长时间。所以这是第一点。我再给你第二点。

第二点是真正理解这种有状态的实时分析的整体概念。我们称之为流式分析。并将它用作你一些关键业务流程中的创新策略。因为它对许多公司来说是最难理解和使用的东西，这意味着你的竞争对手也难以理解和使用。所以我认为如果你也理解这些概念，你真的能够找到一些创新。

MICHAEL KRIGSMAN：Norm，看起来你要获得最后发言的机会。你对商业领袖在使用实时数据来支持他们的业务、他们的客户和创新方面有什么建议？

NORM JUDAH：因此，流程的速度在观察者眼中。你如何看待这个流程的实时性，这就是你看到的。因此，我认为核心建议之一是你应该作为商业领袖提出的问题是，我们相信这个流程已经足够快了，但是如果我们能让它更快会怎么样？

我们能做些什么将这个流程从一天周期的足够实时转变为几分钟或几小时的足够实时？这会对我们的业务产生什么影响？因此，关键在于你如何加快你的流程？而且你是否拥有可用的数据来做到这一点？不要看你今天拥有的东西，而要看你可能拥有的东西。因此，重新思考流程，然后能够实时地处理它，机会巨大，巨大。所以本质上是重新思考流程。

我认为另一个是我们刚刚谈到的，那就是商业领袖需要站出来，并真正深入地了解这些系统的本质以及它们能做什么。无论是 AI，还是分析，还是流式传输，还是实时，还是边缘实时，中心实时，网络实时等等。商业领袖必须拥有这种理解。并且实际上应该鼓励他们与他们的 CTO、他们的技术领导者，以及他们的同行进行互动。

了解你的同行在市场上正在发生什么，因为我们正处于当今可能实现的事情的不连续性中。那些能够做到，并且做到的人非常成功。而那些观看的人将会观看很长时间。

MICHAEL KRIGSMAN：你们两位关于理解现在可能实现的能力的重要性都提出了很好的建议。并且与组织内外的人员交谈，以拥抱那些新的能力来支持你迫切希望实现的创新。Norm Judah 和 Mike Gualtieri 非常感谢你们。

NORM JUDAH：谢谢。

MIKE GUALTIERI：谢谢。