dot 速度的未来即将在您所在的城市举办一场活动。

加入我们参加 Redis 发布会

返回剧集列表

数据经济播客

主持人:迈克尔·克里格斯曼

数据经济播客 / 主持人:迈克尔·克里格斯曼

使用实时分析、流式传输、物联网和 AI 来现代化应用程序并提高业务价值

诺姆·犹大,前企业 CTO / 微软
迈克·瓜尔蒂耶里,副总裁兼首席分析师 / Forrester

https://www.youtube.com/embed/sLjue-7cHDQ

“如果您能以正确的速度获取正确的数据并相应地处理数据,那么‘缓慢’的流程可以变得快得多。”

诺姆·犹大
前企业 CTO / 微软

微软前 CTO 诺姆·犹大与 Forrester 副总裁兼分析师迈克·瓜尔蒂耶里讨论了将实时数据和 AI 用于应用程序现代化的挑战和潜力。在本集中,我们将简化问题,讨论技术,并谈论领导者可以用来加速创新和为客户提供服务的策略。

作为微软前 CTO,诺姆为全球客户制定和推动技术策略。在行业工作 40 年后,他退休了,目前是布道者和战略与领导力顾问,在创新和数字化转型领域发挥着关键作用。诺姆也是 EPAM System Inc. 和 Model9 的董事会顾问。在加入微软之前,他在 Imperial Oil 开发了领先的交易处理和实时分布式系统。

作为 Forrester 的副总裁兼分析师,迈克的研究重点是人工智能技术、平台和实践,这些技术、平台和实践使技术专业人员能够交付能够带来先见之明的数字体验和突破性运营效率的应用程序。他撰写了 130 多篇研究报告,并获得了 Forrester 勇气奖,表彰他大胆的呼吁,激励 Forrester 客户做出卓越的商业和技术决策。

诺姆·犹大
迈克·瓜尔蒂耶里
twitter icon
迈克·瓜尔蒂耶里

文字记录

迈克尔·克里格斯曼:我们正在与微软前企业 CTO 诺姆·犹大以及 Forrester 研究公司行业分析师迈克·瓜尔蒂耶里讨论实时数据和机器学习。

非常感谢 Redis 使这次对话成为可能。我非常感谢 Redis 让这一切成为现实。对于业务领导者来说,实时数据以及如何使用机器学习来分析这些数据,如何支持创新以及如何为客户带来出色的成果,这个问题仍然很复杂。

在这场对话中,我们将简化问题。我们将谈论技术,我们将谈论数据,我们将谈论机器学习,并将所有这些内容整合在一起,让企业人员,让企业领导者能够就这些主题做出明智的决策。以及如何使用数据进行创新,以及如何为您的客户带来出色的成果。

所以诺姆,跟我们谈谈您关注的领域。我知道您是微软的企业 CTO。您拥有非常广泛的背景。所以欢迎您,我很高兴听到您正在从事的工作。

诺姆·犹大:你好,迈克尔。谢谢。为了便于我理解,我大约四年前退休了。我以为我会无所事事,但事实并非如此。我实际上在这个领域非常活跃。但那之前 40 年都花在了两个主要的领域。大约 12 年在埃克森美孚从事炼油厂控制的实时系统。然后在微软工作了 28 年,从企业业务的突破开始,一直到 AI。因此,拥有广泛的背景,主要是在企业领域,也包括消费者领域。

迈克尔·克里格斯曼:太好了。迈克·瓜尔蒂耶里,与您交谈真是太棒了。告诉我们您在 Forrester 的工作领域。

迈克·瓜尔蒂耶里:嗯,我是一名行业分析师,所以我的工作是帮助我们的企业客户了解技术格局、用例和最佳实践。我特别关注实时数据——实时数据与人工智能的交叉点。

我认为大约 12 年前,我发布了 Forrester Wave 的第一篇报告,当时是关于 CEP,复杂事件处理,当时这是一种新兴的热门技术,用于分析实时数据。当时主要是金融和交易数据。从那时起,我认为我们即将讨论到,流式数据无处不在,实时数据无处不在。

迈克尔·克里格斯曼:所以诺姆,当我们谈论实时数据时,有时也称为高速数据,我们实际上指的是什么?

诺姆·犹大:是的,两者之间存在细微的差别,或者说并不那么细微。我认为对于我来说,一个很有意思的起点是,如果您可以获得这些信息,那么您能用它做什么?有一种是开放式循环控制系统的部分,即您获取数据,以某种方式处理它,然后采取一些行动,或者建议采取一些行动。

另一个方面是闭环,即您正在获取实时数据,并根据它做出实时决策。这与开放式循环的建议与闭环执行完全不同。数据的速度和决策的速度决定并与业务流程相结合。

因此,如果您有一个缓慢的流程,例如抵押贷款发放。这是一个相当缓慢的系统。在那里发生的决策很慢。可能需要几个小时,如今更有可能需要几天时间。您获取的数据不需要非常快,决策也不需要非常快。另一个极端是,您位于自动驾驶汽车或炼油厂中的安全停机系统,当事件发生时,您必须超快地做出决策才能阻止事故发生。

因此,存在一个速度谱,实际上与业务流程的半衰期相关联。缓慢的流程可以使用缓慢的数据。高速流程,快速数据。我看到人们犯的错误是,他们查看缓慢的流程,却坚持要求他们拥有超高速数据,而实际上决策是在几个小时、几分钟或几天内完成的。因此,了解数据和决策的性质是您实际上开始的地方。

我们创造了这个“足够实时的”短语。您的执行时间必须与流程的半衰期时间相匹配。因此,在这种模式下,实时数据是指来自正在执行的流程的数据。它可能是自动化。但实际上也可能是获取大量数据的网站,引号“实时”。然后,您如何处理它、执行它、摄取它、存储它、分析它以及使用它做的一切,在某种程度上开始决定数据的特征以及与之相关的决策。

您获得高速数据,例如视频数据,它的速度非常快,但您不必对这些数据做出实时决策,除非您确实是在实时编辑,这可能会发生。因此,数据流以及您如何处理它们决定了业务流程和随之而来的决策。您如何存储数据以及处理数据,这才是我们今天希望讨论的内容。

迈克·瓜尔蒂耶里:是的,我完全同意您的观点,诺姆。我经常告诉人们,是业务时间,对吧?正如您所言,它与业务流程的上下文相关。所以华尔街交易算法,微秒。Uber 站在街角等待更新,汽车将从拐角处驶来,可能需要几秒钟。但从业务用例的角度来看,两者都属于实时用例。时间框架截然不同,但我认为它们都是实时用例。

诺姆·犹大:我认为有趣的是用户对实时定义的感知。所以您的 Uber 例子真的很有意思,因为五到十年前,如果我能在一十分钟内得到回复,那将是极好的。

[笑声]

远远好于出租车。现在,我关注的是几秒钟,因为它是一个必须做出的实时决策。即使是抵押贷款发放的例子。如果您有一家公司能够在您在线时分析您的抵押贷款,并在几秒钟内给出是或否的答案,那么他们今天将拥有巨大的业务优势。我认为,有趣的结果是,如果您能以正确的速度获取正确的数据并相应地处理数据,那么那些原本“缓慢”的流程可以变得快得多。

迈克·瓜尔蒂耶里:是的,迈克尔,我过去与企业架构师的对话总是会围绕着什么是实时的时间框架进行。我们不再进行这种对话。所以我想人们普遍认识到,它是业务时间。既然我们正在谈论术语,高速、实时,我作为分析师收到的很多问题都与流式传输相关。

我们想要讨论一个流式用例。有时这意味着,正如诺姆所说,它是高速数据,但我们不会立即对其进行任何操作。但其他时候,流式用例意味着它是实时数据,我们将立即对其进行分析或做出决策。所以我想说,流式传输也是这些重叠术语之一。

诺姆·犹大:关于实时数据的有趣之处之一是,如果我将该数据流带入内存,并且它在内存中,我是否需要保留历史记录,或者我只需要保留当前值?什么是正在使用的有用数据?在某些情况下,它是当前值。我不关心您是如何来到这里的,但我关心现在测量的是什么。

在其他情况下,你对导致当前状态的数据流非常感兴趣。在这种情况下,存储需求实际上在本质上是正交不同的,因为如果我在实时存储大量数据,我应该存储所有数据吗?还是每秒存储一次,或者每两秒存储一次?我是存储平均值吗?我是否真的存储所有实例?这再次归结到分析师对数据的更深入理解及其使用场景,以便能够确定这一点。因为在很多情况下,我只对当前值感兴趣。我感兴趣的是 - 

迈克尔·克里格斯曼:举一些这样的例子吧。那么,存储数据与存储它的历史记录(你如何到达那里)有什么区别?这又有什么影响呢? 

诺姆·朱达:举个例子,在工业环境中,某种类型的紧急停机系统。先从物联网说起。有一个发射器,它观察阀门是否打开。每秒钟它会向你发送一条消息,说,我打开了,我打开了,我打开了,我打开了,我打开了。然后会收到一个信号,说,由于某种原因,我关上了。你是否关心它已经打开了一个半小时,或者你是否关心它在某个特定时间点关闭了?所以我不需要存储所有打开的数据,我只需要知道状态是一样的,并且在某个特定的基准时间存在。 

我实际看到它关闭的那一刻 - 或者说是实例,抱歉,不是秒,而是实例,我看到它关闭了,现在我可能需要采取行动。因此,我可能想要存储所有数据流,也可能不想存储。这取决于实际要解决的业务问题。但在许多这样的情况下,你感兴趣的是实例,而不是历史记录。在其他情况下,我实际上不关心当前的度量值。我关心你如何到达那里,在这种情况下,你对整个数据流感兴趣。 

迈克·瓜尔蒂埃里:是的,另一个例子 - 另一个物联网例子,是一些传感器一直在发出温度信号。同样的事情,90 度,90 度,90 度。你并不一定关心它是否上升到 100 度然后回到 90 度,而是关心它变化的速度。如果它突然从 90 度上升到 100 度,那么可能就是紧急停机的情况。这就是流式分析。这就是存储的想法。它是状态化的。这意味着你在保留它。 

这让我想到另一个关于实时数据的非常重要的例子,有时称为复杂事件处理。但你感兴趣的是在一定时间范围内发生的事件序列。因此,如果在一分钟内,这台机器的温度飙升,而这台机器的振动水平下降。如果这种情况在一分钟内发生,我们就感兴趣,对吧? 

你可以想象金融场景也是如此。如果这只股票的价格上涨,而另一只股票的价格在这段时间内下跌,我们就会感兴趣。因此,为了处理这种情况,你必须存储结果。你必须 - 它必须是一个状态化的分析,你必须在实时数据上保留它。 

迈克尔·克里格斯曼:所以你正在查看数据的容量和速度,显然这将对你的系统构建方式以及数据的消费、存储等产生影响。 

诺姆·朱达:是的,想象你是数据架构师或存储架构师。想象一下那个场景,只是迈克描述的那一个。但我不知道具体的例子。我不知道用例。我知道我收到了很多数据,我必须对如何存储和存储什么做出决定。你实际上并不真正了解所有可能的最终用户用例,因此每个人都会做出的默认决定是:我要永远存储所有数据。然后我会在之后构建它,这可能是错误的答案。 

所以数据分析师或存储架构师面临着可怕的困境,他们实际上试图理解可能的场景,以及他最终需要做什么才能能够打开它,这意味着我今天不会存储每个实例。我只会存储状态变化。但我具有实际打开一个系统的能力,该系统将存储到该点为止的数据轨迹。如果我想要,我可以打开和关闭它,而不必更改我的整体存储架构,因为事后重新设计存储方式将非常复杂。 

迈克尔·克里格斯曼:迈克,你正要插话说些什么。 

迈克·瓜尔蒂埃里:所以,我的意思是,如果实时数据只有两种用例,一种是发生单个事件。有一条单独的数据,你关心的是这条单独的数据。诺姆把它描述为第一个用例。但还有第二个更复杂的用例,我们一直在讨论,即对这些实时数据进行分析。 

有一系列数据进来,会影响它是否是某个分析,或者你在时间上检测到的某个模式。对于企业来说,想到第一个用例非常容易。发生这种情况,我就这样做。发生这种情况,我就这样做。对于他们来说,想象流式传输的第二个用例非常困难,但那里有大量的机会。 

诺姆·朱达:我认为由此衍生出的有趣场景是,假设你获得了 - 我们稍后会谈到这一点 - 一个可以实际进行异常检测的机器学习模型。单个事件的异常检测非常容易。阀门打开,我得到了一个异常,做点什么。但如果你有多个流,有多个度量,在一个物联网场景、银行场景或交易场景中,你有多个输入流进来。 

你将这些数据输入到这个由某个家伙在某个地方编写、在某个地方训练的奇妙的机器学习引擎中,突然它就抛出一个异常,说我发现了一个异常。理解导致异常的所有这些变量之间的因果关系。这开始变得相当有趣,对人类来说,实际上看不到异常并不直观。它需要这么复杂的机器才能识别异常。 

但人类必须决定如何处理它。并且深入理解正在发生的事情,系统的动态,以便能够利用该异常并采取行动。这实际上是最有趣的问题之一,因为机器学习系统不可避免地会抛出一些你意想不到的东西,现在你该怎么办?理解纠正措施,下一个最佳措施,你可以从中获得,这真是一个有趣的问题,如果你能正确地解释它,它可能具有巨大的商业价值。或者后果,就是什么也不做,然后建筑物就烧毁了。 

迈克·瓜尔蒂埃里:正如诺姆所描述的那样,正如我所描述的那样,在用例中有一些惊人的机会。但企业对实时数据有一些更平凡的兴趣,那就是 - 看看一个大型企业,看看它的应用程序组合。我和一家大型银行谈过,他们有 3000 个应用程序。为什么?他们合并了 - 他们收购了所有这些公司,现在他们拥有所有这些不同的应用程序,或者他们的财富管理部门可能拥有 6 个不同的应用程序,或者旅行和酒店业。 

因此,对于许多企业来说,实时数据仅仅意味着在一个系统中发生了一些事情,我需要将它传递到另一个系统。我举一个非常简单的例子。一家旅行公司,一家航空公司。预订是在预订系统中进行的。忠诚度系统在那里,对吧?他们为客户构建了一个应用程序。因此,客户的期望是,当他们进行预订时,当他们访问忠诚度系统时,他们会看到预订在那里,并且他们会获得积分。 

好吧,以前这是通过一个大型批处理过程完成的。就像我们进行了预订,我们运行了作业,我们转储了文件,然后我们对它进行批处理,我们更新了忠诚度系统。这不足以创造良好的客户体验。期望更高。 

因此,对于一些企业来说,实时数据仅仅意味着当我们进行预订时,我们希望立即发送它,并更新忠诚度系统。所以,当你看到一个非常流行的开源项目 Kafka 时。它的用例是那个交付用例。所以许多企业都是从这个用例开始的,而这本身就提供了很多价值。 

诺姆·朱达:我想 - 迈克,抱歉。我想稍微谈谈这一点,因为这有一个非常有趣的结果,那就是模式理解。并且实际上要确保我发送给你的信息实际上是 - 你按照我理解的方式来解释它。 

因为预订在你的两个系统中可能意味着不同的东西。并且确认的预订与保留的预订,你开始量化预订开始意味着不同的东西。并且我看到的地方之一 - 尤其是在一家公司内部或跨公司之间 - 你谈到的忠诚度系统,积分系统实际上可能在第三方系统中。 

这两个系统之间缺乏沟通能力是一个巨大的问题,因为当我向你发送数据时,我指的是某种含义,而你却把它解释成另一种含义。因此,数据的速度是一个真正的问题,但数据的理解实际上同样重要。这样一来,在两个不同的组织之间(无论是同一家公司内部还是跨公司),都会产生有趣的问题。例如,你谈到的积分系统实际上可能在第三方系统中。 

所以数据传输的速度确实是个问题,但理解数据同样重要。这样,两个不同的组织(无论是同一家公司内部还是跨公司),都会产生有趣的问题。例如,你谈到的积分系统实际上可能在第三方系统中。 

迈克尔·克里格斯曼:所以我们刚刚讨论了实时数据的性质,以及一些应用程序。创建能够处理和管理这种数据的业务系统的技术挑战有哪些? 

迈克·瓜尔蒂埃里:好吧,关于实时数据,我总是喜欢说的一件事是,什么数据不是从实时数据产生的?对吧?因为从系统的角度来看,它会立即在实时生成,并且必须对这些数据做些什么。也许从业务的角度来看,并非总是如此,但从技术角度来看,必须对这些数据做些什么。 

它要么必须被存储,要么必须被移动,要么必须被发送到另一个系统。所以我们有一个框架来描述实时数据的三个场景,我稍微提到了其中一个,那就是交付,对吧?数据起源于某个系统,它需要立即交付到其他地方。从 A 点到 B 点,再到 C 点、D 点和 E 点,对吧?可能不仅仅是点对点,它可能是广播,但它必须被交付,而这正是你想要通过它完成的。你可能需要做一些小的丰富,就像诺姆谈到的那样。你可能需要对模式做一些处理,以某种标准化的方式进行广播,以便每个人都能理解。 

第二个也是我们讨论的场景,即分析场景,这是一个有状态的查询。所以你正在查看这股实时数据流,并实时分析它。而实时分析将决定你采取的行动。这种实时分析可能是一个机器学习模型,也可能是一个简单的平均值,或者可能是一种复杂的顺序模式检测。它可能是进入不同区域的地理位置。所以有交付,有分析。

然后最后一个用例就是我所说的实时数据处理。所以你将要转换这些数据——需要实时转换这些数据,然后通常将其交付给一些更大规模的仓库,这些仓库是按需使用的。所以它可能是一个数据仓库,也可能是一个数据湖,但人们会查询它,需要查询它。因此需要实时更新。它可能在一个小时内不会被查询,但也可能立即被查询。所以这三种用例,它们——其中三种需要截然不同的技术,我们可以谈谈。

NORM JUDAH:我只想回到交付,因为数据交付中还有另一个核心要素,特别是对于 IoT,序列计数很重要。即保证一次性按顺序交付。说起来容易做起来难,因为数据的顺序非常重要。要获得这种事务性交付,并确保它连贯地发生。让我想到这一点的是,当迈克谈到扇出时,我实际上有一个数据源正在被发送到多个地方,你实际上想确保它们都以相同的顺序获得相同的数据,以便于正确的应用。

它并不适合所有人,但必须按正确的顺序,交易实际上就是其中一个例子。因此,能够在交付中做到这一点的底层网络是你做出的选择。所以我们讨论了一些技术。这成为你可以做出的选择,当你开始部署和理解这些系统时。但更高级的分析可能完全依赖于顺序。如果你获得了正确的数据,但顺序不对,你绝对会做出错误的决定。

MIKE GUALTIERI:是的,除此之外,有些事件有时间戳,有些没有。如果没有,那么时间戳就是你获得它的时间。某个特定技术获得它的时间。但如果它有时间戳,有些技术可以在一定程度上处理乱序事件,对吧?如果它在一个特定的时间窗口内,它可以根据晚到的事件重新处理分析,所以它会变得很复杂。

MICHAEL KRIGSMAN:数据库当然在这一切中非常重要。数据库是否具有适合实时数据的特殊特征?

MIKE GUALTIERI:哦,我的意思是,数据库领域发生了很多事情。所以首先,当然——数据库本身就是一个实时工具,如果你想到一个事务性数据库,它就是这样的。我们正在更新这条记录。我们正在进行——我们正在进行一个实时发生的事务,或者它应该发生。但数据库处理流数据的概念现在也是一种现实,对吧?

因为很多你认为是通过 API 或应用程序进入的事务,并不一定是由应用程序发起的。它实际上可能是事件驱动的。也就是说,有实时数据流入,需要进入数据库。因此,我们越来越看到数据库技术能够适应这种数据摄取。而那里的技术挑战是——好吧,数据库的技术挑战始终是处理这些不同的工作负载,而不会影响其他工作负载,对吧?

所以,这就是为什么至少在历史上,你会看到事务性数据库非常擅长处理事务,而数据仓库数据库非常擅长处理全表扫描查询。而流数据添加了另一个工作负载,它会饱和网络带宽,并做一些其他可能影响其他工作负载的糟糕事情。所以数据库供应商正在做出反应,他们能够容纳这些工作负载,但要以平衡不同需求性能的方式管理它们。

NORM JUDAH:我认为迈克尔,如果你实际上将引号数据库问题分解成几个部分,其中一个部分是关于存储,以及长时间保留数据。数据库的另一部分是将这些信息提供给应用程序进行处理。这里有一个有趣的挑战,它与这两个图像以及它们之间的同步性有关。因为平均而言,它们实际上是一样的。但它们在任何时刻实际上可能并不相同。但在一天的时间里——一天时间的积分是相同的,但在任何特定时刻,它们并不相同。

因此,你如何看待数据库,并为存储设置业务需求,无论是归档存储还是其他存储,以及应用程序的可用性。你需要将这些层相互分离,并理解使用场景。它们都将不同,因为你可能不需要最终存储,但你确实需要例如对 API 的高速信息可用性。因此数据库是一个非常宽泛的术语。你必须开始将其分解,并开始查看子系统。并更好地了解你如何需要这些子系统,以及如何获取数据、使用它、摄取它、发布它,等等,以便能够理解你的架构的正确选择。

MICHAEL KRIGSMAN:所以你们都用过机器学习这个词。机器学习如何与实时数据交叉?迈克,你想加入进来谈谈这个吗?

MIKE GUALTIERI:是的。这个问题可能很复杂,但让我来回答它。让我先以一种简单的方式来回答它。机器学习模型在其他地方使用历史数据进行训练,它是一个模型资产。它接收输入。它将进行输出,对吧?所以,在最简单的层面上,机器学习模型可以是一个服务,它在传入的实时数据上被调用以做出决策。因此,它可以查看事件,并说,是的,这样做,不要这样做,或者它甚至可以增强它。所以,在最简单的层面上,在实时使用机器学习非常简单。

现在,训练和创建该模型可能非常困难,而且可能是在不同的平台上完成的。继续思考使用机器学习模型。从开发人员的角度来看,这就像,好吧,输入参数是什么?我得到什么输出?但有时流——实时数据流并不丰富。它可能是一个设备 ID,仅此而已。但机器学习模型需要三个其他变量。它需要知道设备类型。它需要知道关于该设备的一些其他信息,以便进行预测。

所以挑战就变成了用数据丰富流。而这就是——这就是很多机器学习——机器学习的使用可能失败的地方,因为丰富这些数据本身可能成为一个完整的项目,仅仅是为了将这三个额外的数据片段整合在一起。因为它们可能存在于另一个数据库中的某个地方,所以你最终会缓存它。所以这是第一个问题。

MICHAEL KRIGSMAN:举个例子吧。

MIKE GUALTIERI:所以你的——我们一直在使用 IoT 例子。所以,我试图找到一个不同的例子,但这是一个 IoT 例子,假设它是一辆送货卡车。大型送货卡车服务之一。而这台机器有一个 ID,所以它正在流——每次车辆停下来时,它都会流出该车辆的 ID。它想预测它接下来应该去哪里,对吧?它没有预先编程的路线。它将——每次停下来时,它都会决定接下来去哪里。

所以实时数据是那个设备 ID,但机器模型需要更多。它需要知道驾驶员,它需要知道当前位置,它可能作为 GPS 获得,但这还不够,然后它需要街道。所以看看模型实际上需要所有这些查找信息才能决定下一步去哪里。所以通常你必须将这些参考数据保存在内存中。在内存数据库或内存缓存中进行参考数据。

NORM JUDAH:实际上,我再举个例子,你们中有些人可能很熟悉。假设你有一辆电动汽车,它有一定的电池容量,然后你的显示屏上显示你使用了 x,还有 237 英里的剩余电量。显示的是一个确切的数字。

然后你开心地一路行驶,你看到数字开始下降。然后你驶过一个山隘,你开上山隘,山顶很冷。突然间,你以为你还有 50 英里的路程,但现在系统说,不,不,不,你需要倒退,因为温度条件和海拔实际上改变了电池的特性。

在这种情况下,我不仅仅对地理位置感兴趣,我还对前瞻性感兴趣,比如我将要去哪里,所以你知道我的目标。你知道我正在采取的路径,你对环境因素对电池的影响可以更具预测性。因此,我的速度和位置是必要的,但不足以做出正确的决定,即我是否应该调头去给汽车充电。

MIKE GUALTIERI:迈克尔,想想——还有一个例子。想想电子商务网站上的聊天机器人或数字助理,对吧?那是实时的,对吧?你是在实时进行的。你正在问有关产品或服务的问题,并且你希望得到回复。现在,如果这个回复来自一个机器人,你需要实时处理它,而且是一个机器学习模型在做这件事。

而一个不太复杂的机器人将不会是有状态的。它不会记住对话中的元素以返回。它只会独立地对待每个问题。但一个更智能的机器人将能够参考,我们将看到对话的流,所有这些都由机器学习驱动。并且所有这一切都发生在用户进行此对话的实时环境中。

MICHAEL KRIGSMAN:那么,在当前时间点,企业在实践中使用机器学习模型处于什么状态?

MIKE GUALTIERI:嗯,我——

MICHAEL KRIGSMAN:在实时数据方面。

MIKE GUALTIERI:在实时数据方面。嗯,让我给你一些我们拥有的数据点。多年来,我们一直对大型全球企业进行调查,询问他们,嘿,你们在做什么——你们在多大程度上进行 AI?我们没有定义它。我们只是说,你们的公司在做什么?所以现在,2020 年的响应率实际上我认为是 64%,对吧。而 2019 年之前是 56%。然后在那之前,前几年的响应率也在上升。所以我们有一个非常非常大的涨幅。

现在,除非是像一家老牌公司这样的互联网原生公司,否则它们不会做太多,这些公司可能拥有 200 个用例。大多数公司都在做六七个用例,但当我们询问这些正在使用 AI 的公司,在多大程度上对它们产生了积极的影响,73% 的人说它产生了积极的影响。我们还从我们的调查数据中了解到,我没有记住数据,但现在它已经成为战略性的。它不是实验性的。公司正在前进。他们想做这些用例。

现在,你问到了这些用例的实时性。它们越来越成为实时用例。我们一直在讨论这些用例。对于机器学习来说,存在批处理用例,就像对于数据来说存在批处理用例一样。但我们希望 AI——这种智能是实时需要的。所以大多数这些用例并不是实时的,因为 AI 是实时的,而是因为企业正在变得越来越实时。因此,AI 凭借这一点变得更加实时。

诺姆·朱达:迈克尔,我认为如果你真正地去看这些非常大的模型,在海量数据集上训练的模型,包括私有和公共数据集,这些模型非常庞大,由此产生的系统也很庞大。你需要强大的处理能力,在某些情况下,需要非常强大的处理能力来运行模型。另一方面,有一个模型非常专注于一个单一的用例,使用非常简单的数据。它是一个小得多的模型,可以在更低的环境中更快地执行。

因此,你实际上可以看到物联网场景,在那里有一个模型在云端训练,但下载到边缘。然后在边缘运行,可以进行一些非常成功且具有高价值的 AI,但它不是更大的全球问题,可以在远离网络的地方完成。因此,你可以在边缘运行 ML,在网络中运行 ML,然后在云端运行 ML。

这些都是复杂性和执行环境的不同规模。所以,如果你回到关于这些事情发生在哪里这个问题,我看到很多关于 AI 的事情实际上是在云端发生的。人们在云端使用大型模型进行实验。你实际上看到非常专注的工作是在边缘。如果你在边缘有合适的计算环境,实际上更容易做到。

摄像头识别就是一个例子,它实际上是识别你家门口的人。我们现在看到它疯狂地商业化,但如果你想想你的摄像头里发生了什么,这与我们五年前相比非常有趣。所以,你正在看到机器学习被广泛部署,你甚至没有意识到它正在发生。

另一方面,在云端的复杂问题中,我们看到这些 - 我尤其是在银行、制造业和消费产品中看到它们,它们在云端由大型团队开发,具有巨大价值。因此,你的问题需要在整个范围内进行考察。我想再补充一点 - 对不起。

迈克尔·克里斯曼:你知道 - 请便。我无意打断,请继续。

诺姆·朱达:所以我想在这个问题上再增加一个维度,那就是做这项工作的公司的性质,以及在一定程度上市场机会。因为我们正在谈论的场景,从 IT 的角度来看,通常是相对复杂的,这些公司能够自己承担这项任务,或者以某种方式付钱给别人做。

他们已经实验了一段时间了。迈克谈到这些数字在战略和执行方面都在上升。但对于那些没有能力自己做这件事的中型公司来说,这是一个可靠的机会。因此,至少从我的角度来看,结果是将会有一个面向中型企业的模型市场。

我将能够去购买一个足够好的模型,虽然它可能不是超级棒,但它足以让我前进。我认为你会在更慢的 - 引用 “更慢的环境” 中看到这一点。但我认为你也会在更实时的情况下看到这一点,在那里你可以购买模型、部署和快速执行它们,因为它们被包装在这种完成的运行时环境中,而且你 - 如果愿意的话,可以预先训练。它们可能并不完美,但它们足以增加价值。

迈克尔·克里斯曼:这一切都引出了一个问题,企业领导者应该如何考虑使用实时数据来支持他们的业务、他们的商业模式、他们的客户?对于一个商人来说,正确的方法是什么?迈克,你想试试吗?

迈克·瓜尔蒂埃里:当然。所以这个建议不仅适用于实时数据,也适用于 AI。因为它们都适用于同一个流程,即检查你的业务流程。忘记实时,忘记 AI 这些词,如果你需要的话,就用白板来走一遍业务流程。并走遍该业务流程的每个步骤。因为当你分析所有这些步骤时,你会问自己两个问题:我在这里可以预测什么来使这个流程更智能?例如,跳过一个步骤,或者做出更好的自动化决策。我可以在这个流程中更快地做什么?

所以,当你这样做,以这种方式提出问题,将技术排除在外。很快,你就会有六个机会改进这个流程。这些机会将映射到 AI 和机器学习,或者两者兼而有之。

现在,关于投资这两者中的任何一个,这里有一件事。这样做是有成本的,对吧?一开始你不会担心这个问题,对吧?所以,你将不得不引入一些技术人员,让他们对我们是否能做到这一点进行一种直觉上的评估,因为你必须对这些用例进行优先排序。机器学习和投资的糟糕之处在于,在你尝试之前你不知道它是否有效。

因为如果你正在做定制模型,你实际上必须尝试用你拥有的数据来训练一个模型。我的意思是,诺姆关于预先训练模型的观点很好,对吧?它们是完全烘焙的,你也许可以将其中一个插入。但你将不得不以类似于风险投资公司投资公司的方式投资机器学习模型用例。

他们会尽职调查,他们相信它们都会成功,但从概率上讲,会有两个巨大的成功。所以,这是一种将投资应用于此的不同方式。在一定程度上,同样适用于流式传输,因为在同一个流程中,获取和使用流式传输数据也会产生一些成本。

迈克尔·克里斯曼:诺姆,这听起来有点糟糕。我不想 - 如果我是一个商人 - 我不是一个风险投资人。我想要可预测性,我想要一个团队,我想要技术,而且我想知道它会起作用。

诺姆·朱达:我喜欢你提出的引用 “企业领导者” 这个想法,因为从我所看到的实验来看,人工智能的实验主要是一些技术人员玩得很开心,决定他们应该使用哪种引擎,或者他们拥有什么数据,却没有真正的业务成果。他们进行实验,他们做了一些事情,你会看到这个梯形,你会看到对开发的兴趣。你会看到我们在用它做实验,然后它就消失了,因为什么也没发生。

因此,正如迈克所说,我认为企业领导者、销售副总裁或营销副总裁实际上是该活动的赞助者,这一点至关重要。他们定义假设。IT 人员定义业务假设是没有用的。必须有人定义我们试图加速什么,或者我们实际上可以执行什么预测性的业务假设。

你需要给它设定一个时间限制。你需要说,好吧,我们将给你六到八周的时间来做这件事,在最后,将会有一个实验退出标准。我们可以决定这个实验是否成功,从而让我们进入下一个阶段。回到你的风险投资模型,在我们完成实验后,我们将进行 A 轮融资。

因此,这是试图弄清楚的业务流程的概念。所以,商业购买并不重要 - 这是来自商业的领导力。因此,这不是一个技术问题。实际上,现在可能有很多技术,甚至太多了,无法解决它。商业参与是必不可少的。如果没有它,你最好别做,因为你会玩得很开心,但你不会看到由此产生的商业利益。

迈克·瓜尔蒂埃里:是的,迈克尔,与其说它是一个丑陋的流程,不如说它是一个美丽的流程。

迈克尔·克里斯曼:好的,我是销售副总裁,我听到你说这些话,从理智上我明白了。但我开始呼吸困难了,我觉得心跳加速了。

迈克·瓜尔蒂埃里:不,不。

迈克尔·克里斯曼:我一直在想,我该如何管理这样的团队。

迈克·瓜尔蒂埃里:因为 - 好的,迈克尔,作为销售副总裁,不要再想 AI 了,不要再想机器学习了,而是告诉我你想要预测什么。我会告诉你你想预测什么。你可能想预测哪些销售人员应该分配给哪些客户。你可能想预测他们实现配额的能力,而且你可能希望每天都收到更新。现在 -

迈克尔·克里斯曼:是的,你被录用了。你被录用了。好的,很好。

迈克·瓜尔蒂埃里:我会为你建立模型。所以,你不必 - 所以,这是关于你想要对机器学习进行什么预测的问题,我喜欢诺姆的表达方式。然后,我还会问你,你想加速哪些流程?我知道答案。销售。一般来说,但我们会把它分解得更细一些。

诺姆·朱达:所以,我认为 - 让我说一下,因为既有销售预测,但让我举一个关于财务预测的例子。这实际上是一个真实的用例。想象一下,你是一家大型公司,在全球范围内分布,而且你每个季度实际上都必须汇总下一个季度的实际和预测。每家大公司都有这样的情况。

有一个非常复杂、繁重的应用程序,在每个国家,销售副总裁都必须给出预测。它会传给财务主管,财务主管会对其进行一些调整,然后当地国家的总经理也会对其进行判断。然后它会传给区域,区域会进行一些判断,汇总到总部,然后你会得出这个预测。

但如果你实际上拥有过去十年每个国家实际和预测的数据,并且你运行一个模型。看看这个模型的预测准确率会很有趣。现在,这很复杂,因为你必须了解每个国家的经济状况。正在发生的动态事件,比如 COVID,是无法预测的。

但如果你可以生成一个模型,而不是让每个国家的七个人接触数据,实际上只需要一两个人。你实际上可以创建一个更准确的预测,因为你实际上不仅获得了预测,还获得了实际与预测的历史记录。我实际上可以完全改变这个流程。这家特定的公司实际上已经做到了这一点,他们已经改变了他们进行预测的方式,并将它从很多人的手中夺走。他们实际上 - 因为他们有实际数据和预测数据,所以他们实际上可以是真实的。

迈克尔·克里格斯曼:我喜欢这样。这样我就可以更快地做出决定,在人员使用方面更有效率,而且我对预测哪些客户可能会购买以及如何像迈克描述的那样匹配销售代表将获得更高的准确性。但是有一件事仍然让我感到不安 - 我当然不喜欢这样,但有一件事仍然让我感到不安,那就是我的团队内部是否需要进行某种文化转变,才能以这种方式思考数据的使用?

诺姆·朱达:嗯,我不知道是否真的是思考,因为人工智能只是帮助你进行预测的另一种方式。它非常复杂,它使用了大量的历史数据。它包含了各种模型,但它只是你拥有的另一种分析工具,可以让你更具预测性。它的价值在于它实际上拥有处理复杂数据的强大能力,而这些数据是人类无法识别的。

模型可以做到的事情,至少在今天,人类很难做到,从这个意义上来说,能够做到这一点。所以它只是另一种看待分析的方式。如果你回到之前的 CRM 系统示例,我今天在 CRM 系统中查看一个管道。作为销售经理,我正在查看那个管道,我知道因为我的转化率是 30%,我的管道需要是我的目标的 3 倍。

为什么?为什么你的管道应该有 3 倍的转化率,而其他人的管道应该有 2 倍的转化率?因此,人工智能能够帮助你做到这一点,这就是它的用武之地,以及处理这些复杂的场景。所以它与你今天正在做的事情没什么不同。我认为真正的区别在于,作为销售副总裁,你之前所做的事情是直观的。那是你的思维方式。那是你运营的方式。你解释了信息。现在,你拥有了这种更复杂工具,可以为你提供额外的输入,让你能够做出判断。

有趣的是,当机器学习系统,当人工智能系统给你一个建议时,它并不直观。作为人类,你会说,不,不,不,不,不,我知道的比你多,还是你会真的听从机器的建议?这就是判断的部分变得非常有趣的地方。

迈克·古阿尔蒂埃里:是的,迈克尔,你对模型的“黑盒效应”的担忧很普遍。但是机器学习社区、供应商和开源社区在过去两年里在可解释性模型方面做了很多工作。所以现在你拥有了所有这些复杂的可解释性模型,它们是可消费的,并且专为商业人士设计,他们可以这样说,好吧,这些是变量。这就是它做出这个决定的原因。现在,有些模型比其他模型更容易解释,但是有一整个运动正在朝着可解释性发展,以帮助解决一些这些问题。

诺姆·朱达:所以迈克尔,我认为我对那些商业领导者的建议是,你需要去上人工智能商学院。就像你可能去过数据仓库商学院一样。你需要去上人工智能商学院,这不是强化学习的深度,以及引擎的实际工作原理,而是理解场景以及它带给你的东西。因为如果你不这样做,你所有的竞争对手都会这样做,他们会因为他们拥有的额外优势而抢走你的午餐。

迈克尔·克里格斯曼:在我们结束的时候,请允许我问你们每个人同样的问题。迈克,让我从你开始。对于商业领导者来说,你有什么建议可以帮助他们利用实时数据进行创新,并为客户创造非凡的价值?

迈克·古阿尔蒂埃里:从流式处理开始。它是最简单的用例。它涉及到在实时系统中起源的数据,这些数据可以立即在另一个系统中变得有价值。事实上,这是我们目前看到的实时数据最大的用例。所以这是最可能的 - 这是最容易获得的成果。

而且这种问题的分解就像我们之前所说的。它可以基于用户体验,你希望更新更及时,或者基于更快的业务流程。所以这是我的主要建议,这将使你的企业架构师和解决方案架构师长时间忙碌。所以这是第一个。我再给你第二个建议。

第二个建议,真正理解有状态实时分析的概念。我们称之为流式分析。并将它作为你一些关键业务流程的创新策略。因为对于许多公司来说,这是最难理解和使用的东西,这意味着你的竞争对手也很难理解和使用它。所以我认为,如果你理解这些概念,你将真正能够找到一些创新。

迈克尔·克里格斯曼:诺姆,看起来你要说最后一句话了。你对商业领导者利用实时数据来支持他们的业务、客户和创新的建议是什么?

诺姆·朱达:所以流程的速度取决于观察者的眼睛。对流程实时性的解释是你如何看待它。所以,我认为核心建议之一是作为商业领导者应该问自己一个问题,那就是我们认为这个流程已经足够快了,但如果我们能够让它更快呢?

我们可以做些什么,将这个流程从一天一个周期的“足够实时”转变为以分钟和小时为单位的“足够实时”?这会对我们的业务产生什么影响?所以,想法是如何加快你的流程?你是否拥有能够做到这一点的数据?不要看你现在拥有什么,而是看看你将来可能拥有什么。所以要重新思考流程,然后能够实时地处理它,这是一个巨大的、巨大的机会。所以本质上是重新思考流程。

我认为另一个我们刚谈到的问题是,商业领导者需要站出来,真正深入了解这些系统的本质以及它们能够做什么。无论是人工智能、分析、流式处理、实时、边缘实时、中心实时、网络实时等等。商业领导者必须具备这种理解能力。并且实际上鼓励他们与他们的首席技术官、技术领导者以及他们的同行互动。

了解你的市场同行正在发生什么,因为我们正处于一个今天可能发生的事情的断裂点。能够做到这一点的人将会非常成功。而那些观看的人将要观看很长时间了。

迈克尔·克里格斯曼:两位都给出了很好的建议,强调了了解现在可能性的重要性。并与组织内部和外部的人员交谈,以拥抱这些新的能力,以支持你如此渴望的创新。诺姆·朱达和迈克·古阿尔蒂埃里,非常感谢你们。

诺姆·朱达:谢谢。

迈克·古阿尔蒂埃里:谢谢。

深入了解如何利用数据推动业务增长

你的同行也浏览了

Aerial view of a intersecting highway

电子书

金融服务中的数据创新

数字经济正挑战着银行家们重新评估他们的商业模式。了解在向实时金融服务转型时出现的四种常见挑战的解决方案。

随时了解最新的数据内容