dot 快速未来的活动将在您的城市举办。

加入我们在 Redis 发布会

返回剧集列表

数据经济播客

主持人:迈克尔·克里格斯曼

数据经济播客 / 主持人:迈克尔·克里格斯曼

优化机器学习模型以用于实时金融服务

斯科特·佐尔迪,首席分析官 / FICO

https://www.youtube.com/embed/oshYnZYnvkI

“我们作为分析科学家和做出决策的企业所面临的最大挑战之一,本质上是围绕延迟的服务水平协议…如果延迟要求是 20 毫秒,而您的决策在 25 毫秒后才到达,那就太迟了。”

斯科特·佐尔迪
首席分析官 / FICO

Scott Zoldi

斯科特·佐尔迪是 FICO 的首席分析官,负责 FICO 产品和技术解决方案的战略和分析开发,包括 FICO™ Falcon® Fraud Manager 产品,该产品保护了全球约三分之二的支付卡交易免遭欺诈。斯科特拥有 100 多项专利,积极参与利用 AI 和 ML 技术开发新的分析产品。最近,他专注于流式自学习分析在实时检测网络安全攻击和洗钱方面的应用。

在本期节目中,斯科特分享了 FICO 如何使用分析模型和数据来做出有关支付、欺诈和信贷的实时关键决策。他提供了见解,帮助指导希望提供实时金融服务的金融公司,包括现代化金融服务应用程序的三条建议,包括了解客户影响、优化基础设施和机器学习模型以进行实时数据处理以及促进跨团队协作,涵盖整个产品生命周期。

文字记录

Redis – 斯科特·佐尔迪

迈克尔·克里格斯曼:我们正在与 FICO 的首席分析官斯科特·佐尔迪交谈。讨论将涵盖海量实时数据,做出影响我们所有人、我们的财务、我们的信贷的决策。敬请关注一场引人入胜的讨论。斯科特,你好吗?很高兴见到你。

斯科特·佐尔迪:迈克尔,你好。你今天怎么样?

迈克尔·克里格斯曼:斯科特,跟我们说说 FICO 吧。

斯科特·佐尔迪:好的,FICO 是一家分析公司,大约有 60 年的历史,专注于从数据中获取分析价值。此外,还使用这些分析模型根据向它们提供的数据做出非常关键的决策。其中许多是实时的,许多是来自决策角度的正确时间点。所以我很高兴能谈谈我们所做的事情,以及数据在这个节目中的重要性。

迈克尔·克里格斯曼:当然,我们都知道 FICO 评分,所以这个评分是家喻户晓的。你是首席分析官,这个角色都包含哪些内容呢?

斯科特·佐尔迪:作为 FICO 的首席分析官,我负责我们在 AI 解决方案背后的分析或机器学习方面的策略。这包括对我们使用的数据类型和使用方式的权限。

因此,它将包括诸如了解我们需要的正确数据元素、何时需要它们、需要以什么顺序获得它们等情况?并确保我们可以将所有这些信息汇集到一个地方,以便我们的机器学习模型可以生成做出某些决策所需的评分和见解,无论是风险、欺诈、合规性,甚至营销。

迈克尔·克里格斯曼:你在这方面有很多专利。

斯科特·佐尔迪:是的,我现在已经在这家公司工作了 23 年。这是我最大的兴趣之一,你知道我之所以被 FICO 吸引,是因为数据。作为一名研究人员,我最初在洛斯阿拉莫斯国家实验室工作。因此,我一直受到我们根据为客户解决业务问题而产生的机器学习专利和数据使用专利的启发。

迈克尔·克里格斯曼:斯科特,我认为我们需要从最高层开始。所以你能告诉我们数据如何在 FICO 的业务中发挥作用吗?

斯科特·佐尔迪:数据真的是我们业务的血液。为了推动客户期望我们帮助他们做出的决策,我们真的需要关注这些模型需要的数据。作为一名机器学习科学家,这在 FICO 的业务中至关重要,确保我们拥有正确的数据,并且数据在正确的时间出现在正确的位置,是解决问题的 80% 到 90%,以确保我们拥有正确的数据,并且它能够流动起来。

因此,在某种意义上,它推动了我们在 FICO 必须做出的所有决策。因此,这至关重要,因为如果我们做不到这一点,几乎就是“垃圾进,垃圾出”。我们需要确保输入高质量的数据。从那里开始,我们就可以从我们的分析中,进而从我们的决策软件中获取价值。

迈克尔·克里格斯曼:你们收集、收集、处理哪些类型的数据?

斯科特·佐尔迪:我们业务中最大的一部分,也是我们最出名的部分是我们的欺诈解决方案。因此,我们在这里获取支付卡数据。想象一下,你想在网上购买东西,会进行授权。然后,该授权进入我们的决策软件,然后就会做出关于欺诈概率的决策。

这是我们拥有的许多实时数据的主要来源,也是我们在使用这些数据时面临这些固定实时要求约束的地方。但我们还有其他领域,比如我们在网络安全方面做过一些工作,在营销分析方面也做过一些工作,我们正在查看某人在杂货店购买的商品,以便对他们将来可能更有可能购买的商品或希望提供的激励措施做出预测。

因此,我们收集的这些数据种类繁多。它主要由欺诈、风险合规性、营销和其他用例决定。

但我认为,FICO 的独特之处在于我们已经使用这种大规模实时数据超过 30 年了。因此,它确实是我们业务的核心。事实上,你知道你提到的专利,其中我拥有超过 100 项专利。其中许多都集中在您在实时环境中遇到的独特挑战上,在该环境中处理数据并从模型中生成有意义的结果。

迈克尔·克里格斯曼:这当然就引出了这个问题,当你们处理如此规模的数据时,会遇到哪些独特的挑战?

斯科特·佐尔迪:我认为,作为分析科学家和做出决策的企业,我们一直面临的最大挑战之一是围绕延迟的服务水平协议。在当今的现代云计算中,许多人都对扩展行为感兴趣。他们谈论横向扩展,以及处理的交易总数。

但在实时应用程序中,存在延迟要求。因此,如果延迟要求是 20 毫秒,而您的决策在 25 毫秒后才到达,那就太迟了。因此,这些高度受限的,您需要获取数据,您需要进行必要的任何数据检查。

您需要处理该模型并在,比如说,20 毫秒内生成决策,它要么是是或否,要么是您做或不做。这需要大量的软件工程,因为您需要协调如何处理这些数据,以及如何持续保存您需要的数据,以便在这些低延迟环境中做出决策。

我认为,这是实时与流式或批处理如此有趣的原因之一,即需要始终在非常严格的约束条件下工作,并且在如何执行机器学习模型和这些延迟是重大挑战的决策方面非常聪明。

迈克尔,另一个主要的挑战是围绕排序。因此,在使用流式数据时,您无法对数据的排序进行太多控制。而这一点至关重要。举个例子,如果你想想,让我们坚持欺诈这个话题。如果在模型处理交易时交易的顺序搞乱了,就会产生非常非常不同的影响。

因此,如果我们看到您更改了与您的信用卡关联的电子邮件地址,然后我们看到在哈萨克斯坦发生了一笔奇怪的交易,这可能与看到相同的交易发生,但没有看到有关更改您的帐户凭据的信息有很大不同。因此,顺序在实时应用中非常重要。它对于根据这些数据做出准确和负责任的决策也很重要。

因此,我认为这些是约束条件,对我来说,延迟要求和独特的工程是约束条件,还有排序要求。因为这很重要。因为您试图忠实地再现发生的事情,比如说,与消费者相关的事情。而仅仅是近似是不够的,您需要确保拥有所有正确顺序的信息,以便能够做出关于该客户状态的正确决策。

迈克尔·克里格斯曼:您提到您的软件工程资源大量应用于解决这两个问题,即延迟和排序。

斯科特·佐尔迪:当我们与软件工程团队合作时,我们关注的是用于实时环境的独特数据库,基本上是键值存储。我们可以使用一个键,然后返回一组信息。我们如何有效地更新它并确保其一致性,这是我们进行的工程工作中非常重要的一部分。

作为分析团队,我们会将这些需求传达给开发团队,以确保这些技术能够在实时环境中正常运行。 

MICHAEL KRIGSMAN: 你提出了一个有趣的问题。分析团队如何与软件工程团队合作?他们之间有哪些重叠? 

SCOTT ZOLDI: 在我看来,我们某种程度上是产品经理。因为我们了解实现业务目标所需的要素,其中一部分是关注如何从分析执行的角度利用现有的技术?以及需要围绕它开发哪些专门的软件?因此,我们在很大程度上扮演着这两种角色。 

我们扮演着部分软件开发者的角色。因为本质上,在这种环境下,分析就变成了软件。我们不会简单地采用通用开源模型,并在我们所需的实时约束条件下执行它。这就是我们必须改变模型开发方式以适应软件角度带来的约束的原因。 

然后,我们必须提升软件处理关键存储数据的方式,以便能够获取与特定持卡人相关的信息,比如大规模获取。最终,模型和软件会融合成一个整体。因为我们发现,这个领域中的许多人都面临着同一个难题,即机器学习模型的运营化非常困难。如果在实时环境中进行运营,难度会增加 10 到 15 倍,因为一些现有的技术可能足以应对相对较高的延迟。但当我们面临低延迟、对模型性能有 SLA 要求、并且结果至关重要的情况下,我们就需要非常紧密的协作。在这种情况下,我们作为数据科学家、产品经理和软件开发者的角色会变得模糊。 

因为我们都在努力解决这些问题,而且这些问题深入到架构层,非常有趣。 

MICHAEL KRIGSMAN: 你们使用的延迟是多少?数据的规模又如何? 

SCOTT ZOLDI: 我们通常的目标延迟是 10 到 20 毫秒。这是我们努力达成的标准。具体取决于应用场景,可能需要更短或更长的窗口。通常,很大程度上取决于模型的部署方式,例如模型的一部分是在本地部署还是在云端?链路中是否还有额外的延迟? 

这实际上决定了延迟窗口和模型的约束。在我们大多数环境中,我们通常希望在每秒 1,000 到 10,000 笔交易中做出低延迟决策。这让你了解了数据量。也就是说,每笔交易的规模本身是可以解决的。 

但当你将延迟和吞吐量(TPS)结合起来时,情况就会变得非常具有挑战性。作为首席分析官,我的挑战,也是吸引我将这一领域作为研究和开发方向的驱动力是,我们需要在决策至关重要的场景中赋予机器学习模型极高的价值。想象一下,如果只是将传入数据流中的几个数据元素加在一起,并计算一个相对简单的评分,这比较简单。 

但要使用一个完全加载的基于 神经网络 的模型,比如现在许多欺诈和合规解决方案的基础,以及我们正在攻克的行为分析,这些都需要访问高效且可靠的关键存储数据库,整个过程变得非常复杂。但一旦成功,效果就很好,我们会获得非常巨大的价值。 

对于像 FICO 这样的公司来说,这正是我们的客户想要的。因为每个客户可能都不愿意投入如此多的研发资源,而像 FICO 这样的公司对这一领域充满热情,并拥有丰富的经验,他们专注于如何在保持延迟和吞吐量等指标的同时,不断提高模型性能。 

同时,我们还要不断提升决策的价值,以便我们的客户能够将这些决策应用于其下游决策策略。 

MICHAEL KRIGSMAN: 所以你的客户聘请你们根据机器学习模型做出这些决策。但真正让魔法成为可能的,是基础设施。 

SCOTT ZOLDI: 正确。在过去,也就是 20 年前,当 FICO 的软件运行时,我们会有一个时间窗口。如果你错过这个时间窗口,就无法完成计算并做出决策,或者更准确地说,无法提供评分,以便他们做出决策,那么他们就会进行回退。回退是一个分析价值低得多的决策。它可能是之前的评分,也可能是一套规则。 

一般来说,整个行业在产品合规领域,例如,已经发展到可以通过适当的软件实时完成所有这些操作。而在过去,人们不得不做出选择。比如,所有交易中 4%、6%、10% 的交易需要实时完成,而其余的交易被称为在线交易,需要延迟做出决策。技术已经发展了。 

现在,许多交易都是 100% 实时的。但你说的绝对正确,Michael,公司会与像 FICO 这样的公司合作,因为他们拥有能够满足这些要求的专门软件,因为这些软件对于欺诈检测和其他商业活动至关重要。 

MICHAEL KRIGSMAN: 你之前描述你的产品是决策、基础设施或软件工程的集合,所有这些打包在一起,本质上是你们出售的“软件”。 

SCOTT ZOLDI: 正确。所以我们要确保能够将数据导入系统,更新与之关联的数据库,生成评分。一旦评分生成,通常还会附带规则和策略。因此会自动做出决策,例如在支付卡领域,会做出批准或拒绝的决策。 

这就是为什么你的信用卡交易有时可能无法通过,因为交易可能是新的或者与你相关的风险较高。我可以想象,如果你在收银台前等候信用卡结算要花 2 秒钟,没有人会耐心地等待。坦率地说,我认为最令人兴奋的事情,Michael,是每个人都期望在实时毫秒级环境中,由机器学习模型驱动的宝贵决策。 

我认为用例将会爆炸式增长。欺诈是 30 年前最早成功应用的案例之一。但还有许多其他的用例,我认为这些用例会变得非常普遍,人们会期望实时洞察和决策。我们将看到越来越多的决策在整个客户生命周期中做出。 

除此之外,我认为坦率地说,从数据如何演变的角度来看,这也是非常有趣的,因为要确保所有数据同意都到位,并且我们拥有对所使用数据的控制。因此,我们不需要在这里进行更多开发。这不是一个已解决的问题,但行业的发展方向很明确。它将转向围绕“我想要我的机器学习决策或机器学习智能,现在就要,而不是以后”的期望。 

因为我会通过数字渠道以更有效的方式与 Michael 交互,从而让自己脱颖而出。在这种情况下,实时性和延迟将非常重要,并且在这个极小的窗口中做出正确决策的准确性也会对企业至关重要。 

MICHAEL KRIGSMAN: Scott,你们做出的决策充满了潜在的风险和责任,可能会对你们的客户及其客户(消费者)产生重大影响。所以你能带我们了解一下你在描述的 10 毫秒内需要做出的决策类型吗? 

SCOTT ZOLDI: 所以需要做出许多非常重要的决策。我关注的一点是,我们开发的分析方法适用于整个生命周期。这意味着当我们开发模型时,必须充分考虑到同一个模型将在一段时间内持续运行。 

因此,我们需要做出艰难的决定,即哪些数据源是我们做出高质量决策所需要的?哪些数据元素对决策很重要?我会进行迭代。有时需要在环境中进行操作才能了解这一点,这意味着要构建模型并找出哪些元素是正确的。 

然后,将这些元素持久化到整个链路,这意味着我们必须监控这些元素,包括这些元素的分布,以了解它们是否在适当的范围内,甚至包括我们模型中驱动这些决策的潜在特征,是否在适当的范围内? 

因此,一部分是所谓的可审计 AI 概念,即从最初开始,包括使用哪些数据、为什么使用这些数据、使用频率、对数据一致性的假设、每个数据元素的重要性以及对决策的影响,一直到监控,以确保模型正确使用这些元素。 

这意味着我们进行了道德测试、稳定性测试。我们会观察到变化。例如,模型如何呈现给模型?因为数据会发生变化,所以我们必须严格控制,并在数据可能发生变化时提醒用户,例如模型可能正在退化,或者对特定客户群体的准确性降低。 

这也是这方面的重要组成部分,也就是所谓的谦逊 AI 概念。它指的是模型具有识别自身偏差的能力,并能够提醒决策者,以便决策者将此信息纳入决策过程。 

但这只是更广泛的负责任 AI 决策、对话和框架的一部分,这些框架目前正在讨论之中。因为我们需要确保,尤其是在实时环境中,当决策要在几毫秒内做出时,我们必须拥有适当的提醒机制,以便在需要重新考虑或忽略当前决策的情况下,可以及时回退到更安全的基础设施。 

迈克尔·克里格斯曼:在我们转向负责任的 AI 之前,我认为这是一个极其重要的议题,你提到了云和本地部署。你能简单地为我们解释一下你如何看待云端和本地部署基础设施的元素,以及它们是如何组合在一起的?

斯科特·佐尔迪:是的,云端和本地部署是一个有趣的环境。我们的业务起步时,就像大多数企业一样,是本地部署的。云是一个较新的概念。云计算带来了很多好处。能够访问可扩展的计算资源,访问大量的存储空间,以及数据编排能力。所以,它是我们 FICO 战略中重要且关键的一部分。

与此同时,当我们看到低延迟环境时,它也带来了挑战。如果我们必须计算实际发送到云端的能量或时间,那么在许多情况下,这并不是有效的时间。如果我花了 10 毫秒的时间仅仅连接到云端并从云端返回来做出决策,而这个决策是位于一个授权系统中,而授权系统并不在云端,那么这会给整个价值主张增加额外负担。

因此,需要做出决策,即延迟的增量是否可以接受?我们可以在这些约束条件下工作。有时这意味着我们的客户可能会提高他们对决策的延迟要求。在其他情况下,它可能意味着我们约束分析。因此,基于我们可以汇总这些信息这一事实,云计算具有价值。

我们的客户不需要建立,比如,本地部署的应用程序来执行模型。但这实际上取决于计算所有为这些决策而产生的延迟,并了解它从 SLA 的角度意味着什么。本地部署虽然可以让你尽可能接近决策和数据运行。

数据并不存储在云端。数据必须到达云端,决策必须离开云端。相反,如果数据起源于客户现场,决策也在客户现场或授权环境中进行,那么将模型靠近那里非常重要。我认为这就是我们越来越多地关注我们所谓的边缘解决方案的原因。

边缘解决方案本质上意味着你可以在本地部署环境中有效地完成部分处理。然后,你可以在云环境中高效地进行其他类型的操作。一个例子可能是,在我们业务的某些部分,我们为商家维护风险配置文件。因此,我们了解欺诈发生在哪些商家。

所以,迈克尔,当你进行信用卡交易时,我们了解你的交易是否有什么奇怪的地方。但我们也会了解你正在交易的更广泛的视角。以及是否有欺诈活动或可疑的事情发生在那个商家?

这种商家汇总可以在云端非常有效地完成,不需要实时进行。它可以是一个近乎实时甚至每天更新一次的资产,以提供增量价值。因此,我认为云和本地部署将会融合。现在有一个重要的关注点,即决策软件的哪些部分或分析需要靠近数据,哪些部分不需要?

因此,我认为混合模型将是未来前进的道路,特别是对于这类应用,我们处于决策空间,并且存在延迟要求,需要实时或近乎实时地处理事务。

迈克尔·克里格斯曼:所以,对于你来说,云端和本地部署架构的决策主要受延迟和尽可能快地返回结果的效率驱动,而不是许多企业在考虑安全性和想要将数据保存在自己身边的情况下做出云端和本地部署的选择。听起来情况并非如此。

斯科特·佐尔迪:我们对云的安全性能感到非常满意。我们做了很多工作,云服务提供商也在做很多工作。我们每个客户都有自己的偏好和对数据传输的看法,但这并不是主要问题。我认为这已经很清楚并且得到控制。

但是的,它将更多地取决于技术上的可行性。就像我们谈论软件一样,我们对软件开发有独特的要求,我们对环境也有独特的要求。这通常是更大的驱动因素。迈克尔,这方面的另一个方面是,许多云环境(你是对的)除非你运行了专门的软件,否则你在基于云的环境中发现的一些商品功能可能并不真正适合实时计算。

因此,我们仍然看到基于风险的调用和其他不适合实时计算的东西。这是另一个观点,有时你会进入云环境,你会看到你与数据交互和解决分析问题的商品化视图。它可能适用于大量的分析问题,但它是否适用于实时决策有时是值得怀疑的。

因此,这方面是,有时拥有你自己的软件,无论是在云端运行(就像我们一样),还是不在云端运行,都是额外的投资。但另一方面是,我们是否拥有云端的所有组件来支持实时处理和决策。如果没有,那么这些混合模型将更有意义。

迈克尔·克里格斯曼:听起来,你很多关于架构选择的决策都是由数据的规模和实时性驱动的。也就是说,你所处的业务类型。

斯科特·佐尔迪:没错,我的意思是,我们看的是我的分析团队的一致性。你知道,我有博士学位的数据科学家,他们将精力集中在数据库理论上,以及如何确保在更新时能够锁定记录并保持一致性。

所以是的,我们肯定会在这种深入的架构讨论中进行很多思考。我认为这正是我们成功的原因,坦白地说,我们拥有专注于这种架构方面的数据科学家,他们如何驱动这些模型的差异化执行,以应对这些约束。

迈克尔·克里格斯曼:我很喜欢听到你们是如何专注于从决策模型到数据库功能的整个堆栈的。你们在关注一切。

斯科特·佐尔迪:是的,我们关注一切。你知道,我认为这。这是一个关于实时性的很好的比喻。如果你看实时,把它想象成你有一美元。你必须用 1 美元,你必须以某种方式买到一顿完整的饭。这将非常非常困难。你需要对晚餐吃什么或如何安排晚餐做出非常艰难的决定。

我认为如果这个链条中最小的部分效率低下,整个价值主张都会受到影响。我认为这就是我们如此投入其中的原因。但我也认为对于数据科学家来说,比如我在 FICO 工作了 23 年,我一直面临着挑战。当我看到软件开发环境的变化以及新产品的出现,或者开源的新功能,这让我们可以质疑如何改进各个部分。

因此,我们一直在对流程进行增量改进。我认为这也帮助数据科学家成为业务成功的重要组成部分。所以,对于数据科学家和数据科学团队来说,没有比这更好的了,因为它不是那种你发布模型,但没有人可以执行它,或者我们无法满足 SLA 的情况。我们都对此负责。我认为这真的很令人满足。

迈克尔·克里格斯曼:斯科特,你之前用过“负责任的 AI”这个词。你用过“谦逊的 AI”这个词,那么这些伦理决策是如何发挥作用的?为什么这对你的业务如此重要?因为你的核心业务是处理实时数据。那么,这方面有什么是道德的或不道德的呢?

斯科特·佐尔迪:伦理是我们思考中非常重要的部分,负责任的 AI 也是如此。我们需要关注的一点是,在世界上许多地方,这种被画像的概念已经存在,它基本上意味着你有一个系统,它会根据你的过去行为生成一个分析画像,接收当前的交易,然后生成分数并做出决策,这种行为可能会受到挑战。

当它受到挑战时,消费者,任何受到影响的人,都有机会挑战这个决定。因此,我们需要能够提供与决策相关的理由,以便分析师(与这位客户交谈的人)和客户本身都能理解决策是如何做出的。因此,了解驱动这些模型的因素至关重要。

因此,我们构建的模型是可以解释的。我们不携带不需要的数据,这对于实时系统来说通常是一个很好的原则。但它们在偏见和伦理方面极其重要。我们不想通过引入模型可以利用但可能学习噪声或可能对某个亚群体而不是另一个亚群体产生偏见来增加额外信息来推断偏见。

我认为,将数据视为一种责任是看待这个问题的最佳方式。并说,好吧,我添加到解决方案中的每个数据元素都会给决策增加越来越多的责任。当我们构建模型时,我们以适当的尊重态度对待这一点,我们了解这些数据元素的重要性。我们了解机器学习模型如何将这些元素组合在一起,并确保我们了解这是否会导致对群体产生偏见或不稳定,所有这些都很重要。

然后推动输出产生那些理由代码,这样客户就可以进行讨论。在某些情况下,我认为这对于这个环境来说将非常关键,也就是说,我不认同基于这个理由做出的这个决定。我认为数据是错误的。

现在这是一个问题,对吧?因为这要求我们需要有一个明确的数据来源记录,这样消费者就有机会可能纠正一些信息。所有这些都发生在决策做出时,是什么推动了分数方面的决策,那些理由代码是什么,是什么推动了那些理由代码?

最终可能需要与消费者讨论,哪些数据被使用,以及它是否准确。这就是负责任的 AI 的关注点,真正要关注的是,从数据的角度来看,到底使用了什么来做出这个决定,因为它可能会被消费者挑战,如果它被认为是在过程中不准确的。

迈克尔·克里格斯曼:在某些情况下,为了获得 AI 生成的决策而进行的分析几乎是不透明的。鉴于幕后可能存在的复杂性,你们如何确保你们的决策尽可能地没有偏见?

斯科特·佐尔迪:是的,这是一个重要的问题。在 FICO,我们坚持使用可解释的机器学习模型。这基本上意味着我们有能力超越我们可能使用但选择不使用的某些类型方法的不透明性。

所以,很多时候这意味着你可以用来构建模型的机器学习模型的类型数量,以及算法方面的类型,将被缩减到一个子集,一个 FICO 批准为可解释的子集。

然后我们有这个负责任的 AI 框架,用于我们所说的模型开发治理区块链,我们记录了我们如何构建该模型并测试该模型。我们许多模型需要数月甚至数年的时间才能构建。所以有时我们会被人看作恐龙,因为他们会说,在云端你可以直接将数据扔进去,然后按下开关。然后在两分钟内你就能得到一个模型。

这就是你得到不透明度和缺乏理解的地方。而行业正在朝着应用可解释 AI 和其他方法来尝试解释这些模型的方向发展。这还不够,因为你可能从一开始就构建了一个有问题的模型,而你没有一个合适的流程。

因此,无论是 FICO 评分,还是我们构建的这些实时应用,我们都会经历构建正确的步骤。在里面加入可解释的模型,进行道德测试,变量重要性分析,以及从稳定性角度来看我们需要做的任何其他事情。但也要监控何时会出现错误。

我认为,我真的很喜欢数据的概念。我的意思是,以及模型,我非常喜欢的一句话基本上是说,数据是有用的。它基本上说所有模型都是错误的。但有时它们是有用的。我想我改写了这句话。我说,好吧,根据数据,模型会或多或少地错误和有用。

因此,数据的走向,以及它是否在我们认为它应该在的范围内,基于我们如何开发模型,真正决定了这个模型是否是一个我们有很大信心的模型,以及评分是否是我们非常有信心的。或者像你之前提到的,我们是否要降级到一个谦逊的 AI 或其他策略?这是我们构建这些模型的重要组成部分。

显然在实时环境中,这一点更加重要。因为你没有时间去询问它。你需要有工具来识别可能存在的问题。或者我们需要人类进行额外的反省,以确保在我们大规模地自动化这些决策时,我们不会也大规模地自动化偏见或错误的决策。

这就是为什么不仅仅是模型。不仅仅是快速完成。还要在其中加入检查和平衡,以便在某些类型的客户的过程中抛出错误或警告,以便我们做出正确的决定。而且我们以道德的方式这样做。

MICHAEL KRIGSMAN:当你有了一个你非常确信在某种程度上会更有效的模型的想法,但你无法完全解释它的时候,是否会出现冲突?所以你一定很想说,让我们绕过它。我们就把它投入生产,现在不用担心。

SCOTT ZOLDI:我从未有过这种想法。我的坚定的信念是,我们的客户,以及消费者,我们不应该成为实验的小白鼠。我认为这种情况发生的太频繁了。我们看到新闻报道,模型被部署了,它们做了可怕的事情,人们写新闻文章来报道它。

这就是为什么我们在 FICO 拥有模型治理标准的原因,所以我们不允许这种情况发生。迈克尔,我们所做的是在开发之外进行广泛的研究。所以当我们谈论研发的时候,它是研究,可以把它想象成一个泳道,而开发是一个泳道。

因此,在我们引入任何算法之前,假设我认为什么东西是可以接受的,并且我可以解释它,它将经历至少一年的真实数据测试,这些数据是在我们的研究环境中获得的。只有在经过委员会的广泛审查和测试后,我们才会决定引入一项新技术。

所以很多时候,我们的客户会听到我们谈论一些新技术,但可能需要一年甚至更长时间才能将其引入软件。这有时与在实时环境中(例如在那种环境中)难以实现事物有关。但更常见的是,我们不会让我们的客户成为这种分析的小白鼠。

这就是我们在基本将其优先考虑用于模型开发之前进行广泛的研究和测试的原因。但不行,从未想过。我认为对于像 FICO 这样的公司或任何公司来说,仅仅将其投入其中,然后看看会发生什么,这是非常危险的。

MICHAEL KRIGSMAN:因此,治理框架和对这些治理框架的遵守是您经营业务的 DNA 的核心。

SCOTT ZOLDI:没错,我认为这可能需要 FICO 的新科学家适应一段时间,但一旦你稍微考虑一下一个糟糕的模型在规模上可能产生的影响,那么其中的一件好事是,FICO 在将模型推广到规模上取得了巨大的成功。

但你可以想象,如果我们开发了一个影响全国 80% 信用卡交易的模型,而这个模型很糟糕,那么就会有大量的消费者受到这一系列糟糕决策的影响。这成本太高了。因此,我们将注意力集中在消费者所受到的影响太大的事实。同样也适用于道德考量。

我们不会在没有经过广泛审查和确保学习到的关系是有效的的情况下,将大量数据投入到一个问题中。我们不能这样做,因为 AI 机器学习非常强大。而向我们涌来的数据,它为我们和企业提供了所有这些机会。但它也为做出冷酷无情的决定提供了机会,在这个决定中,人们不会质疑机器学习模型,即使我们告诉他们应该这样做。我们甚至可能会警告他们。

我们可能在规模上自动化偏见或错误,这存在着一种固有的挑战。因此,我们如何大规模地推动大量利益的宏伟愿景,也可能大规模地产生危害。我认为这是最可怕的事情之一,当我们将其视为数据科学家时,他们都很快意识到,他们不想仅仅发布一个包含错误的模型,一个没有经过适当治理的模型。然后我们就会有影响客户规模的东西。

所以,是的,治理是核心。我认为,即使是 FICO 最优秀的研究科学家,也很快就会明白为什么这如此重要。只要他们看到一条路径,迈克尔,他们可以将他们的研究考虑用于部署,并且他们理解这看起来是什么样子,那么他们就会接受它。这并不是说,这些是规则,你不可违反。是的,我们确实有关于影响客户的规则。

但还有另一个关于创新如何发生的流程。说到专利,在创新和专利方面,我们是一家非凡的公司。我们只是想确保我们将其在合适的时间安全地融入开发中,以便我们的客户能够安全地使用它。

MICHAEL KRIGSMAN:毫无疑问,FICO 在社会中扮演着重要的角色。因此,作为一名消费者,我很高兴听到你已经采取了保障措施。

但斯科特,当我们结束的时候,这一切将走向何方?实时数据的应用将走向何方?

SCOTT ZOLDI:我现在的看法是,我们将在五年内实现一个客户同意模型。你知道,我对数据资产非常担心。当我与第三方或其他公司交谈时,我总是询问同意。我认为,我们将看到的是,消费者对其数据的更严格的所有权,以及使用这些数据做出的决策类型,以及这些数据如何在决策中使用。

我认为这将对模型的总体运行方式产生独特的影响,包括实时运行方式。因为我们需要确保同意链的设置,以及它是流动的一部分。通常,今天发生的情况是,没有迈克尔同意为这个目的使用,漂浮在 API 中。它以某种方式处理,有人希望在途中记录同意,并且它由其中一个数据提供商维护。

那里会变得更加严格。我认为这对消费者来说很棒。因为这让我们每个人都可以更好地控制自己的数据,以及如何使用数据来做出决策。所以我认为我们将看到这些方面的大量强调,即数据的来源和涉及的同意链。坦率地说,消费者将开始更多地了解他们对数据的使用方式拥有更多控制权,以利于他们在这些模型中的使用。

我认为这将产生新型的架构,新型的编排,这是这里需要的。以及从 API 角度来看必须解决的独特挑战,即维护同意。这样,当决策呈现出来时,就能理解所有同意都到位。并且所有工作都已完成,以便如果有人想就该决策进行对话,我们可以一直追溯到驱动它的核心数据。

我认为,这些框架中的许多将在未来几年内得到强化和形式化。这将是我们所有人都比以前更加数字化的旅程的一部分。坦率地说,我们才刚刚开始。我们正在了解云计算、本地化、实时数据存储等技术能做什么。

但现在,围绕着如何确保我们拥有适当的控制措施的框架,RegTech,这是我的另一个巨大热情,将开始发挥越来越重要的作用。而那些为此构建架构的人,回到围绕架构的对话,将是那些能够负责任地做到这一点,并满足客户期望的数据约束,以及同意的人。

MICHAEL KRIGSMAN:透明度、可解释性、同意,以及纠正 AI 可能做出的错误决定或糟糕决定的能力。

SCOTT ZOLDI:没错,没错。

MICHAEL KRIGSMAN:斯科特,你对想要更有效地利用数据来经营公司的企业领导者有什么建议吗?

SCOTT ZOLDI:我的建议是,真正关注他们试图解决的每个业务问题。他们需要哪些数据?什么是绝对关键的或必要的?他们可能需要与他们的分析团队合作来弄清楚这一点。但然后真正专注于我们是否可以批处理做出决策?可以流式处理吗?可以实时完成吗?

每个都有不同的考虑因素,比如延迟窗口和服务级别协议 (SLA)。这将真正将他们的关注点集中在他们需要采取的数据技术路径上,即围绕将我们能够访问的数据与需要做出的决策以及围绕这些决策的约束条件联系起来。并且真正将其阐明并为其建立一个框架。

我经常看到一些公司专注于,哦,我们只是要使用流式分析,流式数据环境来解决问题。但这并不能解决所有问题。因此,我认为真正关注这些问题,将它们作为我们处理数据的三个不同领域,作为一项基本原则,并确定何时需要做出决策,以及如何做出决策的要求,这将是真正将他们的旅程集中在如何更好地利用数据的第一个步骤。

同样地,只摄取必要的数据以限制可能不需要用于某些类型决策的数据。

迈克尔·克里格斯曼:很好的建议。明确业务目标以及实际需要解决该数据的哪些数据类型,而不是被所有数据和杂七杂八的东西淹没。

斯科特·佐尔迪:没错,是的,要确保我们理解决策框架,以及支持该框架需要什么。

迈克尔·克里格斯曼:斯科特·佐尔迪,FICO 首席分析官,非常感谢您抽出时间与我们进行这次非常有趣的对话。

斯科特·佐尔迪:迈克尔,我很乐意。我认为这个话题非常令人兴奋。因此我很高兴能分享我们在这一领域所做的一些工作,以及我们将继续做的事情。谢谢。

迈克尔·克里格斯曼:谢谢。非常感谢 Redis 使这场对话成为可能。谢谢 Redis。

获得如何使用数据推动业务增长的见解

您的同行也浏览了

Aerial view of a intersecting highway

电子书

金融服务中的数据创新

数字经济正在挑战银行家重新评估他们的商业模式。了解在转向实时金融服务时出现的四种常见挑战的解决方案。

关注最新的数据内容