“对于分析科学家和做出决策的企业来说,最大的挑战之一始终是围绕延迟的服务级别协议……如果延迟要求是 20 毫秒,而您的决策在 25 毫秒后到达,那就太晚了”
Scott Zoldi
首席分析官 / FICO
Scott Zoldi 是 FICO 的首席分析官,负责 FICO 产品和技术解决方案的战略和分析开发,包括 FICO™ Falcon® Fraud Manager 产品,该产品保护着全球约三分之二的支付卡交易免受欺诈。 Scott 拥有超过 100 项专利,积极参与利用 AI 和 ML 技术开发新的分析产品。 最近,他专注于流式自学习分析在实时检测网络安全攻击和洗钱方面的应用。
在本集中,Scott 分享了 FICO 如何使用分析模型和数据来做出围绕支付、欺诈和信贷的实时关键决策。 他提供了见解,以帮助指导希望提供实时金融服务的金融公司,包括三个现代化金融服务应用程序的技巧,包括了解客户的影响、优化基础设施和机器学习模型以进行实时数据处理,以及促进跨越完整产品生命周期的跨团队协作。
Redis – Scott Zoldi
MICHAEL KRIGSMAN:我们正在与 FICO 的首席分析官 Scott Zoldi 交谈。 讨论将涵盖大规模的实时数据,做出影响我们所有人、我们的财务、我们的信用的决策。 请继续关注一个引人入胜的讨论。 嗨,Scott,你好吗? 很高兴见到你。
SCOTT ZOLDI:嗨,Michael,我很好。 你今天怎么样?
MICHAEL KRIGSMAN:很好,Scott,请告诉我们关于 FICO 的情况。
SCOTT ZOLDI:是的,所以 FICO 是一家分析公司,大约有 60 年的历史,专注于从数据中获得分析价值。 而且,使用这些分析模型,然后根据呈现给它们的数据做出非常关键的决策。 其中许多是实时的,许多是从决策角度来看的正确时刻。 所以很高兴能在这个节目中谈论我们所做的事情以及数据的重要性。
MICHAEL KRIGSMAN:当然,我们都知道 FICO 分数,所以这个分数是家喻户晓的。 您是首席分析官,这个角色涉及什么?
SCOTT ZOLDI:作为 FICO 的首席分析官,我负责我们在 AI 解决方案背后的分析或机器学习方面的战略。 这包括我们使用的数据类型以及我们如何使用它的范围。
因此,它将包括诸如了解我们需要哪些正确的数据元素、何时需要它们、我们需要它们的顺序是什么之类的情况? 并确保我们可以将所有这些都放在一个地方,以便我们的机器学习模型可以生成做出一些决策所需的分数和见解,无论是风险、欺诈、合规性,甚至是营销。
MICHAEL KRIGSMAN:并且您在这一领域拥有大量的专利。
SCOTT ZOLDI:是的,我已经在这家公司工作了 23 年。 这是我的一大热情,你知道我被这家公司吸引是因为 FICO,因为数据。 作为一名研究人员,我最初在洛斯阿拉莫斯国家实验室工作。 因此,我不断受到我们可以根据解决客户的业务问题而生成的机器学习专利和数据使用专利类型的启发。
MICHAEL KRIGSMAN:Scott,我认为我们需要从最高的层面开始。 那么您能告诉我们数据如何在 FICO 的业务中发挥作用吗?
SCOTT ZOLDI:因此,数据确实是我们业务的血液。 因此,为了推动我们的客户希望我们帮助他们做出的决策,我们确实需要专注于这些模型所需的数据。 作为一名机器学习科学家,这是 FICO 业务的核心部分,正确获取数据并在正确的时间将其放在正确的位置是确保我们拥有正确的数据并使其流动的 80% 到 90% 的问题。
所以在某种意义上,它为我们在 FICO 必须做出的所有决策提供动力。 因此,它至关重要,因为如果我们没有做到这一点,那几乎就是垃圾进,垃圾出。 我们需要确保有高质量的数据进来。 从那里,我们可以从我们的分析和随后的决策软件中获得价值。
MICHAEL KRIGSMAN:您正在收集、收集、处理哪些类型的数据?
SCOTT ZOLDI:因此,我们业务的最大部分,也是我们非常出名的部分,是我们的欺诈解决方案。 因此,这是我们获得支付卡数据的地方。 想象一下,您去在线购买东西,会发生授权。 因此,该授权进入我们的决策软件,然后会做出一个关于欺诈概率的决策。
这是我们拥有的许多实时数据的主要部分,也是我们在使用这些数据方面有固定实时要求的地方。 但我们还有其他领域,例如我们在网络安全方面做过工作,我们在营销分析方面做过工作,我们正在查看某人在杂货店购买的商品,以预测他们将来可能更倾向于购买的商品或希望提出的激励措施。
因此,我们正在收集的数据种类繁多。 它实际上主要由欺诈、风险合规、营销和其他方面的这些用例决定。
但我认为对于 FICO 来说真正独特的是,我们已经大规模使用这种实时数据超过 30 年了。 因此,它确实是我们赖以生存的东西的一部分。 事实上,你知道你提到了专利,我撰写了超过 100 项。 它们中的很多都集中在您在实时环境中遇到的独特挑战上,处理数据并在该环境中从模型生成有意义的结果。
MICHAEL KRIGSMAN:当然,这引出了一个问题,当您处理这种规模的数据时,会出现哪些独特的挑战?
SCOTT ZOLDI:我认为,最大的挑战之一是,作为分析科学家和做出决策的企业,始终限制我们的是围绕延迟的服务级别协议。 在当今的现代云计算机中,许多人对扩展行为感兴趣。 他们谈论水平扩展,他们谈论处理的总交易数量。
但是在实时应用程序中,存在延迟要求。 因此,如果延迟要求是 20 毫秒,而您的决策在 25 毫秒后到达,那就太晚了。 因此,这些高度约束,您需要获取数据,您需要执行您需要的任何数据检查。
您需要在 20 毫秒内处理该模型并生成决策,无论是是还是否,您做到了还是没有做到。 这需要大量的软件工程,关于您如何编排处理该数据并从该数据中持久化您需要的东西,以便在这些低延迟环境中做出决策。
我认为这是实时与流式或批处理相比最有趣的关键事情之一,即人们需要始终在非常严格的约束下工作,并且非常聪明地执行机器学习模型和这些决策,其中延迟是一个很大的挑战。
Michael,另一个主要的挑战是关于排序。 因此,在流式环境中,当我们处理流式数据时,您不能像以前那样控制数据的排序。 这非常重要。 我给你举个例子,如果你考虑一下,让我们坚持欺诈。 如果交易的顺序在模型处理它们时被打乱,您可能会产生非常非常不同的影响。
因此,如果我们看到您更改了与您的信用卡关联的电子邮件地址,然后我们看到哈萨克斯坦发生了一笔奇怪的交易,那可能与看到相同的交易发生而没有看到有关更改您的帐户凭据的信息非常不同。 因此,当涉及到实时时,顺序真的很重要。 它对于根据该数据做出准确和负责任的决策也很重要。
因此,对于我来说,这些约束是延迟要求和独特的工程,以及排序要求。 因为这确实很重要。 因为您试图忠实地重现消费者发生的事情。 并且仅仅是近似是不够的,您需要确保您以正确的顺序拥有所有信息,以便您可以围绕该客户的状态做出正确的决策。
MICHAEL KRIGSMAN:您提到您的软件工程资源主要用于解决延迟和排序这两个问题。
SCOTT ZOLDI:当我们与软件工程团队合作时,我们关注的是实时环境的独特数据库,基本上是键值存储。 我们可以拥有一个键,并从中获取存储的信息。 我们如何有效地更新它并确保其一致性是我们工程工作的一个非常重要的部分。
作为一个分析团队,我们工作并向我们的开发团队提供这些需求,以确保这些技术在实时环境中能够正常工作。
MICHAEL KRIGSMAN:您提出了一个有趣的观点。 分析团队如何与软件工程团队合作? 存在哪些重叠?
SCOTT ZOLDI:对我来说,我通常认为我们在某种程度上是产品经理。 因为我们对需要满足的业务目标有一个看法,其中一部分基本上是专注于,从分析执行的角度来看,我们今天拥有的技术的水平如何? 然后我们需要围绕它开发哪些专用软件? 因此,在很大程度上,我们扮演着这种角色,两个角色。
我们扮演的部分角色是软件开发人员的角色。 因为本质上,这种环境下的分析变得非常像软件。 我们不一定会采用商品化的开源模型,并能够在我们需要的实时约束下执行它。 这就是为什么我们必须改变围绕软件角度施加的约束来开发模型的方式。
然后,我们必须改进我们的软件处理这些键值存储的技术水平,以便取回与特定(比如)持卡人相关的大规模信息。 最后,模型和软件成为真正的软件。 因为我们看到的,以及该领域许多人看到的,最困难的问题之一是,将机器学习模型投入运营真的很难。 如果您在实时环境中这样做,那么难度会增加 10 到 15 倍,因为现有的某些技术对于相对较高的延迟来说可能已经足够好。 但是,当您遇到低延迟,并且您对这些模型的性能有 SLA,并且这一点很重要时,这才是我们真正拥有这种非常非常紧密的联系的地方,我们作为数据科学家、产品经理和软件开发人员的角色有时会变得有点模糊。
因为我们都在努力解决这些问题,而且它深入到架构中,这真的很有趣。
MICHAEL KRIGSMAN:您正在使用的延迟是多少? 数据的规模又是多少?
SCOTT ZOLDI:因此,我们通常的目标延迟是 10 到 20 毫秒。 这通常是我们尝试达到的标准。 根据应用的不同,我们可能会有一个更小或更大的窗口。 通常,这很大程度上取决于模型的部署方式,比如模型的这部分是在本地部署还是在云端? 该链条中是否存在额外的延迟?
因此,这真正定义了延迟窗口和这些模型的约束。 在我们的大多数环境中,我们通常希望以每秒 1,000 到 10,000 笔交易的速度做出这些低延迟决策。 这让您对数据的规模有了一个了解。 所以你知道,这让您对每笔交易的规模有了一个概念,每笔交易都可以单独解决。
但是,当您将延迟和吞吐量(TPS)结合起来时,事情就会变得非常具有挑战性。 然后,作为首席分析官,我的挑战,以及真正驱使我发现这是一个有吸引力的研究和开发领域的原因是,我们必须在其中对机器学习模型赋予非常高的价值,因为决策很重要。 如果您考虑一下,从传入数据流中获取一些数据元素,并将它们相加并计算一个相对简单的分数是相对简单的。
但是,要拥有一个完全加载的神经网络 基础模型(比如说,这是当今许多欺诈和合规解决方案的基础),以及我们正在冲击的,必须极其高效和可靠的行为配置文件键值存储数据库,这一切都变得非常复杂。 但当它奏效时,它会很好地奏效。 我们获得了这种非常棒的价值。
对于像 FICO 这样的公司来说,这正是我们的客户所需要的。 因为每个客户可能都不想投入这种程度的研发,而像 FICO 这样对这充满热情并有历史的公司,他们专注于如何不断改进它,同时保持延迟和吞吐量等。
但与此同时,继续提高为我们的客户使用的下游决策策略所做决策的价值。
MICHAEL KRIGSMAN:因此,您的客户聘请您根据机器学习模型做出这些决策。 但正是基础设施使魔术成为可能。
SCOTT ZOLDI:没错,所以在过去,过去是指 20 年前,当 FICO 的软件运行时,我们会有窗口。 如果您错过了用于计算做出该决策的窗口,或者更准确地说,提供分数以便他们可以做出决策的窗口,那么他们就会采取后备方案。 后备方案是一种分析价值低得多的决策。 可能是之前的分数。 可能是规则集。
因此,总的来说,整个行业已经发展到产品合规领域的一个点,例如,所有这些都可以通过适当的软件实时完成。 而在过去,人们必须做出决定。 例如,所有交易中哪些是实时的 4%、6%、10%? 其余的将是我们所说的在线,这将是一个延迟的决定。 技术已经发展。
因此,现在许多都是 100% 实时。 但这是绝对正确的,Michael,公司与像 FICO 这样拥有这种专业软件的公司合作以满足这些要求,因为这对于欺诈检测以及一般的商业活动至关重要。
MICHAEL KRIGSMAN:有趣的是,您之前如何将您的产品描述为决策制定与基础设施或软件工程的捆绑。 所有这些包在一起本质上就是您销售的“软件”。
SCOTT ZOLDI:没错。 因此,我们希望确保我们有能力将数据引入其中以更新与此相关的数据库以生成该分数,然后一旦生成该分数,规则和策略通常也会附加到其中。 这样就实现了自动决策,例如,在支付卡领域,将会做出批准或拒绝的决定。
这就是为什么有时您的信用卡交易可能无法通过,如果它是与您相关的新鲜的或有风险的东西。 我只能想象,如果您在销售点,您需要等待两秒钟才能让您的信用卡清算,没有人有耐心等待。 坦率地说,我认为更令人兴奋的是,每个人都期望在实时毫秒级的环境中做出由机器学习模型驱动的有价值的决策。
我只是认为用例会激增。 我的意思是,欺诈是最早、最成功的例子之一,可以追溯到 30 年前。 但还有更多,我认为这将变得非常普遍,人们会期望获得实时洞察力和决策。 我们将看到越来越多的决策在整个客户生命周期中做出。
除此之外,坦率地说,我认为从确保所有数据同意到位,并且我们对所使用的数据有控制的角度来看,数据的演变也变得非常有趣。 因此,我们不需要更多的开发。 这不是一个已解决的问题,但很明显行业的发展方向。 它将朝着一套期望发展,即我希望我的机器学习决策或我的机器学习智能现在就出现,而不是以后。
因为我将通过数字渠道以更有效的方式与 Michael 互动,从而使自己与众不同。 在那里,实时和延迟将很重要,并且在这种小小的窗口中做出正确决策的准确性对于企业来说至关重要。
MICHAEL KRIGSMAN:Scott,您做出的决定充满了潜在的风险和责任,可能会对您的客户及其客户(消费者)产生重大影响。 因此,您能否向我们介绍一下需要在您描述的 10 毫秒内做出的决策类型。
SCOTT ZOLDI:因此,需要做出许多非常重要的决定。 我关注的一件事是,我们开发的分析适用于整个生命周期。 这意味着当我们开发一个模型时,我们必须充分了解该模型将在一段时间内运行。
因此,我们需要就我们需要哪些正确的数据源来做出高质量的决策做出艰难的决定? 哪些数据元素会对该决策产生影响? 我将采取迭代的方式。 有时需要在环境中工作才能理解,基本上是构建模型并找出正确的元素是什么。
然后将此延续到整个链条中,这意味着我们将必须监控这些元素,这些元素的分布,以了解它们,甚至可能是我们模型中驱动这些决策的潜在特征,是否在适当的范围内?
因此,其中的一部分是我喜欢称之为可审核 AI 的概念,您从一开始就了解正在使用哪些数据,以及为什么要使用这些数据,以及多久会使用一次,以及围绕此数据的一致性的假设是什么? 每个数据元素的重要性是什么? 以及它对决策的影响是什么,一直到监控以确保这些元素被模型正确使用。
这意味着我们已经完成了道德测试、稳定性测试。 我们看到了变化。 例如,如何呈现给模型? 因为数据会发生变化,因此这些是我们运营的环境,对我们在何处提醒用户有关模型可能正在降级或可能在某些客户子集上的准确性较低这一事实进行严格控制。
这也是其中的一个重要组成部分,这将是我们所说的谦逊 AI 的概念。 这基本上是说该模型有能力说,好吧,我可能有点偏离轨道了。 我需要提醒那些正在做出决策的人,以便他们可以将此纳入他们所做的决策中。
但这都是更大范围的负责任的人工智能的一部分,可以看作是一系列的决策、对话和框架,这些都是今天正在讨论的。因为我们需要确保,尤其是在实时环境中,当决策需要在几十毫秒内做出时,如果一个决策需要重新考虑,或者可能在当前时间被忽略,并回退到一个更安全的基础设施时,我们要有正确的警报机制。
MICHAEL KRIGSMAN:在我们转向负责任的人工智能之前,我认为这是一个极其重要的议题。您提到了云和本地部署。您能否为我们分解一下,您是如何看待基于云的架构与本地部署架构的,以及这些部分是如何组合在一起的。
SCOTT ZOLDI:是的,云和本地部署是一个很有趣的环境。像大多数企业一样,我们的业务最初是本地部署的。云计算是一个较新的概念。云计算有很多好处,比如能够访问可扩展的计算资源,能够访问大量的数据存储,以及能够编排数据。所以,它在FICO的战略中是一个重要的、关键的部分。
与此同时,当我们考虑低延迟环境时,它会带来挑战。如果我们需要计算与云通信所花费的能量或时间,这在很多情况下都不是有效的时间。如果我花费10毫秒仅仅是为了访问云,并从云返回以做出决策,而该决策存在于一个不会位于云端的授权系统中,这会增加整体价值主张的开销。
因此,需要在延迟增量是否可接受方面做出决策。我们可以在这些约束条件下工作。有时,这意味着我们的客户可能会增加他们对决策的延迟要求。在其他情况下,可能意味着我们限制分析。因此,基于我们可以聚合这些信息的事实,云计算是有价值的。
我们的客户不需要建立本地部署的应用程序来执行模型。但归根结底,就是要计算所有这些决策所产生的延迟,并理解它从服务水平协议(SLA)的角度意味着什么。然而,在本地部署中,您可以尽可能靠近决策,尽可能靠近数据地运行它。
数据并不位于云端。数据必须进入云端,决策必须离开云端。相反,如果数据源自客户现场,并且决策是在客户现场或授权环境中做出的,那么让模型靠近那里就非常重要。我认为这就是我们越来越关注我们所说的边缘解决方案的原因。
边缘解决方案本质上意味着,您拥有一个组件,该组件在本地部署环境中高效地完成处理。然后,您拥有其他类型的操作,这些操作可以在云环境中高效地完成。一个例子可能是这样的,在我们业务的某些部分,我们会维护商家的风险档案。因此,我们了解哪些商家正在发生欺诈行为。
所以,当您,Michael,进行信用卡交易时,我们了解您的交易是否存在异常。但我们也会更广泛地了解您正在与谁进行交易。该商家是否存在欺诈活动或可疑行为?
这种商家聚合可以在云中非常有效地完成,而且不需要实时完成。它可以作为一个资产,以近乎实时的方式更新,甚至每天更新一次,以提供增量价值。所以我认为云和本地部署将会融合。现在有一个很大的焦点,即决策软件或分析的哪些部分需要靠近数据,哪些部分不需要?
因此,我认为混合模式将是未来的发展方向,特别是对于这些类型的应用,我们在决策领域,并且存在延迟要求,需要实时或近乎实时地做出决策。
MICHAEL KRIGSMAN:所以对您来说,云与本地部署的架构决策主要受延迟和尽快返回结果的效率驱动,而不是许多企业在考虑安全性并希望将数据掌握在自己手中时做出的云与本地部署的选择。听起来对您来说不是这种情况。
SCOTT ZOLDI:我们对云的安全性感到非常满意。我们做了大量的工作,云提供商也做了大量的工作。我们的每个客户都有自己的偏好和对数据传输的看法,但这并不是主要问题。我认为这一点已经得到了很好的理解和控制。
但是,是的,更多的是关于什么在技术上是可行的?就像我们谈论软件一样,我们对软件开发有独特的要求,我们对环境也有独特的要求。这通常是更大的驱动因素。另一个方面是,Michael,许多云环境——你是对的——除非你有专门的软件在那里运行,否则你在基于云的环境中发现的一些商品功能可能真的不是为实时计算设计的。
所以我们仍然看到一些基于风险的调用和其他一些不适用于实时环境的东西。这就是另一种视角,有时你会进入云环境,你会看到一种关于你需要如何处理数据和解决分析问题的商品化观点。它可能适用于大量的分析问题,但它是否适用于实时决策有时是值得怀疑的。
因此,另一方面是,有时拥有你自己的软件,无论是在云中运行(就像我们一样),还是不运行,都需要额外的投资。但另一方面是,我们在云中是否拥有支持实时处理和决策的所有组件。如果不是,那么这些混合模式将更有意义。
MICHAEL KRIGSMAN:听起来你们的许多决策都是围绕着这些架构选择做出的,这些选择是由数据的规模和实时性驱动的。也就是说,取决于您实际从事的业务类型。
SCOTT ZOLDI:没错,我关注的是我的分析团队的一致性。你知道,我有博士学位的数据科学家,他们真正专注于数据库理论,以及如何确保我们在更新时锁定记录并保持一致性。
所以是的,我们肯定会深入研究围绕这些的深度架构讨论。坦率地说,我认为这就是我们成功的原因,因为我们的数据科学家真正专注于架构方面,即我们如何推动这些模型的差异化执行,以应对这些约束。
MICHAEL KRIGSMAN:我很高兴听到您专注于堆栈的每个部分,从决策模型一直到数据库的运行方式。您正在关注一切。
SCOTT ZOLDI:是的,我们关注一切。你知道,我认为这是对实时的一个很好的类比。如果你看看实时,想想它,就像你有一美元。你必须拉伸这一美元,你必须想办法买一整顿饭。这将非常非常困难。你会围绕着晚餐吃什么,或者你将如何安排做出非常艰难的决定。
我认为,如果这条链条中最微小的一环效率低下,整个价值主张都会受到影响。我认为这就是我们如此投入的原因。但我也认为,对于数据科学家来说,就像我知道我在FICO工作了23年一样,我不断地受到挑战。而且当我看到软件开发环境发生变化,新产品上市,或者开源中出现新功能时,它让我们能够质疑如何改进各个部分。
所以我们不断地对流程进行这种渐进式的改进。因此,我认为它也有助于数据科学家真正成为整体业务成功的重要组成部分。对于像数据科学家和拥有数据科学团队来说,没有什么比这更好的了,因为它不是那种你把模型扔掉,没有人能够执行它,或者我们无法满足SLA的情况。我们都对此负责。我认为这才是真正令人满足的地方。
MICHAEL KRIGSMAN:Scott,早些时候你使用了“负责任的人工智能”这个短语。你还使用了“谦逊的人工智能”这个短语,那么这些伦理决策是如何发挥作用的?为什么这在您的业务中如此重要?因为在核心,您正在处理实时数据。那么,什么是道德或不道德的呢?
SCOTT ZOLDI:伦理是我们在思考中非常重要的一部分,负责任的人工智能也是如此。我们必须关注的一件事是,在世界上的许多地方,这种被“概况分析(profiled)”的概念已经存在,这基本上意味着你有一个系统,该系统生成你过去行为的分析概况,获取当前的交易,然后产生一个评分并做出决策,这个过程可能会受到质疑。
当受到质疑时,消费者,即任何受到影响的人,都有机会质疑该决策。因此,我们需要能够提供与决策相关的原因,以便与客户交谈的分析师和客户自己都能理解决策是如何做出的。因此,至关重要的是,我们了解是什么驱动了这些模型。
因此,我们构建可解释的模型。我们不携带不需要的数据,这通常是实时系统的好原则。但当涉及到偏见和伦理时,它们就变得非常重要。我们不想通过引入模型可以利用的额外信息来暗示偏见,而是要学习噪音,或者可能偏向一个子群体而不是另一个子群体。
我认为,将数据视为一种负债是看待这个问题的最佳方式。并说,好吧,我带入解决方案的每一个数据元素都会给决策增加越来越多的责任。当我们构建模型时,以适当的尊重对待它,我们了解每个数据元素的重要性。我们了解机器学习模型是如何组合这些数据的,我们确保我们了解这是否会对人群或不稳定群体产生偏见,所有这些都很重要。
然后将这些信息反馈到输出端,生成相应的理由代码,以便客户进行讨论。在某些情况下,我认为这对这个环境至关重要,客户可以基于某个理由表示不同意这个决定。我认为数据是错误的。
这就会出现问题,对吧?因为这要求我们对数据的来源进行清晰的追溯,以便消费者有机会纠正其中的一些信息。所以,当做出决定时,什么驱动了得分,那些理由代码是什么,什么驱动了那些理由代码,所有这些都至关重要。
最终,与消费者的讨论可能会深入到使用了哪些数据,以及这些数据是否准确。这就是负责任的 AI 的重点,真正深入到数据来源,了解是什么数据被用来做出决定,因为消费者可能会质疑这些数据的准确性。
MICHAEL KRIGSMAN:在某些情况下,获得 AI 生成决策的分析过程可能几乎是不透明的。考虑到幕后可能潜藏的复杂性,您如何尽可能地确保您的决策不带有偏见?
SCOTT ZOLDI:是的,这是一个重要的观点。我们在 FICO 坚持使用可解释的机器学习模型。这基本上意味着我们有能力绕过某些类型方法的不透明性,我们本来可以使用这些方法,但我们选择不使用。
因此,这通常意味着用于构建模型的算法类型数量将减少到一个子集,一个 FICO 认可为可解释的子集。
然后,我们拥有一个负责任的 AI 框架,我们称之为模型开发治理区块链,我们在其中记录了我们如何构建和测试该模型。我们构建许多模型需要花费数月时间。因此,有时我们被视为恐龙,因为他们说,在云端,你只需将数据扔进去,然后拨动开关。两分钟后,你就有了一个模型。
这就是不透明性和缺乏理解的根源。而行业正在努力采用可解释的 AI 和其他方法来解释这些模型。仅仅构建一个一开始就有问题的模型,然后拥有一个适当的流程是不够的。
因此,无论是 FICO 评分,还是我们构建的某些实时应用程序,我们都会采取正确的步骤来构建它。并且在其中包含可解释的模型,进行伦理测试,确定变量的重要性,以及从稳定性的角度出发,我们需要做的任何其他事情。而且还要监控它何时会出错。
我非常喜欢数据和模型的这个概念。我喜欢的一句话是,数据是有用的。它本质上是说,所有模型都是错误的。但有时它们是有用的。我这样解释它,我说,好吧,根据数据,模型会或多或少地错误,并且或多或少地有用。
因此,数据的走向以及它是否在我们认为应该在的参数范围内,这个概念真正决定了我们是否对这个模型及其给出的分数有信心。或者,就像您之前提出的观点,我们是否应该退回到谦逊的 AI 或不同的策略?这是我们构建这些模型的重要组成部分。
显然,在实时环境中,这一点更加重要。因为你没有时间去质疑它。你需要有工具来指出哪里可能存在问题。或者我们需要人类进行额外的内省,以确保当我们大规模自动化这些决策时,我们也不会大规模自动化偏见或错误的决策。
这就是为什么不仅仅是模型。不仅仅是快速完成。还在于拥有制衡机制,以便在出现某些类型的客户时发出错误或警告,从而确保我们做出正确的决策。并且我们以一种合乎道德的方式做到这一点。
MICHAEL KRIGSMAN:有时,当你有一个模型的想法,你非常有信心它会在某个方面更有效,但你无法完全解释它时,是否会出现一种紧张关系?所以你一定会想说,让我们绕过它。让我们把它投入生产,我们现在不用担心它。
SCOTT ZOLDI:我从来没有受到过这方面的诱惑。我的坚定信念是,我们的客户和消费者不应该成为实验的小白鼠。我认为这种情况发生得太频繁了。我们在新闻中看到,模型被部署,造成了可怕的事情,人们写文章报道它。
这就是为什么我们制定了 FICO 的模型治理标准,以防止这种情况发生。但我们所做的,Michael,是在开发之外进行广泛的研究。所以当我们谈到研发时,它是研究,可以把它想象成一条泳道,而开发是另一条泳道。
因此,在我认为某些算法可以接受并且我可以解释它之前,它至少会在研究环境中对我们拥有的真实数据进行一年的测试。只有经过委员会的广泛审查和测试后,我们才会决定引入一项新技术。
因此,我们的客户经常会听到我们谈论一些新技术,但可能需要一年或更长时间才能将其引入到软件中。这有时与在实时环境中难以实现某些东西有关,但更多时候是因为我们不会让我们的客户成为那种分析的试验品。
这就是我们在优先考虑将其用于模型开发之前,进行广泛的研究和测试的原因。不,我从未受到过诱惑。我认为对于像 FICO 这样的公司或任何公司来说,仅仅将其投入使用,看看会发生什么是非常非常危险的。
MICHAEL KRIGSMAN:因此,治理框架以及对这些治理框架的遵守是您运营业务的核心。
SCOTT ZOLDI:完全正确。我认为 FICO 的新科学家可能需要一些时间来适应,但只要你稍微思考一下一个坏模型可能造成的大规模影响,FICO 是一个在将模型大规模推广方面非常成功的模型。
但你可以想象,如果我们开发一个影响该国 80% 信用卡交易的模型,而该模型是错误的,那么就会有大量的消费者受到这一系列错误决策的影响。而且它变得非常非常昂贵。因此,我们将注意力集中在对消费者的影响太大的事实上。伦理方面的考虑也是如此。
如果没有经过广泛的审查并确保所学习到的关系是有效的,我们不会将最终数据投入到问题中。我们不能这样做,因为 AI 机器学习非常强大。涌向我们的数据为我们和企业提供了所有这些机会。但它也提供了一个机会,可以在人们不质疑机器学习模型的情况下,做出非常冷酷无情的决定,即使我们告诉他们应该质疑,甚至警告他们。
而且存在着固有的挑战,我们可以大规模自动化偏见或自动化错误。因此,我们如何在规模上推动大量利益的宏伟愿景也可能在规模上造成危害。我认为这是更可怕的事情之一,当我们作为数据科学家看待它时,他们很快就明白他们不想简单地发布一个有错误的、未经适当治理的模型。然后我们就有了以这种规模影响客户的事情。
是的,治理是核心。我认为,即使是 FICO 最优秀的研究科学家,也很快就会理解为什么这如此重要。只要他们看到一条路径,Michael,他们可以考虑将他们的研究用于部署,并且他们理解这意味着什么,那么他们就可以接受它。它不是那么严酷,不是这些规则,你不能。是的,当它影响到我们的客户时,我们确实有这方面的规定。
但是,还有另一种创新发生的过程。说到专利,我们在创新和专利方面是一家非凡的公司。我们只是想确保我们在正确的时间,为了我们的客户的安全,将其融入到开发中。
MICHAEL KRIGSMAN:毫无疑问,FICO 扮演着重要的社会角色。作为消费者,我很高兴听到您采取的保障措施。
但是 Scott,当我们结束时,这一切将走向何方?实时数据的使用将走向何方?
SCOTT ZOLDI:我目前的看法是,我们希望在五年内能够实现客户同意模型。你知道,我非常关注数据资产。当我与第三方或其他公司交谈时,我总是询问关于同意的问题。你知道,我认为我们将看到的是消费者对他们的数据,以及使用这些数据做出的决策,以及这些数据如何在决策中被使用的更严格的所有权。
我认为这将对模型的整体运行方式产生独特的影响,当然也包括实时模型。因为我们需要确保同意链的建立,并且这是流程的一部分。通常,今天发生的情况是,API 中没有 Michael 的同意用于此目的。它以某种方式被处理,有人希望沿途记录同意,并由其中一家数据提供商维护。
这方面会变得更加严格。我认为这对消费者来说是件好事。因为这让每个人都可以更好地控制自己的数据,以及如何使用这些数据来做出决策。因此,我认为我们将看到对这些数据来源和所涉及的同意链的极大强调。坦率地说,消费者将开始更多地了解他们对如何使用他们的数据来让他们受益,在使用这些模型方面拥有更多的控制权。
我认为这将产生新型的架构,新型的编排,这是这里所需要的。以及需要从 API 角度解决的围绕维护这种同意的独特挑战。因此,当呈现决策时,人们理解所有的同意都已到位。并且所有工作都在那里,这样,如果有人想就该决策进行对话,我们可以一直追溯到驱动它的核心数据。
我认为,未来几年,许多这样的框架将会得到加强和形式化。这将只是我们所有人变得比以往更加数字化的成熟过程的一部分。坦率地说,我们才刚刚开始这段旅程。我们正在看到所有技术从云端、前提、实时数据存储角度可以做什么。
但现在围绕如何确保我们拥有适当控制的框架,以及RegTech(这是我的另一个巨大热情)将开始发挥越来越大的作用。那些为此进行架构设计的人,回到关于架构的讨论,将是最能负责任地做到这一点,并满足数据约束,以及我们客户期望的同意条件的最佳人选。
MICHAEL KRIGSMAN:透明度、可解释性、同意权,以及纠正人工智能可能做出的错误决策或糟糕决策的能力。
SCOTT ZOLDI:完全正确,完全正确。
MICHAEL KRIGSMAN:Scott,对于希望在其公司更有效地使用数据的业务领导者,您有什么建议?
SCOTT ZOLDI:我的建议是真正关注他们试图解决的每个业务问题。他们需要什么数据?什么是绝对关键或必要的?他们可能需要与分析团队合作才能弄清楚。但随后真正关注我们是否可以批量做出决策?是否可以在流式传输中完成?是否可以在实时完成?
并且每个这些都带有不同的一系列考虑因素,例如延迟窗口和SLA。这将真正使他们专注于他们需要采用的与数据相关的技术路径,即围绕将我们有权访问的数据与决策以及需要做出的决策的约束条件联系起来。并真正地制定出来并获得一个框架。
我经常看到公司专注于,哦,我们将使用流式分析,流式数据环境来解决问题。但这不能解决所有问题。所以我认为真正关注这些作为我们如何使用数据的三个不同领域,作为一个基本原则,并确定做出决策的时间和方式的要求,将是真正专注于他们如何更好地利用这些数据的旅程的第一步。
再次强调,仅使用必要的数据来限制可能不需要用于某些类型决策的摄取数据。
MICHAEL KRIGSMAN:很好的建议。清楚了解业务目标和您实际需要解决该数据的数据类型,而不是被所有事物和所有信息淹没。
SCOTT ZOLDI:完全正确,是的,确保我们了解决策框架以及支持该框架所需的内容。
MICHAEL KRIGSMAN:FICO的首席分析官Scott Zoldi,非常感谢您抽出时间与我们进行这次非常有趣的对话。
SCOTT ZOLDI:Michael,我的荣幸。我认为这个话题非常令人兴奋。因此,我很高兴分享我们在这个领域所做的一些工作,并且将继续这样做。谢谢。
MICHAEL KRIGSMAN:谢谢。非常感谢Redis使这次对话成为可能。谢谢你,Redis。
电子书
数字经济正在挑战银行家重新评估他们的商业模式。了解在向实时金融服务转型时出现的四个常见挑战的解决方案。