随着越来越多的公司在生产环境中部署生成式 AI 应用,我们听到了一系列不同于最初“生成式 AI POC 阶段”的新挑战。这些新挑战更多地源于扩展和安全使用需求,尤其是在部署与组织外部用户交互的应用时。因此,公司开始将 AI 网关(或“LLM 网关”或“生成式 AI 网关”)作为其 AI 基础设施的关键组件。
什么是 AI 网关?
AI 网关是一种服务,它简化、保护和管理企业环境中对大型语言模型 (LLM) 的访问。它充当管理 AI 工作流的集中平台,为开发人员提供一致的接口(或端点)来与来自不同提供商的模型进行交互。该网关通过限速、PII 匿名化、缓存、安全防护、使用情况跟踪、费用分摊、回退和路由等功能优化和保护 LLM 的使用。
以下是一些行业中已广为人知的生成式 AI 网关示例:
‘Uber 的生成式 AI 网关’为开发人员提供了一个统一平台,通过模拟 OpenAI 接口的单个、一致接口,访问来自 OpenAI、Vertex AI 和 Uber 自有模型的多个 LLM。
‘Roblox 的 ML 网关’集中管理对大型 AI 模型的访问,结合内部和开源选项,创建了一个更高效的 AI 资源管理系统。
‘BT 的生成式 AI 网关平台’让公司能够安全、私密地访问来自不同提供商的 LLM。它还包括集中式隐私控制、基于用例的计费和企业搜索等基本功能。
在这些示例中,网关位于应用和底层 LLM 之间,充当守门人。它控制数据访问,强制遵守既定规则,并监控生成式 AI 应用的行为。此外,通过抽象化不同的 AI API,组织可以避免锁定特定提供商,并随着 AI 格局的发展保持灵活性。
每个 AI 网关所需的八个关键功能
AI 网关平台汇集了一系列基本功能,通常根据每个企业的需求进行定制。但有八个关键功能是每个网关都应该具备的——这些功能已在企业设置中广泛采用。
统一 API:提供一个单一、一致的接口,用于访问和与多个 AI 模型和提供商进行交互,通常使用像 OpenAI API 这样广泛使用的标准,以提高易用性和兼容性。
限速:允许您根据特定标准灵活地将 AI 请求路由到不同的模型,以管理工作负载。这可能包括用于性能优化的负载均衡、用于处理故障或每个应用容量限制的回退机制。