“阻抗不匹配测试”：您的数据平台是简单还是复杂混乱？

“简单是终极的复杂”——列奥纳多·达·芬奇

“大多数信息是无关紧要的，大多数努力是白费的，但只有专家才知道该忽略什么”——詹姆斯·克利尔，《原子习惯》

您的数据管道很花哨，包含很多不同的系统。表面上看起来非常复杂，但实际上内部却是一团糟。它可能需要大量的连接工作来连接不同的部分，需要持续监控，可能需要一个拥有独特专业知识的大团队来运行、调试和管理它。更不用说，您使用的系统越多，数据重复的位置就越多，数据不同步或过时的可能性也就越大。此外，由于这些子系统都是由不同公司独立开发的，它们的升级或错误修复可能会破坏您的管道和数据层。

如果您不小心，可能会像下面这个三分钟视频中描述的那样，最终陷入以下境地。我强烈建议您在继续之前观看它。

复杂性之所以产生，是因为尽管每个系统表面上看起来很简单，但它们实际上会将以下变量引入您的管道，并可能增加大量复杂性

协议——系统如何传输数据？(HTTP, TCP, REST, GraphQL, FTP, JDBC)
数据格式——系统支持哪种格式？(Binary, CSV, JSON, Avro)
数据模式和演变——数据如何存储？(tables, Streams, graphs, documents)
SDK 和 API——系统是否提供必要的 SDK 和 API？
ACID 和 BASE——它提供 ACID 或 BASE 一致性吗？
迁移——系统是否提供一种简单的方法来将所有数据迁移到系统内或从系统中迁移出？
持久性——系统在持久性方面有哪些保证？
可用性——系统在可用性方面有哪些保证？(99.9%, 99.999%)
可扩展性——它如何扩展？
安全性——系统有多安全？
性能——系统处理数据的速度有多快？
托管选项——是仅托管、仅本地部署还是混合？
云——它是否在我的云、区域等上工作？
额外系统——它是否需要额外系统？(例如，Kafka 需要 Zookeeper)

数据格式、模式和协议等变量累积起来，被称为“转换开销”。性能、持久性和可扩展性等其他变量累积起来，被称为“管道开销”。总的来说，这些分类共同构成了所谓的“阻抗不匹配”。如果我们可以衡量它，就可以计算出复杂性，并用它来简化我们的系统。稍后我们将讨论这一点。

现在，您可能会争辩说，您的系统虽然看起来复杂，但实际上是满足您需求的最简单的系统。但您如何证明这一点呢？

换句话说，您如何真正衡量并判断您的数据层是真正简单还是复杂？其次，您如何估计随着添加更多功能，您的系统是否会保持简单？也就是说，如果您的路线图中增加了更多功能，您是否还需要增加更多系统？

这就是“阻抗不匹配测试”的用武之地。但我们先来看看什么是阻抗不匹配，然后再讨论测试本身。

什么是阻抗不匹配？

该术语起源于电气工程，用于解释电抗的失配，当能量从 A 点传输到 B 点时导致能量损失。

简单来说，它意味着您所拥有的与您所需的不匹配。要使用它，您需要将您当前拥有的东西转化为您所需的，然后使用它。因此存在不匹配，以及与修复不匹配相关的开销。

在我们的例子中，您拥有的数据以某种形式或数量存在，并且在我们可以使用它之前需要对其进行转换。这种转换可能会发生多次，甚至可能在中间使用多个系统。

在数据库领域，阻抗不匹配发生有两个原因

转换开销：系统处理或存储数据的方式与数据的实际样子或您对其的思考方式不同。例如：在您的服务器中，您可以灵活地将数据存储在许多数据结构中，例如集合、流、列表、集合、数组等。这有助于您自然地建模数据。但是，您需要将这些数据映射到 RDBMS 中的表或 JSON 文档存储中才能存储它们。然后在读取数据时执行相反的操作。请注意，面向对象语言模型与关系表模型之间的特定不匹配被称为“对象关系阻抗不匹配”。
管道开销：您在服务器中处理的数据量和数据类型与数据库能够处理的数据量不同。例如：如果您正在处理来自移动设备的数百万个事件，您的典型 RDBMS 或文档存储可能无法存储它，或提供 API 轻松聚合或计算这些事件。因此，您需要特殊的流处理系统，例如 Kafka 或 Redis Streams，来处理它，并且可能还需要一个数据仓库来存储它。