
企业数据架构的数据网格方法具有许多好处,但是存在一个普遍的误解,这将大大限制任何持有它的人的这些好处。
Data Mesh提倡一种“分而治之”的企业数据方法。这个想法是拆分工作,以便每个“域”内的数据产品(例如金融服务公司内的信用卡,抵押贷款和零售银行业务)可以通过最小化跨域所需的协调量来尽可能独立地部署。这种方法通过并行化工作实现更快的交付,通过允许每个领域的专家更好地控制其数据产品来提高质量,并通过易于访问的标准机制公开数据来降低复杂性。
由于数据虚拟化技术(如Teradata Query Grid,Apache Presto等)旨在提供跨半独立数据产品的无缝访问,因此它显然在数据网格方法中发挥着至关重要的作用。
但数据网格和数据虚拟化技术不是一回事。
将数据虚拟化视为数据网格会错失任何大型企业都必须采用更细致入微的方法的机会。这种狭隘的观点可能导致数据冗余和重叠,并且无法跨域在语义上链接数据以进行需要这种链接的计划,例如全渠道客户体验或供应链优化。另一个结果可能是连接高容量和复杂数据结构的应用程序和分析的性能欠佳。数据虚拟化技术根本无法改变物理定律,无论它们已经成熟了多少。
为了获得数据网格的全部价值,我们推荐三种模式来组织域,所有这些模式在任何大型组织中都很有用,其中只有一种涉及虚拟化技术:
同位并互联。 在此模式中,数据库结构在语义上是相关的(客户数据有意义地链接到销售数据,销售数据链接到产品数据等), 并且驻留在同一个数据库实例中。 与各种对象关联的架构仍由与每个域关联的团队半独立开发,但对象本身会贡献给单个数据存储,就像同一购物中心中的多个零售店一样。在同一数据库实例中存储单独(但相关)的架构,可以为访问大量、复杂、频繁联接数据的各种要求苛刻的业务关键型应用程序提供良好的性能。实际上, 在这种情况下,没有其他方法可以满足性能要求。
分布并互联。 此模式使用虚拟化技术来链接驻留在不同平台(单独的云、单独的集群、单独的数据库软件等)上的数据。但是,术语“互联”不仅仅意味着通过通用接口提供对多个数据产品的物理访问。这也意味着确保数据在连接时有意义。也就是说,数据也应该像前面的模式一样在语义上链接。这不会通过虚拟化自动发生。它需要跨域进行规划和协调。当物理上共置数据由于法规或其他原因而不切实际或不可行,或者根据数据的性质及其访问方式提供的性能优势很小时,此模式非常有用。
孤立。 此模式对于很少(如果有的话)需要跨域链接的域或域组非常有用。例如,大型控股公司内的独立业务部门内的数据(没有交叉营销、没有共享的客户列表、没有共同的供应链元素等)可能符合这种模式,尽管这些业务部门中的域可能仍然利用前两种模式。当内部决策障碍给整合一个领域到更广泛的生态系统中带来不可逾越的挑战时,孤立的领域也可能(不幸的是)发生,即使业务利益超过协调工作。
如您所见,在应用数据网格理念时,在规划如何构建数据产品时,需要谨慎和思考。仅从通过虚拟化链接数据的角度来思考充其量是短视的,并且会削弱虚拟化提供的基本价值。在特定领域和跨领域业务计划需求的驱动下,适当地应用所有这三种模式,可以实现分布式开发的所有好处,同时加速(而不是抑制)在整个企业中合理、集成和可信数据的部署。
请参阅此白皮书,深入了解Teradata对数据网格的看法。
连续 20 年:被公认为数据分析领域的领导者
连续 20 年:被公认为数据分析领域的领导者
随时了解情况
订阅 Teradata 的博客,获取每周向您提供的见解