“数据是新的石油”已经成为老生常谈,但大多数人都忽略了这样一个事实,即当Clive Humby在2006年创造这个短语时,他也在谈论提炼数据、让它变得可用且有用的过程。正如原油在精炼成汽油和煤油时变得更加有效一样,许多不同的数据产品也从相同的基础原始数据中汲取灵感。数据网格为我们提供了一个框架,通过支持将数据平台分解为面向领域的项目,可以减少上市时间和复杂性,从而为数据产品的联合开发提供框架。但是,由于“数据热爱数据”,企业必须珍视由此产生的馏分油的价值——不仅仅是作为独立的产品,而是作为尚未想象的跨领域和企业范围数据分析产品的潜在燃料。
考虑一个(非常粗略地)简化了的零售融资方案。抵押贷款团队可能有合理和紧迫的要求来创建新的数据产品,以了解COVID-19疫情对大型郊区房产需求的影响。底线是这种新的数据产品可能需要通过与组织其他成员使用的新的和不同的地理层次结构来汇总抵押贷款产品应用程序。与领域一致的开发过程和架构使这成为可能,而无需在组织的其他部门进行冗长的讨论和谈判。
相比之下,当对大型郊区房产抵押贷款的需求转化为向客户预付的实际贷款时,由此产生的数据将支持许多其他支持战术和战略决策的数据和分析产品。这将需要跨职能和组织线合并数据——由此产生的数据产品可能会在整个组织中广泛共享和重复使用。
即使是像这样的简单、风格化的例子,也凸显出大型和复杂的组织需要创建具有各种功能和非功能需求的各种数据产品。许多基础数据可能是相同的,但我们处理它们的方式在每种情况下可能都非常不同。能够重复使用是终级版的“消除不必要的工作”,我们应该尽可能广泛地创建和再利用预处理的“馏出物”。
联合开发复杂数据产品不应意味着联合其部署。事实上,我们看到三种不同的企业部署策略与数据网格概念一致:
同一位置的部署方法将域放置在同一平台上,由不同的团队并行构建。这并不能保证互操作性,互操作性仍然必须通过定义一组最小的显式相互关系来设计。但是,在单个平台上部署可能具有非常重要的性能和可伸缩性优势,特别是对于跨域工作负载。具体而言,主机代管可以消除相对较慢的WAN、LAN和存储网络中的大规模数据移动操作,并允许改进查询优化。这样可以提高查询吞吐量并降低总拥有成本。
在某些情况下,将所有域放在单个平台或单个数据库实例下是没有意义的。例如,主权法通常要求PII数据必须在管辖范围内持久保存。对于跨国公司来说,这意味着即使使用的数据库技术相同,也会在不同的地理位置部署多个架构。连接方案使用虚拟化和联合技术来启用跨域分析。但是,与共存方案一样,仍然需要运行协调和对齐数据的艰难过程,以便可以可靠地组合和比较它们。
隔离域通常基于对极端安全性的需求(例如:对于HR数据)而提出。数据产品在单个域中是完全独立的,并且使用的架构通常在范围和服务操作报告要求方面较窄,而不是企业分析。然而,孤立的真正原因往往与政治和对组织独立的渴望有关。真正有用的数据在与其他数据结合使用时,很少不会放大其价值。
创建可发现的数据服务,使设计用于重用的数据产品能够在特定域之外进行访问和部署,这对于避免不断重新发明类似的重叠数据产品至关重要。通过平衡联合开发与互操作性和大规模部署能力的要求,连接的云数据仓是大型复杂组织中数据网格实施的基础,并提供了两全其美的优势:实施敏捷性和高性能执行。
要了解更多信息,请查看Stephen Brobst(Teradata首席技术官)和Ron Tolido(Capgemini洞察与数据执行副总裁,首席技术官兼首席创新官)的文章,标题为“数据网格的工程方法”。
设置正确的界限
将大型复杂问题空间分解为一组较小的模型是数据网格概念中固有的域驱动设计(DDD)的核心。但它也要求我们在域之间定义明确的边界和相互关系,这意味着各个开发团队之间至少要有一定程度的管理和协调。在独立性和独立性之间取得适当的平衡既是艺术也是科学。设置最佳的“有界上下文”并建立轻量级治理模型对于数据网格架构的成功至关重要,我将在另一篇博客中介绍它们。考虑一个(非常粗略地)简化了的零售融资方案。抵押贷款团队可能有合理和紧迫的要求来创建新的数据产品,以了解COVID-19疫情对大型郊区房产需求的影响。底线是这种新的数据产品可能需要通过与组织其他成员使用的新的和不同的地理层次结构来汇总抵押贷款产品应用程序。与领域一致的开发过程和架构使这成为可能,而无需在组织的其他部门进行冗长的讨论和谈判。
相比之下,当对大型郊区房产抵押贷款的需求转化为向客户预付的实际贷款时,由此产生的数据将支持许多其他支持战术和战略决策的数据和分析产品。这将需要跨职能和组织线合并数据——由此产生的数据产品可能会在整个组织中广泛共享和重复使用。
即使是像这样的简单、风格化的例子,也凸显出大型和复杂的组织需要创建具有各种功能和非功能需求的各种数据产品。许多基础数据可能是相同的,但我们处理它们的方式在每种情况下可能都非常不同。能够重复使用是终级版的“消除不必要的工作”,我们应该尽可能广泛地创建和再利用预处理的“馏出物”。
数据网格的三种部署策略
如果重用最终不仅仅是避免创建几乎相同报表的99个不同版本,而是创建分层数据体系结构,以便发现和重用高价值数据元素,那么互操作性通常是一个关键考虑因素。但是,如何能在数据网格中实现这一点呢?联合开发复杂数据产品不应意味着联合其部署。事实上,我们看到三种不同的企业部署策略与数据网格概念一致:
- 主机代管
- 连接
- 隔离。
同一位置的部署方法将域放置在同一平台上,由不同的团队并行构建。这并不能保证互操作性,互操作性仍然必须通过定义一组最小的显式相互关系来设计。但是,在单个平台上部署可能具有非常重要的性能和可伸缩性优势,特别是对于跨域工作负载。具体而言,主机代管可以消除相对较慢的WAN、LAN和存储网络中的大规模数据移动操作,并允许改进查询优化。这样可以提高查询吞吐量并降低总拥有成本。
在某些情况下,将所有域放在单个平台或单个数据库实例下是没有意义的。例如,主权法通常要求PII数据必须在管辖范围内持久保存。对于跨国公司来说,这意味着即使使用的数据库技术相同,也会在不同的地理位置部署多个架构。连接方案使用虚拟化和联合技术来启用跨域分析。但是,与共存方案一样,仍然需要运行协调和对齐数据的艰难过程,以便可以可靠地组合和比较它们。
隔离域通常基于对极端安全性的需求(例如:对于HR数据)而提出。数据产品在单个域中是完全独立的,并且使用的架构通常在范围和服务操作报告要求方面较窄,而不是企业分析。然而,孤立的真正原因往往与政治和对组织独立的渴望有关。真正有用的数据在与其他数据结合使用时,很少不会放大其价值。
互联云数据仓
敏捷、增量和业务主导的数据和分析产品开发方法很重要,因为它们可以帮助组织专注于提供高质量的数据产品,以解决现实世界的业务问题。数据网格概念下的联合开发可以发挥关键作用,因为它能够分解复杂的问题,以便它们可以由多个以业务为中心的团队并行处理。但是,成功的大规模部署还需要我们设计互操作性、发现和重用。创建可发现的数据服务,使设计用于重用的数据产品能够在特定域之外进行访问和部署,这对于避免不断重新发明类似的重叠数据产品至关重要。通过平衡联合开发与互操作性和大规模部署能力的要求,连接的云数据仓是大型复杂组织中数据网格实施的基础,并提供了两全其美的优势:实施敏捷性和高性能执行。
要了解更多信息,请查看Stephen Brobst(Teradata首席技术官)和Ron Tolido(Capgemini洞察与数据执行副总裁,首席技术官兼首席创新官)的文章,标题为“数据网格的工程方法”。
连续 20 年:被公认为数据分析领域的领导者
随时了解情况
订阅 Teradata 的博客,获取每周向您提供的见解