钟表匠的类比可以追溯到200多年前。提问:如果你走在树林里,在地上发现一块手表,你会怎么想,“它是有机生长的,还是有设计师?”您可能会从外部检查它,并对显示的秒、分钟、小时、天、周、月、月相和潮汐着迷。然后,您可能会测试其准确性并惊叹于其连续精度。然后,您可能会打开它,并更加惊讶地发现,所有显示都是通过一组齿轮编排在一起的——每个齿轮都集成在一起,并执行其目的,以跟踪和显示表盘的相应当前时间。大多数人都会得出结论,这肯定是由钟表设计师制作的。
让我们继续钟表匠与数据网格的类比,注意将数据产品看作齿轮。每个齿轮都有一个独特的目的。例如,不需要两个齿轮来跟踪秒数。正如每个设备负责跟踪其时间元素一样,每个数据产品都负责跟踪自己的数据元素集。手表的每个齿轮都有特定的形状和尺寸。在数据网格中,每个数据产品都有一个特定的形状和大小,称为其边界上下文。这使得每个数据产品都具有特定的用途,并减少(理想情况下消除)两个数据产品管理相同数据的需求。
每个齿轮都有齿,使其能够与其他齿轮和手表组件(例如主发条)连接。同样,数据产品具有API(以及用于共存和连接数据产品的抽象视图)以与其他数据产品和用户进行交互。
手表只需要关注跟踪和显示的时间部分。但是,当我们移动到不同的时区时,会发生什么呢?我们需要能够将观看时间设置为新的时区。这可以通过将表冠向前或向后旋转到适当的小时来轻松完成。所有齿轮必须协同工作,以同步调整所有刻度盘和显示屏,以反映(也就是数据中的转换)适当的时间元素。一些手表用户可能非常关心月相和潮汐,而另一些用户可能想知道当前是一周中的哪一天,但这一切都必须在当前时区内准确反映。
同样,数据网格中也有类似的需求,即能够根据任何给定的时间点重构数据。当层次结构随时间变化时,就会发生这种情况。原始规划是从原始层次结构构建的,可能是在摘要级别。但是,正在根据当前层次结构跟踪实际值,该层次结构可能会随时间而变化。许多数据产品必须能够根据业务需要重构数据,以便将计划与实际情况进行比较。如果业务用户只能在一个时间点内重新转换一部分数据产品,而其他数据产品则不能,那么结果就毫无意义。当数据产品以不同的时间间隔(例如,近乎实时、间歇或夜间批处理)刷新数据时,即使只是通过当前层次结构转换数据,也可能会出现问题。需要围绕变更数据捕获(CDC)、缓慢变化的维度(SCD)和服务级别目标(SLG)制定明确的标准和最佳实践。这需要融入到所有数据产品的设计中,为所有人实现时间灵活性和同步性。
数据网格方法使数据产品能够随着时间的推移而不断发展,以满足新的业务需求。在数据网格中,数据治理责任被下放到域团队,让他们掌管和实施其数据产品,例如数据质量、数据集成、安全性、架构设计和元数据。这些概念在组织中得到了清晰的理解,这些组织多年来一直在进行集中式分析数据处理,通过数据管家提供企业数据管理。 随着所有权通过域团队转移到业务领域,他们将需要确保他们拥有业务和技术技能来管理其数据产品的边界上下文,并安全地向其他域和用户公开所需的数据。
数据产品的分散化可以实现敏捷性。但是,如果没有主设计,混乱将随之而来,并导致点解决方案蔓延。我们可以看到钟表匠在提供全球标准、政策和最佳实践方面的重要性。域团队必须清楚地了解他们的角色和职责,才能在他们构建的数据产品时为用户的数据网格社区带来价值。
连续 20 年:被公认为数据分析领域的领导者
随时了解情况
订阅 Teradata 的博客,获取每周向您提供的见解