Data fabric指南

它如何推动卓越的数据集成和交付

数据曾经被称为“新石油”。但就像实际的石油一样,只有当最终客户始终可以接触到它时,数据才能提供价值——哪怕他们在很远的地方,在完全不同的环境中。它还必须能够转化为多种潜在产品,以满足消费者的特殊需求。

石油经济是靠千千万万的管道搭建起来的,这些管道将石油输送到炼油厂和工厂,在那里它可以制成从汽油到塑料的任何东西。企业数据分析生态系统需要一个类似的基础设施来标准化数据访问,并使用它来推动高级用例——Data Fabric提供的正是这种基础设施。

Data fabric基础架构

什么是Data fabric?

Data fabric是统一的数据集成和管理层,用于连接和本地数据终结点。其目的是通过将所有数据整合在一起并实现一致的分布式访问,以及为其用户提供全方位的发现、集成、编排和治理功能,从而消除独立的孤岛。

Data fabric现在尤其重要,因为分析生态系统几乎是按定义分布的。这在很大程度上是因为云趋势。组织正在将数据分散到各种位置,例如数据仓驱动的商业智能平台和基于Hadoop的数据湖。Data fabric充当贯穿所有数据源的线程,通过一致、可靠和灵活的查询将数据源连接到数据使用者。

Data fabric也是高度自动化的,它可以将现有的数据集成和交付方式(如批量/批处理和数据虚拟化方法)拼接在一起。这些可以编排,即自动配置、管理和协调。Gartner率先提出了data fabric概念,认为现代数据结构还必须结合最新的技术和实践,例如:

  • 嵌入式人工智能(AI)和机器学习(ML),用于激活和主动管理元数据等目的。
  • 语义知识图谱 ,使新节点更容易实现,并支持自然语言处理等用例。
  • DataOps,一种由敏捷启发的方法,用于通过自动化测试、监控和统计过程控制等实践来缩短分析周期。

没有一个多合一的数据结构软件能够编织完整的data fabric。相反,每个企业都需要将构建和购买的基础架构结合起来,以创建满足其特定需求的data fabric。

Data fabric的5项基本功能

在将data fabric缝合在一起时,企业必须确保它具有以下功能:

1. 随时随地进行一致的查询

Data fabric最终应该抽出它所互连的异构系统的潜在复杂性,以便像数据科学家这样的最终用户可以从任何地方发起他们的查询。这种随时随地的便利性是data fabric的根本优势。用户可能从Hadoop数据湖或数据仓开始,但无论何种情况,他们都应该能够使用双向数据访问和并行运行的高质量连接器来完成所需的查询。

2. 持续的数据发现、集成和编目

Data fabric架构的固有自动化使其能够主动查找来自任何来源的数据,然后将这些来源集成到展示关键关系的知识图谱中。数据目录也是data fabric的重要组成部分,因为它结合了元数据和搜索工具,可帮助用户检索他们要查找的内容,无论它位于数据湖、数据仓还是其他设计模式中。

3. 民主化的自助服务

与云基础架构本身一样,data fabric架构旨在通过安全的自助服务接口简化其用户的访问。在最近一份关于企业使用data fabric的报告中,Forrester强调了这种自助服务的两个重要推动因素:

  1. AI和ML可自动执行上述功能,从发现和分类一直到引入和转换。
  2. 零代码和低代码部署选项,即使是高度复杂的data fabric架构,也可以轻松部署。

总体而言,自助服务使业务用户可以控制其数据准备工作流。他们可以在沙盒环境中运行,从任何来源访问数据,并使用他们喜欢的工具对其进行操作,甚至可能将其发送到生产环境。

4. 被动到主动元数据转换

Gartner强调,此功能是data fabric概念的基础。

被动元数据是静态的。它通常在设计时创建,并作为数据架构和业务定义等项的文档进行维护。 活动元数据是动态的,提供对访问频率和数据质量等参数的不断变化的见解。

在data fabric中,AI和ML通过持续分析元数据,然后构建易于用户理解的图形模型,将被动元数据转换为主动元数据。然后,这些AI和ML算法使用此分析的结果来优化它们如何自动管理整个企业生态系统中的数据。通过这种方式,活动元数据有助于减少在准备和浏览数据时对手动操作的需求。

5. 可扩展性和灵活性

与文字结构一样,data fabric应该足够灵活,能适应变化;它永远不应该成为数据访问的障碍。实现此目标的重要功能包括:

  • 并行和集群感知数据传输
  • 自动数据格式转换和类型管理
  • 能够使用特定于平台/平台本机的功能
  • 跨平台延伸的基于策略的安全性
  • 本地和远程系统的日志记录和监控
  • 下推式处理可实现最佳工作负载性能

Data fabric的最大优势是什么?

Data fabric的一个主要优点是通过对数据的一致分布式访问来提高易用性。这可以分为三个子优势:

1. 在不影响质量的情况下加速数据交付

数据交换矩阵技术缩短了从数据发现和引入到交付和使用的时间。此外,通过使用活动元数据来集成和管理企业数据的AI和ML算法,数据质量不断得到完善。

2. 自助消费与协作

使用数据结构解决方案,业务和技术用户都可以快速、一致地找到他们想要的东西。在组织处理数量激增的数据源和孤岛以及大数据用例时,这一点至关重要。Data fabric将它们通过易于追踪的方式全部编织在一起。

3. 自动化集成、管理和数据治理

由于data fabric架构是高度自动化的,它们可以执行曾经需要大量手动操作的任务,例如集成数据源和分析其数据质量。自动化可以节省时间,还可以降低错误和合规性问题的风险。

拥抱data fabric的可能性

Teradata QueryGrid是我们的高速并行data fabric系统,可提供企业对其数据所需的可扩展性、灵活性、集成性、全面管理和彻底治理。用户可以使用他们选择的工具跨多云混合云或本地环境访问和处理数据。

要了解有关如何开始编织data fabric的更多信息,请查看下面的网络研讨会,了解QueryGrid如何与Teradata Vantage和Starburst Enterprise Presto协同工作,以实现分析环境现代化并加速获得见解。