数据仓储:
分析的基础

什么是数据仓?

数据仓是一种设计模式或数据架构,可以长期追踪集成、一致和详细的数据,使用元数据和架构建立它们之间的关系。

数据仓的来源

数据仓的概念始于1988年,当时巴里·德夫林和保罗·墨菲在IBM系统杂志上发表了他们的开创性论文。他们的愿景引发了对数据库实施的更具体定义的需求,比尔·因蒙和拉尔夫·金鲍尔在20世纪90年代初提供了这些定义——加特纳在2005年进一步澄清了定义。现在,任何有关数据仓储的讨论还包括如何或在哪里实施数据仓解决方案,例如在中,或以混合云方式跨越多地和云。

数据仓不是表格集合或以TB大小来衡量。这是一个设计模式,一个具有许多特点的数据架构:

主题导向
反映组织每天开展业务的业务实体和流程。主题区域中的细节级别非常重要:如果存在详细数据,则是数据仓;如果仅有摘要或仅有有限的数据,则是数据市场。 

集成、一致
所有表中都对数据格式和值进行了标准化,以确保用户能够理解完整、准确的数据。它还必须具有完整性:例如,如果没有相应的客户记录,它就不能有采购交易记录。 

非易失性历史
数据仓捕获数据变化并跟踪数据变化。所有数据都保留,不会随事务更新而更改。无论是传统的、混合的还是云数据仓
,数据仓实际上企业对最重要数据的“企业记忆”。 

元数据、架构、 词典

组织通常会捕获所有有关客户和销售交易的信息,这些交易与产品描述、库存、材料账单、支持记录和营销活动相关联。主题区域由列头和多排数据的关系表组成。列头称为元数据,因为它们描述了该列中数值的上下文,包含字段的名称及其数据类型,如日期、货币、时间、整数和文本。存储的每个记录至少有一个关键字段,允许随机直接访问。所有表格定义——元数据——共同称为架构,并存储在数据字典中。整个完全建成的数据仓由主题区域组织,有4000到7000个关系表。

数据如何进入数据仓?

数据源
有200个甚至500个不同的应用程序将数据发送到数据仓并不罕见,该仓库将所有此类据整合到主题区域。仓库从企业资源规划 (ERP)、客户关系管理(CRM)和供应链管理(SCM)等应用中摄入数据。

来自鼠标点击网页的点击记录数据是另一个来源,类似的还有机械车辆的传感器数据等。非结构化数据,如JSON(JavaScript对象符号),虽然不符合行和列的格式,但仍捕获入数据仓内。 

数据加载
数据通过一个连续的过程加载到数据仓中——这个过程通常全天都在进行。数据加载达成数据仓的业务目的:寻找问题答案的基础。数据科学家应用高级数学来查找模式和异常,而业务分析师则使用可视化的报告和仪表板。

数据加载与向业务用户传递数据的业务目的有关:获得洞察力并找到解决业务问题的答案。数据科学家将高级数学应用于大量数据,以查找模式和异常。多维分析是高度汇总所有数据的地方,例如,能够快速按地区、城市、销售人员和产品销售审阅。高管和业务分析师(或“公民数据科学家”)使用的可视化报告和仪表板都来自其管控的数据仓。

数据集成
在数据进入数据仓的数据库之前,它会通过数据集成步骤——这个复杂的过程将来自多个来源的数据合理化为单个结果。最初,这称为提取、转换和加载(ETL),因为数据必须从源中提取、精炼,然后加载到数据仓关系表中。 

数据清理
现代集成过程包括数据清理,包括检测和纠正损坏或不准确的记录。错误是由于输入错误、硬件损坏或简单的人为错误造成的。数据集成任务将来自多个应用程序的最佳、最准确和最完整的数据组合成仓库中干净、可靠的“黄金记录”。

Teradata数据仓

自成立以来,Teradata一直是分析数据库和数据仓储演变过程中的关键角色。事实上,Teradata Vantage(前身为Teradata Database)和Teradata采取的数据仓储方法往往是客户上升到各自行业顶尖位置的核心部分,包括通信、媒体和娱乐金融服务医疗保健和生命科学零售公用事业制造旅游和运输等等

云数据仓和Teradata Vantage

为整合云部署和其可扩展性优势,Teradata和整个市场都已演化。Teradata Vantage 是公司的旗舰产品,它建立在Teradata数据库的坚实基础上,并结合了2011年并购Aster Data后获得的先进分析能力。

Vantage适用于亚马逊网络服务(AWS)、微软Azure、谷歌云、Teradata基础设施 (Teradata云或客户云)以及运行VMware虚拟化软件的商品硬件。

Cloud Analytics - AWS 亚马逊网络服务(AWS) 

通过Teradata Vantage使用AWS基础设施 

将分析带入云中