主题导向
反映组织每天开展业务的业务实体和流程。主题区域中的细节级别非常重要:如果存在详细数据,则是数据仓;如果仅有摘要或仅有有限的数据,则是数据市场。
数据仓的演变
Teradata的数据仓解决方案
数据仓不是表格集合或以TB大小来衡量。这是一个设计模式,一个具有许多特点的数据架构:
集成、一致
所有表中都对数据格式和值进行了标准化,以确保用户能够理解完整、准确的数据。它还必须具有完整性:例如,如果没有相应的客户记录,它就不能有采购交易记录。
非易失性历史
数据仓捕获数据变化并跟踪数据变化。所有数据都保留,不会随事务更新而更改。无论是传统的、混合的还是云数据仓
,数据仓实际上企业对最重要数据的“企业记忆”。
元数据、架构、 词典
组织通常会捕获所有有关客户和销售交易的信息,这些交易与产品描述、库存、材料账单、支持记录和营销活动相关联。主题区域由列头和多排数据的关系表组成。列头称为元数据,因为它们描述了该列中数值的上下文,包含字段的名称及其数据类型,如日期、货币、时间、整数和文本。存储的每个记录至少有一个关键字段,允许随机直接访问。所有表格定义——元数据——共同称为架构,并存储在数据字典中。整个完全建成的数据仓由主题区域组织,有4000到7000个关系表。
数据如何进入数据仓?
数据源
有200个甚至500个不同的应用程序将数据发送到数据仓并不罕见,该仓库将所有此类据整合到主题区域。仓库从企业资源规划 (ERP)、客户关系管理(CRM)和供应链管理(SCM)等应用中摄入数据。
来自鼠标点击网页的点击记录数据是另一个来源,类似的还有机械车辆的传感器数据等。非结构化数据,如JSON(JavaScript对象符号),虽然不符合行和列的格式,但仍捕获入数据仓内。
数据加载
数据通过一个连续的过程加载到数据仓中——这个过程通常全天都在进行。数据加载达成数据仓的业务目的:寻找问题答案的基础。数据科学家应用高级数学来查找模式和异常,而业务分析师则使用可视化的报告和仪表板。
数据加载与向业务用户传递数据的业务目的有关:获得洞察力并找到解决业务问题的答案。数据科学家将高级数学应用于大量数据,以查找模式和异常。多维分析是高度汇总所有数据的地方,例如,能够快速按地区、城市、销售人员和产品销售审阅。高管和业务分析师(或“公民数据科学家”)使用的可视化报告和仪表板都来自其管控的数据仓。
数据集成
在数据进入数据仓的数据库之前,它会通过数据集成步骤——这个复杂的过程将来自多个来源的数据合理化为单个结果。最初,这称为提取、转换和加载(ETL),因为数据必须从源中提取、精炼,然后加载到数据仓关系表中。
数据清理
现代集成过程包括数据清理,包括检测和纠正损坏或不准确的记录。错误是由于输入错误、硬件损坏或简单的人为错误造成的。数据集成任务将来自多个应用程序的最佳、最准确和最完整的数据组合成仓库中干净、可靠的“黄金记录”。
云数据仓和Teradata Vantage
为整合云部署和其可扩展性优势,Teradata和整个市场都已演化。Teradata Vantage 是公司的旗舰产品,它建立在Teradata数据库的坚实基础上,并结合了2011年并购Aster Data后获得的先进分析能力。
Vantage适用于亚马逊网络服务(AWS)、微软Azure、谷歌云、Teradata基础设施 (Teradata云或客户云)以及运行VMware虚拟化软件的商品硬件。