什么是数据市场?

数据仓的子集

数据市场是数据仓逻辑模型中一个以对象为主导的数据切块,为少数特定用户群体提供服务。许多数据市场只需要从数据仓的完整表中分出一组数据。例如,一个市场可能只有销售交易、产品和库存记录。大多数数据市场只有5-20张表格,而不是4000张。

数据市场事实表

数据市场中的表格数与数据库的大小无关。例如,主表(称为事实表)可以是电信公司数百个TB的通话详细记录。数据市场本身可能是巨大的,但它依然只是数据仓中所有可用数据的一部分。

数据市场通常是反规范化的,只通过对数据进行排序和聚合结果表来捕获数据摘要,通常会抛掉详细数据。有些数据市场每周或每月完全重新加载。鉴于删除所有数据并刷新数据相对容易,因此报告只查看最近30天的交易。

星形模型
数据市场和星形模型有着千丝万缕的联系。想象一下五个电子表格中的数据行和列。其中四个电子表格通过关键词与称为事实表的主表连接。想象一下,事实表有5000万条记录,鉴于这个数据量超过电子表格的容量,因此把它们存储在数据市场表中。大多数数据市场都有5-10张星形模型设计表,其中星型发散出来的的小型表称为维度表。

雪花模型
维度表是包含重要信息的小型表。事实表是存储大部分数据(可能存储数十亿条记录)的地方,可以连接到客户表以获取实际客户姓名和地址字段。它的一个变体,雪花模型,有多个通过关键词连接在一起的事实表。每个事实表只有四个或五个维度表,它们的关系图表类似于雪花,但仍然是一个数据市场。

数据市场和数据仓有何不同?

数据市场和数据仓之间的区别在于主题区域和集成,按模式复杂性而非数据库大小进行划分。这就是为什么在数据仓中可以问的问题比在数据市场中复杂100倍——因为所有数据都在数据仓中。
 
数据仓中有许多“拼图碎片”,所有集成表都按主题区域分组。数据仓不一定很大,它可能只占5TB的存储空间;或者,它也可能有数百TB的记录。另一种选择是在数据市场中存储三张庞大的表格。

加载数据
市场上不乏数据集成工具、保存数据的数据库、甚至用于分析数据的工具。将少量数据移动到商业智能(BI)工具以用于报告或仪表板并不费力。真正的成本在于数据的移动和转换。

移动数据
集成步骤需要很多人力和计算处理,但另一种选择是给业务用户提供损坏、不完整或不准确的数据——这会让用户回到电子表格的老办法。这就是为什么数据仓数据是有价值的,以及为什么数据市场扩散是有风险的。

Teradata数据市场解决方案

Teradata Vantage是普及数据智能的平台。其云友好型架构旨在利用公司100%的数据,无论它们存在哪里。Teradata服务团队经验丰富,可以帮助公司从他们拥有的数据中获得所需的答案。

Cloud Analytics - AWS 亚马逊网络服务

将AWS基础设施与Teradata Vantage搭配使用

避免不必要的瓶颈和复杂性,将分析带到云中