什么是云数据仓,它是如何工作的?
云数据仓执行传统数据仓所期望的所有功能(数据处理、排序规则、集成、清理、加载、报告等),但在公共云环境中执行此操作。主要的例子包括微软Azure SQL Data Warehouse,亚马逊Redshift,Teradata Vantage,谷歌云的BigQuery和Snowflake云数据平台。
与其本地对应物一样,部署在云中的企业数据仓通常是关系数据库,专注于结构化和半结构化数据。这就是您在各种客户关系管理(CRM)、企业资源规划(ERP)和销售点应用程序中看到的那种,仅举几例。同时,非结构化数据通常使用数据湖框架进行聚合,该框架也可以基于云计算。
在最精细的级别上,存储在仓库中的大多数数据被描述为事实、度量或维度:
- 事实:与特定事件或交易相关的数据点,例如:“员工John Smith年薪总额为48000美元,本月支付4000美元。”
- 度量:与事实相关的精确数字——基于上面的例子,其中一个衡量标准是“月薪:4000美元”。
- 维度:这些使用更结构化的上下文信息对事实和措施进行分类,例如“员工姓名:John Smith”和“直接存款日期:11月15日和11月30日”。
云数据库以其多功能性而著称,因此它可以很容易地是多维的。除了能够在单个场所轻松管理当前和历史大数据的许多维度之外,现代云数据库还可以在无服务器架构上运行,这有助于最大限度地减少企业的数据管理责任。或者,云数据库可以使用群集和节点方法,其中使用两个或多个物理服务器。
传统数据仓与云数据仓
除了位于本地而不是云中之外,传统企业数据仓工具和由云提供商管理的仓之间的最基本区别在于架构和建模:
传统仓架构的类型
传统的数据仓解决方案按层划分。
- 底部:这是数据库服务器所在的位置,从其许多源头收集数据。
- 中间:联机分析处理(OLAP)服务器位于此处,以关系或多维方式转换数据。
- 顶部:三层中最高的是报告和数据分析工具所在的位置。
在传统数据仓中看到的模型如下:
- 虚拟:虚拟仓是一组可以同时查询的独立数据库,给人一种单个数据仓的错觉。
- 企业:这种风格的传统数据仓聚合来自业务的每个单元的数据。
- 数据集市:在此模型中,仓库被拆分为多个组件,每个组件都专注于组织内的一个部门。例如,一个数据集市可能仅从企业来源整理与营销相关的数据,而另一个数据集市则坚持销售。
云数据仓架构
您将看到的云数据仓服务类型通常可以分为基于群集的体系结构或无服务器体系结构:
- 基于群集:多个服务器节点组合在一起,在公有云或混合云部署中托管此数据仓,每个节点都有自己的计算、存储和RAM资源。主要节点处理查询接收,并将其分配给执行这些查询并生成结果的计算节点。
- 无服务器:在这种体系结构样式中,数据库群集完全由云服务提供商管理,并分布在许多不同的客户端中。
上面详述的两种云数据仓类型都可以提供非常快速的查询响应。主要区别在于管理:企业必须在一定程度上监督基于集群的仓储,要求其提供商根据数据流量添加或减去节点。无服务器用户希望其提供程序根据需要动态分配资源,以最大限度地提高查询速度。
使用云数据仓进行分析的好处
积累和整理所有这些千兆字节(最终是多个兆字节)的数据与存储或操作无关。它可以揭示的见解能够成为战略发展的基础,从而推动增长和底线——并且必须通过分析工具解锁它们。
对通过云解决方案托管的数据仓运行数据分析和报告与为本地仓完成相同的任务有很大不同。事实上,它可以说是目前企业界最令人兴奋的云计算趋势之一。
无论是在单个公有云中工作、使用多云解决方案,还是运行与本地数据基础架构绑定的混合云部署,云数据仓都能为分析工作负载提供更大、更具成本效益的可扩展性和弹性,因为它们会随着企业优先级的变化而扩展和收缩。查询的运行速度将比在本地仓中更快,并且由于缺乏硬件开销,总体成本较低。
借助适用于云的数据分析引擎,您可以使用您熟悉的编程语言(如 SQL、Python、SAS和R)为您的组织提供灵活性,以根据您的情况要求制作和实现复杂的算法。 情绪解析、文本提取、图形绘制以及地理空间或时间序列分析。
此外,在云中运行数据仓分析允许您与众多数据管理服务集成:Amazon EBS、S3、SageMaker、Glue和Lambda,以及Azure Blob Storage、Data Factory、ML Studio和PowerBI,这些只是其中的几个例子。
如何选择和部署基于云的数据仓
首先,您必须考虑基于集群的仓库架构还是无服务器仓库体系结构是否适合您组织的云部署。
集群仓库具有更可预测的定价,并允许更直接的监督,但此优势的代价是投入更多的时间和资源来管理弹性、容量和集群运行状况。相比之下,无服务器模型完全由CSP监督,弹性会自动扩展,但您要么按查询付费,要么根据利用率付费,这可能很难预测。
事实上,无论型号如何,定价可能是选择云数据仓最复杂的方面。强大的云平台的主要优势之一是其弹性,但有时当数据工作负载稳定时,您可能会遇到成本效率低下的问题。此外,监控与将数据移出云的工作流相关的任何成本以及可能迅速失控的复杂预算和成本控制至关重要。
最后的重点,基于云的仓库的初始实施可能会带来比预期更慢的性能,需要用户改变他们的做法以适应这些早期问题。
充分利用云数据仓的关键是将其与敏捷、可扩展且价格灵活的连接多云数据平台(如Teradata Vantage)一起使用。Vantage与主要云提供商的补充数据工具兼容,定价仅基于使用情况。此外,该平台可在任何云环境或本地无缝运行,并允许数据和应用程序从物理数据基础架构到云的流畅来回移动,甚至在多云模型中的云提供商之间来回移动。
了解有关Vantage的更多信息