“鉴古通今”:简析数据架构发展史,拥抱最适合企业的数据策略

数据仓库,数据湖,数据网格,数据...什么? 如果您对这些IT术语的泛滥感到困惑,请允许我们阐明一下。

Sebastian Barreda
Sebastian Barreda
2020年7月13日 6 最小阅读
Stay away from a data mess.

面对现实吧!我们这个行业就是喜欢流行词。有时,我们认为解决方案的质量会随着用于定义它的浮华辞藻的增加而提高。事实是我们错得不能再离谱了!我们每天都学习一个新词或首字母缩写词来保持跟上时代的步伐。但是,事物的核心真的改变了吗?老话说“万变不离其宗”,这句话在现在的世界依然有效吗?让我们对此进行更加深入的探讨。

简介数据架构的发展背景

80年代,我们看到了数据仓库架构这种新的范式,旨在合并来自不同系统的数据、来创建服务于业务用户的报告基础结构;同时,通过从昂贵的大型机和交易平台中释放处理流程来节约部分成本。随着时间的推移、业务需求变得越来越复杂,我们还看到了数据仓库向更成熟、更强大的体系结构发展,能够服务于越来越多的使用案例,从批量处理报告到复杂的近实时事件处理。数十年来,我们一直在Teradata提倡这样的发展,正如下图所示。
Picture1.png图表1. 数据仓库的进化​
 

到了90年代和00年代,企业更加关注已经用于分析的数据的速度和复杂性,并增强能力、能够更快地处理更多非传统来源的复杂数据(例如Web应用程序日志或CRM输出数据)。智能运营是让数据仓库更加“活跃”的关键课题,此时的数据仓库可以当天甚至某小时内实时加载数据、同时加载每天的标准数据批次。有了预测分析作为业务决策的关键推动力,企业也完成了从“照镜子”到“向前看”的转变。就像Teradata的首席技术官Stephen Brobst曾经说过的那样“开车时是不可能只看后视镜的。”

虽然您可能认为这是一种“老派”或传统的观点,但我们要知道自己从何而来、才能计划我们未来的发展方向:我们经历了一个繁荣的时代,通过数据仓库为业务用户创造了价值,而像Teradata这样的关系型数据库主导了这个市场,并为世界带来了许多业务价值和客户满意度。而另一方面,我们也要看到失败的实现,有些产品无法带来太多的价值,因为它们都太“以IT为中心”、与业务需求的联系很少。我们吸取到的教训是,架构部署必须与业务需求保持一致、并专注于满足业务需求。剧透提醒:这话您听起来是不是很熟悉?我们稍后会再聊这个话题。

“数据XX”的架构问题

在过去的多年里,我们看到从众多数据源产生的数据量激增,而其中一些数据源能够产生大量数据记录。为了能够成功捕获和管理这些种类繁多、数量暴增的信息,企业对技术产生了新的要求。消费信息的新方式加深了我们对数据处理实时性的需求;与此同时还需要面对其他挑战,例如更高的并发性和数据结构的复杂性要求。恭喜您!我们才刚刚进入大数据时代!前方道路颠簸,请系好安全带。

几十年来,我们所熟悉的架构原则开始转向另一种范式。我们意识到,仅拥有一个全能或多功能平台是不够的。突然间,我们就看到了混合分析生态系统的诞生——“逻辑数据仓库”或“企业数据中心”等许多其他名词出现(视您喜欢的分析公司的词汇而定)。再向前一步,我们遇到了一个新成员:由Hadoop 项目提供特别支持的分布式文件系统,这成为了数据湖这种崭新的架构模式的强大推动者。

Picture1-(1).png
图表2. 关系型信息架构

数据湖成为衡量许多分析生态系统 “真实”的标准,如果不搭建数据湖、这个分析生态系统就不会很酷,并且也不会被认为是现代的。我们看到一些强大的大型硅谷公司在构建自己的数据湖,并向这个框架中填充新的工具和知识。但猜猜后来怎么样?尽管不是因为设计模式本身,但大多数数据湖项目部署实际上都失败了(我们认为如果我们构建了数据湖、就能使用数据湖,但实际上并非如此)。大多数数据湖的构建并没有明确的业务目的,也没有适当的数据管理实践。作为一款基于商品化硬件之上的开源软件,它确实“便宜”且“足够好”。但无论公司如何考虑,即使是开源和商品化的产品、其实也要付出代价,并且要付出巨大的努力才能实现真正的业务价值。我们也许会同意,一些社交网络和内容流媒体公司在这次尝试中获得了成功,但是绝大多数公司的业务和团队建设方式都和这些硅谷巨头公司非常不同。所以说,没有一道菜是能让所有人都喜欢且适合的。
Picture1-(2).png图表3. 将数据整合到分析生态系统
 

快进到现在,从数据湖的沼泽中,我们看到数据仓库仍在发挥作用。等等……为了推进现代化的发展,我们也看到了更多新框架也在兴起。我们开始听到有关Data Lake House和数据网格的信息。

数据就像车轮里的空气一样无处不在

我们生活在一个高度竞争的时代,市场上充满了伟大的数据解决方案(虽然它们不是十全十美),所以现在让我们集中讨论最重要的东西:数据。可悲的是,许多解决方案供应商试图通过在数据的齿轮上添加新的分支、来使自己与众不同,从而在缺乏很多实际内容的情况下试图撼动“现状”。改变不好吗?当然不是。我们倡导并拥抱变化、实现创新。但是请记住,数据是推动发展的动力。我们可以提高效率并使数据车轮的设计更加现代化,让数据更加安全、能够适应不同的环境或天气……但最后,数据依然是轮子:精心架构的数据能够充满车轮,使您的企业能以安全的方式将路上的颠簸降到最低。

专注数据策略

这应该是您在寻找的词吧。好吧,实际上,这区分开了两个世界。无论外部发出了什么噪音,您都需要继续关注您的业务需求、并基于此来构建数据策略。哪些数据将带来更多价值?企业已有哪些资源可以补充这项新计划?我们如何确定它们的优先级?哪些资金可以用来实现这一目标?我们可以保证良好的投资回报率、来获得更多资金吗?如果我们首先打好了这个基础,就可以开始更快地获得价值吗?在回答了这些问题之后,我们就可以开始应用架构模式,来最明智地利用公司的技术和资金资源。根据数据的价值和所需分析技术的特征,我们可以找到适合不同架构模式的合适选择。我们也许还可以重复利用已经被证明有用的东西。不需要坚持某一种模式,而是拥抱每种模式的有用之处。
Picture1-(3).png图表4. Teradata 分析技术发展路线图
 

反过来的做法是行不通的。我们不能仅仅因为某项技术听起来很酷,就试图将数据、分析甚至业务决策强加到架构模式中。仅凭“一句话”就改变公司的架构战略、草率做出决定,这是非常危险的。

最后请记住,相比追逐闪亮的新架构流行词,恰当的数据策略将会带来更多的商业价值。

Tags

关于我们 Sebastian Barreda

Sebastian Barreda is an Ecosystem Architect with 15 years of working with Data and Analytics Solutions. He worked in Teradata Consulting in many roles, from ETL and BI development to Requirement gathering and Logical Data Modeling, were he gained practical experience on these many topics. Later, he advanced his career to a Solution Architecture role, working on analyzing customer’s business and technical requirements to translate them into products, solutions, and services, understanding the key link between business needs and technology enablers, leveraging cloud, open source and the so called Big Data tools and solutions. He worked on delivering Data Strategy advisory on several Industries like Retail, Manufacturing, Communications, Media & Entertainment and Banking.  查看所有帖子 Sebastian Barreda

随时了解情况

订阅 Teradata 的博客,获取每周向您提供的见解



我同意作为本网站提供商的Teradata天睿公司可能偶尔向我发送Teradata市场沟通电子邮件,其中包含有关产品、数据分析、活动和网络研讨会邀请的信息。我了解我可以随时通过点击我收到的任何电子邮件底部的取消订阅链接取消订阅。

您的隐私很重要。您的个人信息将根据Teradata全球隐私政策收集、存储和处理,您可以通过单击此隐私链接阅读和打印。