近期,我在Teradata工作满17年,在这个行业工作满四分之一个世纪。以下是我在这20多年中学到的10件事,排名不分先后。
#1:数据驱动的组织正在超越同行并吞噬世界(苹果、亚马逊、eBay、Facebook、谷歌、PayPal等)。
#2:连接、集成和共享数据(大部分)是一个良性循环;在孤岛中管理数据(几乎总)是一个恶性循环。将详细的销售、订单和库存数据放在一起,并与合作伙伴和供应商共享,使沃尔玛能够在90年代通过创建一个需求驱动的供应链,同时改善销售和客户体验,并降低成本,实现主导杂货零售业。亚马逊同样主导着今天的零售业,将购买数据与行为数据相结合让他们比竞争对手更好地了解客户想要什么,并使合作伙伴能够利用其创建的平台,生成更多关于更多客户的数据。如果我们没有优化端到端的价值链,我的经验是大部分情况下那是错误的。
#3:管理、连接、集成和共享数据通常很困难,而且永远不是免费的。这种努力和费用需要与公司战略和成本合理性保持一致,因为虽然所有数据都有价值,但有些数据比其他数据更有价值——并且许多数据集的价值随着时间的推移而变化。我了解到,总是、总是、总是(至少)要有一个模型——但同样,过度建模数据也是错误的,特别是当该数据的价值和重用的程度尚不清楚的情况下。我还了解到,整合不是目标,当整合的成本超过收益时最好放弃。
#4:现代商业中唯一不变的是变化——数据和数据产品延迟被商业和社会价值所否认。我了解到,更快地交付价值的最简单方法是:从最终目标开始,并构建必要的内容,避免过度工程;在可行的情况下重新使用和扩展现有的数据资产和服务,避免通过重复重新实施而产生昂贵且难以维护的数据孤岛;并尽可能实现自动化。
#5:将处理数据规模化,并且比将数据运送到处理十有八九会更好——并且在读取密集型环境中针对采集和加载进行优化是错误的、错误的、错误的。 设计要以可访问为中心!
#6:大型和复杂的组织就是这样:大型、复杂和多样化——因此,成功的数据平台是一个支持多种工具,技术和语言的开放数据平台。也就是说,通常应该首选易于部署、使用、管理、维护和优化的工具和技术。老朋友SQL可能有其局限性,但是当涉及到优化具有连接、合并、聚合和排序处理功能的复杂查询时,对于一个简单的声明性语言来说,有很多话要说。所有有价值的分析都具有大量的连接、合并、聚合和排序处理功能。
#7:数据是一股力量,既有好的也有坏的,道德考虑应该支撑数据的收集、管理、利用,以及至关重要的保护和保障的方式。
#8:在不久的将来,机器学习将无处不在,并成为许多行业竞争优势的基础,而机器学习首先是一个数据问题。与此同时,组织无法对所有内容进行机器学习, 虽然机器学习依赖于良好的数据,但良好的数据所支撑的不仅仅是机器学习。John Snow不需要卷积神经网络来改变我们对霍乱的看法——即使是最复杂的电子商务平台,简单的A/B测试仍然是一个强大的工具。
#9:数据正在迁移到云端。我们应该越来越少的把云看作一个地方,而应该更多地把它看作是一个下一代计算范式,它提供了:一个丰富的可组合服务生态系统、按需基础设施、API驱动的一切、自动化操作、可用性和简单性。特别是,对象存储技术有可能在Hadoop失败的地方取得成功,并为企业提供一个“数据操作系统”,从而实现彻底的架构简化。
#10:数据架构和数据管理现在并不酷——由于没有它们,数字化将永远无法充分发挥其潜力,因此作为一个行业,我们需要解决这个问题。
#1:数据驱动的组织正在超越同行并吞噬世界(苹果、亚马逊、eBay、Facebook、谷歌、PayPal等)。
#2:连接、集成和共享数据(大部分)是一个良性循环;在孤岛中管理数据(几乎总)是一个恶性循环。将详细的销售、订单和库存数据放在一起,并与合作伙伴和供应商共享,使沃尔玛能够在90年代通过创建一个需求驱动的供应链,同时改善销售和客户体验,并降低成本,实现主导杂货零售业。亚马逊同样主导着今天的零售业,将购买数据与行为数据相结合让他们比竞争对手更好地了解客户想要什么,并使合作伙伴能够利用其创建的平台,生成更多关于更多客户的数据。如果我们没有优化端到端的价值链,我的经验是大部分情况下那是错误的。
#3:管理、连接、集成和共享数据通常很困难,而且永远不是免费的。这种努力和费用需要与公司战略和成本合理性保持一致,因为虽然所有数据都有价值,但有些数据比其他数据更有价值——并且许多数据集的价值随着时间的推移而变化。我了解到,总是、总是、总是(至少)要有一个模型——但同样,过度建模数据也是错误的,特别是当该数据的价值和重用的程度尚不清楚的情况下。我还了解到,整合不是目标,当整合的成本超过收益时最好放弃。
#4:现代商业中唯一不变的是变化——数据和数据产品延迟被商业和社会价值所否认。我了解到,更快地交付价值的最简单方法是:从最终目标开始,并构建必要的内容,避免过度工程;在可行的情况下重新使用和扩展现有的数据资产和服务,避免通过重复重新实施而产生昂贵且难以维护的数据孤岛;并尽可能实现自动化。
#5:将处理数据规模化,并且比将数据运送到处理十有八九会更好——并且在读取密集型环境中针对采集和加载进行优化是错误的、错误的、错误的。 设计要以可访问为中心!
#6:大型和复杂的组织就是这样:大型、复杂和多样化——因此,成功的数据平台是一个支持多种工具,技术和语言的开放数据平台。也就是说,通常应该首选易于部署、使用、管理、维护和优化的工具和技术。老朋友SQL可能有其局限性,但是当涉及到优化具有连接、合并、聚合和排序处理功能的复杂查询时,对于一个简单的声明性语言来说,有很多话要说。所有有价值的分析都具有大量的连接、合并、聚合和排序处理功能。
#7:数据是一股力量,既有好的也有坏的,道德考虑应该支撑数据的收集、管理、利用,以及至关重要的保护和保障的方式。
#8:在不久的将来,机器学习将无处不在,并成为许多行业竞争优势的基础,而机器学习首先是一个数据问题。与此同时,组织无法对所有内容进行机器学习, 虽然机器学习依赖于良好的数据,但良好的数据所支撑的不仅仅是机器学习。John Snow不需要卷积神经网络来改变我们对霍乱的看法——即使是最复杂的电子商务平台,简单的A/B测试仍然是一个强大的工具。
#9:数据正在迁移到云端。我们应该越来越少的把云看作一个地方,而应该更多地把它看作是一个下一代计算范式,它提供了:一个丰富的可组合服务生态系统、按需基础设施、API驱动的一切、自动化操作、可用性和简单性。特别是,对象存储技术有可能在Hadoop失败的地方取得成功,并为企业提供一个“数据操作系统”,从而实现彻底的架构简化。
#10:数据架构和数据管理现在并不酷——由于没有它们,数字化将永远无法充分发挥其潜力,因此作为一个行业,我们需要解决这个问题。
连续 20 年:被公认为数据分析领域的领导者
随时了解情况
订阅 Teradata 的博客,获取每周向您提供的见解