数据分析方面的经验教训

我在数据和分析领域20年里学到的10件事

Martin Willcox
Martin Willcox
2021年11月23日 4 最小阅读
近期,我在Teradata工作满17年,在这个行业工作满四分之一个世纪。以下是我在这20多年中学到的10件事,排名不分先后。
 
#1:数据驱动的组织正在超越同行并吞噬世界(苹果、亚马逊、eBay、Facebook、谷歌、PayPal等)。

#2:连接、集成和共享数据(大部分)是一个良性循环;在孤岛中管理数据(几乎总)是一个恶性循环。将详细的销售、订单和库存数据放在一起,并与合作伙伴和供应商共享,使沃尔玛能够在90年代通过创建一个需求驱动的供应链,同时改善销售和客户体验,并降低成本,实现主导杂货零售业。亚马逊同样主导着今天的零售业,将购买数据与行为数据相结合让他们比竞争对手更好地了解客户想要什么,并使合作伙伴能够利用其创建的平台,生成更多关于更多客户的数据。如果我们没有优化端到端的价值链,我的经验是大部分情况下那是错误的。

#3:管理、连接、集成和共享数据通常很困难,而且永远不是免费的。这种努力和费用需要与公司战略和成本合理性保持一致,因为虽然所有数据都有价值,但有些数据比其他数据更有价值——并且许多数据集的价值随着时间的推移而变化。我了解到,总是、总是、总是(至少)要有一个模型——但同样,过度建模数据也是错误的,特别是当该数据的价值和重用的程度尚不清楚的情况下。我还了解到,整合不是目标,当整合的成本超过收益时最好放弃。

#4:现代商业中唯一不变的是变化——数据和数据产品延迟被商业和社会价值所否认。我了解到,更快地交付价值的最简单方法是:从最终目标开始,并构建必要的内容,避免过度工程;在可行的情况下重新使用和扩展现有的数据资产和服务,避免通过重复重新实施而产生昂贵且难以维护的数据孤岛;并尽可能实现自动化。

#5:将处理数据规模化,并且比将数据运送到处理十有八九会更好——并且在读取密集型环境中针对采集和加载进行优化是错误的、错误的、错误的。 设计要以可访问为中心!

#6:大型和复杂的组织就是这样:大型、复杂和多样化——因此,成功的数据平台是一个支持多种工具,技术和语言的开放数据平台。也就是说,通常应该首选易于部署、使用、管理、维护和优化的工具和技术。老朋友SQL可能有其局限性,但是当涉及到优化具有连接、合并、聚合和排序处理功能的复杂查询时,对于一个简单的声明性语言来说,有很多话要说。所有有价值的分析都具有大量的连接、合并、聚合和排序处理功能。

#7:数据是一股力量,既有好的也有坏的,道德考虑应该支撑数据的收集、管理、利用,以及至关重要的保护和保障的方式。

#8:在不久的将来,机器学习将无处不在,并成为许多行业竞争优势的基础,而机器学习首先是一个数据问题。与此同时,组织无法对所有内容进行机器学习, 虽然机器学习依赖于良好的数据,但良好的数据所支撑的不仅仅是机器学习。John Snow不需要卷积神经网络来改变我们对霍乱的看法——即使是最复杂的电子商务平台,简单的A/B测试仍然是一个强大的工具。

#9:数据正在迁移到云端。我们应该越来越少的把云看作一个地方,而应该更多地把它看作是一个下一代计算范式,它提供了:一个丰富的可组合服务生态系统、按需基础设施、API驱动的一切、自动化操作、可用性和简单性。特别是,对象存储技术有可能在Hadoop失败的地方取得成功,并为企业提供一个“数据操作系统”,从而实现彻底的架构简化。

#10:数据架构和数据管理现在并不酷——由于没有它们,数字化将永远无法充分发挥其潜力,因此作为一个行业,我们需要解决这个问题。

关于我们 Martin Willcox

Martin leads Teradata’s EMEA technology pre-sales function and organisation and is jointly responsible for driving sales and consumption of Teradata solutions and services throughout Europe, the Middle East and Africa. Prior to taking up his current appointment, Martin ran Teradata’s Global Data Foundation practice and led efforts to modernise Teradata’s delivery methodology and associated tool-sets. In this position, Martin also led Teradata’s International Practices organisation and was charged with supporting the delivery of the full suite of consulting engagements delivered by Teradata Consulting – from Data Integration and Management to Data Science, via Business Intelligence, Cognitive Design and Software Development.

Martin was formerly responsible for leading Teradata’s Big Data Centre of Excellence – a team of data scientists, technologists and architecture consultants charged with supporting Field teams in enabling Teradata customers to realise value from their Analytic data assets. In this role Martin was also responsible for articulating to prospective customers, analysts and media organisations outside of the Americas Teradata’s Big Data strategy. During his tenure in this position, Martin was listed in dataIQ’s “Big Data 100” as one of the most influential people in UK data- driven business in 2016. His Strata (UK) 2016 keynote can be found at: www.oreilly.com/ideas/the-internet-of-things-its-the-sensor-data-stupid; a selection of his Teradata Voice Forbes blogs can be found online here; and more recently, Martin co-authored a series of blogs on Data Science and Machine Learning – see, for example, Discovery, Truth and Utility: Defining ‘Data Science’.

Martin holds a BSc (Hons) in Physics & Astronomy from the University of Sheffield and a Postgraduate Certificate in Computing for Commerce and Industry from the Open University. He is married with three children and is a solo glider pilot, supporter of Sheffield Wednesday Football Club, very amateur photographer – and an even more amateur guitarist.

查看所有帖子 Martin Willcox

随时了解情况

订阅 Teradata 的博客,获取每周向您提供的见解



我同意作为本网站提供商的Teradata天睿公司可能偶尔向我发送Teradata市场沟通电子邮件,其中包含有关产品、数据分析、活动和网络研讨会邀请的信息。我了解我可以随时通过点击我收到的任何电子邮件底部的取消订阅链接取消订阅。

您的隐私很重要。您的个人信息将根据Teradata全球隐私政策收集、存储和处理,您可以通过单击此隐私链接阅读和打印。

从 Teradata 查看更多信息