概述
新冠病毒数据科学项目教给了企业什么
数据科学家可以应用清理、集成和建模方面的专业知识来揭示复杂的问题。

大流行中的数据科学
数据科学正当道。当然,这已经不是第一次了:2008年和2016年是该学科的另外两个旗帜年,当时美国公众很感兴趣使用数据来预测选举命运。结果,数据在一年的预测方面有效(“民主党如何赢得2008年数据战争”),另一年就无效——“数据如何让我们在举行选举时失败” 。2020年,随着政府努力减缓新冠病毒的传播,公众更加敏锐地意识到数据科学对我们所有人的影响。
随着人们对数据重要性认识的提高,公众也看到了数据的许多复杂性。当来自不同背景和学科的人在社交媒体上发布流行病学图表和基本传染书“R-nought”曲线时,他们也卷入了关于这些数据的含义和需要注意的模型分歧中。
大数据科学家对这些讨论并不陌生,这些讨论长期以来在企业中经常发生。他们知道,分歧是不可避免的,甚至是制定更准确的模型所必需的,只要这些讨论是合议的即可。
通过协作进行创新
正如莎拉·卡拉汉在《模式》杂志上所写的那样:“我敦促所有希望帮助这些建模工作的数据科学家不要简单地获取数据并将其插入他们喜欢的分析软件。结果出来的数字可能很可怕,尤其是在他们没有任何流行病学专业知识去理解这些数字的情况下。”
卡拉汉鼓励数据科学家加入卡格尔COVID-19开放式研究数据集挑战赛(CORD-19),这是对白宫科技政策办公室 呼吁采取行动解决紧急的新冠病毒问题的回应。她补充说,卡格尔挑战赛是一个机会,“我们可以作为一个团队一起工作,发挥我们各自的优势。”
对于企业中的人员来说,这种协作举措是了解哪些因素可以让人群达成共识和找到可操作的答案的机会。如果这些举措能够被大规模的推行去帮我们解决本世纪以来全球遇到的最棘手的问题之一,那么在企业中创建有效的协作数据政策和举措也是触手可及的。
以下是组织可以从新冠病毒数据科学项目中学到的一些具体经验:
1. 收集所有数据
把持续收集实时数据放在组织核心并不是一项简单的任务。疫情期间缺乏可用的测试和依赖人工收集和编码的数据表明,导入大量和多样化数据类型的基础设施和流程建设很重要。不准确收集数据可能导致模型偏差,并延迟收集足够大的样本进行分析所需的时间。
在企业中,分析所有数据——而不仅仅是其中的一些数据——至关重要。我们设计混合云数据分析软件Vantage时坚信这个理念,一定要能利用公司100%的数据。我们知道,这种可见度水平将是企业领导者能够看到其他情况下无法识别的关联的最佳方式。
2. 使数据公开和可访问
同一企业中的组织和团队总是会保护其数据,但当全球危机威胁到每个人的生命和生计时,这种领土本能会迅速消退。即使没有全球大流行,您如何鼓励在业务关键项目上进行类似程度的访问和协作?
使数据可访问始于您的治理,这不仅仅是确保完整性和安全性。您的治理必须作为更广泛的数据分析管理策略的一部分来开发。考虑创建分层数据架构,使您能够控制元数据,如业务规则和定义标准,同时仍可以让您的人员以敏捷的方式访问数据。例如,您可以向技术数据科学家打开原始的非结构化数据集,但为业务分析师创建结构化和自动化的接口。这两个角色仍将拥有处理相同数据和发现见解所需的自主权,而您的数据安全和完整性将保持不变。
3. 鼓励社区反馈和分享
尽管卡格尔的CORD-19挑战赛的参与者正在争夺奖金,但他们仍然公开讨论对其他人在开发数据科学项目时可能有用的工具和方法。竞赛参与者还定期向组织者提交能使挑战赛运行更加顺利的反馈。
企业可以通过创造一种持续学习的文化来创造同样水平的社区和支持,在这种文化中,分享想法和跨职能工作是有回报的。在Teradata,我们有一个名为“Transcend”的平台,它为我们的合作学习文化做出了重大贡献。我们的人员使用超越来安全地尝试我们自己的企业数据,看看其他团队在为满足客户需求而优化我们的产品和服务的共同努力中尝试了什么。
4. 集成和共享数据以鼓励发现
将数据放在相关背景中是帮助社区找到答案道路上的关键一步。约翰霍普金斯大学的工程师们在疫情爆发初期就明白了这一点,他们绘制了广为流传的COVID-19全球地图 ,显示世界各地的实时病例数据。
在其规模或与其他熟悉的锚值比较的情况下呈现数据可以揭示孤立数据永远无法发现的答案。这就是为什么集成数据集和数据类型、为数据科学家提供可视化和通信数据上下文的工具如此重要。有了这些背景信息,通过一目了然的可视化数据,数据科学家帮助公众了解到病毒的威胁并采取行动减缓其传播。
数据科学家的责任
虽然数据科学家不像医疗工作者那样站在这一流行病的前线,但他们仍然要发挥关键作用——甚至是公民义务——来对抗它。数据科学家可以运用他们在数据清理、集成、建模和沟通方面的专业知识来揭示复杂的问题。每当数据是主要症结所在——这情况非常常见——数据科学家就可以消除理解障碍。
反过来,企业领导者有责任消除组织中任何人去发现数据答案的障碍。对于一个学习文化繁荣的公司来说,如果清理路障可以产生有意义的影响,许多人经常会去做。