新冠疫情以前所未有的规模大范围爆发,这引发人们对分析行业产生了极大的兴趣,而在过去的几个月里,也掀起了一阵数据采集与分析的风潮。我们在Teradata 全球交付中心(GDC),也为政府和其他行政机构设计了一个以数据为中心、通过分析技术实现的早期预警系统。这样的早期预警系统是基于一系列整合的不同的数据源,包括传感器数据、医疗数据、出行数据和众筹数据等,接着我们会基于这样的跨行业整合数据集进行分析。因为Teradata以其领先的数据仓库技术闻名,我们能够实现这样的大规模整合,而Teradata旗下Vantage可以自然地利用这样原生的并行处理能力,我们在大规模、高效率地提供这样的解决方案上获得了领先的地位。
解决方案概览
我们将定制化解决方案的核心(图表1)建立在了两个免费的风险分析模型上,它们可以记录人群中个体的档案数据、以及通过地理和行政边界划分的聚居地,根据人群被新冠病毒感染的可能性进行划分。
实现分析
这两个风险模型的实现是基于一系列的分析技术,其中包括:
文本分析:利用从新闻、技术报告、研究出版物和社交媒体上提取出的信息,关注于发现普遍或者新出现的指向新冠病毒传播的因子。
图表2:通过从不同渠道中采集的文本数据进行常用词分析,发现新出现的新冠病症和表现因子
.png?origin=fd)
.png?origin=fd)
.png?origin=fd)
图谱分析:关注于将不同类型和阶段的新冠病例进行归类,通过人口和医疗数据、以及来自电信运营商和社交媒体上采集的有特征的人群移动数据,发现易感染人群。
.png?origin=fd)
.png?origin=fd)
归类分析、回归分析及其他以机器学习为基础的分析技术:关注于预测个体对新冠病毒的接触,以及新冠病毒在不同地理位置的传播。
.png?origin=fd)
.png?origin=fd)
.png?origin=fd)
.png?origin=fd)
除了为风险预测引擎提供分析结果,这些分析模型还能相互补充,促进彼此表现和准确性的提升。例如,档案分析模型能为建立符合疾病传播实际情况的模拟模型提供有效的输入信息。同样的,从文本分析中获取的洞察也可以通过模型输入等功能和参数,丰富档案分析和机器学习模型。
风险模型
风险模型中的输入数据是已经在运行的分析模型,由此得出个人和地理区间的风险评分。个人的风险评分标准是基于他们和新冠病毒接触的可能性、以及他们将病毒传染给他人、以及从感染中康复的可能性等。
地理风险评分则是基于整个地区内、及跨地区的人口流动性水平、以及整个区域内感染人口的比例。
这两个模型能够帮助我们建立早期预警系统并时刻把控情况,政府机构可以使用这些模型来通过手机或者其他通讯渠道,对人员的流动提出预警,同时尝试并测试新冠病毒的封锁措施。
图表12:基于人口流动、感染性指数和其他几个指标,在模拟网格区间内预测的不同居住区域的风险评分
原型
来自分属于巴基斯坦、印度和菲律宾的3个不同地区Teradata全球交付中心(GDC)的数据科学家组成了一支团队,并建立了我们在上文展示的早期的模型原型,利用了在公共领域可以获取的数据,包括来自WHO的新冠病毒相关数据、约翰·霍普金斯大学、Kaggle、Twitter和一些国家网站端口的数据。我们在上文图表2-12中展示的可视化示例均来自不同的分析工作流。100%的数据,包括从公共领域拉取的原始数据、以及经过修正的分析数据集、以及用于可视化的数据,都是在Transcend这个Teradata用于测试和优化产品的内部平台上完成的。我们专注于提供行业最好的技术分析生态系统、从客户的角度出发解决问题。我们还开发了Covalent界面,将被用于承载早期预警系统的前段界面,我们还将把所有分析结果产出整合到同一个渠道中。这个产品的使用状况良好,不仅能够预测新冠病毒的传播风险,还可以用于检测未来可能出现的任何风险。
特别鸣谢我们的团队伙伴,他们都为这套解决方案、包括这篇文章的诞生贡献了独特的力量:
- Fitzroy Dy, 数据科学家,来自Teradata GDC菲律宾团队,负责数据档案分析。
- Madhuri Patil, 数据科学家,来自Teradata GDC印度团队,负责文本分析。
- Muhammad Jawad Khokhar, 高级数据科学家,来自Teradata GDC巴基斯坦团队,以及Kailash Talreja, 数据科学家,来自Teradata GDC印度团队,他们负责解决方案中的建模和模拟分析。
了解有关Teradata Vantage的更多信息
探索Vantage随时了解情况
订阅 Teradata 的博客,获取每周向您提供的见解