Subscribe to the Teradata Blog

Get the latest industry news, technology trends, and data science insights each week.

利用Vantage风险分析技术,建立早期预警系统

利用Vantage风险分析技术,建立早期预警系统

新冠疫情以前所未有的规模大范围爆发,这引发人们对分析行业产生了极大的兴趣,而在过去的几个月里,也掀起了一阵数据采集与分析的风潮。我们在Teradata 全球交付中心(GDC),也为政府和其他行政机构设计了一个以数据为中心、通过分析技术实现的早期预警系统。这样的早期预警系统是基于一系列整合的不同的数据源,包括传感器数据、医疗数据、出行数据和众筹数据等,接着我们会基于这样的跨行业整合数据集进行分析。因为Teradata以其领先的数据仓库技术闻名,我们能够实现这样的大规模整合,而Teradata旗下Vantage可以自然地利用这样原生的并行处理能力,我们在大规模、高效率地提供这样的解决方案上获得了领先的地位。

解决方案概览

我们将定制化解决方案的核心(图表1)建立在了两个免费的风险分析模型上,它们可以记录人群中个体的档案数据、以及通过地理和行政边界划分的聚居地,根据人群被新冠病毒感染的可能性进行划分。
Picture1.png

图表1:基于早期预警系统建立的风险管理功能,控制新冠病毒的传播

实现分析

这两个风险模型的实现是基于一系列的分析技术,其中包括:

文本分析:利用从新闻、技术报告、研究出版物和社交媒体上提取出的信息,关注于发现普遍或者新出现的指向新冠病毒传播的因子。Picture1-(2).png

图表2:通过从不同渠道中采集的文本数据进行常用词分析,发现新出现的新冠病症和表现因子

Picture1-(3).png
图表3:通过词语共现分析,发现新出现的新冠病毒表现因子和病症
Picture1-(4).png图表4:通过话题模型发现新出现的新冠相关主题
Picture1-(5).png图表5:基于Twitter数据进行语义分析,结合地理定位数据,发现新出现的风险情况
 

图谱分析:关注于将不同类型和阶段的新冠病例进行归类,通过人口和医疗数据、以及来自电信运营商和社交媒体上采集的有特征的人群移动数据,发现易感染人群。

Picture1-(6).png 图表6:利用WHO和JH的数据源,建立个体及位置图谱描绘数据仪表盘
Picture1-(7).png图表7:利用WHO和JH的数据源,基于感染案例和整体测试人群数据的比例,以及病死率,进行地理图谱描绘

归类分析、回归分析及其他以机器学习为基础的分析技术:关注于预测个体对新冠病毒的接触,以及新冠病毒在不同地理位置的传播。
Picture1-(8).png图表8:使用机器学习算法及来自Kaggle和菲律宾政府的数据预测新冠病死率
 
 
建模与模拟:关注于分析新冠病毒的传播动态,通过进行假设分析、评估并发现高效的资源规划方法,从而减少病毒的传播。
Picture1-(9).png图表9:基于不同年龄段的人群向不同地区移动的概率分布建立的移动模型
Picture1-(10).png
图表10:基于个体年龄及他们可能与其他个体接触的可能性,建立可视化的分析评分模型
Picture1-(11).png图表11:模拟人群在一个假设的网格区间内运动的可视化交互图表。单元格的颜色代表不同的场所,例如住宅区、教学区等;白圈的宽度代表人群的密度。

除了为风险预测引擎提供分析结果,这些分析模型还能相互补充,促进彼此表现和准确性的提升。例如,档案分析模型能为建立符合疾病传播实际情况的模拟模型提供有效的输入信息。同样的,从文本分析中获取的洞察也可以通过模型输入等功能和参数,丰富档案分析和机器学习模型。

风险模型

风险模型中的输入数据是已经在运行的分析模型,由此得出个人和地理区间的风险评分。个人的风险评分标准是基于他们和新冠病毒接触的可能性、以及他们将病毒传染给他人、以及从感染中康复的可能性等。

地理风险评分则是基于整个地区内、及跨地区的人口流动性水平、以及整个区域内感染人口的比例。

这两个模型能够帮助我们建立早期预警系统并时刻把控情况,政府机构可以使用这些模型来通过手机或者其他通讯渠道,对人员的流动提出预警,同时尝试并测试新冠病毒的封锁措施。

Picture1-(12).png图表12:基于人口流动、感染性指数和其他几个指标,在模拟网格区间内预测的不同居住区域的风险评分

原型

来自分属于巴基斯坦、印度和菲律宾的3个不同地区Teradata全球交付中心(GDC)的数据科学家组成了一支团队,并建立了我们在上文展示的早期的模型原型,利用了在公共领域可以获取的数据,包括来自WHO的新冠病毒相关数据、约翰·霍普金斯大学、Kaggle、Twitter和一些国家网站端口的数据。我们在上文图表2-12中展示的可视化示例均来自不同的分析工作流。100%的数据,包括从公共领域拉取的原始数据、以及经过修正的分析数据集、以及用于可视化的数据,都是在Transcend这个Teradata用于测试和优化产品的内部平台上完成的。我们专注于提供行业最好的技术分析生态系统、从客户的角度出发解决问题。我们还开发了Covalent界面,将被用于承载早期预警系统的前段界面,我们还将把所有分析结果产出整合到同一个渠道中。这个产品的使用状况良好,不仅能够预测新冠病毒的传播风险,还可以用于检测未来可能出现的任何风险。

特别鸣谢我们的团队伙伴,他们都为这套解决方案、包括这篇文章的诞生贡献了独特的力量:

  • Fitzroy Dy, 数据科学家,来自Teradata GDC菲律宾团队,负责数据档案分析。
  • Madhuri Patil, 数据科学家,来自Teradata GDC印度团队,负责文本分析。
  • Muhammad Jawad Khokhar, 高级数据科学家,来自Teradata GDC巴基斯坦团队,以及Kailash Talreja, 数据科学家,来自Teradata GDC印度团队,他们负责解决方案中的建模和模拟分析。

Portrait of Kamran Shafi

(Author):
Kamran Shafi

Kamran is a seasoned data scientist with a PhD in machine learning and AI and more than 15 years of experience working in different industries. He is currently a principal data scientist with Teradata GDC, Pakistan. Prior to that he has worked in several senior data science roles, including as an independent consultant, with the Australian Government and with other academic and research organizations in Australia. Kamran’s expertise includes a range of machine learning, optimization and simulation technologies including deep learning, evolutionary computing, multi-agent systems and reinforcement learning. He is currently leading several data science projects including the one for predicting and containing COVID-19 spread. View all posts by Kamran Shafi

Turn your complex data and analytics into answers with Teradata Vantage.

联系我们