使用数据科学进行睡眠预测。

Teradata的睡眠预测黑客马拉松

2021年7月19日 4 最小阅读
今年早些时候,Teradata数据科学管理就一个特定的用例安排了一场黑客马拉松:“睡眠预测”,使用Apple Watch数据,让我们的全球数据科学顾问体验医疗保健分析。该数据集是通过39名戴着苹果手表的受试者收集的,他们对自己的睡眠周期进行了广泛的观察,目的是根据心率和活动计数记录睡眠的不同阶段。其他变量也从给定的特征中派生出来。

此数据集中存在的功能以表格格式显示如下。
Screen-Shot-2021-07-20-at-9-05-35-AM.png数据被标记为以下睡眠阶段。
Screen-Shot-2021-07-19-at-9-50-34-AM.png以下数字表示标签的类分布。在类分布中可以看到明显的平衡。这将导致结果中的偏差。
Screen-Shot-2021-07-19-at-9-57-38-AM.png

类分布

此外,在分析过程中还观察到每个受试者的数据点数量不一致。

下图显示了数据集中要素的散点图,即心率、活动计数、昼夜节律特征、余弦特征和时间。活动计数和心率都显示相当均匀的记录分布,而昼夜节律特征和余弦特征显示抛物线曲线。时间特征是线性的,因为它的值是增量的。
Screen-Shot-2021-07-19-at-9-51-47-AM.png如下所示的简单相关矩阵有助于识别余弦特征、索引和活动计数等特征。这些特征已从实际分析中删除。

Screen-Shot-2021-07-19-at-9-52-15-AM.png相关矩阵

克服不一致的方法

为了克服数据不一致问题(在主题和类上),时间序列预测用于数据插补和特征工程。

受试者接受扫描以找到分析所需的最佳时间序列长度。一旦确定了这一点,每个受试者的数据就会根据需要多少观测值来估算到最佳长度(通过简单的差值计算)。

因此,该过程的第一部分是利用基于时间的算法(如Facebook Prophet)根据可用的最长时间序列来估算/推断所有度量的时间序列。这将确保每个人的时间序列长度相等,并消除偏见。

数据集使用80/20规则拆分为每个受试者的测试和训练。然后将分类算法应用于新数据集,并将性能指标与原始数据集进行比较。
Screen-Shot-2021-07-19-at-9-53-25-AM.png

Prophet和数据插补

Prophet是由Facebook开发的开源预测库,旨在促进数据科学家执行多变量时间序列预测。Prophet在其后端使用加法回归,并利用傅里叶级数对年度季节性分量进行建模。它还使用其他组件,如分段线性或物流增长趋势。用户还必须提供要预测的时间粒度(每周、每年、每月、每天、每小时)。

我们使用Prophet进行数据归因,因为它是一种具有无数见证来支持其性能的工具。

以下展示一些关于特定特征的数据插补示例。

下图显示了该功能的预测,心率。在第一个图中,x轴上的粒度是日期。黑点表示平衡的时间序列。绿点表示要预测的测试集。蓝线是对测试集的实际预测。下面的第二张图显示了相同的分析,但细节更精细(时间戳)。在第二个图中可以看出,预测数据模拟测试数据集。对RMSE和R2等性能指标的进一步分析将讲述实际情况。这种类型的插补是针对数据集中的重要要素完成的。

Screen-Shot-2021-07-19-at-9-54-07-AM.png分类
逻辑回归被用作预先插补数据集的基本算法来设置基线。下面的结果显示,0、1、3、4和5类的F1分数表现不佳,主要是因为类中的不平衡。

Screen-Shot-2021-07-19-at-9-54-42-AM.png

基础测试(逻辑回归) - 插补前

随机森林被用作该项目的主要算法。之前和之后的结果/性能指标显示了预先归加和后归补数据之间的明显差异。0类的支持指标增加支持该类的F1分数增加。其他显著增加的类是1类和4类(表2)。宏观平均值和加权平均值也有所上升。
Screen-Shot-2021-07-19-at-9-55-24-AM.png

未来的工作

该项目具有未来的工作潜力。

  • 添加有效的可视化效果,这将使项目在更好的见解方面得到提升。
  • 通过纳入地理数据、受试者年龄、性别、健康相关数据和天气数据,可以进一步增强数据集。
  • 加强数据集将改进业绩计量。
  • 实施交叉验证方法还将确保对结果有更好的信心。

引用

  • Goldberger, A., Amaral, L., Glass, L., Hausdorff, J., Ivanov, P. C., Mark, R., ... & Stanley, H. E. (2000). PhysioBank, PhysioToolkit, and PhysioNet: Components of a new research resource for complex physiologic signals. Circulation [Online]. 101 (23), pp. e215–e220.

  • Teradata Data Science Hackathon (11-Feb-2021)

关于我们 Faraz Shahid

Faraz is a Data Science Consultant with over 11 years of experience in successfully delivering analytics and information systems solutions / projects to leading telecommunications, retail, FMCG and banks across Pakistani, MEA and North American markets. Faraz has led the successful inception, design and execution of advanced analytics projects covering different industry use cases including market basket analysis, people analytics, performance prediction modelling, customer journey and path analytics. Faraz has also held technical lead roles on several data science projects in a multi-platform ecosystem environment. He is currently focusing on building Teradata Assets over Vantage. 查看所有帖子 Faraz Shahid

关于我们 Muhammad Usman Syed

Usman is a Data Science Master’s Graduate from the University of Hildesheim (Germany) with prior experience in the Data Warehousing domain as a Business Intelligence Consultant. He has worked with versatile teams in the Telecom and Finance sector in order to cater to business requirements. Usman has worked on Access Layer development, Report development, Dashboard development, KPI reconciliation and Adhoc Data requirements for the BI domain. For the Data Science domain, he worked on a end -o-end Motion Classification Project based on sensor data, the result of which was published in the ECDA 2019 (European Conference of Data Analytics). His tasks in the project primarily were Data Exploration, Preprocessing and Training and testing logistic regression with LSTM. Usman also worked on the comparison and improvement of Model Averaging Techniques through Network Topology Modelling in a distributed environment with Pytorch and MPI.

查看所有帖子 Muhammad Usman Syed

随时了解情况

订阅 Teradata 的博客,获取每周向您提供的见解



我同意作为本网站提供商的Teradata天睿公司可能偶尔向我发送Teradata市场沟通电子邮件,其中包含有关产品、数据分析、活动和网络研讨会邀请的信息。我了解我可以随时通过点击我收到的任何电子邮件底部的取消订阅链接取消订阅。

您的隐私很重要。您的个人信息将根据Teradata全球隐私政策收集、存储和处理,您可以通过单击此隐私链接阅读和打印。

从 Teradata 查看更多信息