
此数据集中存在的功能以表格格式显示如下。



类分布
此外,在分析过程中还观察到每个受试者的数据点数量不一致。下图显示了数据集中要素的散点图,即心率、活动计数、昼夜节律特征、余弦特征和时间。活动计数和心率都显示相当均匀的记录分布,而昼夜节律特征和余弦特征显示抛物线曲线。时间特征是线性的,因为它的值是增量的。


克服不一致的方法
为了克服数据不一致问题(在主题和类上),时间序列预测用于数据插补和特征工程。
受试者接受扫描以找到分析所需的最佳时间序列长度。一旦确定了这一点,每个受试者的数据就会根据需要多少观测值来估算到最佳长度(通过简单的差值计算)。
因此,该过程的第一部分是利用基于时间的算法(如Facebook Prophet)根据可用的最长时间序列来估算/推断所有度量的时间序列。这将确保每个人的时间序列长度相等,并消除偏见。
数据集使用80/20规则拆分为每个受试者的测试和训练。然后将分类算法应用于新数据集,并将性能指标与原始数据集进行比较。

Prophet和数据插补
Prophet是由Facebook开发的开源预测库,旨在促进数据科学家执行多变量时间序列预测。Prophet在其后端使用加法回归,并利用傅里叶级数对年度季节性分量进行建模。它还使用其他组件,如分段线性或物流增长趋势。用户还必须提供要预测的时间粒度(每周、每年、每月、每天、每小时)。
我们使用Prophet进行数据归因,因为它是一种具有无数见证来支持其性能的工具。
以下展示一些关于特定特征的数据插补示例。
下图显示了该功能的预测,心率。在第一个图中,x轴上的粒度是日期。黑点表示平衡的时间序列。绿点表示要预测的测试集。蓝线是对测试集的实际预测。下面的第二张图显示了相同的分析,但细节更精细(时间戳)。在第二个图中可以看出,预测数据模拟测试数据集。对RMSE和R2等性能指标的进一步分析将讲述实际情况。这种类型的插补是针对数据集中的重要要素完成的。

逻辑回归被用作预先插补数据集的基本算法来设置基线。下面的结果显示,0、1、3、4和5类的F1分数表现不佳,主要是因为类中的不平衡。

基础测试(逻辑回归) - 插补前
随机森林被用作该项目的主要算法。之前和之后的结果/性能指标显示了预先归加和后归补数据之间的明显差异。0类的支持指标增加支持该类的F1分数增加。其他显著增加的类是1类和4类(表2)。宏观平均值和加权平均值也有所上升。

未来的工作
该项目具有未来的工作潜力。
- 添加有效的可视化效果,这将使项目在更好的见解方面得到提升。
- 通过纳入地理数据、受试者年龄、性别、健康相关数据和天气数据,可以进一步增强数据集。
- 加强数据集将改进业绩计量。
- 实施交叉验证方法还将确保对结果有更好的信心。
引用
-
Goldberger, A., Amaral, L., Glass, L., Hausdorff, J., Ivanov, P. C., Mark, R., ... & Stanley, H. E. (2000). PhysioBank, PhysioToolkit, and PhysioNet: Components of a new research resource for complex physiologic signals. Circulation [Online]. 101 (23), pp. e215–e220.
-
Teradata Data Science Hackathon (11-Feb-2021)
连续 20 年:被公认为数据分析领域的领导者
连续 20 年:被公认为数据分析领域的领导者
随时了解情况
订阅 Teradata 的博客,获取每周向您提供的见解