虽然本文是关于数据分析的,但让我从太空分析开始。在太空技术中,探测车是一种小型飞行器,它降落在火星等行星上,然后对表面进行分析。探测车能够对复杂的地形、大气层和表面进行非常复杂的分析。
探测车能够进行如此高级分析的原因在于,它不仅仅是一个样本收集工具。它直接在星球上进行大部分分析。
现在试着想象一下把数据分析与太空类比。数据库是行星,分析算法是探测车。通过数据库内分析,分析算法在数据库内运行。与仅使用分析从数据库中收集样本相比,这要强大得多。
Teradata Vantage的数据库内分析是内置的。以下是您应该考虑数据库内分析的主要原因。
1. 尽量减少数据移动
将数据从数据库传输到本地笔记本电脑进行分析可能不是一件非常明智的事情。它涉及大量的数据移动和手动工作。这意味着工作效率的丧失和自动化机会的丧失。借助数据库内分析的强大功能,您可以最大限度地减少所有冗余数据移动。这也将使您免于在本地笔记本电脑上管理隔离数据副本的麻烦。
2. 执行复杂的分析
事实上,与样本相比,您可以对完整的数据集执行非常复杂的分析。以物联网方案为例,您需要分析来自数百个传感器的数据。
物联网传感器数据需要复杂的分析,如时间序列分析、异常检测、事件预测。有了如此大量的传感器,几乎不可能在笔记本电脑上下载所有物联网传感器数据。此外,处理示例数据也会导致错误的结果。
借助Teradata Vantage,您可以直接在数据库内部对完整数据执行所有复杂的物联网传感器数据分析。这将帮助您进行分析,而不会有任何错误结论的风险。
3. 规避安全风险
与安全性相比,数据科学家通常更关心算法。许多数据科学家很有可能将非常敏感的数据下载到他们的笔记本电脑上进行分析。
这是一个非常危险的情况,甚至可能导致公司的财务损失以及公司声誉的损害。你可能没有意识到这一点,直到它发生在你身上。
通过数据库内分析,无需将笔记本电脑用作“影子”数据库。借助数据库内分析,您现在可以避免将自己和公司置于风险之中。
4. 机器学习模型操作化
机器学习模型的操作化不仅仅是模型评分。机器学习模型成功操作的关键是将模型分数或预测与业务数据集成
例如,在设备异常检测用例中,仅正确预测异常是不够的。操作化还意味着知道设备的确切位置以及故障的影响。如果正确预测了设备异常,但不知道设备的位置,则无法操作机器学习模型。
通过数据库内分析,机器学习模型评分在数据库内部进行。这有助于将模型分数与其余数据相关联,从而使模型分数更具可操作性
5. 标准化业务用户界面
尽管许多数据科学家更喜欢使用不同的算法和技术,但业务用户更喜欢用户界面的稳定性。想象一下,业务用户使用BI工具分析客户数据,但得到的是预测客户流失的Jupyter笔记。对于业务用户以及用户界面的激增来说,这可能是一场噩梦。
通过数据库内分析,您可以利用业务用户熟悉的BI工具,也可以用于高级分析。这有助于在业务用户之间扩展高级分析。您可以通过数据库内分析的强大功能使机器学习在组织内无处不在。
了解有关Teradata Vantage的更多信息
探索Vantage随时了解情况
订阅 Teradata 的博客,获取每周向您提供的见解