构建数据工厂以创建数千种数据产品

将分析和机器学习整合到汽车业务中的压力是无情的。了解汽车行业需要什么来实现其数字化承诺。

Chris Hillman
Chris Hillman
2021年8月5日 4 最小阅读
为汽车行业建设数据工厂
随着汽车行业的转型,软件与产品的机电元件一样重要。同样,在整个供应链中实现业务流程数字化和部署工业4.0技术意味着数据产品在业务转型方面与软件包一样重要。将分析和机器学习等数据产品集成到汽车业务中的压力是无情的,因为该行业正在努力实现敏捷性和创新,以跟上变化的步伐。但是,为了提供我们在这些博客中探索的数字线程,分析必须工业化为高效且有效的“数据工厂”,可以创建数千种数据产品。

数据工厂可以被设想为一个高效可靠的流程,以利用源数据中的业务价值。这不仅意味着能够收集数据以获得孤立的见解,还意味着能够一致且高效地构建数据产品。然后,这些被用于组织的各个层面,从呼叫中心或机器操作员到高管层,并依靠它们来为日常决策提供信息。

进入企业功能商店

可重复、简化的流程和通用功能的重用是数据工厂概念的核心。一旦数据科学家可以访问整个企业的数据,下一步就是确保他们能够有效地使用这些数据来解决企业规模的实际问题。单个数字线程可以在部门或职能部门内增加价值,但真正的乘数效应来自于形成单个线程的数据被重用、组合和扩展。企业功能存储是这种重用的基础。

创建企业功能存储是为了解决大规模部署数据产品的基本挑战:80%的数据产品工作用于数据整理:查找、清理和集成数据以形成分析数据集。由于只剩下20%的时间用于实际创建和部署数据产品,数据科学家和分析师正在浪费他们的才能。

企业功能存储的本质是具有成熟实用性的预先准备好的数据集的策划,托管存储库。这些“功能”是由数据科学家在构建和测试预测分析模型时创建的,但在它们移动到下一个模型时经常被丢弃或遗忘。功能存储保存并编目已证明有用的转换数据,以便可以在后续项目和组织中的其他数据科学家中重复使用这些数据。它推动了重用、可重复性和效率,而不是从头开始创建每个新模型。

逐步构建

企业功能存储最好逐个模型逐步创建。想象一下,作为数据科学家,您的任务是创建一个预测模型,以了解制造工厂某一方面质量问题的根本原因。您可能希望从某个机器中获取数据,也许是温度、振动、周期;并将其与进入流程的原材料的供应链数据相结合,也许是关于轮班模式的人力资源数据,以及一天中的时间、温度等的环境数据。这些数据集中的每一个都需要进行整理,以便数据的含义和上下文都清晰明了。有了这种清晰度,数据就可以以可靠、可审计和有意义的方式进行组合。

企业功能商店对所有这些辛勤工作进行了编目,并将其提供给其他人。因此,下次数据科学家需要使用来自该机器的数据时,他们已经有了一个模板。他们可能会创建新特征来预测其他结果,然后这些结果也会被存储。通过这种方式,每个项目都有助于建立一个全面的高质量数据和分析模型库。即使没有投入生产的项目也可以以清理的数据集或记录的模型的形式做出贡献。

测试和验证

这种方法所创造的效率是显而易见的。但是,随着越来越复杂和有价值的模型连接来自多个来源的数据,这些保存的转换对于可靠性、安全性和治理也至关重要。

创建模型的数据科学家不可能是每个业务领域的主题专家。精心构建、测试和验证的功能可以使对专业数据集的访问民主化,同时创建标准元数据,确保其集成和正确使用。数据科学家可以使用来自温度传感器的数据构建模型,知道单元和采样周期已“融入”到它们开始的功能中。

对于受数据隐私法规约束的敏感数据,企业功能存储对数据治理责任做出了重大贡献。通过正确的扩展能力,可以减少保存的数据副本,从而减少监督和主动管理。有据可查的分析模型还有助于回答数据使用方式和位置以及谁可以访问数据的问题。

数据产品的测试和验证也得到了改进。数据科学模型可以应用与工程师为车辆创建的软件和硬件相同级别的严谨性。它们还可以通过连续的开发周期进行改进和扩展,从而可以更快、更好、更有效地将新模型集成到生产中。

数据工厂

汽车行业已经发展出一个复杂但运转良好的生态系统,为消费者提供美观、高效和安全的产品。现在,它需要高效地交付富有洞察力、安全性且能够适应其数据驱动型业务流程的数据产品。它需要投资于强大、有弹性但敏捷的“数据工厂”,数据科学家可以专注于提供价值,而不是不断为新模型重塑功能。

就像以前的进化一样,这不会是一个快速的变化。如本系列的上一篇博客所述,构建所需的数据工厂基础需要时间。然而,这项工作是迭代的,每个价值交付项目都利用和扩展现有的数据基础和功能存储。

企业功能存储是数据产品工厂的核心。创建和策划此功能存储为数据科学家提供了资源、工具和空间,以快速加速汽车业务中分析的使用,同时提高数据产品生产的效率、敏捷性和可审计性。这反过来又为快速发展的汽车和移动生态系统提供了加速创新的敏捷性。
Tags

关于我们 Chris Hillman

Chris Hillman is the Senior Director, AI/ML in the International region and has been responsible for developing and articulating the Teradata Analytics 1-2-3 strategy and supporting the direction and development of ClearScape Analytics. Prior to this current role, Chris led the International Data Science Practice and has worked on a large number of AI projects in the International Region focusing on the generation of measurable ROI from Analytics in production at scale using Teradata, open source and other vendor technologies. Chris has spoken regularly at leading conferences including Strata, Gartner Analytics, O’Reilly AI and Hadoop World. Chris also worked to establish the Art of Analytics practice, promoting the value of producing striking visualisations that draw people into Data Science projects, while retaining a solid business-outcome foundation.

查看所有帖子 Chris Hillman

随时了解情况

订阅 Teradata 的博客,获取每周向您提供的见解



我同意作为本网站提供商的Teradata天睿公司可能偶尔向我发送Teradata市场沟通电子邮件,其中包含有关产品、数据分析、活动和网络研讨会邀请的信息。我了解我可以随时通过点击我收到的任何电子邮件底部的取消订阅链接取消订阅。

您的隐私很重要。您的个人信息将根据Teradata全球隐私政策收集、存储和处理,您可以通过单击此隐私链接阅读和打印。