概述
数据工程的十大关键作用
随着企业进行变革以满足数字业务需求,保持数据驱动至关重要。在此处查看我们的顶级数据工程角色。

随着企业领导者专注于以数字方式转变其商业模式、流程和文化,IT的任务不仅是保持运行,还提供推动这些目标的服务。满足不断变化的业务需求不仅需要优化节省资金的基础设施,还需要通过构建应用程序来提升业务团队的能力来推动直接价值。据Gartner副总裁丹尼斯·史密斯说:“应用开发提供了一个跳上快速变革列车的机会。”
近年来,一个新的领域已经出现,部分是为了满足这些新的数据工程业务。与数据科学家一样,数据工程师编写代码时具有高度的分析性,并创建数据可视化。但与数据科学家不同,此角色还构建了应用程序以及基础设施、框架和服务。此角色更直接地满足业务用户的需求,他们需要帮助收集和分析大量的数据。正如预设首席执行官兼创始人马克西姆·博切明所说:“数据工程领域可以被认为是商业智能和数据仓储的超级集合,从软件工程中带来更多的元素。”
数据工程团队在企业中担任各种角色。以下是他们支持和推动业务的10种最常见的方法:
1. 基础建筑师
在进行人工智能、深度学习和实验等数据科学策略之前,数据工程师为数据收集、移动、存储、探索和转化奠定了基础。在她的“AI需求层次”中,数据科学和人工智能顾问莫妮卡·罗加蒂将这些功能放在了最底层的三层,表明它们必须首先完成。
2. 构建者
Beauchemin 在 Facebook进行“开发新技能、新做事方式、新工具”时发现了数据工程的“构建者”一面。在没有正式数据基础设施团队的小型组织中,数据工程师的角色可能包括构建和运行企业的数据基础设施。在大型公司中,数据基础设施和工程团队分担这一责任,有时还实现这些流程的自动化,以便他们能够在更高级别的战略项目上进行协作。
3. 软件开发人员
要使模型在大型企业中有用,分析师需要能够将其与大量数据一起使用,或在近实时和事件驱动的基础上运行模型。例如,销售预测模型的输出需要反馈到企业的一个交易系统中。正如Terradata欧洲、中东和非洲地区技术副总裁所写的那样,所有这些都需要一个“用牛皮纸和绳子在实验室里构建”的模型,并用来频繁处理大量的数据。
要达到这些性能和可扩展性水平,需要数据工程师进行编码,以抽象ETL软件所需的复杂性。根据博切明的说法:“传统ETL工具所暴露的抽象是偏离目标的。解决方案是不要将ETL原始体(如源/目标、聚合、过滤)暴露为拖放式。它所需的抽象是更高层次的。”
4. 治理验证员
近年来,数据仓库已成为一个更加公开、协作的机构,数据科学家、分析师和软件工程师为其开发、日常运营和演变做出了贡献。虽然开放对公司数据的访问可以加速创新,但如果数据集的所有者和使用数据集的标准不明确,也会导致更多的混乱。
这就是数据工程师可以提供帮助的地方。他们可以在数据仓库内“拥有”集群,这些集群遵循核心架构,具有明确定义和测量的SLAs,严格遵循命名惯例、高质量元数据和文档以及最佳实践。
5. “卓越中心”专家
数据工程师可以领导教育计划,帮助其他团队最好地使用数据仓库,并精通公司的数据和工具。
6. 图书馆员
数据工程师可以编目和组织元数据,定义如何正确归档或从仓库提取数据。
7. 业务分析师
虽然数据工程角色正在扩展,但它仍然可以涉及商业智能任务,如创建和运行投资组合和仪表板。它们还可以作为业务和数据科学部门之间的有帮助的桥梁,因为他们可以讲两个团队的语言并有效地进行沟通。
8. 业绩协调人员
企业在数据基础设施方面的投资比以往任何时候都多,这为数据工程师提供了专注于优化性能的动机和资源。他们的努力应侧重于以更少的成本做更多的工作,使资源利用和成本在长期内对企业具有可持续性。
9. 数据集成人员
企业越来越依赖SaaS平台,但提供商可能无法提供能够顺利集成到公司数据仓库的服务或专业知识。数据工程师拥有使此过程发挥作用并帮助企业全面了解其所有数据的技能。
10. 服务提供商
通常,数据工程师提供的服务和工具可以自动执行通常的人工任务。例如,他们可以自动化数据摄入、公制计算、元数据管理、A/B测试等,使其他企业功能的工作更加容易。
随着企业进行变革以满足数字业务需求,保持数据驱动至关重要。依靠数据工程师准备、构建和集成数据和工具的组织将创建既敏捷又完整的数据驱动文化,这是数字化转型的最终目标。