什么是大数据?

大数据定义

根据维基百科,大数据是“来自各种来源的大量非结构化或结构化数据”。在Teradata,大数据通常用几个“V”来描述——体积(volume)、品种(variety)、速度(velocity)、变异性(variability)、真实性(veracity)。它们共同说明了收集、存储、管理、分析、并以其他方式将大数据投入到创造最重要的"V"——价值(value)——中的复杂性和困难性。在当今的高压的商业环境中,领先企业(比竞争对手更善于区分、超越和适应客户需求的企业)依赖于大数据分析。他们看到,目的明确的系统化大数据利用再加上分析可以揭示更好的业务进展机会。

对于成熟的组织来说,大数据分析以及人工智能(AI)和/或机器学习有助于解决更复杂的业务挑战:

客户体验: 通过以客户为中心并优化客户旅程,找到竞争优势

财务转型: 通过财务和会计流程提供新的企业价值和战略投入

产品创新: 创造和升级更安全、更需要、更有利可图的产品

风险缓解: 最大限度地降低金融欺诈和网络安全风险

资产优化: 利用物联网和传感器数据优化资产价值

卓越运营: 利用人员、设备和其他资源实现最高性能价值

如何使大数据工作

大数据通常被定义为太大且复杂的数据集,无法使用标准工具操作或查询。即使是完全致力于大数据的公司,那些已经定义了业务案例并准备跨越“科学项目”阶段的公司,也必须弄清楚如何使大数据发挥作用。

大规模的炒作,以及令人费解的大数据技术选项和供应商的范围,使得找到正确答案难上加难。目标必须是设计和构建一个低成本、低复杂度的基础大数据环境。它是稳定、高度集成和可扩展的,足以推动整个组织走向真实的数据和以分析为中心。数据和分析为中心是大数据和大数据分析的力量可用于需要大数据和分析的组织的所有部分的状态。通过基础架构、数据流和用户工具集,可以发现有价值的见解、做出更好的决策和解决实际的业务问题。

大数据作为引擎

开始使用大数据需要将其视为引擎。为了提高性能,需要以无缝、稳定和可持续的方式组装正确的组件。这些组件包括:

数据源:操作和功能系统、机器日志和传感器、网络和社交以及许多其它来源。

数据平台、数据仓和发现平台:能够捕获和管理数据,更重要的是,然后将其转换为客户洞察,并最终转化为行动。

大数据分析工具和应用:高管、分析师、经理和其他人用来查询客户见解、模型场景的“前端”,以及在其他情况下用来做好本职工作和管理业务。

在这个级别上,它是关于利用和利用大数据资产的全部马力来创造业务价值。要使这一切协同工作,需要战略性的大数据设计和深思熟虑的大数据架构,不仅能够检查当前的数据流和存储库,而且还需要考虑特定的业务目标和长期市场趋势。换句话说,使用大数据没有一个万用模板。

鉴于大数据每天只会变得更加重要,这些基础设施应被视为未来运营的基础。所以,是的,资本支出可能很大。然而,许多具有前瞻性的组织和大数据的早期采用者得出了一个令人惊讶的结论——而且有些违反直觉——即设计正确的大数据环境可以节省成本。更有额外惊喜:这些成本节约可以出乎意料地大,而且收获相对较快。

需要注意的是,只有有了灵活的框架,大数据技术和程序可以支持企业的多个部分,并改善整个业务的运营。否则,即使是高级宏伟的大数据项目也有可能最终成为搁浅的投资。Gartner 估计,90%的大数据项目未来将会在所有企业中被利用或复制。明天的大数据赢家今天就在那10%里面,他们很久以前就脱离局限思维了。

高效大数据环境的属性

无缝使用数据集:大部分回报来自数据集的混合、组合和对比, 因此,没有集成就没有支持分析的创新。

灵活、低成本:这里的目标是低复杂性和低成本,有足够的灵活性来扩展未来更大规模,更针对特定用户群体的需求。

稳定:因为数据量巨大,稳定性至关重要,用户需要轻松访问和与数据交互。从这个意义上说,基础设施绩效是通过大数据提升业务绩效的关键。

大数据集成:最重要的变量

有限的可重复使用在很大程度上是集成度低的结果。事实上,集成可能是大数据成功等式中最重要的变量。

Forrester研究公司写道,大数据中80%的价值来自集成。纵观全局,高价值的大数据很容易被正确的用户访问,并且具有强大和明确的业务规则和治理结构。更深入的数据集(历史交易数据和长尾客户记录)可能只需要可靠的存储和可靠的数据管理,那么数据科学家和数据探索者可以在适当的时候对它进行审查和建模。

大数据集成也是为了大思维。在这种情况下,“大”意味着整体、包容性和多方面。点与点之间必须连接,数据孤岛之间连接,功能孤岛也相互连接(或者干脆完全分解掉)。

高度集成。精心设计的生态系统。统一的架构。数据和分析居于中心。该简短列表没有对每个组件或技术细节提出过高要求来使大数据程序发挥作用。但可以肯定的是,这些都是可以带来革新、确保大数据程序有效工作的属性。