什么是数据湖?

数据湖和数据仓都是设计模式,但它们正好相反。数据仓结构化和打包数据,以达到质量、一致性、重复使用和并发高性能。数据湖以设计模式与数据仓相辅相成,以低成本专注于原始数据保真度和长期存储,同时提供一种新的分析敏捷性形式。
 

数据湖的价值

数据湖满足了经济利用和从爆炸性数据量中获取价值的需要。这种来自新来源(网络、移动、互联设备)的“黑暗”数据过去经常被丢弃,但它包含有价值的见解。巨大的数据量,加上新的分析形式,需要一种新的方法来管理和从数据中获取价值。

数据湖是长期数据容器的集合,可捕获、细化和大规模探索任何形式的原始数据。它通过多个下游设施可以借鉴的低成本技术(包括数据市场、数据仓和推荐引擎)提供支持。

在大数据趋势之前,数据集给了我们一些可以持久有序管理信息的方法(比如数据库),这是有价值的。仅凭这一点如今已经不足以管理企业中的所有数据,而且试图结构化这些数据会破坏其价值。这就是黑暗数据很少出现在数据库中,但数据科学家却经常要挖掘黑暗数据才能找到一些值得重复的事实的原因。
 

数据湖和新的分析形式

Spark和其他创新技术实现了程序编程语言的并行化,从而启用了全新的分析品种。这些新形式的分析可以按需缩放达到高效处理,例如可以帮助得出答案的图形、文本和机器学习算法,然后将该答案与下一个数据进行比较,一步一步直到达到最终输出。
 

数据湖和企业内存保留

存档长时间未使用的数据可以节省数据仓中的存储空间。在数据湖设计模式出现之前,除了高性能数据仓或离线磁盘备份之外,没有其它地方可以放置仅供偶尔访问的冷数据。使用虚拟查询工具,用户可以通过单个查询轻松访问冷数据与数据仓中的冷热数据。
 

数据湖和数据集成

业界渴望能够了解如何最好地挤压数据转换成本。数据湖比传统的ETL(提取、转换、加载)服务器以更低的成本提供更大的可扩展性,迫使公司重新考虑其数据集成架构。采用现代最佳实践的组织正在重新平衡数据湖、数据仓和ETL服务器中的数百个数据集成作业,因为每个组织都有自己的能力范围和预算。
 

常见数据湖陷阱

从表面上看,数据湖似乎很简单,提供了管理和利用大量结构化非结构化数据的方法。但是,它们并不像看上去那么简单,而且失败的数据湖项目在许多类型的行业和组织中并不少见。早期数据湖项目面临挑战是因为最佳实践尚未出现。现在,缺乏可靠的设计是数据湖泊无法实现其全部价值的主要原因。

数据孤岛和聚类增殖:有一种观点认为,数据湖的进入门槛很低,可以在中临时完成。这导致多余数据和不一致,数据湖之间不调和,以及同步问题。
 
数据访问的目标相互冲突:在确定应采取何种严格的安全措施与灵活访问之间,需要采取平衡措施。需要制定使所有利益相关方一致的计划和程序。
 
有限的商用现成工具:许多供应商声称连接到Hadoop或云对象商店,但这些产品缺乏深度集成,而且大多数产品是为数据仓而构建的,而不是为数据湖而构建的。
 
缺乏最终用户采用:先不论这种想法的正误,用户经常有种感觉那就是从数据湖获得答案非常复杂,因为它需要高级编码技能,或者像大海捞针一样难以找到需要的数据。
  

数据湖设计模式

数据湖设计模式提供了一系列工作负载和预期,去引导成功实施。随着数据湖技术和经验的成熟,架构和相应的要求不断演变,导致领先供应商们达成一致并制定实施的最佳实践。技术非常重要,但独立于技术的设计模式更是举足轻重。数据湖可以建立在多种技术之上。虽然Hadoop分布式文件系统(HDFS)是大多数人首先想到的,但它不是必需的。