大数据是来自许多不同来源的数据的集合,通常由五个特征来描述:大量、低价值密度、多样、高速和真实。
- 大量(Volume):公司管理和分析的大数据的大小和数量
- 低价值密度(Value):从业务的角度来看,最重要的“V”,大数据的价值通常来自洞察力发现和模式识别,从而带来更有效的运营,更牢固的客户关系以及其他清晰可量化的业务利益
- 多样(Variety):不同数据类型的多样性和范围,包括非结构化数据、半结构化数据和原始数据
- 高速(Velocity):公司接收、存储和管理数据的速度, 例如,在一天、一小时或其他单位时间内收到的社交媒体帖子或搜索查询的特定数量
- 真实(Veracity):数据和信息资产的“真实性”或准确性,通常决定高管级别的信心度
还可以考虑另一个特征,即可变性:
可变性(Variability):数据公司寻求捕获、管理和分析的数据性质的变化——例如,在情感或文本分析中,关键词或短语含义的变化