1.4 大数据的5V
特点
IBM公司提出了大数据具有的5个特点, 由于这6个特点都是以字母V
开头, 所以很多人也把这个5个特点称为5V
特点
1. Volume(大量)
大量的,大数据中数据的采集、存储和计算的量都非常大。那么大数据究竟要多大呢?
正常的计算机处理4g数据需要4分钟的时间,处理1TB需要3个小时的时间,而达到1PB的数据需要4个月零3天的时间,起始计量单位只有达到PB的数据才可以被称之为大数据。
沃尔玛是当今最早开始投资和部署大数据应用的传统企业巨头之一,也因此从中获利。大数据使沃尔玛改变了重复销售的决策,这带来了10%到15%在线销售的明显涨幅,增加收入10亿美元。
沃尔玛自己有一个庞大的大数据生态系统。沃尔玛每小时约有100万笔交易,大数据生态系统每天处理TB级的新数据,和PB级的历史数据,还需要分析数以百万计的产品数据、数以亿计的客户和搜索关键词。
2. Velocity(高速)
高速,什么又称之为高速?
就上面的例子而言就处理1PB的数据不到1秒就可以实现,这就是高速.
为什么要有高速,是因为数据也是有一个时效性的,超过了这个时间这个数据就会失去其作用。
数据增长速度快,处理速度也快,时效性要求高。
比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征
天猫双十一:2017年3分01秒,天猫交易额超过100亿. 中间产生了大量的交易数据, 要实时的对这些数据进行处理, 对速度的要求很高.
3. Variety(多样)
就是种类和来源多样化。
包括结构化、半结构化和非结构化数据。
随着互联网和物联网的发展,又扩展到网页、社交媒体、感知数据,涵盖音频、图片、视频、模拟信号等等,真正诠释了数据的多样性,也对数据的处理能力提出了更高的要求
4. Value(低价值密度)
价值密度的高低与数据总量的大小成反比.
在一个人的一天的监控数据中国, 我们可能只关注他晚上去哪里娱乐了这一个数据.其他的比如早上几点起床, 起点吃早餐等等, 我们并关注.
价值密度很低.
5. Veracity(真实性)
就是真实性。大数据中的内容是与真实世界中的发生息息相关的,要保证数据的准确性和可信赖度。
研究大数据就是从庞大的网络数据中提取出能够解释和预测现实事件的过程。
其实这部分也在上面Value的部分已经有所体现。
通过大数据的分析处理,最后能够解释结果和预测未来。但是前提是提取的数据要足够的准确性。
沃尔玛通过大数据获取并分析用户提供的信息,可以知道用户独特的需求和喜好,并能够预测出用户下一步动作,并在用户行动前向用户推送信息。