你好,游客 登录
背景:
阅读新闻

什么样的数据可以称为“大数据”?

[日期:2019-07-21] 来源:  作者: [字体: ]

本文节选自艾叔即将出版的图书《Spark大数据编程实用教程》

1. 大数据定义

维基百科对大数据的定义如下:

大数据是指传统数据处理应用软件无法充分处理的太大或太复杂的数据集。

本书采用上述定义作为大数据定义,因为它描述了大数据的本质,而大数据的其它特性,如下所示,都可以由此定义推导出来。

  • 大数据的4V特性;

  • 大数据处理思维,由之前的抽样,变成全局分析;

  • 大数据处理思维,由之前的查找因果关系,改为获取数据间的关联关系;

  • 大数据处理思维,由之前的基于规则的方法,改为基于统计的方法等。

2. 理解大数据

大数据与普通数据不同之处就在于“大”,这个“大”有以下3层含义:

(1)存储空间大

大数据对存储空间的要求超出了普通数据

普通数据通常情况下,一台机器就能装下。而大数据的存储空间可能远远超出普通机器的容量。

例如,1PB的数据,如果每台机器有2TB的存储空间,至少需要500台机器才能存储得下。

但是,要注意的是,使用数据的绝对大小,作为大数据的判断标准,是不准确的。

例如,20年前,Google成立时,硬盘通常是在10GB左右,有的甚至更小,1TB的数据,可能就需要100块,甚至更多的硬盘来存储,那么,当时的1TB数据是可以称之为大数据的。

而到了现在,一块普通SATA硬盘的空间就在2TB以上。单纯从存储空间来看,1TB的数据,1块硬盘就可以存下来,再称之为大数据,似乎就不那么合适了。

当然,就目前的存储水平,1PB的数据,可以当之无愧的称为大数据,但是,等再过10年,可能单块硬盘就能存储下1PB数据,到那个时候,同样的1PB数据,就会如同现在的1TB一样,称为大数据就不那么合适了。

(2)数据量大

这个数据量是指数据记录的条数,不是指它所占用的存储空间大小

最典型的是海量数据库,例如,超过亿条级别的Oracle单表,或者超过千万条级别的Mysql单表,处理起来会比较困难。这样的单表可能并不占用很大的存储空间,但是,记录的条数超出了传统数据库处理的范围,因此,也可以称之为大数据。

(3)计算量大

如果数据处理的算法复杂度高,需要远超单机的计算力,那么,即使数据的存储空间、数据量规模都不大,也可称之为大数据

例如,同构子图的查询算法,在一个几千万个节点目标图中,给定一个小的查询图(点、边的集合),要查询目标图中和查询图结构相同的子图,在这个算法中,目标图和查询图在存储空间和数据量方面,都是单机可以处理的范围,但是,整个搜索匹配过程,是一个NP完全问题,传统的单机方法无法处理。因此,如果待处理的数据,其计算量大,超出传统单机处理范围,也可以称之为大数据。

3. 结论

如果数据的特性符合上述三个特性之一只要满足其中一个特性就可以),就可以称之为大数据!

Ps:艾叔不是高手,也不是牛人,编程的道路上,走了很多弯路,也踩了很多坑,如果你也和艾叔当年一样,欢迎关注公众号,亦可扫码私信,添加时请务必注明缘由。

 

收藏 推荐 打印 | 阅读:
相关新闻