新用户登录后自动创建账号
登录概念大数据
大数据的基本规则是,Bigger than Bigger(没有最大,只有更大)。
▷ 什么是大数据?
大数据就是数量极其庞大的数据资料,无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量复杂的数据集合。
▷ 大数据有多大?
1ZB=1024EB=10242PB=10243TB=10244GB。
如果你有一台1TB硬盘容量的电脑,那1ZB就是约等于10亿台电脑的容量,远远超出了我们一般的想象。
▷ 一天之内互联网上会产生多少大数据?
☞互联网一天产生的内容=刻满1.68亿张
☞2940亿封邮件=美国两年纸质信件的数量
☞200万个帖子=《时代》杂志770年文字量
☞Facebook上2.5亿张图片=80座埃菲尔铁塔高
特征大数据
Volume——数据量大
大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
Velocity——速度快时效高
要求秒级范围内给出处理结果。如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。
Variety——类型繁多
种类和来源多样化。包括结构化、半结构化和非结构化数据,如网络日志、音频、视频、图片、地理位置信息等。
Fluctuation——周期性波动
伴随快速性,数据流呈现出波动的特征,不稳定的数据流会 随着日、季节、特定事件的触发出现周期性峰值。
Value——价值密度低
浪里淘沙却又弥足珍贵。以视频数据为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
Online——数据在线
数据是随时能调用和计算的,这是大数据区别于传统数据最大的特征。如对于打车工具,客户的数据和出租司机数据都是实时在线的,这样的数据才有意义。