版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
-6-大数据拥抱云计算:让数据升华为智慧对于数据的传输,一个内存里面的队列确定会被大量的数据挤爆,于是就产生了基于存储系统的分布式队列,这样的队列可以多台服务器同时传输,随你数据量多大,只要我的队伍足够多,队列足够粗,就能够撑得住。数据怎么样才能对人有用?人们成天都在争论大数据,其实数据本身并不是有用的,必需要经过肯定的处理。例如你每天跑步带个手环收集的也是数据,网上这么多网站也是数据,简称为Data,数据本身并没有什么作用,但是数据里面包含一些很重要的东西,叫做信息(Information),数据杂乱无章,只有经过了梳理和清洗,才能够称为信息。信息里面包含了许多规律,我们需要从众多信息中将规律总结出来,才能称为学问,学问才能转变命运。
信息是许多的,但是许多人看到了信息相当于白看,但是有人就能从信息中看到了电商的将来,有人看到了直播的将来,所以人家就牛了,假如没有从信息中提取出学问,每天只知道刷伴侣圈,也只能在如今互联网滚滚大潮中做个看客。有了学问,然后利用这些学问去应用于实践,有的人就会做得特别好,这个东西叫做才智Intelligence。有学问并不肯定有才智,许多学者很有学问,已经发生的事情可以从各个角度分析的头头是道,但一到实践就歇菜,并不能转化成为真正的才智。而许多的创业家之所以宏大,就是通过获得的学问应用于实践,最终做成了很大的生意。
1.数据如何升华为才智
数据的处理分五个步骤,全部完成了才最终才会升华才智。
第一个步骤:数据的收集。首先得有数据,数据的收集有两个方式,第一个方式是拿(Pull),专业点的叫爬取或者抓取,常见的搜寻引擎就是这么干的,它把网上的信息都下载到它的数据中心,然后被你搜寻出来。比如你去搜寻的时候,返回的是一个列表,这个列表为什么会在搜寻引擎的公司里面呢,就是由于他把这个数据都爬下来了,但是你一点链接,点出来这个网站就不在搜寻引擎它们公司了。比如说搜狐有个新闻,你拿百度搜出来,你不点的时候,那一页在百度数据中心,一点出来的网页就跳转到搜狐的数据中心了。另外一个方式就是推送,有许多终端可以帮我收集数据,比如说智能手环,可以将你每天跑步的数据,血压的数据,心跳的数据都上传到数据中心里面。
其次个步骤是数据的传输。常见的会通过队列方式进行,数据量实在是太大了,数据必需经过处理才会有用,但是系统处理不过来,只好排排队,一条条地处理。
第三个步骤是数据的存储。现在数据就是Money,把握了数据就相当于把握了金钱。要不然你看购物网站怎么知道你想买什么呢?就是由于它有你历史的交易信息,然后通过这个信息分析出你的购物习惯。
第四个步骤是数据的处理和分析。上面存储的数据是原始数据,原始数据多是杂乱的,还有许多垃圾数据,因而需要清洗和过滤。对于整理过的数据,就可以进行分析,从而对数据进行归类,或者发觉数据之间的相互关系。比如闻名的啤酒和纸尿布的故事,就是通过对人们的购买数据进行比对分析,发觉了男人在买尿布的时候,会同时想要购买啤酒,这样就发觉了啤酒和尿布之间的对应关系,把握了规律,然后应用到实践中,将啤酒和尿布的柜台放到一起,这就是一种才智。
第五个步骤就是对于数据的检索和挖掘。检索就是搜寻,俗话说外事不决问谷歌,内事不决问百度。两大搜寻引擎都是将分析归纳后的数据放入搜寻引擎,从而便利人们找到想要的信息。还有一个就是挖掘,搜寻出来的信息还需要从中挖掘出相互的关系。例如财经检索,当搜寻某个公司股票的时候,该公司的管理层是不是也应当被挖掘出来?假如仅仅搜寻出这个公司的股票涨的特殊好,你就去买了,结果其次天就跌了,这不坑人么?所以通过各种算法挖掘数据中的关系,形成学问数据库,非常重要。
2.大数据拥抱云计算
数据分析是一项很有意思的技术,其功能就是帮我们梳理数据,存储信息,并从信息中总结规律。当数据量很小的时候,几台机器就能分析并解决问题。但是,渐渐的当数据量越来越大,大到最强的超级计算机都解决不了问题的时候,该怎么办呢?这时就要聚合多台机器的力气,也就是使用云计算的力气。
对于数据的收集,以物联网为例,外面部署这成千上亿的检测设备,将大量的温度,湿度,PH值,PM2.5等等数据统统收集上来,对于网页的搜寻引擎来讲,需要将整个互联网全部的网页都下载下来,这明显一台服务器做不到,需要多台服务器组成分布式系统,每台机器下载一部分,同时工作,才能在有限的时间内,将海量的网页下载完毕。
对于数据的传输,一个内存里面的队列确定会被大量的数据挤爆,于是就产生了基于存储系统的分布式队列,这样的队列可以多台服务器同时传输,随你数据量多大,只要我的队伍足够多,队列足够粗,就能够撑得住。
对于数据的存储也是一样,一台服务器的文件系统确定是放不下了,那我们就做一个很大的分布式文件系统来做这件事情,把多台机器的硬盘打成一块大的文件系统。
再比如数据的分析,可能需要对大量的数据做分类,统计,聚合,一台服务器确定搞不定,处理几百年也分析不完,于是就有了分布式计算的方法,将大量的数据分成小份,每台服务器处理一小份,多台服务器并行处理,很快就能算完。例如闻名的Terasort对1个TB的数据排序,相当于1024G,假如单机处理,怎么也要几个小时,但是并行处理只需要几十秒就完成了。
所以说大数据平台,什么叫做大数据,说白了就是一台机器干不完,大家一起干。随着数据量越来越大,许多公司都需要处理相当多的数据,没有这么多机器可怎么办呢?
说到这里,就想起云计算的好处了吧,真的是想什么时候要,就什么时候要,想要多少就要多少。例如大数据分析企业的财务状况,可能一个月分析一次,假如要把这一百台服务器或者一千台服务器都在那摆着,一个月用一次吧,特别铺张。那能不能需要计算的时候,把这一千台服务器拿出来用,然后不用的时候,这一千台机器可以去干别的事情。谁能做这个事儿呢?只有云计算服务商(比如文中提到的易迈云),能够为大数据的运算供应资源层面的敏捷性。而云计算服务商也会部署大数据放到它的PaaS平台上,作为一个特别重要的通用应用。由于大数据平台能够使得多台机器一起干一个事儿,这个东西不是一般人或团队能开发出来的,怎么也得雇个几十上百号专业人才能把这个玩起来,所以说就像数据库一样,其实还是需要有一帮专业的人来玩这个东西。现在公有云服务商(像易迈云)就
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 智能家居与家庭安全的创新融合应用考核试卷
- 建筑艺术理解建筑的语言考核试卷
- 中等教育的校园暴力与欺凌问题考核试卷
- DB11T 203-2013 农业企业标准体系养殖业
- 课件首页制作教学课件
- 银行员工业务技能培训
- 合规新员工培训方案
- 发光现象课件教学课件
- 口臭课件图片教学课件
- 仓储物流消防报警系统建设方案
- 《法学第一课》读后感
- 森林防火通道施工组织设计
- 从消费文化角度解读波普艺术的特征
- 公司电梯安全总监、电梯安全员岗位职责
- 物业保洁员劳务合同2篇
- 国有土地上房屋装修备案申请表
- 二年级上册音乐课件《小红帽》(人音版)
- 重庆建筑工程资料全套表格年
- GB/T 23221-2008烤烟栽培技术规程
- GB/T 18284-2000快速响应矩阵码
- 辽宁省辽南协作校2022-2023学年高二上学期期末考试语文答案 Word版含解析
评论
0/150
提交评论