




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据分析的流程浅析之一:大数据采集过程分析数据采集,就是使用某种技术或手段,将数据收集起来并存储在某种设备上,这种设备可以是磁盘或磁带。区别于普通的数据分析,大数据分析的数据采集在数据收集和存储技术上都是不同的。 具体情况如下:1.大数据收集过程在收集阶段,大数据分析在时空两个方面都有显著的不同。在时间维度上,为了获取更多的数据,大数据收集的时间频度大一些,有时也叫数据采集的深度。在空间维度上,为了获取更准确的数据,数据采集点设置得会更密一些。以收集一个面积为 100平方米的葡萄园的平均温度为例。小数据时代,由于成本的原因,葡萄园主只能在葡萄园的中央设置一个温度计用来计算温度,而且每一小时观测一次,这样一天就只有24个数据。而在大数据时代,在空间维度上,可以设置100个温度计,即每个1平方米一个温度计; 在时间维度上,每隔
1分钟就观测一次,这样一天就有144000个数据,是原来的 6000倍。有了大量的数据,我们就可以更准确地知道葡萄园的平均温度,如果加上时间刻度的话,还可以得出一个时间序列的曲线,结果看起来使人很神往。2.大数据的存储技术通过增加数据采集的深度和广度,数据量越来越大,数据存储问题就凸现。原来1TB的数据,可以使用一块硬盘就可以实现数据的存储,而现在变成了6000TB,也就是需要6000块硬盘来存放数据,而且这个数据是每天都是增加的。这个时候计算机技术中的分布式计算开始发挥优势,它可以将6000台甚至更多的计算机组合在一起,让它们的硬盘组合成一块巨大的硬盘,这样人们就不用再害怕大数据了,大数据再大,增加计算机就可以了。实现分布式计算的软件有很多,名气最大的,目前市场上应用最广的,就是hadoop技术了,更精确地说应该是叫hadoop框架。hadoop框架由多种功能性软件组成,其自身只是搭建一个和操作系统打交道的平台。其中最核心的软件有两个,一个是 hdfs分布式文件系统,另一个是mapreduce分布式计算。hdfs分布式文件系统完成的功能就是将 6000台计算机组合在一起,使它们的硬盘组合成一块巨大的硬盘,至于数据如何在硬盘上存放和读取,这件事由hadoop和hdfs共同完成,不用我们操心,这就如我们在使用一台计算机时只管往硬盘上存放数据, 而数据存放在硬盘上的哪个磁道, 我们是不用关心的。mapredce分布式计算则就实现让 6000台计算机一起协同工作起来,hadoop在设计mapredce时,最基本的思想就是让分析师不用操心程序设计问题,这些问题需要和最底层的程序打交道的, 且只有优秀的程序员才能解决的,而是让大数据分析师专注于业务流程进行简单的mapredce程序编写,也就是说大数据分析师只需要知道简单的mapreduce程序设计流程就可以了,不需要成为优秀的JAVA、Python程序员。hadoop框架的这种简单的设计思想,再加上它开源的特性,使其一开始就受到很多主流的互联网公司所采用,接下来的事情就顺理成章了,它成为全球最成功的解决大数据分析的分布式计算技术。区别于小数据采集,大数据采集不再仅仅使用问卷调查、信息系统的数据库取得结构化数据,大数据的来源有很多,主要包括使用网络爬虫取得的网页文本数据、使用日志收集器收集的日志数据、从关系型数据库中取得的数据和由传感器收集到的时空数据等等,而一些图像和语音数据由于需要高端技术才能使其变成可以被普通的大数据分析师所需要的数据而变得不那么亲切,因此从现有的应用看可以暂时不用考虑。CDA-hadoop大数据分析师培训团队2015年5月7日想来生活,从来就不是阳春白雪的神话。光阴的陌上,总有风自八方来,或许是忧凄,也许是欢喜 ,无论怎样,都是岁月最真的馈赠。待到老去的那一日,偶尔有回忆念及了过往,依旧还会有初初的心动,流转了眉眼。而那一路迤逦而来的美好,一步一步写就两个梅花小楷 ——日常。暖阳小窗,无事此静坐。杯盏光阴,又在指间如风轻过,回首,依稀还是那年秋,低低一低眉,却已是春光葳蕤。光阴荏苒,而流年从来也不曾缺少错乱和犹疑。是否在这样一个万物复苏的季节里,一切的纷扰是非,终究会给出一个水落石出的答案。轻倚初春的门楣,且把盏清风,问心明月,让来者可来,去者可去,宿命里的拥有,一一欣喜悦纳。而我也只需以花香绕肩的美,步履从容的,走过生命里的山山水水。若说,那一程走旧的时光,已然温暖了我的眉眼。那么,在明日那个花满枝桠的清晨,我依旧愿意轻踮了脚尖,重行在与你初见的陌上,只待,与你折柳重逢。然后,在你温热的耳边,把一些前生来世的故事,反复的吟唱。只盼,你在莞尔低眉时,与我轻轻的相和。所谓素年锦时,或许就是这样的一程光阴吧。私心里常想,最好的感觉,莫过于煨一味小众烟火,暖一世红尘时日,对坐心爱之人,行做欢喜之事。即使
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 公司清真食品管理制度
- 2025代理进口货物运输合同
- 河南省信阳市浉河区2024~2025学年 高二下册4月月考数学试卷附解析
- 河北省邢台市宁晋县2024~2025学年 高二下册第一次月考数学试卷附解析
- 广东省广州市2024~2025学年 高一下册期中考试数学试卷
- 教科版8年级上册物理全册教学课件
- 农村地区水资源高效利用技术研究-洞察阐释
- 2024年富顺县招聘社区专职工作人员真题
- 工装招标可行性研究报告
- 社区社区服务设施可持续发展管理基础知识点归纳
- 2025年四年级下册美术期末测试题附答案
- 员工上下班交通安全培训
- 小学语文教学研究(有答案)-国家开放大学2022年1月(2020秋)期末考试复习资料、试题及答案
- 参考食品加工操作流程图
- 山东省普通高中学生发展报告
- 高新区孵化器亮化工程投标文件商务标格式
- 国家开放大学《水力学(B)》形考任务1-10参考答案
- 老年人生活自理能力评估表
- 火电机组能耗指标分析指导性意见
- 我国各类型扣件技术说明
- 现浇混凝土构件含模量参考表(浙江03、10定额砼含模量对照表)
评论
0/150
提交评论