版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第四章
数据处理与应用1、常用表格数据的处理2、大数据处理3、大数据典型应用学习目标:
1、理解Hadoop的组成和功能2、掌握大数据处理类型未来,已发生改变……
大数据的关键技术大数据,或称海量数据,指所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。在总数据量相同的情况下,与个别分析独立的小型数据集相比,将各个小型数据集合合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、避免疾病扩散、打击犯罪、测定实时交通路况或判定研究质量等。大数据的魅力大数据的魅力
顾客
一次购买商品 1 面包、黄油、尿布、牛奶 2 咖啡、糖、小甜饼、鲑鱼 3 面包、黄油、咖啡、尿布、牛奶、鸡蛋 4 面包、黄油、鲑鱼、鸡 5 鸡蛋、面包、黄油 6 鲑鱼、尿布、牛奶 7 面包、茶叶、糖、鸡蛋 8 咖啡、糖、鸡、鸡蛋 9 面包、尿布、牛奶、盐 10 茶叶、鸡蛋、小甜饼、尿布、牛奶经关联分析,可发现顾客经常同时购买的商品:尿布
牛奶什么是分治思想?分--将问题分解为规模更小的子问题治--将规模更小的子问题逐个击破合--将已解决的子问题合并,最终得出原问题的解正如“不同的锁需要不同的钥匙”企业中不同的应用场景数据不同的计算模式,需要使用不同的大数据技术不同的计算模式需要使用不同的产品大数据处理类型?一、批处理计算设想:硬盘读取速度永远满足要求!你发现:目前的硬盘容量是1T,速度100MB/s要把现在的硬盘数据刷一遍,要两个多小时,太可怕了。而Hadoop就是一个并行处理海量数据的工具。Hadoop诞生于大搜索应用DougCuttingMapReduce|GFS|BigTableHadoop是什么?是一个可运行于大规模计算机集群上的分布式系统基础架构,适用于静态数据批处理计算。方便用户便捷处理海量数据。目前Yahoo!(雅虎)是最主要的贡献者。批处理计算国内外那些企业用Hadoop?数据仓库,商业智能(facebook,twitter,淘宝,京东,暴风,新浪,58同城....,移动大云)互联网广告计算(亿赞普,科捷,各类大互联网企业)大搜索引擎项目(Yahoo,国产盘古,人民搜索)站内搜索引擎项目(Ebay,支付宝)内容推荐引擎(人人,新浪微博,优酷)病毒分析,垃圾邮件识别(Yahoo,趋势科技,360)云计算服务项目(亚马逊云,阿里云)地图项目(月球表面探测地图)科研项目(欧洲量子对撞机)金融项目(股票分析,阿里金融)分布式文件系统HDFS分布式数据库HBase分布式并行计算模型MapReduce批处理计算分布式文件系统HDFS以流式数据访问模式存储超大文件而设计的文件系统。思想:一次写入,多次读取最高效HDFS不需要运行在昂贵并且高可靠的硬件上。比如:云盘、网盘分布式数据库HBase高可靠,高性能,可伸缩,分布式的列式数据库是谷歌BigTable数据库的开源实现。分布式并行计算模型
MapReduce处理海量数据,(>1TB)由Map(映射)和Reduce(归纳)组成自动实现分布式并行计算计算分配到大量机器上二、流计算流计算可以简单、高效、可靠地实现实时数据的获取、传输和存储。主要流计算软件:IBMInfoSphereStreams(捕获和分析动态数据)TwitterStorm(推特风暴)Yahoo!S4(雅虎分布式流计算)淘宝FacebookPumaHeron18·近年来,在Web应用、网络监控、传感监测等领域,兴起了一种新的数据密集型应用——流数据,即数据以大量、快速、时变的流形式持续到达流计算三、图计算现实中的数据大多以图的形式呈现,或者转换为图以后再进行分析图计算社交网络数据转换成图结构四、实时处理于批处理的整合平台的整合缩短了批处理与流处理之间的切换延时时间,有利于减少系统的开销,降低使用成本。练一练1.下列关于流数据的描述不正确的是(
)
A.数据在处理时已经采集完成
B.数据价值随着时间的流逝降低
C.实时分析流数据可以得到更有价值的结果
D.可以采用流计算进行实时分析A练一练2.下列关于Hadoop架构的描述正确的是(
)A.是一个对大数据进行聚合式处理的基础软件框架B.不能运行于大规模计算机集群上C.采用NTFS文件系统管理数据文件D.采用MapReduce编程模型处理大规模数据集D练一练3.下列软件主要用于进行流计算的有(
)
A.Hadoop
B.Storm
C.Pregel
D.SparkB练一练4.实时处理与批处理整合的优势有(
)①可以在同一个平台做批处理计算和流计算②缩短了批处理计算和流计算之间的切换延时③有利于降低使用成本④增加了系统开销A.①②③B.①②④C.②③④D.①③④A5.(开放题)试述应用“分治”思想,从日志数据文件(大数据集)中提取出某日访问百度次数最多的IP的基本思路。把整个日志大数据文件映射为若干个(如1000个)小文件,再对每个小文中出现的IP进行频率统计,找出频率大的部分及其频率。然后再汇总1000个小文件的处理结果,从中找出频率最大的IP。想一想6.(开放题)上网查找Hadoop
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年融资服务机构担保协议模板
- 2024年汽车维修保养服务协议细则
- 2024辣椒种苗供应及培育协议样本
- 2024专用消防水池建设协议范本
- 2024年专属个人投资协议样本
- 2024年度保安服务外包协议样本
- DB11∕T 1703-2019 口腔综合治疗台水路消毒技术规范
- DB11∕T 1684-2019 城市轨道交通乘客信息系统测试规范
- 2024商业用地租赁及盈利共享协议
- 2024国家物流代理协议模板规范
- 中药融资方案
- 2023-2024学年四川省成都市九年级(上)期中物理试卷
- 2024年第四季度中国酒店市场景气调查报告-浩华
- 7.2共建美好集体(课件)2024-2025学年七年级道德与法治上册统编版
- 外研版英语初二上学期期中试题及答案指导(2024-2025学年)
- 2024年二级建造师继续教育考核题及答案
- 2024年财务条线人员考试题库(含答案)
- 天翼云高级解决方案架构师认证资格考试题库及答案
- 2024-2030年中国水上运动皮划艇行业营销动态与竞争趋势预测报告
- 上下楼装修纠纷协议书范本
- 施工成本控制员岗位职责
评论
0/150
提交评论