版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据处理技术简介1大数据处理技术简介1
三、大数据开源软件Hadoop简介
二、大数据处理实现技术
一、大数据背景目录1.Hadoop简介2.实例演示1.定义2.数据的来源1.分布式储存系统(GFS/HDFS)2.分布式计算模型(MapReduce)2三、大数据开源软件Hadoo一、大数据背景3一、大数据背景3我们正处在信息爆炸的年代2000年数字数据只占全球数据量的1/42007年所有数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余93%全是数字数据(二进制数据)Google
单日数据处理量超过24PBFacebook
单日照片更新量超过1千万张淘宝网单日数据产生量超过5万GB大数据背景
——定义4我们正处在信息爆炸的年代2000年数字数据只占全球数大数据定义“大数据”是指一个数据集(Datasets),它的尺寸大到已经无法由传统的数据库软件去采集、储存、管理和分析。大数据背景
——定义5大数据定义“大数据”是指一个数据集(Datasets数据的分类结构化数据:行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。例如:二维表半结构化数据:自描述,数据结构和内容混杂在一起的数据。例如:XML、HTML等。非结构化数据:除去以上两种类型例如:音视频、图片等。大数据背景
——定义6数据的分类结构化数据:行数据,存储在数据库里,可以用二维表结2000年以后非结构化数据占绝大部分大数据背景
——
数据的来源72000年以后非结构化数据占绝大部分大数据背景——从非结构化数据到结构化数据非结构化数据行业技术结构化半结构化数据视频、音频识别技术等大数据背景
——
数据的来源8从非结构化数据到结构化数据非结构化数据行业结构化半结构化数据网页爬虫视频识别语音识别等大数据背景
——
数据的来源9网页爬虫视频识别语音识别等大数据背景——数据的来源传统关系数据库,如:Oracle、MYSQL无法储存几亿行长,几百万行宽的表格,巨大的数据直接导致数据库崩溃半结构化数据和脏数据将会导致出错(类型不严格)传统方法失效!如何解决?大数据处理技术的解决办法:存成文件(FileSystem)大数据背景
——
数据的来源10传统关系数据库,如:Oracle、MYSQL大数据背景—某搜索引擎搜索日志大数据背景
——
数据的来源11某搜索引擎搜索日志大数据背景——数据的来源11
二、大数据处理实现技术12二、大数据处理实现技术12大数据处理技术面对的第一个问题
如何高效存储大规模文件?大数据处理实现技术
——分布式储存系统GFS/HDFS13大数据处理技术面对的第一个问题大数据处理实现技术—数据读取问题1T100M/SOHNO!!!大数据处理实现技术
——分布式储存系统GFS/HDFS2.5小时14数据读取问题1T100M/SOHNO!!!大数据处谷歌文件系统(GFS)大数据处理实现技术
——分布式储存系统GFS/HDFS15谷歌文件系统(GFS)大数据处理实现技术——分布式储分而治之大数据处理实现技术
——分布式储存系统GFS/HDFS谷歌文件系统(GFS)解决方案16分而治之大数据处理实现技术——分布式储存系统GFS……..10G1分30秒100M/S大数据处理实现技术
——分布式储存系统GFS/HDFS10G10G10G10G17……..10G1分30秒100M/S大数据处理实现技术—可靠性问题
大数据处理实现技术
——分布式储存系统GFS/HDFS大数据处理技术面对的第二个问题99%*99%*99%*99%*99%=95%95%*95%*95%*95%*95%=76%18可靠性问题大数据处理实现技术——分布式储存系统GFS备份一份数据至少做三个备份大数据处理实现技术
——分布式储存系统GFS/HDFS谷歌解决方案19备份大数据处理实现技术——分布式储存系统GFS/……10G10G……10G10G10G10G10G10G……10G10G10G10G10G10G心跳(HeartBeat
)Master(主管)Secondarymaster(副主管)Client(用户程序)读取元数据读取数据云(Cloud)Master作用:储存元数据(数据位置信息)储存节点的日常维护储存节点10G10G10G10G数据位置信息读取数据20……10G10G……10G10G10G10G10G10G……GoogleFileSystem架构大数据处理实现技术
——分布式储存系统GFS/HDFS21GoogleFileSystem架构大数据处理实现技术大数据处理实现技术
——分布式计算模型MapReduce大数据处理技术面对的第三个问题数据运算问题22大数据处理实现技术——分布式计算模型MapRedu分布式计算(并行计算)大数据处理实现技术
——分布式储存系统GFS/HDFS谷歌解决方案23分布式计算(并行计算)大数据处理实现技术——分布式储谷歌提出Map/Reduce模型大数据处理实现技术
——分布式计算模型MapReduce24谷歌提出Map/Reduce模型大数据处理实现技术Map函数:接受一个键值对(key-valuepair),产生一组中间键值对。map函数将中间键值对里键相同的值传递给Reduce函数。Reduce函数:接受一个键,以及相关的一组值,将这组值进行合并产生一组规模更小的值(通常只有一个或零个值)大数据处理实现技术
——分布式计算模型MapReduce25Map函数:接受一个键值对(key-valuepair),Key-Value(键-值)模型
键(Key):键必须是唯一的,而值并不一定是唯一的每个值必须与键关联,但键可以没有值必须对键进行明确定义。他决定了计数是否区分大小写(键由Hash值唯一确定)。键值对举例:通讯录中的姓名(Key)和联系方式(Value)计算机中各种根据文件名(Key)访问各类文件,如文本、图片(Value)年份(Key)—温度(value)大数据处理实现技术
——分布式计算模型MapReduce26Key-Value(键-值)模型键(Key):大数据处理实气象站气象数据的处理(找出最高气温)大数据处理实现技术
——分布式计算模型MapReduceKey(年份)——Value(温度)27气象站气象数据的处理(找出最高气温)大数据处理实现技术—大数据处理实现技术
——分布式计算模型MapReduceMapReduce计算架构28大数据处理实现技术——分布式计算模型MapReduMap/Reduce特点开发简单
无需处理线程或提供精细的同步逻辑规模大
无需修改程序即可在任意规模机器上运行工作具备自动并行和分发功能
用户只需写好Map和Reduce函数即可高容错失败任务在新节点上会重新运行大数据处理实现技术
——分布式计算模型MapReduce29Map/Reduce特点开发简单大数据处理实现技术——Map/Reduce的局限对迭代算法无能为力不是所有算法都能并行大数据处理实现技术
——分布式计算模型MapReduce30Map/Reduce的局限对迭代算法无能为力大数据处理实现技
三、大数据开源软件Hadoop简介31三、大数据开源软件Hadoop简介31谷歌技术开源实现
GFS
MapReduce开源实现大数据开源软件Hadoop简介HDFS
MapReduce32谷歌技术开源实现开源实现大数据开源软件Hadoop简介HDF2002年,DougCutting从做开源ApacheNutch引擎开始2003年,Doug在看到谷歌发表的GFS之后,开始开源实现NDFS(Nutch
DistributedFileSystem)。2004年,谷歌发表MapReduce,2005年,Nutch开发人员开源实现MapReduce。2006年,Nutch的NDFS和MapReduce移出Nutch项目,独立形成独立项目,命名Hadoop。Hadoop的得名(DougCutting的小孩给毛绒玩具象起的名字)2006年,
DougCutting加入雅虎(聘请),雅虎开始资助Hadoop发展。2008年,1月Hadoop成为Apache顶级项目,2月,雅虎宣布,Hadoop应用在自家搜素引擎中(其搜索引擎的索引建立在拥有1万个内核的Hadoop集群上),4月,Hadoop在900个节点上运行1TB排序测试仅需209秒,成为全球最快。大数据开源软件Hadoop简介332002年,DougCutting从做开源ApacheNHadoop
分布式文件系统(HDFS)架构大数据开源软件Hadoop简介34Hadoop分布式文件系统(HDFS)架构大数据开源软件H安装Hadoop1.系统要求:Linux(Ubuntu/CentOS/…)2.java运行环境(安装JDK)3.安装SSH4.安装Hadoop大数据开源软件Hadoop简介35安装Hadoop1.系统要求:Linux(Ubuntu/CeHadoop启动HDFS演示大数据开源软件Hadoop简介——实例演示36Hadoop启动HDFS演示大数据开源软件Hadoop简介Hadoop云的实际操作1.启动HDFS命令:start-dfs.sh37Hadoop云的实际操作1.启动HDFS命令:start-d2.在eclipse中打开HDFS目录(eclipse需安装Map/Reduce插件)382.在eclipse中打开HDFS目录(eclipse需安装3939Map/Reduce
单词统频(Wordcount)示例大数据开源软件Hadoop简介——实例演示40Map/Reduce
单词统频(Wordcount)示例大数1.通过eclipse上传文本至HDFS411.通过eclipse上传文本至HDFS412.启动MapReduce计算框架,命令:start-yarn.sh422.启动MapReduce计算框架,命令:start-yarWordcountJava程序map部分
publicclassWordCount{publicstaticclassMapextendsMapReduceBaseimplementsMapper<LongWritable,Text,Text,IntWritable>{privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText();publicvoidmap(LongWritablekey,Textvalue,OutputCollector<Text,IntWritable>output,Reporterreporter)throwsIOException{Stringline=value.toString();StringTokenizertokenizer=newStringTokenizer(line);while(tokenizer.hasMoreTokens()){
word.set(tokenizer.nextToken());
output.collect(word,one);//输出:<单词>1}43WordcountJava程序map部分public4444WordcountJava程序reduce部分
publicstaticclassReduceextendsMapReduceBaseimplementsReducer<Text,IntWritable,Text,IntWritable>{publicvoidreduce(Textkey,Iterator<IntWritable>values,OutputCollector<Text,IntWritable>output,Reporterreporter)throwsIOException{intsum=0;while(values.hasNext()){
sum+=values.next().get();//累加统频
}
output.collect(key,newIntWritable(sum));
}
}
45WordcountJava程序reduce部分3.运行wordcount程序javajar包命令:hadoopjar<jar包位置><程序主类名>
<输入文件夹位置>
<输出文件夹位置>463.运行wordcount程序javajar包命令:h4747Hadoop的优势廉价
计算节点和储存节点普通机器即可可伸缩性好
通过增加节点即扩展容错性好
副本机制可编程
Map/Reduce框架适合一次写入多次读取(HDFS)大数据开源软件Hadoop简介48Hadoop的优势廉价大数据开源软件Hadoop简介48Hadoop生态系统49Hadoop生态系统49各组件简介Hive:为程序员提供类SQL语句编写,底层将HiveQL(Hive-SQL)转换为MapReduce编译运行Pig:提供给用户使用的脚本语言,简化MapReduce代码编写Hbase:低延时、分布式的非关系型数据库ZooKeeper:分布式协同工作系统Hcatalog:向Hadoop应用(Hive/Pig)共享元数据大数据开源软件Hadoop简介50各组件简介Hive:为程序员提供类SQL语句编写,底层将Hi大数据开源软件Hadoop简介51大数据开源软件Hadoop简介51谢谢大家敬请批评指正52谢谢大家52大数据处理技术简介53大数据处理技术简介1
三、大数据开源软件Hadoop简介
二、大数据处理实现技术
一、大数据背景目录1.Hadoop简介2.实例演示1.定义2.数据的来源1.分布式储存系统(GFS/HDFS)2.分布式计算模型(MapReduce)54三、大数据开源软件Hadoo一、大数据背景55一、大数据背景3我们正处在信息爆炸的年代2000年数字数据只占全球数据量的1/42007年所有数据中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余93%全是数字数据(二进制数据)Google
单日数据处理量超过24PBFacebook
单日照片更新量超过1千万张淘宝网单日数据产生量超过5万GB大数据背景
——定义56我们正处在信息爆炸的年代2000年数字数据只占全球数大数据定义“大数据”是指一个数据集(Datasets),它的尺寸大到已经无法由传统的数据库软件去采集、储存、管理和分析。大数据背景
——定义57大数据定义“大数据”是指一个数据集(Datasets数据的分类结构化数据:行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。例如:二维表半结构化数据:自描述,数据结构和内容混杂在一起的数据。例如:XML、HTML等。非结构化数据:除去以上两种类型例如:音视频、图片等。大数据背景
——定义58数据的分类结构化数据:行数据,存储在数据库里,可以用二维表结2000年以后非结构化数据占绝大部分大数据背景
——
数据的来源592000年以后非结构化数据占绝大部分大数据背景——从非结构化数据到结构化数据非结构化数据行业技术结构化半结构化数据视频、音频识别技术等大数据背景
——
数据的来源60从非结构化数据到结构化数据非结构化数据行业结构化半结构化数据网页爬虫视频识别语音识别等大数据背景
——
数据的来源61网页爬虫视频识别语音识别等大数据背景——数据的来源传统关系数据库,如:Oracle、MYSQL无法储存几亿行长,几百万行宽的表格,巨大的数据直接导致数据库崩溃半结构化数据和脏数据将会导致出错(类型不严格)传统方法失效!如何解决?大数据处理技术的解决办法:存成文件(FileSystem)大数据背景
——
数据的来源62传统关系数据库,如:Oracle、MYSQL大数据背景—某搜索引擎搜索日志大数据背景
——
数据的来源63某搜索引擎搜索日志大数据背景——数据的来源11
二、大数据处理实现技术64二、大数据处理实现技术12大数据处理技术面对的第一个问题
如何高效存储大规模文件?大数据处理实现技术
——分布式储存系统GFS/HDFS65大数据处理技术面对的第一个问题大数据处理实现技术—数据读取问题1T100M/SOHNO!!!大数据处理实现技术
——分布式储存系统GFS/HDFS2.5小时66数据读取问题1T100M/SOHNO!!!大数据处谷歌文件系统(GFS)大数据处理实现技术
——分布式储存系统GFS/HDFS67谷歌文件系统(GFS)大数据处理实现技术——分布式储分而治之大数据处理实现技术
——分布式储存系统GFS/HDFS谷歌文件系统(GFS)解决方案68分而治之大数据处理实现技术——分布式储存系统GFS……..10G1分30秒100M/S大数据处理实现技术
——分布式储存系统GFS/HDFS10G10G10G10G69……..10G1分30秒100M/S大数据处理实现技术—可靠性问题
大数据处理实现技术
——分布式储存系统GFS/HDFS大数据处理技术面对的第二个问题99%*99%*99%*99%*99%=95%95%*95%*95%*95%*95%=76%70可靠性问题大数据处理实现技术——分布式储存系统GFS备份一份数据至少做三个备份大数据处理实现技术
——分布式储存系统GFS/HDFS谷歌解决方案71备份大数据处理实现技术——分布式储存系统GFS/……10G10G……10G10G10G10G10G10G……10G10G10G10G10G10G心跳(HeartBeat
)Master(主管)Secondarymaster(副主管)Client(用户程序)读取元数据读取数据云(Cloud)Master作用:储存元数据(数据位置信息)储存节点的日常维护储存节点10G10G10G10G数据位置信息读取数据72……10G10G……10G10G10G10G10G10G……GoogleFileSystem架构大数据处理实现技术
——分布式储存系统GFS/HDFS73GoogleFileSystem架构大数据处理实现技术大数据处理实现技术
——分布式计算模型MapReduce大数据处理技术面对的第三个问题数据运算问题74大数据处理实现技术——分布式计算模型MapRedu分布式计算(并行计算)大数据处理实现技术
——分布式储存系统GFS/HDFS谷歌解决方案75分布式计算(并行计算)大数据处理实现技术——分布式储谷歌提出Map/Reduce模型大数据处理实现技术
——分布式计算模型MapReduce76谷歌提出Map/Reduce模型大数据处理实现技术Map函数:接受一个键值对(key-valuepair),产生一组中间键值对。map函数将中间键值对里键相同的值传递给Reduce函数。Reduce函数:接受一个键,以及相关的一组值,将这组值进行合并产生一组规模更小的值(通常只有一个或零个值)大数据处理实现技术
——分布式计算模型MapReduce77Map函数:接受一个键值对(key-valuepair),Key-Value(键-值)模型
键(Key):键必须是唯一的,而值并不一定是唯一的每个值必须与键关联,但键可以没有值必须对键进行明确定义。他决定了计数是否区分大小写(键由Hash值唯一确定)。键值对举例:通讯录中的姓名(Key)和联系方式(Value)计算机中各种根据文件名(Key)访问各类文件,如文本、图片(Value)年份(Key)—温度(value)大数据处理实现技术
——分布式计算模型MapReduce78Key-Value(键-值)模型键(Key):大数据处理实气象站气象数据的处理(找出最高气温)大数据处理实现技术
——分布式计算模型MapReduceKey(年份)——Value(温度)79气象站气象数据的处理(找出最高气温)大数据处理实现技术—大数据处理实现技术
——分布式计算模型MapReduceMapReduce计算架构80大数据处理实现技术——分布式计算模型MapReduMap/Reduce特点开发简单
无需处理线程或提供精细的同步逻辑规模大
无需修改程序即可在任意规模机器上运行工作具备自动并行和分发功能
用户只需写好Map和Reduce函数即可高容错失败任务在新节点上会重新运行大数据处理实现技术
——分布式计算模型MapReduce81Map/Reduce特点开发简单大数据处理实现技术——Map/Reduce的局限对迭代算法无能为力不是所有算法都能并行大数据处理实现技术
——分布式计算模型MapReduce82Map/Reduce的局限对迭代算法无能为力大数据处理实现技
三、大数据开源软件Hadoop简介83三、大数据开源软件Hadoop简介31谷歌技术开源实现
GFS
MapReduce开源实现大数据开源软件Hadoop简介HDFS
MapReduce84谷歌技术开源实现开源实现大数据开源软件Hadoop简介HDF2002年,DougCutting从做开源ApacheNutch引擎开始2003年,Doug在看到谷歌发表的GFS之后,开始开源实现NDFS(Nutch
DistributedFileSystem)。2004年,谷歌发表MapReduce,2005年,Nutch开发人员开源实现MapReduce。2006年,Nutch的NDFS和MapReduce移出Nutch项目,独立形成独立项目,命名Hadoop。Hadoop的得名(DougCutting的小孩给毛绒玩具象起的名字)2006年,
DougCutting加入雅虎(聘请),雅虎开始资助Hadoop发展。2008年,1月Hadoop成为Apache顶级项目,2月,雅虎宣布,Hadoop应用在自家搜素引擎中(其搜索引擎的索引建立在拥有1万个内核的Hadoop集群上),4月,Hadoop在900个节点上运行1TB排序测试仅需209秒,成为全球最快。大数据开源软件Hadoop简介852002年,DougCutting从做开源ApacheNHadoop
分布式文件系统(HDFS)架构大数据开源软件Hadoop简介86Hadoop分布式文件系统(HDFS)架构大数据开源软件H安装Hadoop1.系统要求:Linux(Ubuntu/CentOS/…)2.java运行环境(安装JDK)3.安装SSH4.安装Hadoop大数据开源软件Hadoop简介87安装Hadoop1.系统要求:Linux(Ubuntu/CeHadoop启动HDFS演示大数据开源软件Hadoop简介——实例演示88Hadoop启动HDFS演示大数据开源软件Hadoop简介Hadoop云的实际操作1.启动HDFS命令:start-dfs.sh89Hadoop云的实际操作1.启动HDFS命令:start-d2.在eclipse中打开HDFS目录(eclipse需安装Map/Reduce插件)902.在eclipse中打开HDFS目录(eclipse需安装9139Map/Reduce
单词统频(Wordcount)示例大数据开源软件Hadoop简介——实例演示92Map/Reduce
单词统频(Wordcount)示例大数1.通过eclipse上传文本至HDFS931.通过eclipse上传文本至HDFS412.启动MapReduce计算框架,命令:start-yarn.sh942.启动MapReduce计算框架,命令:start-yarWordcountJava程序map部分
publicclassWordCount{publicstaticclassMapextendsMapReduceBaseimplementsMapper<LongWritable,Text,Text,IntWritable>{privatefinalstaticIntWritableone=newIntWritable(1);privateTextword=newText();publicvoidmap(LongWritablekey,Textvalue,OutputCollector<Text,IntWritable>output,Reporterreporter)throwsIOException{Stringline=value.toString();StringTokenizertokenizer=newStringTokenizer(line);
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广东外语外贸大学《地理信息系统原理与应用》2023-2024学年第一学期期末试卷
- 广东松山职业技术学院《茶树病虫防治学实验》2023-2024学年第一学期期末试卷
- 广东食品药品职业学院《英语微设计与制作》2023-2024学年第一学期期末试卷
- 广东汕头幼儿师范高等专科学校《轨道交通电气系统故障诊断》2023-2024学年第一学期期末试卷
- 广东培正学院《理论力学B》2023-2024学年第一学期期末试卷
- 七年级上册《2.2.2 第1课时 有理数的除法》课件与作业
- 广东南方职业学院《跨文化商务交际》2023-2024学年第一学期期末试卷
- 广东茂名幼儿师范专科学校《混凝土结构设计原理实验》2023-2024学年第一学期期末试卷
- 广东茂名农林科技职业学院《财务会计》2023-2024学年第一学期期末试卷
- 广东理工职业学院《数值分析初步》2023-2024学年第一学期期末试卷
- 人脸识别考勤系统方案
- 四川省宜宾市2023-2024学年高一上学期期末学业质量监测数学试卷(解析版)
- 镍钴矿的质量管理体系
- 旅游管理生涯发展展示
- 2024年北京市公务员录用考试申论真题及解析
- 浙教版七年级下册英语单词表
- 2024年青岛酒店管理职业技术学院高职单招(英语/数学/语文)笔试历年参考题库含答案解析
- 2024年连云港师范高等专科学校高职单招(英语/数学/语文)笔试历年参考题库含答案解析
- 2024年益阳职业技术学院高职单招(英语/数学/语文)笔试历年参考题库含答案解析
- 眼镜消费者行为分析报告
- 16学时《中医药膳学》教学大纲(可编辑修改文本版)
评论
0/150
提交评论