hadoop技术基础课件_第1页
hadoop技术基础课件_第2页
hadoop技术基础课件_第3页
hadoop技术基础课件_第4页
hadoop技术基础课件_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

HADOOP1ppt课件HADOOP1ppt课件Hadoop概述一2ppt课件Hadoop概述一2ppt课件Hadoop生态圈Hadoop构架主要组成部分及介绍123目录13ppt课件Hadoop生态圈Hadoop构架主要组成部分及介绍123目4ppt课件4ppt课件Hadoop是一个实现了MapReduce计算模型的开源分布式并行编程框架,程序员可以借助Hadoop编写程序,将所编写的程序运行于计算机机群上,从而实现对海量数据的处理。Hadoop还提供一个分布式文件系统(HDFS)及分布式数据库(HBase)用来将数据存储或部署到各个计算节点上。所以,可以大致认为:Hadoop=HDFS(文件系统,数据存储技术相关) +HBase(数据库) +MapReduce(数据处理)Hadoop构架分析25ppt课件Hadoop是一个实现了MapReduce计算模型的开源Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。Hadoop组成部分31、HadoopHDFS是GoogleGFS存储系统的开源实现,主要应用场景是作为并行计算环境(MapReduce)的基础组件,同时也是BigTable(如HBase、HyperTable)的底层分布式文件系统。HDFS采用master/slave架构。一个HDFS集群是有由一个Namenode和一定数目的Datanode组成。Namenode是一个中心服务器,负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是一个节点一个,负责管理节点上它们附带的存储。在内部,一个文件其实分成一个或多个block,这些block存储在Datanode集合里。6ppt课件Hadoop主要由HDFS、MapReduce、Hive和Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。Hadoop组成部分32、HadoopMapReduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上TB级别的数据集。

一个MapReduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由Map任务(task)以完全并行的方式处理它们。

框架会对Map的输出先进行排序,然后把结果输入给Reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。7ppt课件Hadoop主要由HDFS、MapReduce、Hive和Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。Hadoop组成部分33、Hive是基于Hadoop的一个数据仓库工具,处理能力强而且成本低廉。主要特点:

存储方式是将结构化的数据文件映射为一张数据库表。提供类SQL语言,实现完整的SQL查询功能。可以将SQL语句转换为MapReduce任务运行,十分适合数据仓库的统计分析。8ppt课件Hadoop主要由HDFS、MapReduce、Hive和HHadoop主要由HDFS、MapReduce、Hive和HBase等组成。Hadoop组成部分34、HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。

另一个不同的是HBase基于列的而不是基于行的模式。

HBase使用和BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列,一个或多个列组成一个ColumnFamily,一个Fmaily下的列位于一个HFile中,易于缓存数据。

表是疏松的存储的,因此用户可以给行定义各种不同的列。在HBase中数据按主键排序,同时表按主键划分为多个Hregion。9ppt课件Hadoop主要由HDFS、MapReduce、Hive和HHadoop使用二10ppt课件Hadoop使用二10ppt课件登陆Hadoop集群Hadoop建表数据查询及导出Hadoop的hdfs命令1234目录211ppt课件登陆Hadoop集群Hadoop建表数据查询及导出HadooHOSTNAME133.128.88.200PORT22USERNAMEhadoop1登录hadoop集群或者通过其他机器跳转到133.128.88.200下sshhadoop@hadoop-m01或sshhadoop@133.128.88.200键入回车,输入密码。12ppt课件HOSTNAME1登录hadoop集群或者通过其他机器跳转到通过hive命令登陆数据库showdatabases;显示当前的所有数据库(同oracle数据库的用户);1usedw;切换数据库;登录hadoop集群showfunctions;显示所有的函数;showtables;查看当前数据库下所有的表;showtables'*tg*';模糊匹配当前数据库下所有的表;13ppt课件通过hive命令登陆数据库showdatabases;显CREATEEXTERNALTABLE`tg_cdr_noinfo_fix_d`(

`call_duration`int,`otherfee`double,`source_type`string,`cycle_tag`string)PARTITIONEDBY(`day_part`string)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','STOREDASINPUTFORMAT'org.apache.hadoop.mapred.TextInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'LOCATION'hdfs://beh/data/stage2/tg_cdr_noinfo_fix_d'TBLPROPERTIES('last_modified_by'='hadoop','last_modified_time'='1464585329','transient_lastDdlTime'='1464585329')创建外部表2Hadoop建表字段类型表名表分区14ppt课件CREATEEXTERNALTABLE`tg_cdr_CREATETABLE`dwa_v_d_cus_cb_sing_use_add`(

`day_id`stringCOMMENT'日期',`area_id`stringCOMMENT'地市',`city_id`stringCOMMENT'区县',`user_id`stringCOMMENT'订购实例标识',`toll_nums`doubleCOMMENT'本地长途次数',`use_status`stringCOMMENT'用户使用类型dim.dim_4G_use_status')COMMENT'cBSS业务单用户累计使用衍生信息(日)(从入网开始)'PARTITIONEDBY(`day_part`string)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','STOREDASINPUTFORMAT'org.apache.hadoop.hive.ql.io.RCFileInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.RCFileOutputFormat'LOCATION'hdfs://beh/user/hive/warehouse/dw.db/dwa_v_d_cus_cb_sing_use_add'TBLPROPERTIES('transient_lastDdlTime'='1461115949');创建表2Hadoop建表字段类型及注释表名表注释表分区15ppt课件CREATETABLE`dwa_v_d_cus_cb_s表的相关命令showcreatetabledw.dwa_v_d_cus_cb_sing_use_add;查询建表脚本;3showpartitionsdw.dw_v_u_k_cdr_gprs_cb;查看表分区数据查询及导出select*fromdw.dw_v_u_k_cdr_gprs_cbwhereday_part='20160101'limit1;查询数据insertoverwritetabledim.dim_cbss_deposit清表插入数据insertintotable插入数据insertoverwritetabledw.dw_v_deposit_info_cbpartition(day_part='$v_day');插入分区16ppt课件表的相关命令showcreatetabledw.dwa3数据查询及导出导出方法一:insertoverwritelocalDIRECTORY'$check_log_dir'ROWFORMATDELIMITEDFIELDSTERMINATEDBY'$v_split'select$v_column_listfrom$v_tabletwhere$v_part='$v_date';\"">$v_hqlsh$v_hql2>&1|tee$v_export_log>>/dev/null导出方法二:hive-S-e"select1;">$directory17ppt课件3数据查询及导出导出方法一:17ppt课件Hadoop查看目录空间使用情况

命令:hadoopfs-count[-q]<paths>

统计出目录数、文件数及指定路径下文件的大小,输出列为:DIR_COUNT,FILE_COUNT,CONTENT_SIZE,FILE_NAME.

带上-q选项后的输出列为:QUOTA,REMAINING_QUATA,SPACE_QUOTA,REMAINING_SPACE_QUOTA,DIR_COUNT,FILE_COUNT,CONTENT_SIZE,FILE_NAME.4Haoop的hdfs命令18ppt课件Hadoop查看目录空间使用情况

4Haoop的hdfs命Hdfs相关命令hadoopfs–ls/

列出当前目录有哪些子目录,有哪些文件。4hadoopfs-count/Haoop的hdfs命令hadoopfs–mkidr/test

在Hadoop文件系统当中,创建一个test目录hadoopfs–rmr/test

在Hadoop文件系统当中,创建一个test目录hadoopfs–get/filename

从Hadoop文件系统当中,获取一个文件到本地的文件系统。hadoopfs–putsrcfile/desfile

从本地的文件系统上传一个文件到Hadoop文件系统中。19ppt课件Hdfs相关命令hadoopfs–ls/

列出当THANKYOU20ppt课件THANKYOU20ppt课件HADOOP21ppt课件HADOOP1ppt课件Hadoop概述一22ppt课件Hadoop概述一2ppt课件Hadoop生态圈Hadoop构架主要组成部分及介绍123目录123ppt课件Hadoop生态圈Hadoop构架主要组成部分及介绍123目24ppt课件4ppt课件Hadoop是一个实现了MapReduce计算模型的开源分布式并行编程框架,程序员可以借助Hadoop编写程序,将所编写的程序运行于计算机机群上,从而实现对海量数据的处理。Hadoop还提供一个分布式文件系统(HDFS)及分布式数据库(HBase)用来将数据存储或部署到各个计算节点上。所以,可以大致认为:Hadoop=HDFS(文件系统,数据存储技术相关) +HBase(数据库) +MapReduce(数据处理)Hadoop构架分析225ppt课件Hadoop是一个实现了MapReduce计算模型的开源Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。Hadoop组成部分31、HadoopHDFS是GoogleGFS存储系统的开源实现,主要应用场景是作为并行计算环境(MapReduce)的基础组件,同时也是BigTable(如HBase、HyperTable)的底层分布式文件系统。HDFS采用master/slave架构。一个HDFS集群是有由一个Namenode和一定数目的Datanode组成。Namenode是一个中心服务器,负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是一个节点一个,负责管理节点上它们附带的存储。在内部,一个文件其实分成一个或多个block,这些block存储在Datanode集合里。26ppt课件Hadoop主要由HDFS、MapReduce、Hive和Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。Hadoop组成部分32、HadoopMapReduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上TB级别的数据集。

一个MapReduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由Map任务(task)以完全并行的方式处理它们。

框架会对Map的输出先进行排序,然后把结果输入给Reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。27ppt课件Hadoop主要由HDFS、MapReduce、Hive和Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。Hadoop组成部分33、Hive是基于Hadoop的一个数据仓库工具,处理能力强而且成本低廉。主要特点:

存储方式是将结构化的数据文件映射为一张数据库表。提供类SQL语言,实现完整的SQL查询功能。可以将SQL语句转换为MapReduce任务运行,十分适合数据仓库的统计分析。28ppt课件Hadoop主要由HDFS、MapReduce、Hive和HHadoop主要由HDFS、MapReduce、Hive和HBase等组成。Hadoop组成部分34、HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。

另一个不同的是HBase基于列的而不是基于行的模式。

HBase使用和BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列,一个或多个列组成一个ColumnFamily,一个Fmaily下的列位于一个HFile中,易于缓存数据。

表是疏松的存储的,因此用户可以给行定义各种不同的列。在HBase中数据按主键排序,同时表按主键划分为多个Hregion。29ppt课件Hadoop主要由HDFS、MapReduce、Hive和HHadoop使用二30ppt课件Hadoop使用二10ppt课件登陆Hadoop集群Hadoop建表数据查询及导出Hadoop的hdfs命令1234目录231ppt课件登陆Hadoop集群Hadoop建表数据查询及导出HadooHOSTNAME133.128.88.200PORT22USERNAMEhadoop1登录hadoop集群或者通过其他机器跳转到133.128.88.200下sshhadoop@hadoop-m01或sshhadoop@133.128.88.200键入回车,输入密码。32ppt课件HOSTNAME1登录hadoop集群或者通过其他机器跳转到通过hive命令登陆数据库showdatabases;显示当前的所有数据库(同oracle数据库的用户);1usedw;切换数据库;登录hadoop集群showfunctions;显示所有的函数;showtables;查看当前数据库下所有的表;showtables'*tg*';模糊匹配当前数据库下所有的表;33ppt课件通过hive命令登陆数据库showdatabases;显CREATEEXTERNALTABLE`tg_cdr_noinfo_fix_d`(

`call_duration`int,`otherfee`double,`source_type`string,`cycle_tag`string)PARTITIONEDBY(`day_part`string)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','STOREDASINPUTFORMAT'org.apache.hadoop.mapred.TextInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'LOCATION'hdfs://beh/data/stage2/tg_cdr_noinfo_fix_d'TBLPROPERTIES('last_modified_by'='hadoop','last_modified_time'='1464585329','transient_lastDdlTime'='1464585329')创建外部表2Hadoop建表字段类型表名表分区34ppt课件CREATEEXTERNALTABLE`tg_cdr_CREATETABLE`dwa_v_d_cus_cb_sing_use_add`(

`day_id`stringCOMMENT'日期',`area_id`stringCOMMENT'地市',`city_id`stringCOMMENT'区县',`user_id`stringCOMMENT'订购实例标识',`toll_nums`doubleCOMMENT'本地长途次数',`use_status`stringCOMMENT'用户使用类型dim.dim_4G_use_status')COMMENT'cBSS业务单用户累计使用衍生信息(日)(从入网开始)'PARTITIONEDBY(`day_part`string)ROWFORMATDELIMITEDFIELDSTERMINATEDBY','STOREDASINPUTFORMAT'org.apache.hadoop.hive.ql.io.RCFileInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.RCFileOutputFormat'LOCATION'hdfs://beh/user/hive/warehouse/dw.db/dwa_v_d_cus_cb_sing_use_add'TBLPROPERTIES('transient_lastDdlTime'='1461115949');创建表2Hadoop建表字段类型及注释表名表注释表分区35ppt课件CREATETABLE`dwa_v_d_cus_cb_s表的相关命令showcreatetabledw.dwa_v_d_cus_cb_sing_use_add;查询建表脚本;3showpartitionsdw.dw_v_u_k_cdr_gprs_cb;查看表分区数据查询及导出select*fromdw.dw_v_u_k_cdr_gprs_cbwhereday_part='20160101'limit1;查询数据insertoverwritetabledim.dim_cbss_deposit清表插入数据insertintotable插入数据insertoverwritetabledw.dw_v_deposit_info_cbpartition(day_part='$v_day');插入分区36ppt课件表的相关命令showcreate

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论