hadoop培训-大数据工具集_第1页
hadoop培训-大数据工具集_第2页
hadoop培训-大数据工具集_第3页
hadoop培训-大数据工具集_第4页
hadoop培训-大数据工具集_第5页
已阅读5页,还剩95页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

HADOOP什么是Apache快 Phoenix Hbase数据模PhoenixHBaseColumnFamilyColumnFamilyColumnFamilyQualifierQualifierQualifierRowKeyRowKeyRowKeyRowKeyRowKey例DDL命令行如下CONSTRAINTpkPRIMARYKEY(HOST,HadoopHadoop大大数据工具2015年72015年7SqoopFlumeOozie1、Hadoop的数据传输工具sqoop是ApacheSqoop提供的import和export三、sqoopimport三、sqoop三、sqoopexport三、sqoopimportOracle中违法数据表数据量:1W需求:将数据导入到Hbase三、sqoopimportsqoopimport--append--connect--usernameHADOOP--password--m--table--columnsWFBH,JDSLB,JDSBH,WSJYW,RYFL,--hbase-create---hbase-table--hbase-row-key--column-family--split-by三、sqoopimport三、sqoopimportSqoop将MySQL数据库project表数据导入到Hivesqoopimport--connectjdbc:mysql://ip/testdb--tableproject--usernametest 将MySQL数据库中多表JOIN后的数据导入到sqoopimport--connectjdbc:mysql://ip/testdb--usernametest-P–query'SELECTusers.*,tags.tagFROMusersJOINtagsON(users.id=tags.user_id)WHERE$CONDITIONS‘--split-byusers.id-- -dir/hive/tag_db/user_tags将MySQL数据库中某个表的数据增量同步到Hivesqoopjob--createyour-sync-job--import--connectjdbc:mysql://--tableproject--usernametest-P--hive-import--incremental--check-columnid--last-value1----default-character-set=utf-Sqoop将MySQL数据库中某个表的几个字段的数据导入到Hivesqoopimport--connectjdbc:mysql://ip/testdb --usernametest--P--tabletags--columns'id,tag‘--create-hive-table-- -dir/hive/tag_db/tags--m1--hive-tabletags--hive- sqoopimport--connectjdbc:mysql://ip//testdb--table--validatorsqoopexport--connectjdbc:mysql://ip/tag_db--usernametest----tableuser_tags--export-dir/hive/user_tags--input-fields-terminated-Sqoop--connect<jdbc---connect<jdbc-指定JDBC连接字符--connection-manager<class-指定要使用的连接管理器指定要使用的JDBC驱动--hadoop-mapred-home指定$HADOOP_MAPRED_HOME径--打印用法帮助信--password-设置用于存放认证的信息文件路-从控制输入--password设置认--username设置认证用户--打印详细的运行信--connection-param-file可选,指定数据库连接参数的性文Sqoopimport工具选项 选 含义说 --as- 将数据导入到Avro数据文--as- 将数据导入到--as- 将数据导入到普通文本文件(默认 边界查询,用于创建分--columns 从表中导出指定的一组列的数-- - 如果指 存在,则先删除-- 使用直接导入模式(优化导入速度 分割输入stream的字节大小(在接导入模式下--fetch-size 从数据库中批 记录--inline-lob-limit 设置内联的LOB对象的大-m,--num-mappers 使用n个map任务并行导入数Sqoopimport工具选项选含义说--e,--query导入的查询语--split-by<column-指定按照哪个列去分割数导入的源表表--dir导入HDFS的目标路HDFS存放表的根路--where<where指定导出时所使用的查询条启用压指定Hadoop的codec方式(默如果指定列为字符串类型,使用定字符串替换值为null的该类列的--null-non-string<null-值SqoopImporthive工具选选 含义说--hive-home Override--hive- 数据到hive当中,使用hive的认分隔--hive- 覆盖hive表中的数--create-hive- 建表,如果表已经存在,该操作会错 设置到hive当中的表--hive-drop-import- 导入到hive时删\nrand--hive-delims- 导入到hive时用自定义的字符替\n,\r,and--hive-partition- hive分区的 hive分区的--map-column-hive 类型匹配,sql类型对应到hive类SqoopImportHabse工具选--column-family把内容导入到hbase当中,默认用主键作为split--hbase-create-创建Hbase--hbase-row-key指定字段作为rowkey,如果输表包含复合主键,用逗号分--hbase-table<table-指定hbaseSqooport工ort工具选 --validate<class---export-dir-m,--num-mappers--table<table---call<stored-proc-导出数据调用的指定过程--update-key<col---update-mode列Sqoop的版本主要分为sqoop1和sqoop1.99.1,sqoop1.99.2,sqoop1.99.6称为sqoop1的稳定版本是sqoop1.4.6,sqoop2的最新版本是sqoop1.99.6。Sqoop1和Sqoop2五、sqoop1 Sqoop1Sqoop2五、sqoop1 工作模sqoop1基于客户端模式,用户使用客户端模式,需要在客户端节点安装sqoop连接器/sqoop2基于服务的模式,是sqoop1的下一代版本,服务模式主要分为serverclient,用户使用服务的模式,需要在sqoop2server安装连接器/,所有配置信息都在sqoop2server进行配置MR角 其区sqoop只提交一个map作业,数据的传输和转换都由Mapperssqoop2提交一个MapReduce作业,Mappers负责从数据源传输数据,Reducers负责根据指定的源来转换(transforming)数据五、sqoop1 从安全的角目标,然而,操作者直接使用已经建好的,不需要了解该的具体细节信其他方WebUI:sqoop只提供了CLI方式,sqoop2同时也支持WebUI的方式。SqoopServer以REST服务方式提供CLIWebUI SqoopFlumeOozie1、flume是一个分布式的,海量日 、聚合和传输的系统 是把数据从数据源收集过来,再送到目的地。为了保证输送一定成功60.9.x(oldgeneration,OG)和1.x(newFlume配置文件就是一个javaFlume的一个简单的配置案例启 $bin/flume-ngagent--conf-fileexample.conf--nameagent1输入数据(netcat方式终端输出信息定义流例如配置单个组件(源 例如在一 中添加多个流例如配置 流程,例如weblog-HDFS设置 流程合并多路复用流六、Flume的应用——从本地文件获取数据写入HDFS文件配置内容六、Flume的应用——从本地文件获取数据写入HDFS文件源文件内容六、Flume的应用——从本地文件获取数据写入HDFS文件启 启动信息六、Flume的应用——从本地文件获取数据写入HDFS文件HDFS生成文件内容Flume补充Source、channel和sink有很多缺省的实现,并且支持Plugin扩展-source:Exec、Avro、-channel:MemoryChannel、JDBC、-sink:HDFS、HBASEFlume-ng命令行命令,格式:./flume-ngcommand主要 令就是aent,还有其他的一些命令和参数,可通过帮助命令看:./flume-ng-help SqoopFlumeOozie2、是管理hadoop2、是管理hadoopjobs 动作——支持操作系统 命Ssh动作——支持ssh二、OOZIE支持的动作— <action notificationsfor<body>Thewf${wf:id()}successfully OOZIE支持的动作——ssh <property> OOZIE支持的动作——hive<prepare><deletepath="${jobOutput}"/> OOZIE支持的动作——sqoop<prepare><deletepath="${jobOutput}"/> <arg>--table</arg><arg>TT</arg><arg>- <arg>hdfs://localhost:8020/user/tucu/foo</arg><arg>-m</arg>OOZIE支持的动作——DistCp 点,必须存在end节点——fork节点——<workflow-appname='wordcount-wf'<start<action</map-<ok<error<killname='kill'><message>Somethingwentwrong:</kill/><endname='end'/></workflow-<kill<kill<message>Somethingwentwrong:<end SqoopFlumeOozie目的 一款基于Web的数据开放接口:Hue,可以用来协助大家进行数据分析、品分析等HUE是一个开源的HadoopUI由ClouderaDesktop演化而来由Cloudera贡献给开源社基于PythonWeb框架Django实现通过使用He我们可以在浏览器端的b控制台上与Hap集群进行交互来分析处理数据5hivehive书写hive到hivehive书写hive到hive书写hive到缺点1sql需要每次手写,或者拷贝后修改日期、类型12繁重的后续数据整理工作23工作流式工作,不同sql需要重复劳动3·《论语 》工欲善其事,必先利其HueHue1Hue12Hue23Hive查询快捷操作演34Hive查询使用自定义数4Hue图形化交互程序:节约学习成多应用同平台,便捷的操作流提示、自动补全功查询结果表格化、图形化显示、结 功不同用户定制化服HueHue是一个能够与 Hadoop交互的Web应用程序。一个开源的HadoopUIjob HueHdfsHdfs集群任务管理界用户管Home页当HueHue用户管HueHueJobbrowser界查看集群上该用户所提交job的运行状态Hue

增删改查

HueHueMetastore界针对不同用户,只展示与其相关的表,保证界面HueHue保存着hive的元数据,包括hive表的列信息、分区信息、采样数据、详细列信HueHue保存着hive的元数据,包括hive表的列信息、分区信息、采样数据、详细分区信HueHue保存着hive的元数据,包括hive表的列信息、分区信息、采样数据、详细采样数HueHue保存着hive的元数据,包括hive表的列信息、分区信息、采样数据、详细HueHue7Hive查询界HueHue7Hive查询界HueHue7Hive查询界HueHue7Hive查询界Hue 功能最 100w行HueHu

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论