版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Hadoop部分启动命令:start-all.sh停止命令:stop-all.shHadoop运行增加集群的存储量/节点如果只增加集群的存储量,建议增加Hadoop datanode节点。 步骤:1、停掉集群包括Hadoop和hbase,当然也可以不停掉,直接在hadoop namenode的配置文件Slave里添加新节点的host,别忘了在host文件里也要添加新添加的host名。 2、执行bin/start-all.sh启动集群 3、以下选择一种1) 如果不手动作平衡,插入的数据将会放在新添加的节点上。以趋于平衡。 2) 如果手动平衡,则 start-balancer.sh和调用bin/s
2、Hadoop balancer命令相似,也可加参数 -threshold 5(threshold 是平衡阈值,默认是10%,值越低各节点越平衡,但消耗时间也更长)。 在使用start-balancer.sh时,如果在hdfs-site.xml里面没有配置dfs.balance.bandwidthPerSec,那么集群hdfs内部默认使用1M/S的速度移动数据(so slowly.),我们可以通过在hdfs-site.xml里面配置dfs.balance.bandwidthPerSec来加快balance的速度。 最开始我们配置的是20m/S ,然后结果是导致job运行变得不稳定,出现一些意外的
3、长map单元,某些reduce时间处理变长(整个集群负载满满的情况下,外加20m/s的balance),在前天的中国hadoop年会上听淘宝调整的为10m/s,需要调整后实验,看看情况如何。 另外再修改dfs.balance.bandwidthPerSec参数后,需要在namenode上运行stop-dfs.sh start-dfs.sh重启hdfs生效。我们可以通过stop-balancer.sh停掉平衡任务。作完平衡后,启动hbase,正常。 果cluster设置的副本数不为3(默认),需要先运行命令hadoop fs setrep -R <path> ;进行设置一个文件的副本
4、系数。如果默认为3则不必。如果执行完平衡以后才改变副本数,会将新加入到新节点上的所有数据删除。 dfs.replication设置的副本系数只在文件系统写入时有效,并不影响在新添加节点时,平衡时的副本数;另外:由于还有hbase数据库,因此,在运行完平衡以后,将hbase下的.META.文件删除(防止出错),启动hbase,执行hbase org.jruby.Main add_table /表名 来进行hbase表恢复;Hadoop1升级1.运行dfsadmin -upgradeProgress status 检查是否存在备份 如果是第一次升级 就不存在备份(在升级Hadoop前,如果已经存在
5、备份,需要先结束 finalize 它。)2.备份node.dir下文件,同时要备份下hdfs的文件目录的元数据信息:1 / 6bin/hadoop fsck / -files -blocks -locations > dfs-v-old-fsck-1.log bin/hadoop dfs -lsr / > dfs-v-old-lsr-1.log bin/hadoop dfsadmin -report > dfs-v-old-report-1.log 3.停止所有节点 bin/stop-all.sh4.在所有节点上重新部署hadoop 并替换conf
6、文件夹下所有文件(就是将原有的hadoop-0.19.1更名为hadoop-0.19.1-oldverstion,然后解压hadoop-0.19.2.tar.gz 将0.19.2中的conf文件替换为0.19.1中的conf文件夹)并且要对照修改hadoop-site.xml中的路径指定是否正确5.使用 bin/start-dfs.sh -upgrade 进行升级(DFS从一个版本升级到另外一个版本的时候,NameNode和DataNode使用的文件格式有可能会改变。当你第一次使用新版本的时候,你要告诉Hadoop 去改变HDFS版本,否则,新版本不会生效) 6.监控升级情况和升级问
7、题处理开始升级,你可以通过bin/hadoop dfsadmin -upgradeProgress命令来查看版本升级的情况。当然你可以使用bin/hadoop dfsadmin -upgradeProgress details来查看更多的详细信息。当升级过程被阻塞的时候,你可以使用bin/hadoop dfsadmin -upgradeProgress force来强制升级继续执行(当你使用这个命令的时候,一定要慎重考虑)。 当HDFS升级完毕后,Hadoop依旧保留着旧版本的有关信息,以便你可以方便的对HDFS进行降级操作。可以使用bin/start-dfs.sh -rollbac
8、k来执行降级操作。7.对比现有hdfs的文件目录的元数据信息和升级的差异。8.升级完成,Hadoop一次只保存一个版本的备份,当新版本运行几天以后还是没有出现什么问题,你就可以使用运行一段时间后 没有问题再执行升级终结操作bin/hadoop dfsadmin -finalizeUpgrade命令把旧版本的备份从系统中删掉了。删除以后rollback 命令就失效了。HdfsMapreduceHbase部分启动命令:start-hbase.sh如果一个regionserver死掉了,可以执行该命令启动,也可以启动整个hbase;停止命令:stop-hbase.sh停止hbase运行的命令.日常维
9、护1. 基本命令 建表:create 'testtable','coulmn1','coulmn2' 也可以建表时加coulmn的属性如:create 'testtable',NAME => 'coulmn1', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', VERSIONS => '10', COMPRESSION => 'LZO', TTL => '30
10、000', IN_MEMORY => 'false', BLOCKCACHE => 'false', NAME => 'coulmn', BLOOMFILTER => 'NONE', REPLICATION_SCOPE => '0', VERSIONS => '30', COMPRESSION => 'LZO', TTL => '30000', IN_MEMORY => 'true' (其中
11、的属性有versions:设置历史版本数,TTL:过期时间,COMPRESSION:压缩方式,当配置lzo的情况) 删除表:drop 'testtable' (删除表之前先要禁用表,命令disable 'testtable') 启用和禁用表: enable 'testtable' 和disable 'testtable' 其它的基本命令:describe 'testtable'(查看表结构),alert 修改表结构,list 列出所有表。2. 维护命令 1,major_compact 'testtable&
12、#39;,通常生产环境会关闭自动major_compact(配置文件中hbase.hregion.majorcompaction设 为0),选择一个晚上用户少的时间窗口手工major_compact,如果hbase更新不是太频繁,可以一个星期对所有表做一次 major_compact,这个可以在做完一次major_compact后,观看所有的storefile数量,如果storefile数量增加到 major_compact后的storefile的近二倍时,可以对所有表做一次major_compact,时间比较长,操作尽量避免高锋期。 2,flush 'testtable',将
13、所有memstore刷新到hdfs,通常如果发现regionserver的内存使用过大,造成该机的 regionserver很多线程block,可以执行一下flush操作,这个操作会造成hbase的storefile数量剧增,应尽量避免这个操 作,还有一种情况,在hbase进行迁移的时候,如果选择拷贝文件方式,可以先停写入,然后flush所有表,拷贝文件。 3,balance_switch true或者balance_switch flase,配置master是否执行平衡各个regionserver的region数量,当我们需要维护或者重启一个regionserver时,会 关闭balance
14、r,这样就使得region在regionserver上的分布不均,这个时候需要手工的开启balance。3. 重启一个regionserver bin/graceful_stop.sh -restart -reload -debug nodename 这个操作是平滑的重启regionserver进程,对服务不会有影响,他会先将需要重启的regionserver上面的所有 region迁移到其它的服务器,然后重启,最后又会将之前的region迁移回来,但我们修改一个配置时,可以用这种方式重启每一台机子,这个命令会关 闭balancer,所以最后我们要在hbase shell里面执行一下balan
15、ce_switch true,对于hbase regionserver重启,不要直接kill进程,这样会造成在zookeeper.session.timeout这个时间长的中断,也不要通过 bin/hbase-daemon.sh stop regionserver去重启,如果运气不太好,-ROOT-或者.META.表在上面的话,所有的请求会全部失败。4. 关闭下线一台regionserver bin/graceful_stop.sh -stop nodename和上面一样,系统会在关闭之前迁移所有region,然后stop进程,同样最后我们要手工balance_switch true,开启ma
16、ster的region均衡。5. 检查region是否正常以及修复 bin/hbase hbck (检查) bin/hbase hbck -fix (修复) 会返回所有的region是否正常挂载,如没有正常挂载可以使用下一条命令修复,如果还是不能修复,那需要看日志为什么失败,手工处理。6. hbase的迁移u copytable方式 bin/hbase org.apache.hadoop.hbase.mapreduce.CopyTable -peer.adr=zookeeper1,zookeeper2,zookeeper3:/hbase 'testtable' 目前0.92之前
17、的版本的不支持多版本的复制,0.94已经支持多个版本的复制。当然这个操作需要添加hbase目录里的conf/mapred-site.xml,可以复制hadoop的过来。u Export/Import bin/hbase org.apache.hadoop.hbase.mapreduce.Export testtable /user/testtable versions starttime stoptime bin/hbase org.apache.hadoop.hbase.mapreduce.Import testtable /user/testtable 跨版本的迁移,我觉得是一个不错的选择
18、,而且copytable不支持多版本,而export支持多版本,比copytable更实用一些。u 直接拷贝hdfs对应的文件 首先拷贝hdfs文件,如bin/hadoop distcp hdfs:/srcnamenode:9000/hbase/testtable/ hdfs:/distnamenode:9000/hbase/testtable/ 然后在目的hbase上执行bin/hbase org.jruby.Main bin/add_table.rb /hbase/testtable 生成meta信息后,重启hbase这个操作是简单的方式,操作之前可以关闭hbase的写入,执行flush所
19、有表(上面有介绍),再distcp拷贝,如果hadoop版本不一致,可以用hftp接口的方式,我推荐使用这种方式,成本低。HBase升级在hbase-0.96-0版本,提供了升级命令,当然需要预先将低版本的升级到0.96或者更高版本时,需要使用升级命令;Hbase命令提供了如下的选项; echo "Usage: hbase <options> <command> <args>" echo "Options:" echo " -config DIR Configuration direction to use.
20、 Default: ./conf" echo " -hosts HOSTS Override the list in 'regionservers' file" echo "" echo "Commands:" echo "Some commands take arguments. Pass no args or -h for usage." echo " shell Run the HBase shell" echo " hbck Run the hbase
21、 'fsck' tool" echo " hlog Write-ahead-log analyzer" echo " hfile Store file analyzer" echo " zkcli Run the ZooKeeper shell" echo " upgrade Upgrade hbase" echo " master Run an HBase HMaster node" echo " regionserver Run an HBase HRegionServer node" echo " zookeeper Run a Zookeeper server" echo " rest Run an HBase REST server" echo " thrift Run the HBase Thrift server" echo " thrift2 Run the
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 玉溪师范学院《网球主项》2021-2022学年第一学期期末试卷
- 玉溪师范学院《社会体育指导员培训》2021-2022学年第一学期期末试卷
- 化学第十章烃教案
- 测量仪器账务处理实例-记账实操
- 水泥基渗透结晶防水涂料施工指南
- 欣赏竹子课件
- 2024年电子、通信产品及软件批发服务项目成效分析报告
- 2024年羟丙纤维素项目评估分析报告
- 2019粤教版 高中美术 选择性必修2 中国书画《第四单元 意境深邃的山水画》大单元整体教学设计2020课标
- 财务部协调营运部合同
- 幼儿园小朋友认识医生和护士课件
- 岳阳楼记诗歌朗诵背景课件
- 2022年消防安全知识考试题库及答案
- 部编版三年级《稻草人》课外阅读练习题(含答案)
- 国开成本会计第13章综合练习试题及答案
- bt项目及项目及项目招标文件
- 华中科技大学文科类与管理学类期刊分类办法AD类
- 小学劳动技术 沪科教版 四年级上册 4车辆模型 课件
- 《自私的基因》(精读版)
- 产前筛查规范化流程和质量控制--ppt课件
- 清欠工作管理制度管理办法
评论
0/150
提交评论