版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Hadoop运维杂记今日菜单 Hadoop在XXX 说说Cloudera和它的产品们 运维杂记几次重大事故Hadoop在蓝汛服务设备6000节点设备300集群30台集群使用率40%每日扫描数据6TB输出数据1.5TB GZ原始数据3TB lzo系统结构Apache Hadoop与CDH版本关系Apache:0.20.205 = 1.00.23 = 2.0Cloudera CDH:CDH3对应0.20.2CDH4基于对应2.0CDH为什么更好? 安装升级更简单: yum ,tar, rpm, cloudera manager 四种安装方法 更快获取新功能和修正新bug 年度release,季度u
2、pdate Yum安装自动匹配合适的生态系统版本 自动目录配置(logs,conf),以及hdfs和mapred用户创建 详细的文档CDH3u3重大改善CDH3u4重大改善Cloudera ManagerCloudera Training 关于Training 分为Administrator和Development两门课程 关于认证考试 关于证书Hadoop成长之路 Hadoop开发,测试用了半年 2011年底上线运行至今 目前生产环境只用到了HDFS和MapReduce事故一 伤不起的内存 现象:系统上线第二天,Jobtracker不工作,web页面打不开 原因:一次提交Job数量太多,导致
3、Jobtracker 内存溢出 解决:调大JT内存;限制Running Job数量 现象:NN内存溢出,重启后发现50030页面显示fsimage损坏,调查发现SNN fsimage同样损坏了 原因:小文件太多导致NN/SNN内存溢出,导致fsimage文件损坏,但是重启后的NN可以正常服务。 解决:Cloudera google group去救,获得后门脚本事故二 低效的MapReduce Job 现象:MapReduce Job执行时间过长 原因:MR中用到了Spring,小文件导致Map方法效率低下,GZ文件读写效率低 解决:MR去Spring化;开启JVM重用;使用LZO作为输入和ma
4、p输出结果;加大reduce并行copy线程数压缩与MapReduce性能 前提:大量小文件 输入147GB,文件数45047,平均3MB CPU 8 core;32GB内存;7200转磁盘;28台Slave机器输出类型输出类型耗时耗时GZ26minTEXT24minLZO18min 如果输入是大块的LZO文件,则只需要11min事故三 OMG,整个集群完蛋了 现象:早上来发现所有DataNode都dead了,重启后10分钟,DN陆续又都dead了;调查发现节点有8%左右丢包率 原因:交换机模块故障;DN不能Hold住大量小文件 解决:升级3u2到3u4;设置DN内存到2GB遇到无法跨越的问题解决办法 加入Hadoop官方Mail List 加入Cloudera Googl
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论