版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
FusionInsightManager问题定位手段与解决办法上节课重点回顾规划设计网络规划、节点规划、磁盘规划操作系统配置配置/etc/hosts、配置时区和时间、关闭DNS、配置共享内存…Preinstall、precheck功能详解preinstall、precheck的主要功能配置规划工具详解配置规划工具的具体功能。配置规划工具的详细配置流程。OMS的安装方法集群的安装方法(手动安装、模板安装)Manager问题分析示例362FusionInsight常见问题分类Manager常用后台维护命令Manager常见问题定位手段45Manager模块架构及功能1Manager常见概念性基础问题FusionInsightManager整体架构Manager架构图FusionInsightManager整体架构Manager系统框架各部件职责服务名称模块名称职责描述实施方式Web服务WebUI提供管理界面,基于html、js,运行于浏览器之上华为自研北向接口是一个部署在tomcat下的WEB服务,提供Manager的https接口,通过浏览器访问。同时提供了syslog和snmp接入能力华为自研集群管理ControllerController是集群管理控制的中心,它负责汇聚来自集群中所有节点的信息,统一向管理员展示,以及负责接收来自管理员的操作指令,并且依据操作指令所影响的范围,向集群的所有相关节点同步华为自研NodeAgentNodeAgent驻留在每一个集群节点,是集群管理在单个节点的使能器,对上,它代表本节点上部署的所有组件,与Controller交互,实现整个集群多点到单点的汇聚,对下,它是Controller对部署在该节点上组件做一切影响的使能器,代表的是Controller的功能华为自研ManagerNode又叫OMS节点,负责系统的安装、升级/补丁、配置、维护、告警等操作维护。华为自研升级管理负责系统版本和补丁的生命周期管理华为自研配置管理负责系统中各服务、组件的数据配置华为自研日志管理负责系统日志收集、下载管理华为自研FusionInsightManager整体架构Manager系统框架各部件职责安装管理负责系统中各服务、组件的安装卸载华为自研PMS(CEP)由两个进程组成,PMS和CEP。PMS是性能监控server,搜集每一个AgentNode上的性能监控数据并提供查询。CEP(complexeventprocessing)提供汇聚功能。比如将所有AgentNode上的磁盘已用空间汇总成一个性能指标华为自研FMS告警server,搜集每一个AgentNode上的告警并提供查询华为自研IAM负责记录审计日志。每一个非查询类操作,都有对应的审计日志华为自研CAS统一认证中心。登录Web时需要在CAS进行登录认证开源增强AOS权限管理,查询指定用户的权限。Web会检查所登录用户是否有权限执行某个操作华为自研ACS用户和用户组管理。WebService会检查所登录用户的合法性以及结合AOS判断是否有权限执行某个操作华为自研kerberos用户认证开源增强ldap为用户认证提供数据存储开源增强HTTPDhttp访问代理。由于组网平面隔离后,外界无法访问组件的webUI,使用该代理来访问组件原生UI开源增强GaussDB数据库。Manager上多数进程需要使用该数据库保存数据华为自研备份恢复负责系统数配置据、用户的HBase、HDFS数据备份恢复华为自研HA主备管理。OMSNode一般有两个节点,通过HA管理主备关系华为自研NTPserver与client一起同步系统时钟开源增强OMAAgentNode上面性能监控和告警的Agent,负责收集该AgentNode上的性能监控数据和告警数据华为自研NTPclient同步节点系统时钟开源增强FusionInsight常见问题分类
Fusion
FusionInsight常见问题分类
Fusion
FusionInsightManager后台操作命令
查看资源状态
登录集群主OMS节点(root或omm),进入到/opt/huawei/Bigdata/om-0.0.1/sbin目录下,执行./status-oms.sh脚本查看返回结果ResHAStatus列是否都处于Normal状态。
查看集群版本
以omm用户登录集群主OMS节点,进入到/opt/huawei/Bigdata/om-0.0.1/sbin目录下,执行./queryVersion.sh脚本可以查看当前集群各个组件的版本号。
重启controller
以omm用户登录集群主OMS节点,进入到/opt/huawei/Bigdata/om-0.0.1/sbin目录下,执行./restart-controller.sh脚本可重启controller。
停止/启动/重启OMS以omm用户登录集群主OMS节点,进入到/opt/huawei/Bigdata/om-0.0.1/sbin目录下,执行stop-oms.sh/start-oms.sh/resart-oms.sh脚本停止oms服务。Fusion
FusionInsightManager后台操作命令
查看nodeagent状态
以omm用户登录集群相应agent节点,进入到/opt/huawei/Bigdata/nodeagent/bin目录下,执行./status-agent.sh脚本查看agent的运行状态。停止和启动nodeagent
以omm用户登录集群相应agent节点,进入到/opt/huawei/Bigdata/nodeagent/bin目录下,执行./stop-agent.sh脚本停止agent服务。
停止和启动tomcat
以omm用户登录集群主oms节点,进入到/opt/huawei/Bigdata/apache-tomcat-7.0.53/bin目录下,执行./shutdown.sh脚本停止tomcat服务。
重启监控告警进程(PMS/CEP/IAM/FMS)
以omm用户登陆oms主节点,执行命令restart_app,重启om所有进程(fms|iam|pms|cep)。
重启监控告警进程状态
以omm用户登陆oms主节点,执行命令status_app。概念性基础问题ws,om,bussiness不同的组网方式是为了保证业务量大的时候,维护操作和业务操作互不影响。ws
ip:即webserviceip,这个是供外部浏览器访问的ip地址,一般需要配置成外网可以ping通的ip地址,这个网段会部署接收外部访问的代理进程接口客户端请求。om
ip:即managementip,这个是提供操作维护的网段ip地址,也就是说你通过界面进行操作(重启服务,安装服务等),首先收到请求的是ws
ip网段请求代理进程,而我们的实际操作维护进程(controller,agent进程)都部署在om
ip网段,这个网段的controller进程接收请求,再下发给agent,controller和agent之间是通过om网段进行的。businessip:即业务ip,这个是组件内部及组件之间通信都是通过这个网段,例如namenode和datanode,resourcemanager和nodemanager等。如果ws,om,business三个分别在不同的网段就是所谓的三层组网如果ws,om在一个网段,business在另一个网段,就是所谓的二层组网。1.FusionInsight中单平面,双平面三平面是什么?涉及的WSIP、OMIP、businessIP都是干啥用的?概念性基础问题建议部署大集群之前应该提前规划记录机柜机架信息,这主要是为了更好的利用HDFS机架敏感策略,一方面保证HDFS数据更高的灾难容错率,另一方面可以提高HDFS读写访问速率,从而提高业务稳定性。2.我们在部署集群之前是否需要将机柜机架信息都提前规划统计?HDFS机架感知第一个block副本放在和client所在的node里第二个副本放置在与第一个节点不同的机架中的node中第三个副本和第二个在同一个机架,随机放在不同的node中概念性基础问题3.我们各种类型的节点,如何来规划磁盘raid,需要多少块磁盘?概念性基础问题4.我们对磁盘的部署有什么要求?一.对磁盘分区挂载的要求首先为了保证业务繁忙时io的吞吐率,我们建议所有元数据都单独挂载磁盘。如果局点的磁盘数量不够的话,则必须保证zookeeper单独挂载磁盘二.对磁盘数量的要求对与Datanode节点,需要保证至少有三个盘,将数据写入三个盘内。Datanode以及NodeManager的配置路径要与该节点所规划的数据存储路径保持一致三.对磁盘容量的要求程序运行目录分区:/opt------------程序的运行目录、数据的备份目录日志打印目录分区:/var/log----------------组件、oms的日志目录/审计日志的目录OM的数据目录:/srv/BigData/dbdata_om---------------------OM数据目录概念性基础问题4.安装好所有节点的操作系统后,为什么必须先手动调整节点之间的时间?安装完os后,建议第一件事就是检查并调整操作系统时间。保证时区相同以及各个节点的时差不能超过5分钟。如果超过5分钟会造成kerbros安装失败。如果安装成功后调整节点时差超过5分钟会造成kerbros认证失败。检查NTF服务是否可用,通过命令Servicentprestart测试NTP服务是否可以正常启动NTP时间同步原理图概念性基础问题5.集群安装好后,为什么不能随便手动调整服务器节点的时间?集群安装好后,如果需要修改系统某些节点的时间,禁止通过date命令直接在服务器上进行修改。特别是时间向前调整即时间倒退。
如果时间倒退,至少可能会对集群造成以下影响:1.nodeagent无法启动,由于时间倒退,nodeagent的监控线程依赖系统时间,如果时间倒退会导致监控线程无法正常启动从而导致nodeagent如法正常启动2.造成Hbase数据丢失,HBase中记录的数据都是以操作系统时间时间戳为准,如果系统时间倒退会导致Hbase的新数据覆盖已有的老数据造成数据丢失的风险。3.服务器间的kerbros认证出现问题,即时差超过5分钟的原因。如果要向前修改系统时间,需要参考“修改系统时间”的官方文档,但属于高危操作,尽量少用。概念性基础问题7.集群环境中为什么建议不要安装其他相关软件?1.FusionInsight涉及的组件种类繁多,每个组件依赖大量的系统服务、系统端口号,环境变量、特定文件目录、特定的权限要求。如果系统安装了其他的软件(特别是与java相关的软件),可能会造成端口冲突,环境变量冲突,文件权限被篡改等等一系列问题,这些问题出现后非常难排查。概念性基础问题7.集群环境中有哪些重要的文件、目录权限不能被随意篡改?我们产品对系统文件权限有着严格的限制,例如:/home/omm/目录权限规定为700,太大和太小都会导致集群间互信出现问题/srv/Bigdata/dbdata_om/db目录是存放omgaussdb的数据目录,规定权限为700,该目录下文件权限为600,如果权限不等于这个值,也会导致gaussdb无法正常启动。例如/etc/hosts文件,文件权限为644,如果太小会导致root可以读取到hostname–i而omm下无法读取,组件在omm下运行,如果如法读取,会造成组件通信异常。概念性基础问题9.为什么需要执行preinstall,磁盘比较少的情况下怎么配置
?preinstall也不是必须在安装前需要做的,这个是在新安装的操作系统需要做preinstall。Preinstall核心有两个功能
补全系统确实的rpm包
对系统进行格式化分区,并且挂载。当磁盘数量或者容量比较小时:可以手动将该磁盘进行分区挂载,通过preinstall分区挂载对上层应用是不可见的,没有强制的要求。概念性基础问题9.安装好集群后,OMS以及各个服务的程序、数据目录都在那里?OM:程序目录:/opt/huawei/Bigdata/om-0.0.1/数据目录:/srv/Bigdata/dbdata_om/NodeAgent:程序目录:/opt/huawei/Bigdata/nodeagent/数据目录:无
实例目录:程序目录:/opt/huawei/Bigdata/服务名称/数据目录:/srv/BigData/角色名称Manager架构与常见问题
常见问题定位方法登录集群主OMS节点(root或omm),进入到/opt/huawei/Bigdata/om-0.0.1/sbin目录下,执行./status-oms.sh脚本查看返回结果ResHAStatus列是否都处于Normal状态。如果存在Exception的资源项,请针对有Exception的异常,逐个分析发生异常的日志,并排除问题Manager架构与常见问题OMS相关组件日志Manager架构与常见问题
手动主备倒换以omm用户登陆oms主节点,进入目录/tools目录执行命令:./ha_client_tool--ip=--port=20013--switchover--name=product
设置日志级别
以omm用户登陆oms主节点,进入目录/opt/huawei/Bigdata/om-0.0.1/sbin,执行命令setLogLevel.shlogLevellogLevel:INFODEBUGDEFAITWARNERRORFATALManager架构与常见问题
典型问题:preinstall格式化磁盘失败【问题背景与现象】日志位置:/var/log/fi-preinstall.log[FriJun510:39:18CST2015][INFO][get_blank_disk:1733]dev(sda)existsinmount.^M[FriJun510:39:18CST2015][INFO][get_blank_disk:1733]dev(sdb)existsinmount.^M[FriJun510:39:18CST2015][ERROR][match_dev_size:1886]dev(sdc)size(99G)lessthanminrequiredsize(1000G).^M[FriJun510:39:18CST2015][INFO][disk_line_ready:2010]readylineconf(datanode1.conf)unmatchdev(sdc)size.^M【原因分析】磁盘真实空间(99G)比配置文件中规划磁盘空间(1000G)小。【解决办法】调整配置文件中磁盘空间大小Manager架构与常见问题
典型问题:preinstall时RPM包安装失败(Addpackagesfailed)【问题背景与现象】提示Addpackagesfailed【原因分析】日志位置:/var/log/fi-preinstall.log[ThuApr918:16:17CST2015]Info:Run./script//function/remote.sh-i3-P22-uroot-a/tmp/fi-preinstall-ctrl/preinstall-p.bin-k/tmp/fi-preinstall-ctrl/known_hosts-t300-mssh-cmd-crpm-ivh/tmp/fi-preinstall/3_rpms_dir/*.rpmfailed,retcode:16[ThuApr918:16:17CST2015]Debug:[/opt/patch/packages/squid-3.1.10-19.el6_4.x86_64.rpm]Leave[get_rpm_file:77][ThuApr918:16:17CST2015]Error:rpm-ivh/tmp/fi-preinstall/3_rpms_dir/*.rpmfailedon3[ThuApr918:16:17CST2015]Error:Addpackagesfailedon3OS在安装完成后,又安装了OS补丁,有些RPM被升级到高版本了,导致有些有依赖关系的RPM包安装失败。【解决办法】方法一:卸载OS补丁后,再重新执行preinstall方法二:下载高版本的RPM包,手动安装RPM包。Manager架构与常见问题
典型问题:安装OMS,NTP无法正常启动【问题背景及现象】主OMS已安装成功,安装备OMS时启动ntp失败【原因分析】查看/var/log/ntp.log日志发现是端口不通连接拒绝,检查防火墙设置发现防火墙是开着的提示connectrefuse的错误解决办法】1.先卸载已安装的备OMS2.关闭防火墙设置Manager架构与常见问题
典型问题:集群安装报错seemtomisconfiged错误现象:采用双平面部署集群的时候,每个节点包含多个网卡。而在安装集群discoveryhosts的时候发现的是业务ip而不是管理ip。日志查看:/var/log/Bigdata/controller/controller.log,日志中报agent无法与controller进行通信,即agent连接不上controller的浮动ip原因:在安装集群时发现节点需要采用管理ip,如果采用了业务ip就会出现这错误解决方法:安装集群“discoveryhosts”时填写管理ip。总结:需要理解管理、业务ip的区别以及都是在哪块配置的。Manager架构与常见问题
典型问题:启动controller报错问题描述:Reboot节点后,Controller进程无法启动起来,查看/var/log/Bigdata/controller/controller.log:Causedby:.UnknownHostException:C12-Suse113-M:C12-Suse113-M:Nameorservicenotknown at.InetAddress.getLocalHost(InetAddress.java:1473) atorg.apache.hadoop.security.SecurityUtil.getLocalHostName(SecurityUtil.java:186) atorg.apache.hadoop.security.SecurityUtil.login(SecurityUtil.java:206) atsun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57) org.springframework.beans.factory.annotation.InitDestroyAnnotationBeanPostProcessor.postProcessBeforeInitialization(InitDestroyAnnotationBeanPostProcessor.java:130) ...41more问题原因:reboot后,通过hostname***修改的主机名称已经失效,hostname–i出现lookupfailure的错误。问题解决:suse需要修改/etc/HOSTNAME;redhat需要修改/etc/sysconf/network可以将hostname永久性的修改。Manager架构与常见问题
典型问题:集群安装成功后,ldapserver状态为BAD【问题背景及现象】集群安装成功后,ldapserver的服务状态为BAD,并且启动kerberos服务失败。查看kerberos日志路径为:/var/log/Bigdata/kerberos/startDetail.log,发现kerberos无法连接到ldapserver获取不到数据。【原因分析】检查发现ldapserver的instance里面的两个实例都是STANDBY状态,配置项LDAP_PROVIDER_IP,发现不是该值应该填写为ldapserver的两个实例中的某个IP,不能填写为其他IP【解决办法】修改LDAP_PROVIDER_IP为ldapserver的两个实例中的某个管理IP(非HA模式),重启ldap服务接关联的服务Manager架构与常见问题
典型问题:手动修改了系统时间,agent无法启动问题描述:
1.通过/opt/huawei/Bigdata/nodeagent/bin/status-agent.sh查看到nodeagentnotrunning2.通过日志/var/log/Bigdata/nodeagent/scriptlog/start-agent.l
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 鲜花烤奶课程设计
- 自来水收费系统课程设计
- 补牙系统课程设计
- 2025年度艺术品代购代发市场推广协议4篇
- 铁路线路课程设计
- 年度数字视频切换台市场分析及竞争策略分析报告
- 年度工艺礼品加工设备市场分析及竞争策略分析报告
- 2024年央行金融政策和法律法规测试题及答案汇编
- 二零二五年驾校场地租赁与师资力量引进协议3篇
- 重卡汽配配件课程设计
- 《阻燃材料与技术》课件全套 颜龙 第1讲 绪论 -第11讲 阻燃性能测试方法及分析技术
- SOR-04-014-00 药品受托生产企业审计评估报告模板
- 新媒体论文开题报告范文
- 2024年云南省中考数学试题含答案解析
- 国家中医药管理局发布的406种中医优势病种诊疗方案和临床路径目录
- 2024年全国甲卷高考化学试卷(真题+答案)
- 汽车修理厂管理方案
- 人教版小学数学一年级上册小学生口算天天练
- (正式版)JBT 5300-2024 工业用阀门材料 选用指南
- 三年级数学添括号去括号加减简便计算练习400道及答案
- 苏教版五年级上册数学简便计算300题及答案
评论
0/150
提交评论