avmon system administrator产品实施和系统维护_第1页
avmon system administrator产品实施和系统维护_第2页
avmon system administrator产品实施和系统维护_第3页
avmon system administrator产品实施和系统维护_第4页
avmon system administrator产品实施和系统维护_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、AvMON V1.1 产品实施和系统维护惠普技术服务部 Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.议程AvMON整体架构说明AvMON数据流说明AvMON实施步骤详细说明AvMON系统维护AvMON程序升级AvMON自定义功能AvMON使用技巧Q & AAvMON整体架构说明分布式部署方式 减少了网络配置, 降低了实施复杂度, 只需配置Gateway与AvMON Server的防火墙策略

2、 上限1000个节点(基于postgres数据库配置)AVMON Server(One or Cluster)DB Server(Oracle or Postgresql)Web BrowserRemote AgentGatewayiLOSecureZone A1 or N.OSDatabaseVcenterTCPTCPRemote AgentGatewayiLO/tomcat/DBSecureZone AVcenterOSDatabaseTCPTCPAgentAgentAgentAgentAVMON Agentless ServerAVMON Agentless Executor基本安装配置

3、要求硬件型号PC Server及以上CPU=2内存4G+硬盘2*100G网卡100M软件操作系统HP-UN/AIX/SolarisLinux/WindowsWeb服务Tomcat 5.5+数据库Postgres 9.*网络协议TCP/IP浏览器IE 8.0+虚拟机环境同样支持, 其他配置要求如下:需要root权限, 并能通过相关渠道(sftp,ftp或者scp)将agent所需文件拷贝到本地进行安装注:运行agent的用户权限为avmon普通用户, 需要额外创建被监控的设备到Gateway或者Server端7890, 7891端口必须开通Avmon Server本地的9998, 9988, 8

4、080 端口不能被占用如果Avmon 数据库和avmon server不在一起机器上, 需要开通1521端口如果部署在linux环境下, 需要安装ksh, 否则会影响部分功能建议硬件配置被管节点数AvMON服务器数据库服务器Gateway 服务器服务器类型CPU主频CPU个数是否双核内存大小数据保存时间存储要求0-25110PC Server2GHz+1Y2GB6个月120(G)50-100110Server2GHz+1Y4GB6个月2 * 120(G)100-200112Server2GHz+2Y8GB6个月2 * 160(G)200-500114Server2GHz+4Y8GB6个月4 *

5、 160(G)500-800118Server2GHz+4Y16GB6个月8 * 160(G)以上信息是基于压力测试结果给出的参考值, 具体情况受其他因素影响可能会有所变化:被管理节点的类型,KPI采集周期等AvMON实施步骤详细说明Server端实施步骤说明Avmon的server安装Agent端实施步骤说明Avmon的数据采集分为Agent和Agentless两种方式Agentless无需在监控设备上部署程序,通常情况只需要配置相关的连接信息即可Agent需要传输相关采集脚本和程序到监控设备上注: windows为exe文件,直接运行安装,修改配置文件并启动服务即可Agentless实施步

6、骤说明Avmon agentless server是新增加的采集模块,无需在被管设备上部署程序,目前支持:Ilo和Idrac硬件设备采集IPMI硬件信息采集JDBC采集常用数据库AvMON数据流说明数据流图数据检查步骤查看agent端的数据传输日志文件是否正常send.data.log.*(/opt/hp/avmon-agent/LOG)其余日志说明如下:crontab.exec.log.* 任务调度日志filetrans_*.exec.log 参数文件,amp包文件传输日志heartbeat.exec.log.* Agent心跳日志main.exec.log.* Agent主程序日志recv

7、.exec.log.* 文件接收日志runtask_*.exec.log 任务运行日志查看gateway端日志是否已经接收到相关数据avmon.gateway.log.*(/opt/hp/avmon/gateway/logs)查看server端日志是否已经接收到相关数据avmon.server.log.*(/opt/hp/avmon/server/logs)注: 由于avmon的分布式结构, server可能存在多个, 默认部署配置为一个main server, 一个am server和两个kpi server, 如果查看kpi数据, 需要到到每个kpi server下的日志去核实, 如果是查

8、看告警数据, 则需要到am下的日志去查看检查memcache进程是否存活查看数据库对应的表数据注: 如果web端出现异常, 需要检查tomcat的日志, 路径为tomcat安装路径下的logs/catalina.outAvMON系统维护系统维护Avmon系统本身有自我检查和维护的功能,包括:数据库自动备份数据库自动清理数据库自动整理优化操作关键组件状态检查Agent心跳和数据采集状态监控Avmon系统维护人员只需要通过部署管理查看agent状态是否正常系统中是否存在大量”心跳超时”和”每*分钟收不到数据的告警”关键组件启动命令Gateway启停命令: $INSTALL/gateway/bin/

9、shutdown.sh, $INSTALL/gateway/bin/startup.sh notify启停命令: $INSTALL/avmon-notify/bin/shutdown.sh, $INSTALL/avmon-notify/bin/startup.shserver启停命令: $INSTALL/server/shutdownall.sh, $INSTALL/avmon-notify/bin/startupall.shTomcat启停命令: $INSTALL/tomcat.*/bin/shutdown.sh, $INSTALL/tomcat.*/bin/startup.shPostgr

10、es启停命令: kill postgres进程, postgres -D /usr/local/pgsql/data logfile 2&1 &检查各组件状态的命令:Gateway: ps ef | grep gatewaynotify: ps ef | grep notifyServer: ps ef | grep servertomcat: ps ef | grep tomcat, netstat -an | grep 8080Postgres: ps -ef | grep postgres注: 如果是windows环境, 请检查相关服务状态AvMON程序升级升级步骤Avmon系统升级分为

11、脚本升级,相关组件java程序升级,数据库升级1. 如果是相关组件升级, 会由avmon team维护团队发送升级指导邮件, 其中的内容会详细说明步骤, 这类升级通常步骤如下:备份旧版本的文件用新版本的文件替换重启相关服务核实功能2. 如果是AMP或者采集脚本升级, 则需要将相关的脚本替换main server下的amps对应的目录中的脚本文件打包*.tar.gz文件(如: tar zcvf os-hpux.tar.gz os-hpux)到web界面完成下发脚本操作即可注:如果部署数量较大, 这类升级的工作量会比较大,目前只能一台一台的进行升级,后续版本会增加批量更新功能3. 数据库很少进行升

12、级操作,通常只是增删改数据,只需要将所执行sql命令运行即可AvMON系统自定义功能主机监控二次开发方法KPI脚本编写Overview视图定制已实现待实现开发实现采集指标需执行的shellAvMON配置中增加KPIOS AMP配置文件中增加: shell与KPI对应关系测试编写XML配置文件:输入KPI编号输入图例编号输入坐标增加图例格式化数据需执行的shell定制开发默认报表综合报表二次开发方法基于iReport开发界面上输入/选择:名称主机KPI时间待实现开发实现完成ireport的报表模板开发配置相关数据源信息新建报表模板, 将step1中的文件导入到系统中进入查询与报表菜单,进行数据查

13、询AvMON使用技巧使用技巧AvMON系统中预置的告警条件不能完全满足多变的客户现场环境, 因此需要依据在告警中心所生成的告警数据进行告警规则优化, 比如syslog生成的告警数据太多, 可以通过告警过滤屏蔽部分告警, 也可以通过告警合并将重复的告警合为一条.具体操作如下: 将生成的告警内容拷贝出来, 将可变部分全部修改为.*, 如: 主机34上syslog告警, 内容为2031 ems error 规则内容应为主机.*上syslog告警, 内容为.* ems error 注:内容中包含的,()等特殊字符需要添加转义符如果规则设置之后未生效, 可能有如下几个原因忘记点击同步内存按钮由于机器数量

14、庞大, 同步失败(点击同步内存未弹出同步成功的提示框), 遇到这样的情况只能重启server规则设置不正确, 可以使用下面小工具做验证(IP替换为实际的avmon web服务器IP) 使用技巧目前Avmon系统并未提供批量处理告警的功能, 如果遇到系统中产生大量告警, 建议使用sql进行清理,具体操作如下:先确认需要清理的数据是否正确:Select * from TF_AVMON_ALARM_DATA where title like %监控对象超过5分钟未送数据%然后执行delete命令清除数据,其中的title内容可以根据自己的需求替换.Delete from TF_AVMON_ALARM

15、_DATA where title like %监控对象超过5分钟未送数据%如果配置了短信规则,但是当系统中生成了告警后未收到短信, 可能的情况是:告警如果合并了, 之前已经发送的短信不会再发送每日告警最大发送数是否设置太小该类告警是否不满足发送的条件如果部署了Agent,并启动服务, 在部署管理中无法查到相关的Agent信息,可能的情况是AgentID重复, 需要做的步骤如下: (此情况不会出现在windows环境中)删除Agent部署目录重新解压tar.gz文件重启Agent服务, 让其重新生成AgentID如果在系统中看到有大量无法接收到数据的告警, 经查网络和服务都正常, 请直接重启Agent服务使用技巧告警中心进行批量告警处理的时候, 如果全选之后点击右键, 会有一条告警无法处理, 可以再点一次右键, 漏选的数据就会被再次选中, 然后点击清除操作即可Avmon中报表的类型并未明确区分, 因此有些报表是不支持日报或者月报的, 如果点击后生成的报表无数据, 请更改报表类型再试在部署agent时, 如果报错说”transfer error”,有可能是部署步骤有错误, 必须:先下发AMP包, 这样才能创建相应的目录再下发策略和参数, 这样相应的文件才能在对应的目

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论