版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
NC5.5监控工具使用手册概述
2系统要求
3监控工具架构
3部署
5部署环境(以NC+WAS垂直集群为例)
6部署步骤
6进程监控
13功能概述
13MW-XX的监控
13DB-XX的监控
15线程监控
18功能概述
18线程信息说明
20监控设置
21汇总显示
23显示过虑
24联查操作员
25联查数据库
26数据库
26功能概述
26监控客户端功能
26CPU监控
30功能概述
30监控客户端功能
30内存监控
30功能概述
30监控客户端功能
31日志抽取
31功能概述
31NC客户端日志级别设置
31日志数据库
32NCLOG日志抽取
34抽取JVM日志
39抽取CPU
41抽取内存日志
43监控消息和快照信息日志
45操作员信息
46消息中心
47功能概述
47监控客户端功能
49安全设置
51功能概述
51监控客户端功能
51参数设置
52功能概述
52监控客户端功能
52应用实例
52OVERVIEW
53进程监控
53线程监控
55日志抽取
57DB-监控
61消息中心
61典型案例
66概述NC一线实施与技术人员在客户项目现场会经常遇到以下类型难以处理的问题:1:一个操作大半天灰屏不出来,客户极不满意,而咱们现场人员也束手无策,不知道时间都耗在了哪里?如何处理?2:系统用了一段时间后,便越用越慢了,不知道为什么?慢在哪里?3:一到月末,并发数一上来,系统的压力便加大,客户端响应变慢了。但系统压力具体是大在数据库、应用服务器、还是网络?客户端响应慢又慢在哪里?不知道如何处理。4:一个用户登录进系统,在某段时间里做了某些操作,这些操作的后台日志,可能分布在集群系统的不同机器、不同目录、不同日志文件下,如何将此操作用户这段时间做的操作日志信息抽取过滤出来,这又是一个让人束手无策的的问题?!5:NC系统经常出现死机情况,导致客户的业务经常中断,不停手工重启,怎么办?6:咱们系统集群的负载均衡情况怎样、系统的吞吐量情况怎样,咱们能否获取这些信息并进行评估?……咱们一线人员与技术顾问往往对以上问题感到头痛,难以处理,最主要的原因便是无法获取有效的信息以及对信息进行处理的工具;而NCV55Monitor监控工具,便是解决上述问题的一个强有力的收集有效信息并进行监控预警的工具。此工具功能强大,能为我们提供以下相关功能:1:中间件进程监控与问题恢复:能监控集群中对应的每一个server健康状况,并支持在server出现问题时能处理并重新恢复server的服务能力。2:线程监控:能实时监控每一个server中对应客户端提交任务对应的线程的详细状态信息,能详细到知道当前任务在服务器端执行到了哪一步,正在调用什么代码或执行哪些SQL语句等等;同时还支持对这个线程执行了多长时间、多少条SQL语句、传输了多少数据等信息做统计,以便技术顾问对系统做分析。3:数据库监控:监控服务根据配置好的监控脚本对数据库进行实时监控。同时客户端预制了大量的性能监控脚本。对数据库的监控变得非常简单。4:日志抽取分析:这是此工具中一个亮眼功能,能对NC的各种日志提供抽取、过滤、统计、分析功能;是一个日常应用中非常实用的功能。5:消息中心:提供各个监控服务产生的报警消息和系统自动生成的快照。根据这些消息和快照可以事后分析系统问题。系统要求1:应用服务器为NC55。2:数据库监控的脚本包括客户端的一些性能监控脚本目前只是支持oracle9i及以上版本。数据库客户端工具可以执行oracle,SQLserver,db2的SQL命令。3:UNIX/LINUX系统如果要监控CPU,则必须安装mpstat,UNIX/LINUX系统如果要监控内存则必须要安装vmstat。监控工具架构监控域:指向同一个服务中心的一组监控进程,这些监控进程可以分布在多个物理服务器上。服务中心(ServiceCenter):用于注册监控域内所有的服务和资源,同时提供服务启动控制、访问日志、服务请求路由、安全检查、动态参数刷新功能。一个监控域内有且只有一个服务中心,所有的监控进程必须指定到一个已经启动的服务中心。后台服务以服务插件的形式提供,配置文件conf/service.xml定义了服务中心地址,服务的属性。包括服务名、是否启动、是否需要安全检查、是否域内唯一、消息处理方式、快照项目。新开发的服务可以直接在service.xml注册。服务启动引擎根据服务配置启动服务,每个服务启动后会向服务中心注册。客户端通过访问服务中心可以把可以访问的服务资源下载到本地。客户端同样采用了插件式的架构,通过配置文件conf/resource/resource-client.xml配置每个服务对应的客户端UI。每个监控域的信息都保存在conf/resource/domain.xml文件中,每次启动客户端会自动连接domai.xml文件中的监控域。服务中心提供了一种简单的安全机制。管理员可以配置一个用户名和密码。需要安全保护的服务需要通过这个认证才可以被访问。比如数据库,只有通过了安全检查服务的认证才能对数据库操作。部署典型部署图(推荐):典型模式是监控服务中心部署在NC的服务器上,监控服务也同时部署在NC的服务器上。独立部署模式:Monitorserver可以部署到一个独立服务器上,但这样不能监控NCServer的NCLOGS、CPU和内存,同样也不能抽取NCServer的NCLOGS,CUP和内存的日志。部署环境(以NC+WAS垂直集群为例)ServerHost56服务节点master、ncMem01、ncMem02应用代码目录D:\ufsoft\nc55\APACHE目录D:\IBM\HTTPServer中间件was6.1.10.DMserver启动在56,端口为8879数据库ORACLE10G
部署步骤1:拷贝代码:拷贝代码前,先做好正式环境的代码备份,将monitorpackfor55.rar解压到monitorpackfor55目录。将monitorpackfor55目录的下的文件拷贝到应用服务器的D:\ufsoft\nc55\目录下。代码覆盖后,不需要部署,需要重新启动WAS中间件或NC中间件。客户端需要退出IE,然后重新登录NC。如果是水平集群,则需要将monitorpackfor55目录的下的文件拷贝到从服D:\ufsoft\nc55目录下。提示:备份代码时,一定不要在代码的同目录下备份,要将代码拷贝到NC环境外的目录备份。2:配置服务中心:在server上启动D:\ufsoft\nc55\nmc\server\configure.bat,设置servicecenter,如果是多网卡,则必须指定一个除了以外的地址。这里将服务中心设置为56,管理员默认为admin,密码为xxxxx,端口9999为系统默认,尽量不要改,如果改为其他端口,需要同时改D:\ufsoft\nc55\nmc\server\conf\server.xml文件修改对应的端口。LocalServer中的host可以设置为或本机的IP地址56。D:\ufsoft\nc55\nmc\server\configure.bat命令的运行界面如下:说明:运行configure.bat命令需要设置JAVA_HOME:
set
JAVA_HOME=JDK存放的目录,如:setJAVA_HOME=../../ufjdk
或setJAVA_HOME=D:\ufida502\nchome\ufjdk同样,其它命令,如startmonitor.bat,MonitorConsole.bat等也需要同样的设置。如果是水平集群,则在从服务器上运行..\nmc\server\configure.bat命令,需要将ServerCenter中Host项的值,设置为主服务器的IP地址如:56.
LocalServer中的host项的值是从服务器的IP地址如57或注意:Unix如果服务器操作系统无法启动图形界面,可以直接修改配置文件nmc\server\conf\services.xml。配置监控安全管理员,可以通过命令securityset.sh修改。3:指定WASDM服务器,在D:\ufsoft\nc55\nmc\server\configure.bat的运行界面上的属性配置(perites)的tab页中修改属性nodeagenthost,nodeagentport。如果不是WAS中间件,则将nodeagenthost设置为空。如果monitorserver监控工具安装在单独的一台机器,则同样需要nodeagenthost设置成集群中WASDM服务器的IP地址。4:确保D:\ufsoft\nc55\ierp\bin\prop.xml文件的配置和实际环境的配置相同.特别是中间件为websphere的情况下,prop.xml可能会存在和实际环境不同的情况,因为监控工具通过读这个文件来获取中间件和数据库的信息,所以,必须要确保这个文件的配置和真实环境的配置相符(包括中间件,数据库,webserver).可以通过ncsysconfig.bat对环境配置。另外,如果上图中的propfile的值不是相对路径../../ierp/bin/prop.xml,是指定的绝对路径,则需要用\\作为分隔符如d:\\monitornc55ok\\ierp\\bin\\prop.xml,否则启动时会提示找不到文件。特别说明:(1)如果在WAS管理控制台中更改了单个Server或者集群中某个成员Server的端口,一定要在NC的prop.xml文件中修改该对应的端口。否则在NC5.5监控工具的客户端,将会检测不到该端口对应的Server信息。WEB服务器的地址也要配置,不能为空。如下图(2)如果是数据库是RAC环境,需要prop.xml文件中将数据源拆分成两个针对单个实例的数据源.这样可以保证做快照和数据库检查的性能.但是,部署时需要用原来的数据源。比如:<databaseUrl>jdbc:oracle:thin:@(DESCRIPTION=(ADDRESS=(PROTOCOL=TCP)(HOST=1)(PORT=1521))(ADDRESS=(PROTOCOL=TCP)(HOST=2)(PORT=1521))(LOAD_BALANCE=yes)(CONNECT_DATA=(SERVER=DEDICATED)(SERVICE_NAME=ncdata)))</databaseUrl>改成:<dataSource><dataSourceName>dbsource11</dataSourceName>……..<databaseUrl>jdbc:oracle:thin:@1:1521:ncdata</dataDbaseUrl>…</dataSource><dataSource><dataSourceName>dbsource12</dataSourceName>………<databaseUrl>jdbc:oracle:thin:@1:1521:ncdata</dataDbaseUrl>………….</dataSource>5:消息自动发送邮件的功能邮件配置:邮件服务器(SMTP)可以是任何有效的邮件服务器,如但是,帐号和密码填写针对“发送邮件服务器”有效的帐号和密码。邮件发送的地址:在下面属性配置页签,配置消息自动发送到的邮件地址。说明:邮件发送的地址是填写任何有效的邮件地址。如:xxx@或xxx@6:在server上启动D:\ufsoft\nc55\nmc\server\startmonitor.bat如果是水平集群,则主服务器启动后,再在从服务器上对应目录运行startmonitor.bat7:启动客户端.将D:\ufsoft\nc55\nmc\client拷贝到任意一个客户端机器.执行D:\ufsoft\nc55\nmc\client\monitorconsole.bat,第一次执行在没有监控域的情况下,需要添加监控域,监控域名称任意,服务中心地址为:56,端口9999,用户名admin,密码xxxxx,(都是在步骤2中配置的)。说明:启动monitorconsole.bat需要设置JAVA_HOME,如setJAVA_HOME=D:\ufida502\nchome\ufjdk启动后提示如下:需要增加监控域域名可以随意写入NC某项目或56,服务中心地址必须写服务中心(ServiceCenter)的IP地址:如56启动后的客户端如注:进入上图方式:选择一个监控域,工具->overview,或者第一次登陆到监控系统的第一个页面,提供一种整个监控系统的概要信息。主要功能:1.展现整个系统的部署方式.包括apache,中间件,数据库.2.
动态显示中间件的和数据库的性能指标.中间件动态柱状图显示jvmheap信息,和web线程信息,数据库柱状图显示数据库活动会话的个数.如:鼠标点中上图的ncMem02图标,会自动显示该成员的信息如下:3.
报警.如果某个server有报警信息,则相应的服务器会变红,鼠标点上去会显示报警信息.4.服务器端主要的配置文件:(1)安全设置:Monitor/server/conf/perties,用于设置对需要安全验证的服务访问的权限用户(2)服务配置:monitor/server/conf/services.xml:(3)各种监控参数配置:monitor/server/conf/perties进程监控功能概述进程监控服务主要实现如下功能:1:定时对中间件状态检查,包括端口响应的时间和内存使用的情况,如:当发现中间件不能正常工作,则可以对其自动重启。2:定时将jvmheap的使用情况和中间件webthread,serivcethread信息写入日志,通过日志抽取和分析的功能可以对系统进行性能评估和性能诊断。3:定时更新数据库连接池的信息和数据库活动会话的信息。4:如果是WAS中间件,提供对中间件的管理功能,比如重启,生成javacore,heapdump,设置定时重启等。通过上面的进程监控功能,可以获取NC服务的运行状态、Webcontainer线程池的大小、当前远程调用线程数、当前后台服务的线程数、Jvmheap的max值、Jvmheap当前的free值、Jvmheapused值、数据库连接池的大小、数据库的活动会话数等,同时根据需要直接在监控工具中定时、关闭和启动NC服务等。MW-XX的监控客户端功能:定时获得某个中间件的概要信息,包括部署信息和性能信息等。自动刷新设置:设置自动获取服务器信息的频率.可以及时获取最新信息。自动刷新设置后,会有对应于每个中间件的折线图.可以直观的看到每个中间件的内存使用情况.如果使用自动刷新功能,需要先设置,如:点击”自动刷新设置”,弹出对话框,然后设置自动刷新的时间如5秒等,确定后即可。设置自动刷新的秒数间隔:在进程监控中,可以对NC服务进行启动、停止、重启、定时等。启动:启动选择中间件。停止:停止选择的中间件。重启:重启选择的中间件。定时:为选择的中间件设置定时重起。必须先重起master。打补丁如果需要重启中间件,可以利用这个功能轮循启动中间件.Dumpthread:对选择中的中间件手工生成Dumpthread。DumpHeap:对选择中的中间件手工生成DumpHeap。选中上面的任何一行,如ncMem02所在的行,然后双击,则弹出下面的对话框:上图中的字段解释如下:字段说明服务名中间件名称状态有三种状态:Running/down/starting主机中间件服务器地址端口中间件端口重启定时定时重启,可以通过右键或者管理->定时设置Web线程池Webcontainer线程池的大小Web线程当前远程调用线程数服务线程当前后台服务的线程数Jvmmax(m)Jvmheap的设置(max)Jvmtotal(m)Jvmheap当前的total值Jvmfree(m)Jvmheap当前的free值Jvmused(m)Jvmheapused上次端口检查耗时最近一次端口探测的响应时间可管理如果启动wasdm,则为true,否则为false.可管理意味着可以远程对中间件进行启动,关闭,生成HEAPDUMP、THREADDUMP.当监控服务发现中间件不响应时,可以根据监控服务配置的管理策略对其自动重启.如果不能管理,则意味着只能做监控.
DB-XX的监控客户端功能:DB-XX的监控包括数据库连接池的信息和数据库活动会话的信息等信息。选中上面的任何一行,如ncv55所在的行,然后双击,则弹出下面的对话框,上图字段说明:字段说明数据源数据源名称数据库类型数据库类型连接字符串数据库的jdbc连接串连接池大小显示为default-max.连接池已用在对应的中间件连接池中有多少连接为使用状态.dbActiveSessions数据库的活动会话数最近检查时间最近进行数据库健康检查的时间
同样选中上面的任何一行,如nc55所在的行,然后在工具栏中点击“查询”可以切换到对数据信息进行跟踪的界面.如下图监控下拉列表中可以看到:可以查看的数据库信息。可以在nmc\client\conf\SQL\fixSQL.cfg,中看到每个查询对应的SQL。如选择监控下拉列表中的“数据库文件的使用情况“,下图中就是查询的结果.另外,也可以在DB-ncv55中直接写SQL语句,点击工具栏中的“执行”按钮,即可执行自己写的SQL.如下面是查询NC产品版本信息的SQL。线程监控功能概述线程监控包括调试模式的设置,实时线程信息的跟踪,穿透到数据库,联查操作员信息,每个线程的性能统计信息等。通过这些信息,可以知道线程中SQL的执行时间、从数据库中读取数据到应用服务器的时间、数据从应用服务器传到客户端的时间、发起远程调用的操作员及IP、线程的堆栈、SQL的堆栈等.这样就可以判断出是个哪个SQL运行耗时,时间是耗在网络上还是数据库读取上,是哪个操作员正在执行的业务,从而可以从业务、网络或SQL上进行优化。线程监控ALL是查看所有中间件的线程。线程监控某个具体的服务,如ncMem02是只查看ncMem02上的线程.线程监控图选中上面的任何一行,如ncMem02所在的行,然后双击,则弹出下面的对话框,可以看到详细的线程信息。在下面的线程信息说明中对每个字段有详细描述。线程信息说明线程信息说明:字段说明服务全局模式下中间件的名称线程名称线程名称线程状态当前线程状态当前事件当前线程正在做的事件性能统计当前线程到当前的性能统计.耗时当前线程运行到目前的执行时间远程调用方法远程调用方法客户端地址发起远程调用的客户端地址操作员发起远程调用的操作员主键操作员编码发起远程调用的操作员名称操作员名称发起远程调用的操作员名称.
性能统计说明:字段说明SQLcosttime当前线程所有SQL的执行时间(不包括fetch结果集)readresulttime当前线程fetch结果集的总时间readrownum当前线程共fetch了多少条记录.writetoclienttime当前线程写数据到客户端的时间(网络耗时)writetoclientbytes当前线程写到客户端的总字节数notclosedconnectioncount当前线程没有关闭的数据库连接数
线程SQL堆栈说明:字段说明SQL第一条为统计信息,包括sql执行数量总计sql执行时间总计(不包括fetch结果集);占用数据库连接数总计.执行状态有两种状态,running|finished耗时Sql执行时间数据库连接执行sql的数据库连接ID.数据源执行SQL的数据源名称.
线程Thead堆栈说明:调试模式下,线程堆栈为线程的实时堆栈.非调试模式下,线程堆栈为最近一次获取数据库连接时的堆栈.目前的线程事件:1.获取数据库连接2.sql翻译3.执行sql.4.调用EJB5.序列化6.往客户端写数据7.调用master8.线程到数据库的映射9.回滚,提交监控设置1:
全局调试开:除服务线程外的所有的线程默认都是调试模式.2:
全局调试关:所有的线程默认都不是调试模式.3:
选择调试用户:将选择的用户的远程调用设置为调试模式.此时全局模式自动为关闭状态.4:
取消用户调试:取消用户调试模式.5:
服务线程调试开:在全局模式为开的情况下,服务线程处于调试状态.6:
服务线程调试关:服务线程设置为非调试状态.关于调试模式的说明:一个线程如果是调试状态,则:1:这个线程的所有的数据库操作都会将线程信息映射到数据库.2:客户端获取线程堆栈都将是实时的堆栈.3:对中间件做快照时,只有处于DEBUG模式的线程会参与快照.打开全局调试开的方法:
监控设置全局调试开如,设置全局调试开后,线程监控界面的“调试模式”显示为是。下图红色部分。将用户设置成调试模式方法如下:监控设置选择调试用户:
弹出如下对话框“选择用户对话框”。选中y1用户,确定后,下图中蓝色行对应的调试模式为“是”。汇总显示将客户端显示的所有服务器的所有的线程信息,包括SQL堆栈和线程堆栈显示在汇总显示.如下图中WebContainer:5,拖动右边滚动条可以看到WebContainer:6等。SQL堆栈和线程堆栈的说明,在线程信息说明中有详细的介绍。显示过虑设置当前客户端显示的线程信息的条件.目前有如下过虑条件:线程耗时,操作员编码,操作员名称,客户端地址,服务.默认情况下不显示服务.联查操作员联查当前操作员更加相信的信息(来自于bd_psnbasdoc).点击工具栏中的”联查操作员”,在下图中选择对应的数据库然后就可以看到该操作员的如下信息:联查数据库a)
如果当前的线程事件是执行一个SQL,则联查数据库,直接可以看到当线程在数据库端的状态.包括其执行计划。b)
在数据库端,可以直接将对应的会话kill掉,从而将中间件的线程kill掉.连查询数据库方法同连查操作员方法.连查到数据库后的界面,同DB-XX中的“查询”按钮功能.数据库功能概述1.
提供一组数据库健康检查的服务.当发现数据库有性能问题时,发送快照或者报警消息.2.
提供客户端可以调用的数据库操作方法.监控客户端功能监控服务根据配置好的监控脚本对数据库进行实时监控.同时客户端预制了大量的性能监控脚本.对数据库的监控变得非常简单.1.
预制了一些常用的用于性能监控的脚本.如果要增加其他性能监控脚本,直接修改client/conf/SQL/fixSQL.cfg即可.2.
执行SQL:在SQL文本区选择要执行SQL的SQL,在工具栏中点执行按钮。3.
根据sql执行的结果集,可能穿透到其他结果集.比如,根据会话信息,可以联查对应的SQL,通过SQL结果集,可以联查到对应得执行计划.4.
对于结果集可以导出到sql/xml/文本.在左边树型结构中,选中数据库下对应的数据源,如ncv55,双击后会在右侧弹出对话框,然后在工具栏中:监控下拉列表中可以看到可以查看的数据库信息.如选择监控下拉列表中的“数据库文件的使用情况“,下图中就是查询的结果.也可以在DB-ncv55中直接写SQL语句,点击工具栏中的“执行”按钮,即可执行自己写的SQL.如下面是查询NC产品版本信息的SQL。查看SQL执行计划的方法:工具栏中“监控->长时sql”,如下图查询出比较耗时的SQL,然后选中,右键即可显示出该SQL的执行计划。看某执行SQL的执行计划CPU监控功能概述1.
实现了对各种平台的cpu的监控.定时将cpu的运行状态写入日志,便于日后性能分析。2.
当发现某CPU持续高于某阀值,则发送报警消息。监控客户端功能对服务器端CPU的监控。自动刷新设置:设置CPU性能数据的自动刷新频率.内存监控功能概述日志监控服务对服务器内存进行定时监控.并将内存信息写入日志,便于日后对性能进行分析。监控客户端功能服务器端内存监控.日志抽取功能概述将NC的日志和监控服务产生的日志(比如:NCLOG,CPU,JVM,内存日志)抽取到本地数据库.同时提供一个客户端的工具,对本地的日志进行分析.NC客户端日志级别设置服务器端的日志输出级别可以根据特定的用户来绑定.如用户A可以把自己的日志输出级别设置为DEBUG,这样用户A的所有后台操作的日志输出级别都是DEBUG.无论后台的日志默认级别是什么.客户端设置后台日志级别的方法:登陆到NC桌面后,点击右上角的日志,弹出一个日志对话框,设置remoteloglevel.注意:调试完毕后将它设置成为后台默认的日志级别模式!日志数据库日志数据库一个嵌入式数据库,是存储从NC日志、CPU、内存等抽取的日志信息。数据可以通过抽取的方式获得,也可以通过导入的方式获得。如工具栏中:工具日志数据库
即转换到日志数据库界面。此工具可以对日志数据库进行分析,可以写各种SQL来分析,默认提供了一些常用的脚本。其他脚本可以根据需要通过修改配置文件monitor/client/conf/SQL/logSQL.cfg来完成。双击上面查询出的结果的任何一行,可以看到相应的信息,如下:日志客户端的一些配置文件:Monitor/client/conf/SQL/logsql.cfg:默认的日志分析的sql.Monitor/client/resource/logdb.xml,日志数据库的配置文件,包括日志数据库的信息,和一些默认的表DDL.Monitor/client/logdb/logdb.mdb:默认的日志数据库.NCLOG日志抽取
NCLOG日志抽取是从NC的日志目录nclogs目录中抽取的,抽取的内容包括NC的报错信息,远程调用信息,statement信息,执行方法信息等。抽取的详细信息见表日志表logdetail和日志表summary表。抽取的数据保存在监控工具客户端日志数据库(client\logdb\logdb.mdb)中,NCLOGS日志抽取后保存的表是logdetail和summary,字段信息保存在nmc\client\conf\resource\logdb.xml文件中.日志表logdetail表的信息字段含义id记录IDcallid远程调用的IDuserid操作员IDthread线程名称hostNC服务器的IPportNC服务器的端口.ts时间戳remotecall远程调用的服务名debuglevelNC的日志级别:如ERROR/INFO/WARNING等msgNC的日志信息:如错误信息,警告信息等costtime耗时flowsize流量serverNC服务器:如:mastr/ncMem01/ncMem0Nfile抽取的NC服务器端日志文件的位置,如:..\..\nclogs\ncMem01\anony-log[0].log
日志表summary表的信息字段含义id记录IDcallid远程调用的IDremoteCallMethod远程调用方法remoteAddr发起远程调用的客户端地址userid操作员IDthread线程名称begintime线程开始时间costtime线程运行时间SQLcosttime当前线程所有SQL的执行时间(不包括fetch结果)readrownum当前线程总共fetch了多少条记录.readresulttime当前线程fetch结果集的时间writetoclienttime当前线程写数据到客户端的时间(网络耗时)writetoclientbytes当前线程写到客户端的字节数notclosedconnectioncount当前线程没有关闭的数据库连接数
抽取方法:选中日志抽取项后,工具栏中:抽取NCLOG下图是抽取的过程:查看NCLOG日志信息方法:如下图,工具日志数据,就切换到日志数据界面,然后常用脚本下拉框中预制了:执行方法统计、statements、报错信息统计、远程调用统计直接选择常用脚本报错信息统计
就会查询出NC的报错信息。也可以在日志数据界面,直接写SQL,如下图,然后点工具栏中的”执行”查询。下面是抽取NCLOG的条件说明:抽取条件说明服务器:指安装NC的应用服务器,可以使多台服务器。如集群时为多台。时间范围:按照图示的格式输入。操作员:点击“选择操作员”按钮,弹出如下对话框,然后选择对应的操作员即可。日志文件全名包括(like):如输入
master,则抽取的日志信息是master目录下的所有日志信息.如果输入summary,则表示抽取日志文件名包含summary的日志。自定义条件:可以把以下字段作为自定义条件:Id,callid,userid,thread,host,port,ts,remotecall,debuglevel,msg
比如以下条件是可以的:Debuglevel=ERRORANDuserid=#UAP#andremotecall=nc.ui.test.ITest以下抽取条件只抽取报错信息。抽取JVM日志JVM的抽取信息为:JVM的最大值、JVM的空闲值及JVM的信息等。通通过这些信息,我们就可以知道NC的某个服务的内存历史使用情况及JVM出现问题的信息等。JVM的日志抽取是从监控服务器目录nmc\server\logs\mw目录中抽取的。抽取的数据保存在监控工具客户端日志数据库中,保存的表是jvmlog。JVM表jvmlog表的信息字段含义server服务器名servernameNC服务名:如:mastr/ncMem01/ncMem0NmaxJVM最大值totaltotalfreeJVM的空闲值ratiofree/totalmsg进程监控输出的信息如masterisnotstarted,waituntilitstarted!wcthreadnum当前web线程数servicethreadnum当前服务线程数wcrange连接池大小file抽取的NC服务器端日志文件的位置,如:..\..\nclogs\ncMem01\anony-log[0].log
抽取及查看JVM日志方法如下:
抽取JVM设置好抽取的条件后,点“确定”,下图显示抽取日志的过程。然后,工具日志数据库
切换到下面的界面。在常用脚本的下拉框中可以通过选择对应的选项查看对应的日志信息。也可以根据需要自己写脚本。表结构信息在nmc\client\conf\resource\logdb.xml。抽取CPUCPU的抽取信息为:服务器cpu的user、sys、wait、idle等。通过这些信息,我们就可以知道CPU的历史使用状况。CPU的日志抽取是从监控服务器目录nmc\server\logs\cpu目录中抽取的。抽取的数据保存在监控工具客户端日志数据库中,保存的表是cpulog。CPU表cpulog表的信息字段含义server服务器host机器名cpuidCPUID号user用户使用百分比sys系统使用百分比waitCPU空闲期间系统有未完成的磁盘I/O请求时的时间百分比idleCPU空闲并且系统没有未完成的磁盘I/O请求时的时间百分比file抽取的CPU日志文件在监控服务器上的文件如:.\logs\cpu\cpu-uf200703074.log.0
抽取CPU日志及查看方法:抽取cpu下图显示抽取日志的过程。然后,工具日志数据库
切换到下面的界面。在常用脚本的下拉框中可以通过选择对应的选项查看对应的日志信息。抽取内存日志内存的抽取信息为:服务器内存的total、free、pi、po等。通过这些信息,我们就可以知道内存的历史使用状况。内存的日志抽取是从监控服务器目录nmc\server\logs\memory目录中抽取的。抽取的数据保存在监控工具客户端日志数据库中,保存的表是memorylog。内存表memorylog表的信息字段含义server服务器host机器名total内存总值free内存空闲值pipipopofile抽取的内存日志文件在监控服务器上的文件位置:.\logs\memory\memory-uf200703074.log.2
抽取内存日志及查看方法:抽取MEMORY设置好抽取的条件后,点“确定”,下图显示抽取日志的过程。然后,工具日志数据库
切换到下面的界面。在常用脚本的下拉框中可以通过选择对应选项查看对应的日志信息。监控消息和快照信息日志监控消息和快照信息是在消息中心同步消息时抽取到日志数据库的。监控消息和快照信息抽取是从监控服务器目录nmc\server\logs\snapshot目录中抽取的。抽取的数据保存在监控工具客户端日志数据库中,保存的表是message和snapshot。监控消息日志表message的信息字段含义snapshotid快照IDmessage消息的内容service监控服务名snapshotfile快照文件在服务器端的位置:D:\ufsoft\nc55\nmc\server\.\logs\snapshot\snapshot-1242096486515
快照信息日志表snapshot的信息字段含义snapshotid快照IDfilename快照文件在服务器端的位置:D:\ufsoft\nc55\nmc\server\.\logs\snapshot\snapshot-1242096486515content快照的内容
操作员信息操作员信息包括操作员的名称,操作员编码及监控域名称。操作员信息的抽取方法:在线程监控中,如下图,点击线程监控下的ALL/ncMem01/ncMem02/master,如果此时监控客户端日志数据库中没有操作员信息,则提示是否需要同步操作员信息。同步时即将操作员的信息保存到监控客户端日志数据库中。操作员日志表operator的信息字段含义cuserid操作员IDuser操作员名称user_code操作员编码domain监控域名称
操作员信息查看方法:工具栏:常用脚本操作员SQL语句为:select*frommessageorderbytsdesc消息中心功能概述后台的每个监控服务都可以产生监控消息,并将消息发送到消息队列.如:中间件一个WEB线程运行时间超过180秒仍没有结束则发送快照消息。中间件一个WEB线程执行的SQL最大数量1000,如果超过这个值,则发送快照消息。中间件一个线程最耗时的SQL耗时超过120,则发送快照消息。连接池使用超过70%,则发送快照消息。表空间使用率超过90%,则发送WARNING消息。active的回滚段超过90%,则发送WARNING消息等。消息服务定时从消息队列取到消息,根据消息的内容和服务对消息处理模式的配置,对消息生成快照或者只是作为一条报警消息保存到日志中。根据这些消息,就可以很方便的进行事后分析。这些消息包括:数据库、中间件、进程、cpu、内存等信息。消息由两部分组成:消息概要和快照。快照目前提供中间件线程快照和数据库的快照,根据快照和消息概要很容易进行深入分析系统问题。同时消息中心提供自动发送邮件的功能。消息及快照的生成过程:监控服务根据监控条件生成消息,消息处理服务定时从消息队列中读取消息,根据消息内容及快照项目,请求对应的服务生成快照信息,快照信息生成后返回给消息处理服务,然后消息处理服务写到快照文件中。消息及快照的生成过程图快照文件在…\nmc\server\logs\snapshot\snapshotidx.log中有详细记录。perties文件在…\nmc\server\conf\perties。services.xml文件在…\nmc\server\conf\services.xml。消息产生的触发点在perites中配置。服务触发条件值说明进程监控restartWhenCheckMemoryfailuretrue/false检测JVM内存失败是否重启,如果为false,则只是发送报警消息.如果为true,则发送快照信息线程监控MW_THREAD_CHECK_MAXCOSTTIME180中间件一个WEB线程运行时间的阀值,单位为秒.超过这个时间仍没有结束则发送快照消息线程监控MW_THREAD_CHECK_MAXCOUNTOFSQL1000中间件一个WEB线程执行的SQL最大数量,如果超过这个值,则发送快照消息线程监控MW_THREAD_CHECK_MAXCOSTOFONESQL120中间件一个线程最耗时的SQL阀值,单位为秒.如果SQL的耗时超过这个值,则发送快照消息线程监控MW_THREAD_CHECK_CONNECTIONPOOLUSED70连接池使用阀值,单位位百分比.如果连接池使用超过50%,则发送快照消息数据库监控HEALTH_RUNTIME_CHECK_DB__SQL_1HEALTH_RUNTIME_CHECK_DB__SQL_2HEALTH_RUNTIME_CHECK_DB__SQL_3HEALTH_RUNTIME_CHECK_DB__SQL_4详见perites进行健康检查时执行的脚本,个数最大为4个.检查失败后会发送快照消息.数据库健康检查目前只是支持ORACLE.数据库监控HEALTH_CONF_CHECK_DB__SQL_1详见perites表空间使用率超过90%,则发送WARNING消息数据库监控HEALTH_CONF_CHECK_DB__SQL_2详见peritesactive的回滚段超过90%,则发送WARNING消息消息服务手工发送消息
客户端主动快照
监控客户端功能同步消息:将服务器端产生的消息和本地的数据库进行同步.删除消息:将服务器端的消息和本地的消息进行删除.执行快照:主动发一条快照消息.系统会自动根据配置生成快照.如:点击“执行快照”,消息处理监控服务就会发送一条消息到消息队列,消息处理服务取到该消息后,根据消息中的内容及快照项目配置信息,请求生成快照,然后生成快找并保存到快照文件。从上图可以看出,已经生成了快照,选中该条快照,则下面的快照栏中就会显示出快照出的对应文件,双击快照栏中的某一行就可以看到相应的信息。下图是一个线程的快照信息。安全设置功能概述1.通过监控服务提供的安全代替监控目标系统的安全.这样的好处是:客户可以不用提供给你真正的数据库密码.因为数据库的密码一般是不变的,但是监控服务的用户名和密码是随时都可以改变的.2.对需要安全检查的服务访问进行安全检查.3.客户端可以动态修改监控管理员用户名和密码.说明:该功能主要是为了更安全的使用监控服务器器,如果不知道监控服务器端的用户和密码,则有些监控功能将不允许使用。监控客户端功能管理员设置:重新设置管理员的用户名和密码.说明该管理员的用户名和密码是指服务器端的监控工具设置的管理员用户名和密码。参数设置功能概述1.
提供一种可以动态修改参数的功能.保存之后马上生效,不需要重启监控服务.2.
有些参数修改后必须要重启监控服务,比如:prop文件nodeagenthost等.3.
所有监控服务器的参数获取都是从servicecenter那里获取的。监控工具启动服务时自动从servicecenter下载最新的参数配置。参数修改时,servicecenter通知所有的其他监控服务器从新刷新参数。监控客户端功能参数值的修改方法:双击某个参数值进行修改。应用实例以一个真实客户的环境为例。OVERVIEW选择一个监控域,工具->overview通过下图,可以看出该集群中有三台机器。每台机器上分别有两个成员:master,ncMem01,ncMem02,ncMem03,ncMem04,ncMem05进程监控从进程监控中可以查看每个成员的状态、线程、端口、JVM使用情况等。下图是进程监控中DB状况:可以查看连接池大小,当前活动的sessions等.线程监控从线程监控中可以查看每个线程的状态及SQL堆栈等。双击SQL堆栈中任何一行,如蓝色的行,显示该条的详细信息,如:下图是显示的thread堆栈信息:日志抽取日志抽取可以从多个服务器上抽取日志信息,如bgync1和bgync3等服务器上抽取NC的日志信息。下图是按时间查询。下图按操作员只查汇总的信息:
下图按自定义条件只查询ERROR级别的信息。日志抽取过程如下:然后,工具日志数据库
切换到下面的界面。在常用脚本的下拉框中可以通过选择对应选项查看对应的日志信息。如查看“远程调用统计”:选择一行,可以查看其详细信息。DB-监控在数据库监控中可以查看执行比较长的SQL等.消息中心查看消息时,先同步消息,如在消息中心,可以查看系统的消息,如[WebContainer:4]totalnumberofsqlover1500表示该线程执行的sql个数超过了1500个.双击上图中快照栏中的信息,弹出如下详细信息这是个中间件的快照信息.下图中选中的消息是数据库中有SQL执行时间超过120秒的消息,如:这是个数据库的快照信息.下图是web线程的执行总时间超过了180000ms的快照信息。选中上图中快照栏的记录,双击后弹出详细信息:典型案例某项目5月初监控信息及问题解决建议一:某项目监控相关信息1:系统总体状况如上图,某项目目前是3台物理机器组成水平集群,总共6个中间件server进程提供NC服务。2:每个server进程状况从5月6-8号这三天的监控情况来看,6个中间件server进程状况非常健康;一是内存曲线始终比较平稳,稳定在1G以内,如上图显示,没有出现总体上升的曲线状况(即不存在内存泄漏情况),二是可以看到每个server中的web线程数比较平均且少于10个,即系统不存在堵塞状况。3:系统所有正在工作任务状况如上图所示,在某(任)一时刻,系统中的任务数稳定在10个左右,很少超过10个;但从监控图形中可以看到有的任务耗时比较长,如上有耗时145秒的任务。如图,可以联查任务详细,看到这个已经耗时12秒多的任务(依然还在运行中),其正在执行的SQL语句已经花了12秒了。如图,查看任务详细统计信息,如总共执行了多少SQL,sql总耗时,每个sql耗时等等有用信息。4:消息中心的警告信息将系统中的警告信息同步过来,发现从7号下午14:30左右开始,出现数据库异常情况。同时,在7号上午到下午还有一些执行时间超过警告阀值的任务的信息。以下是联查的警告中的详细信息5:日志情况先抽取7号下午4点这个时间段的日志,查看相关信息二:某项目监控到的异常问题从上面的监控情况,主要发现是数据库出现了异常以及相关数据库执行变慢问题1:从7号下午2点开始,监控到数据库异常信息:如下(1):连接报io异常<record><时间>2009-05-0811:18:14</时间><服务>dbmonitor:bgy12</服务><消息>[ERROR]Io异常:Gotminusonefromareadcall</消息><是否有快照>否</是否有快照><消息id>1241752694437</消息id></record>(2):数据库同时报连接异常<record><时间>2009-05-0810:55:51</时间><服务>dbmonitor:bgy12</服务><消息>[ERROR]Listenerrefusedtheconnectionwiththefollowingerror:#ORA-12518,TNS:listenercouldnothandoffclientconnection#TheConnectiondescriptorusedbytheclientwas:#2:1521:ncdata2#</消息><是否有快照>否</是否有快照><消息id>1241751351343</消息id><
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- (2024版)云计算服务提供商合同
- 2024年中小企业全职员工劳动协议模板版B版
- 2024合同模板钥匙管理规定范本
- 2024年度甲方购买乙方车辆及其维护服务合同2篇
- 2024年城市配送合同范本
- 2024二手房阶段性付款买卖合同范本版B版
- 2024专项活动策划与实施协议版B版
- 2024国有资产租赁合同
- 2024年保健产品购销合同版B版
- 2024大鹏租赁合同样板
- 北京市海淀区2023-2024学年高二上学期期末考试 英语 含答案
- 《公共科目》军队文职考试试题及解答参考(2024年)
- 2024年秋季新人教版七年级上册英语全册教案设计
- 2024年事业单位招聘考试公共基础知识题库及答案
- 法律服务投标方案(技术方案)
- 2024年人教版七年级上册历史第三单元综合检测试卷及答案
- 2024年江苏省高中学业水平合格性考试数学试卷试题(答案详解1)
- 初中八年级英语课件周琦8A Unit7 Seasons Welcome课件
- 高级政工师职称面试题
- GB/T 31997-2015风力发电场项目建设工程验收规程
- 3、腰椎穿刺考核评分标准
评论
0/150
提交评论