




已阅读5页,还剩58页未读, 继续免费阅读
(信号与信息处理专业论文)关联分析与中间件技术在网管系统中的应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮电大学硕士学位论文关联分析与中问件技术在同管系统中的应用 关联分析与中间件技术在网管系统中的应用 摘要 随着网络规模的不断扩大、网络技术的高速发展,网络管理的重 要性越来越突出。配置管理、性能管理、故障管理、安全管理和计费 管理五大功能领域各尽其责,相辅相成。网管系统功能的增加和性能 的提高对提升已有网络价值、提高运营商企业核心竞争力有着重要的 意义。 故障管理是网络管理的一个重要组成部分,其难点在于故障的诊 断。而同时,面对“告警风暴”,如何利用好这些海量数据就成了焦 点问题一从海量数据中寻找有用信息,诊断并预测网络故障。因此 将关联分析技术应用于对告警的分析是网络管理中一个重点、难点问 题。 综合网络管理系统的建立是目前网络管理中另一个重点、难点问 题,网络运营商都希望将不同厂商设各环境下的网络进行统一管理, 由此,中间件、三层架构等新技术也被应用到了网管系统当中。 论文着眼于上述两个主要问题,全文基于两个项目:“某市移动 ( 网络中心) 告警关联分析系统”和“网通3 g 综合网管系统”,分 别论述了故障管理的告警关联分析和综合网管系统的设计实现、关键 技术等。 两个系统都采用模块化的设计,结构清晰且可扩展性较强。前者 在多个关联分析挖掘算法的理论基础上,将理论与应用相结合,经过 数据导入、预处理、挖掘等步骤,从大量告警数据中发现隐藏的关联 规则。文中主要描述了导入的实现、f p g r o w t h 算法及其实验结果等。 后者在传统网络管理架构基础上,引入t u x e d o 中间件技术实现业务 逻辑功能与g u i 、底层接口的分离,减轻客户端的负担,提高系统数 据的安全性。文中重点讲述了其中的通信子模块的设计与实现。 关键词:网络管理系统网络故障管理告警关联分析 f p g r o w t h 中间件t u x e d o 北京邮电大学硬士学位论文关联分析与中同件技术在列管系统中的戍用 t h ea - p p u c 觚o no fc o r r e l a n 0 na n a i = y s i sa n d m i d d l 巳- 气r et e c h n o l o g y i nn e t w o r km a n a g e m e n ts y s l e m a st h es i z eo fn e t w o r kh a sm o r ea n dm o r ee x p a n d e d ,a n dt h e n e t w o r k t e c h n o l o g i e s w e r e q u i c k l yd e v e l o p e d ,t h es i g n i f i c a n c e i n n e t w o r km a n a g e m e n tw a sm o r ea n dm o r co u t s m n d i n g t h ef i v ep r i m a r y f u n c t i o n so fn n ii n c l u d e s c o n f i g u r a t i o nm a n a g e m e n t 、p e r f o r m a n c e m a n a g e m e n t 、f a u l tm a n a g e m e n t 、s e c u r i t ym a n a g e m e n t 、a c c o u n t i n g m a n a g e m e n t t h e yd ot h e i rd u t i e si ne a c ha n ds u p p l e m e n te a c ho t h e rt o o t oi n c r e a s et h ef u n c t i o na n d i m p r o v e t h e c a p a b i l i t y o fn e t w o r k m a n a g e m e n ts y s t e mt h a ti sv e r yi m p o r t a n tf o ru p g r a d i n gt h ev a l u eo f e x i s t i n gn e t w o r k s ,a n di t w i l l a l s oe n h a n c et e l e c o mc a r r i e r s c o r e c o m p e t e n c e f a u l tm a n a g e m e n ti sa l li m p o r t a n tp a r to fn e t w o r k m a n a g e m e n t a n d i t s d i f f i c u l t y i sd i a g n o s i n ga f a u l t m e a n w h i l e ,i nt h ef a c eo f a l a r m s t o r m ”,h o wt ou s et h i sg r e a tn u m b e r so fa l a r md a t ab e c a m eaf o c a l p r o b l e m t h a ti st os a y , d i s c o v e rt h eu s e f u li n f o r m a t i o nf r o mt h o s ed a t a a n dt h e nd i a g n o s ea n dp r o g n o s i st h ef a u l to fn e t w o r k s s oa n a l y z i n g a l a r m sw i t hc o r r e l a t i o na n a l y s i st e c h n o l o g yi sa ni m p o r t a n ta n dd i f f i c u l t p r o b l e m i nn m e s t a b l i s h m e n to ft h e i n t e g r a t e dn e t w o r km a n a g e m e n ts y s t e mi s a n o t h e ri m p o r t a n ta n dd i f f i c u l tp r o b l e mi nn m t e c h n o l o g i e s t e l e c o m c a r r i e r s h o p e t oc o n t r o lt h en e t w o r ki nt h ec i r c u m s t a n c eo f m a n y m a n u f a c t u r e r s b e c a u s eo ft h i s ,s o m en e w t e c h n o l o g i e s s u c ha s m i d d l e w a r ea n dt h r e e - l a y e rw e r ea p p l i e dt ot h en e t w o r km a n a g e m e n t s y s t e m 北京邮也人学硕i :学位论文 关联分析0 中间件技术在嘲管系统中的j 衄用 t h i st h e s i st a l k sa b o u tt h et w op r o b l e m sa b o v e ,a n db a s e so nt w o p r o j e c t s :am o b i l ea l a r mc o r r e l a t i o na n a l y s i ss y s t e m ”a n d “c n c3 g i n t e g r a t e dn e t w o r km a n a g e m e n ts y s t e m ”a u t h o ri n t r o d u c e st h ed e s i g n a n dc o r et e c h n i q u e so fa l a i mc o r r e l a t i o na n a l y s i sa n di n t e g r a t e dn e t w o r k m a n a g e m e n ts y s t e m s o r g a n i z e db vd i f f e r e n tm o d u l e s ,b o t ho ft w os y s t e m s a r c h i t e c t u r e s a r ec l e a ra n de x t e n s i b l e b a s e do nt h et h e o r yo fm u c hc o r r e l a t i o na n a l y s i s m i n i n ga r i t h m e t i c , t h ef o r m e rs y s t e mc o m b i n e st h e o r ya n da p p l i c a t i o n t o g e t h e r d u r i n gd a t ai m p o r t 、p r e p r o c e s sa n dm i n e d ,c o r r e l a t i o nr u l e sc a n b ed i s c o v e r e df r o ml a r g ea m o u n t so fa l a r md a t a t h i sp a p e rm a i n l y d e s c r i b e st h ed a t a i m p o r ta n df p - g r o w t ha r i t h m e t i c 、r e l a t i v er e s u l t s b a s e do nt r a d i t i o nn ms t r u c t u r e t u x e d ot e c h n o l o g yh a sb e e ni m p o r t e d i n t ot h el a t t e rs y s t e m t h e nt h ef u n c t i o n a ll a y e rs e p a r a t e df r o mg u ia n d n e t w o r ke l e m e n ti n t e r f a c el a y e r t h i sc a nr e d u c et h e1 0 a do fc l i e n t s ,a n d t h ed a t aa r em o r es e c u f i t y t h i sp a p e rt a l k st h ed e s i g na n di m p l e m e n to f t h ec o m m u t a t i o ns u b m o d u l e k e y w o r d s :n e t w o r k m a n a g e m e n ts y s t e m , n e t w o r kf a u l t m a n a g e m e n t ,a l a r m ,c o r r e l a t i o na n a l y s i s ,f p g r o w t h ,m i d d l e w a r e , t h x e d o 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特剐加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果。也不包含为获褥北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:銎渣 日期: 2 竺 墨生9 至旦 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 苤渣: 日期:巫 生垒自! 旦 导师签名: 北泉邮电大学硕士学位论文关联分析与中间件技术在阿管系统中的应用 1 1 网络故障管理 第一章绪论 o s i 将网络管理功能划分为配置管理、性能管理、故障管理、安全管理和计 费管理五个领域。卜1 它们的作用分别为:配置管理主要是管理网络的建立、扩充 和开通;性能管理作用是维护网络服务质量( q o s ) 和网络运营效率;故障管理 主要是迅速发现和纠正网络故障,动态维护网络的有效性:安全管理的作用是提 供信息的保密、认证和完整性保护机制,使网络中的服务、数据和系统免受侵扰 和破坏;计费管理作用是正确地计算和收取用户使用网络服务的费用,进行网络 资源利用率的统计和网络的成本效益核算。 随着网络容量的迅猛扩大,网络故障所带来的损失也越来越大,故障管理作 为网络管理最重要的组成部分之一,对如今规模不断扩大,结构愈加复杂的网络 具有非常大的意义。故障管理的主要功能有告警监测、故障定位、电路测试、业 务恢复以及修复、维护故障日志等。另外,故障管理还必须有业务恢复机制和手 段,以免造成严重的损失。 其中,告警监测功能要完成网络状态监督和故障检测两个任务,状态监督利 用网络拓扑对网络中业务状态进行监督,以发现问题;故障检测要对告警信息进 行过滤分析,除去大量冗余告警信息,确认发生了什么故障。故障定位功能的作 用是确定设备中故障的位置,定位的手段主要有诊断、试运行及软件检查。 另外,网络的故障类型是多种多样的,硬件、软件和数据的问题都可能引发 网络故障。一般当网络中某个成分失效时,它会引发与其相关的问题出现,较严 重的故障通知给网络管理系统,即所谓的“告警”。网管系统根据告警进行处理, 隔离或排除故障,将网络修复。显然地,网络故障越严重,产生的告警数量就越 多,网管系统越难以分析故障的产生原因。 1 2 网管体系结构 随着网络技术、软件技术和分布式计算技术的发展,软件体系结构越来越受 到重视。网络管理系统是应用软件,同样符合这种体系结构。这里先将已有的几 种系统结构做一介绍和比较: 北京邮电大学硕七学位论文关联分析。i 中问件技术在网管系统中的应用 1 、传统c s 结构 在传统的c s ( 客户机服务器) 结构的应用体系中,客户端上运行了大部分 服务。每一个客户端都存在数据引擎,并且每个客户端与数据库服务器建立独立 的数据库连接。基于这种结构的应用系统的优势有:开发周期较短,能适应中小 型应用系统的要求。 但随着数据容量和客户端数量的不断增加,它显示出了诸多缺点:( 1 ) 可扩 充性差,当数据连接达到一定数量时,数据库服务器响应和处理速度将大打折扣; ( 2 ) 可维护性差,当业务规则发生变化时,必须修改或升级客户端应用程序; ( 3 ) 可重用性差,若客户另外提出b s 的应用需求,则需要在w e b 服务器中重 新进行数据库访问、业务规则等编码,丽这些与客户端应用程序中的功能完全重 复。 2 、b ,s 结构 b s 结构对用户的技术要求和客户端的配置要求比较低,而且界面丰富、客 户端维护量小、程序开发简单、容易进行跨平台布置,尤其适合信息发布类应用。 但是,b s 结构在客户端对大容量数据进行深层分析,汇总、批量输入输出的工 作中出现困难,对于需要与本地资源进行交互的操作极为不方便。b s 结构很难 适用于基于g i s 的办公、数据管理等系统。 3 、三层a s 结构 所谓三层结构,是在客户端与数据库之间加入了一个。中问层”。三层结构 的应用程序将业务规则、数据访问等工作放到了中间层处理。客户端一般不直接 与数据库交互,而是与中间层建立连接,再与数据库交互。这样的好处是:( 1 ) 建立在数据库服务器上的连接数量将大大减少,占用系统资源减少;( 2 ) 可维护 性提高,业务规则发生改变时,只需更改中间层某组件;( 3 ) 可重用性好,若需 要开发b s 应用,可直接在w e b 服务器调用现有的中间层。 例如,现有的网管软件h po p e n v i e wan o d em a n a g e r 、i b mt i v o l in c t v i e w 及3 c o r nn e t w o r ks u p e r v i s o r 都采用了客户机服务器的体系结构。 1 3 论文的选题及研究背景 现有的网络管理系统中的故障管理多是在故障发生后采取修复措施,这是必 须的,也是不足的。由于网络规模大、结构复杂,这种管理显得非常被动。通常, 一个故障可能引发大量的告警信息,即所谓的“告警风暴”,故障管理系统很难 在有限的时间内快速故障定位,因此需要寻找其他方法对告警数据进行分析。 同时,网管系统的数据库中存储了告警日志,这些告警的数据量往往非常庞 大,如果能从这些数据当中取得对网管人员有用的,比如反映网络运行规律的信 2 北京邮电丈学硕士学位论文关联分析与中间件技术在网管系统中的应用 息,那将对网络故障定位及预测非常有用。 然而,人工处理这些海量告警数据库是一项十分困难及繁琐的工作,因此必 须引入智能化技术和有效的基于知识的信息处理技术。数据挖掘技术为网络故障 诊断的设计与开发提供了一种有效的工具,关联规则挖掘是从大量的数据中或对 象间抽取其相互之间的关联性,揭示数据间未知的依赖关系( 如果告警a 发生, 那么告警b 在3 0 秒内发生的概率是8 0 ) ,根据这种依赖关系,可以从某一数 据对象的信息来推断另一数据对象的信息。关联规则挖掘通过支持度和置信度定 量地描述这种关联关系的程度,以指导数据分析的过程。 在国内来看,除了金融机构将数据挖掘用于发现潜在的客户群、评估客户的 信用以外,不少电信企业也都意识到将数据挖掘应用于告警关联分析的重要性, 并开始开展类似的项目研究。本文的核心就是如何对移动网络告警数据进行关联 分析,以期对其中的一些关键问题有较为明确的研究和应用。 网管体系是网络管理的另一个重要问题。为保证网络稳定、有效地运行,电 信企业都提出建立“综合网络管理系统”,这种系统具有用户数多、数据量大、 业务多变、对可扩展性和安全性要求较高等特点,系统体系结构的设计成为系统 成败的关键。根据1 2 所比较的三种系统体系结构,三层c s 结构较为适合综合 网络管理系统。而中问件技术是三层架构的支撑技术。 另外,近几年综合网管还处于不断发展阶段,各方面都倾注了相当的力量。 从实际需求角度说,运营商需要一个综合化、智能化、服务化的网络管理系统; 从技术角度看,综合网管技术的发展,对网管技术的逐步成熟、规范化和标准化 等都具有非常重要的作用。故本文将采用中间件技术的三层结构综合网管系统的 设计和实现作为另一个研究内容。 1 4 本文的工作 众多专家指出,要想提高己建好的网络的性能,必须靠网络管理系统的各项 功能。要重视网管系统,就要重视网络管理技术所涵盖的众多内容。故障管理的 告警分析和综合网管系统虽然看似是不相关的技术,实际上它们都是电信网管中 的重点和难点,并且综合网管系统的架构思想也可以用在告警分析系统当中去。 笔者有幸在研究生期间,分别参与了实验室与企业合作的两个项目某市移动 告警关联分析系统、网通3 g 综合网管系统对告警关联分析和中间件技术在 网络管理系统中的应用有了一定的认识。本文即依托这两个项目,并主要围绕它 们展开讨论。 第一章绪论部分主要介绍论文选题的背景,并简单概括网络故障管理和网管系统 体系结构。 北京邮电人学硕i :学位论文关联分析畸中间件技术在明管系统中的麻用 第二章详细介绍了数据挖掘技术及其中的关联规则挖掘,这是告警关联分析系统 的核心。 第三章从开发实践的角度具体描述了某市移动告警关联分析系统,包括系统架构 和技术细节等。 第四章重点介绍3 g 综合网管系统的设计实现,包括系统架构和关键技术。 第五章结语部分总结工作,并指出对下一步工作的假设。 4 北京邮电大学硕十学位论文 关联分析与中何件技术在嗣管系统中的麻用 第二章关联规则分析技术 在介绍本人所参与开发的告警关联分析系统之前,先对所用的核心技术 数据挖掘的关联规则挖掘理论做一个简要的介绍。 2 1 数据挖掘技术 数据挖掘( d a t am i n i n g ) 是一个多学科交叉研究领域,它融合了数据库 ( d a t a b a s e ) 技术、人工智能( a r t i f i c i a li n t e l l i g e n c e ) 、机器学习( m a c h i n e l e a r n i n g ) 、统计学( s t a t i s t i c s ) 、知识工程( k n o w l e d g ee n g i n e e r i n g ) 、面向对象 方法( o b j e c t - o r i e n t e dm e t h o d ) 、信息检索( i n f o r m a t i o nr e t r i e v a l ) 、高性能计算 ( h i g h p e r f o r m a n c ec o m p u t i n g ) 以及数据可视化( d a t av 坞u a l i z a f i o n ) 等最新技 术的研究成果。 数据挖掘的概念包含丰富的内涵,不能简单地从某个角度给它下个定义。本 文中选取一个广义观点:数据挖掘是从存放在数据库、数据仓库和其他信息库中 的大量数据中挖掘有趣知识的过程。h 这些知识是隐含的、事先未知的、潜在的、 有用的信息。 数据处理技术由此进入一个更高的阶段,我们不仅能对过去的数据进行查 询,而且能够找到过去数据之间的潜在联系,进行更高层次的分析,以便更好地 做出理想的决策、预测未来的发展趋势等。通过数据挖掘,有价值的知识、规则 或高层次的信息就能从数据库的相关数据集合中抽取出来。从而使大型数据库作 为一个丰富、可靠的资源为知识的提取服务。 2 1 1 数据挖掘的产生 数据挖掘技术从一开始就是面向应用的。h 毫不夸张地说,人们对数据的拥 有欲是贪婪的,特别是计算机存储技术和网络技术的发展加速了人们收集数据的 范围和容量。这种贪婪的结果导致了“数据丰富而信息贫乏( d a t ar i c h i n f o r m a t i o np o o r ) ”现象的产生。快速增长的海量数据收集、存放在大型和大量 数据库中,没有强有力的工具,理解它们已经远远超出了人的能力。决策者缺乏 北京邮电人学硕j :学位论文关联分析j 中问件技术在阿管系统中的府用 从海量数据中提取有价值知识的工具。 数据挖掘技术的产生和发展为充分利用数据资源带来了契机。数据挖掘工具 进行数据分析,可以发现重要的数据模式,对商务决策、知识库、科学和医学研 究做出了巨大贡献。 同时,任何技术的产生总是有它的技术背景的,数据库、数据仓库和i n t e r n e t 等信息技术的发展,计算机性能的提高和先进的体系结构的发展,统计学和人工 智能等方法在数据分析中的研究和应用等对数据挖掘的产生起到了决定性的作 用。具体地说,数据库和i n t e r a c t 的发展使人们具备了获取及存储海量数据的能 力,为数据挖掘技术的研究和应用提供了丰富的土壤;计算机性能的提高和先进 的体系结构的发展使数据挖掘技术的研究和应用成为可能;数据挖掘技术是数理 统计分析应用的延伸和发展,也继承了人工智能中专家系统的高度实用性的特 点,并以数据为基本出发点,客观地挖掘知识,面对现实中大量的、不完全的、 有噪声的、模糊的、随机的大数据样本,而走出了小样本学习模式的象牙塔。 经过十几年的研究和实践,数据挖掘技术已经吸收了许多学科的最新研究成 果而形成了独具特色的研究分支。 2 1 2 数据挖掘与知识发现的关系 数据挖掘是从大量数据中“挖掘”知识,许多人把数据挖掘视为另一个常用 术语知识发现( k d d ) 的同义词。本文中采用另一种看法一知识发现是一个 多步骤的处理过程,数据挖掘是知识发现过程的一个步骤。 k d d 系统有多种架构模型,【4 】常见的是阶梯处理过程模型,即整个知识发 现的过程中包括很多处理阶段,如图2 - 1 所示: 图2 一lk d d 阶梯处理过程模型 6 b 知识 北京邮电大学颈士学位论文关暾分析与中间件技术在捌管系统中的应用 如图所示,k d d 处理过程分为七个阶段: 1 ) 数据准备( 弄清用户要求,了解相关源数据结构,把多种数据源组合成一起) 2 ) 数据选择( 根据用户需求,从数据库中检索与分析任务相关的数据) 3 ) 数据预处理( 再加工,检查数据完整性及一致性,清除噪声或利用统计方法 填补丢失的数据) 4 ) 数据缩减( 根据知识发现的任务,再处理,使数据集中在用户的挖掘目标上) 5 ) 数据挖掘( 基本步骤,选定算法,从数据中提取用户所需的知识,表现为模 式) 6 ) 模式评估( 根据某种兴趣度度量,识别表示知识的真正有趣的模式) 7 ) 知识表示( 使用可视化和知识表示技术,向用户提供挖掘的知识) k d d 是一个需要经过多次反复的,包括许多处理阶段的复杂处理过程,数 据挖掘是其中至关重要的一个阶段。正因为这种重要性,k d d 的研究大多侧重 于对数据挖掘的研究,而忽略了其他方面。 2 1 3 在何种数据上进行数据挖掘 原则上讲,数据挖掘技术可以应用到任何信息存储方式的知识挖掘中,但因 为数据源的存储类型的不同,对挖掘的挑战性和技术会有很大差异。具体以下列 几种数据存储类型为例,对其数据挖掘技术特点进行归纳: ( 1 ) 事务数据库 事务数据库挖掘可以应用在商业、金融等多方面,通过特定的技术挖掘,可 以获得动态行为所蕴藏的关联、分类及预测规则。它是最早成功应用的数据挖掘 技术,许多经典的方法和算法被提出。 ( 2 ) 关系型数据库 当数据挖掘用于关系数据库时,我们可以进行除查询访问外的搜索趋势或数 据模式。例如根据顾客的收入、年龄和以前的信用信息预测新顾客的信用风险。 关系数据库是数据挖掘最流行的、最丰富的数据源,因为它是数据挖掘研究的主 要数据形式。 ( 3 ) 数据仓库 数据仓库中的数据从历史的观点提供信息,因此是理想的数据挖掘存储体。 数据挖掘不仅伴随数据仓库而产生,而且随着应用深入产生了许多新的课题。 ( 4 ) 面向应用的新型数据源 空问数据库、时态数据库、工程数据库和多媒体数据库等,得到充分发展。 而且由于它们具有信息量大、结构复杂等特点,使得进行有针对性的挖掘技术研 究成为必须。 7 北京邮i 乜人学碗i + 学位论文关联分析冲问件技术在州管系统中的应用 ( 5 ) w e b 数据源 主要是对w e b 数据源的异构数据源环境、半结构化的数据结构以及动态变 化的应用环境等特点进行分析,归纳w e b 挖掘的主要研究方法。 总之,挖掘的挑战和技术可能因存储系统而异。 2 1 4 数据挖掘可挖掘什么类型的模式 在某些情况下,用户不知道他们的数据中什么类型的模式是有趣的,这样, 数据挖掘系统要能够挖掘多种类型的模式,以适应不同的用户需求或不同的应 用。数据挖掘系统还应当能够发现各种粒度的模式。大致分以下几种模式类型: ( 1 ) 概念类描述:特征化和区分 概念描述本质上是对某类对象的内涵特征进行概括,数据特征化是目标类数 据的一般特征或特性的汇总。被挖掘出来的数据特征可以采用多种直观的形式展 示给用户,包括饼图、柱状图、曲线图、多维立方体等,也可以作为其他应用( 如 分类、预测) 的基础知识 ( 2 ) 关联分析 关联知识( a s s o c i a t i o n ) 反映一个事件和其他事件之间的依赖或关联,大部 分是蕴藏的。关联挖掘的目的就是找出数据库中隐藏的关联信息。关联可分为简 单关联、时序关联、因果关联、数量关联等。 最著名的关联规则挖掘算法是a g r a w a l 等提出的a p r i o r i 及其改进算法。为 了发现有意义的关联规则,需要给定两个阈值:最小支持度( m i n i m u ms u p p o r t ) 和最小置信度( 或可信度) ( m i n i m u mc o n f i d e n c e ) 。关联规则满足最小支持度, 表示了一组项目关联在一起需要满足的最低联系程度;挖掘出来的关联规则满足 最小置信度,它反映了一个关联规则的最低可靠度。 ( 3 ) 类知识挖掘( 分类和聚类) 分类的目的是学会一个分类模型( 分类器) ,该模型能把数据库中的数据项 映射到给定类别中。要构造分类器,需要有一个训练样本数据集作为输入,分类 技术是一种有指导的学习。从这个意义上说,数据挖掘的目标就是根据样本数据 形成的类知识,对源数据进行分类,进而也可以预测未来数据的归类。 许多技术可以应用到分类应用中,如决策树、贝叶斯分类、神经网络、遗传 算法等。 聚类是把一组个体按照相似性归为若干类别,它的目的是使得属于同一类别 的个体之间的差别尽可能地小,而不同类别的个体间的差别尽可能地大。通过聚 类技术可以对源数据库中的记录划分为一系列有意义的子集,进而实现对数据的 分析。 8 北京邮电大学硕士学位论文关联分析与中闻件技术在罔管系统中的应用 分类和聚类不同,前者是在特定的类标识下寻求新元素属于哪个类,而后者 则是通过对数据的分析比较生成新的类标识。 ( 4 ) 预测型知识挖掘 预测型知识( p r e d i c t i o n ) 是指由历史的和当前的数据产生的并能推测未来 数据趋势的知识。挖掘的主要功能是对未来数据的概念分类和趋势输出。 ( 5 ) 特异型知识挖掘 特异型知识( e x c e p t i o n ) 是源数据中所蕴涵的极端特例或明显区别于其他数 据的知识描述,它揭示了事物偏离常规的异常规律。数据库中的数据常有一些异 常记录,检测出这些数据所蕴涵的特异知识是很有意义的。 例如孤立点分析:孤立点( o u t l i e r ) 是与数据的一般行为或模型不一致的数 据。在w e b 站点发现那些区别于正常登录行为的用户特点可以防止非法入侵。 2 1 5 数据挖掘的应用 由于商业运作,企业内产生了大量的业务数据,数据挖掘成为了高层次数据 分析和决策支持的骨干技术。数据挖掘已经在许多领域得到了应用,尤其是在诸 如银行、电信、保险、交通、零售等商业领域,此外,它还在天文学、分子生物 学等科学研究方面也表现出了技术优势。 除了超市中“啤酒与尿布”的经典例子外,还有许多数据挖掘应用的成功案 例,如:m m 公司开发的数据挖掘软件a d v a n c e ds c o u t 被美国n b a 教练广泛使 用( 大约2 0 个队用) ,据说s c o u t 帮助魔术队成功分析了不同的队员布阵的相对 优势,并找到了战胜迈阿密热队的方法p “。另外,利用数据挖掘方法作为入侵 检测的数据分析技术,可从海量的安全事件数据中提取出尽可能多的隐藏安全信 息,抽象出有利于进行判断和比较的与安全相关的普遍特征,从而发现未知的入 侵行为。 总的来说,数据挖掘必须和实际应用领域结合研究才具有生命力。本文中告 警关联分析系统即是将数据挖掘的关联分析方法与电信故障告警分析相结合的 产物。 2 2 关联规则分析 关联规则分析即关联规则挖掘,就是从大量的数据中挖掘出有价值的描述数 据项之间相互联系的挖掘技术,也就是寻找给定数据集中项的有趣联系。关联规 则是形式如下的一种规则:在购买面包和黄油的顾客中,有9 0 的人同时也买了 牛奶( 面包+ 黄油专牛奶) 。自从此概念提出( 1 9 9 3 年由a g r a w a l 等人提出) ,便 受到业界人士的广泛关注。本节对关联规则挖掘作一简要介绍。 9 北京邮r 乜人学颈 :学位论文关联分析i 中问件技术自:网管系统中的盹用 2 2 1 基本概念 用于关联规则挖掘的主要对象是事务型数据库( t r a n s a c t i o n a ld a t a b a s e ) ,一 个事务一般由如下两个部分组成:事务标识符( 1 r i d ) ,事务中包含的项目集。 设,一 j ,f :一。,) 是事务数据库中全部项的集合,f r 称为项目 ( i t e m ) 。 事务数据库记作d 一 瓦,疋,瓦,瓦 ,其中瓦 - 1 , 2 ,席) 称为事务 ( t r a n s a c t i o n s ) ,瓦- i l ,o ,i r ,i p 。 如果a 是一个项集( i t e m s e t ) ,a t ,我们说事务丁包含项集a 。 关联规则是形如a b 的逻辑蕴涵式,其中a c l ,b c ,并且a n 口一垂。 设s 是事务数据库d 中包含a 的百分比,那么我们说项集a 的支持度为5 , 即s u p p o r t 似) is p 口) 。相同地,s u p p o r t 似b ) m s - p ( a u b ) 表示d 中包含 爿u 口的事务的比例为s 。 规则a ;b 在事务数据库d 中具有置信度c ,是如果d 中包含a 的事务同时 也包含口的百分比是c ,此为条件概率,即 c o n f i d e n c e ( a b ) i c p ( b i a ) - 篙。 同时满足最小支持度( m i ns u p ) 和最小置信度( m i n _ c o n f ) 的规则称为强 规则,人们一般只对这些强规则感兴趣,因此挖掘规则时,需要给定这两个阈值。 如果项目集a 中有k 个项目,称a 长度或大小为k ,此时项目集a 又可记作 k 项集。如:集合 芦d a r m c ,a l a r m d 是一个2 项集。 项集的出现频率是包含项集的事务数,简称为项集的出现频率。若项集的出 现频率大于或等于最小支持度m i ns u p 与d 中事务总数的乘积,则说项集满足最 小支持度m i n _ s u p 。如果项集满足m i n _ s u p ,则称它为频繁项集( f r e q u e n ti t e m s e t ) 。 频繁k 项集的集合通常记作t 。 2 2 2 关联规则挖掘的步骤 一般地,给定一个事务数据库,关联规则的挖掘可以划分为两个子问题: 1 ) 发现所有频繁项集:根据定义,这些项集的频繁性至少和预定义的最小支持 计数一样。发现所有频繁项集是形成关联规则的基础。对某一频繁项集,若 其所有超集的支持度都大于最小支持度闽值,则称该项集为最大频繁项集p j 。 2 ) 由频繁项集产生强关联规则:根据定义,这些规则必须同时满足最小支持度 和最小置信度。 1 0 北京邮f h 大学硕士学位论文关联分析与中间件技术在同管系统中的应用 这两步中,第二步相对容易,且改进余地不大,故关联规则挖掘的总体性能 由第一步决定,它是近年来算法研究的重点。 2 2 3 经典的发现频繁项目集算法- p r i o r i 算法 1 9 9 3 年,a g r a w a l 等人在提出关联规则概念的同时,给出了相应的挖掘算法 a i s ,但性能较羞。1 9 9 4 年,他们建立了项目集格空阃理论l 卅( 频繁项集的所有 非空
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年度买手房产定金合同模板
- 加油站员工劳动合同书(2025年度)及员工福利保障协议
- 2025年度男方婚内忠诚行为规范合同范本
- 2025年度西式烹饪师雇佣合同范本
- 二零二五年度劳动合同终止纠纷调解协议书
- 二零二五年度武汉租赁房屋租赁合同纠纷调解与和解合同
- 2025年度村级林业巡护村级护林员职责合同
- 二零二五年度旅游度假区合作意向书合同范本
- 软件定义网络研究-第1篇-深度研究
- 自动驾驶车辆控制策略-深度研究
- 2024年全国英语竞赛《B类英语专业》初赛试题真题及答案
- 穴位埋线治疗
- 2025年中考英语阅读训练:热点-电影《哪吒》(含答案)
- 2025年中考英语时文阅读 6篇有关电影哪吒2和 DeepSeek的英语阅读(含答案)
- 客户沟通技巧与客户投诉处理培训课件
- 【课件】进出口货物报关单填制
- 2024-2030年中国菊粉行业发展状况及竞争力研究报告
- (2024)河南省公务员考试《行测》真题及答案解析
- 中央纪委国家监委机关直属单位招聘工作人员笔试真题2023
- 临床超声引导下中等长度导管置管临床实践
- 初中女生性教育课件
评论
0/150
提交评论