已阅读5页,还剩68页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一 i)j。 。t冀司:i-,:j 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 一主整刍药 日期:兰! ! :垄:! 垒 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 本人签名:丝塑兰翌日期:丝堕兰:! 鱼 导师签名:不7 l 一日期:乒呼幺乒止 1 i t 电信安全评估中聚类分析算法的分析与设计 摘要 随着电信网络和计算机网络的不断发展,网络安全技术己成为网 络技术发展的一个热点。电信网安全评估可使运营商能够判断其网络 产品和系统相对于自己的应用来说是否足够安全,其中隐含的安全风 险是否可以接受。另外,有关管理部门为了保证国家信息基础设施的 安全性,也要求对各种网络产品或系统进行安全评估,以确定其安全 可靠程度。所以,对网络产品或系统进行安全评估很有必要,对网络 发展也将具有重要意义。 聚类分析算法( c l u s t e r i n ga n a l y s i sa l g o r i t h m ) 是数据挖掘的一 个主要研究方向,目前其研究已深入到数据库、数据挖掘、统计,电 信,银行、商业等领域并取得了很大的成就。 本文围绕着k - m e a n s 聚类算法在电信网络安全评估下的应用进 行讨论,详细介绍了电信网络及其评估的相关安全技术,针对其特点 分析聚类算法并进行了改进。通过示例的电信安全评估平台介绍如何 应用聚类算法进行处理。归纳一下,本文主要做了以下一些工作: 1 ) 对电信网及其安全现状情况进行了综述,对电信网络安全评 估原理,方法和步骤进行了进一步的研究,给出了一种适用于电信运 营企业的电信安全评估系统。 2 ) 对几种主要的聚类算法进行了比较,对其在电信安全评估中 的应用进行了分析,并针对电信网的特点,对原有系统进行了改进。 3 ) 针对k m e a n s 的初始k 值参数取值问题,提出一个解决方案, 对算法的改进主要从聚类初始中心点的优选和算法本身性能改进方 面着手。 4 ) 对改进后的电信安全评估系统进行了研究,测试与比较,发 现改进后的电信安全评估系统可以对评估过程中的异常安全行为或 特征未知的行为做出准确、迅速的检测,可以对电信安全评估工作进 行有效的分析与处理。 本文的目的是在对电信运营企业的网络与服务进行安全加固的 过程中,提出一些趋势预测及分析。研究和运用数据挖掘的算法加强 网络及服务的安全性。通过分析数据和所发生网络事件之间的内在联 系,帮助网络管理员预测下一个时段可能出现的网络安全问题,可以 提早预防和及时应对。也可将安全信息汇总到网络管理中心,对提高 网络管理效率,减少网络管理的代价有很好的帮助。 本文的最后对未来的发展前景进行了展望。目前在许多企业的i t 系统中,网络安全的工作才刚刚开始,所以网络安全技术的应用的空 间和潜力很大。 关键词:聚类算法电信网安全评估数据挖掘 j 1 a c c e p t a b l eo rn o t i na d d i t i o n ,i no r d e rt o e n s u r et h es e c u r i t yo fn a t i o n a l i n f o r m a t i o ni n f r a s t r u c t u r et h er e l e v a n ta d m i n i s t r a t i v ed e p a r t m e n t sa l s o c a l l sf o rs e c u r i t ye v a l u a t i o no fp r o d u c t sa n ds y s t e m st od e t e r m i n et h e i r s a f e t ya n dr e l i a b i l i t y t h e r e f o r e ,i ti sn e c e s s a r yt od os e c u r i t ye v a l u a t i o n f o rt h en e t w o r kp r o d u c ta n ds y s t e m ,a n di tw i l l a l s ob eo fg r e a t s i g n i f i c a n c ef o rn e t w o r kd e v e l o p m e n t c l u s t e r i n ga l g o r i t h mi so n eo ft h em a i nr e s e a r c hd i r e c t i o n si nd a t a m i n i n g a tp r e s e n t ,t h er e s e a r c hh a sb e e nd e e pi n t ot h ed a t a b a s e ,d a t a m i n i n g ,s t a t i s t i c s ,t e l e c o m m u n i c a t i o n s ,b a n k i n g ,b u s i n e s sa n do t h e ra r e a s a n dh a sm a d eg r e a ta c h i e v e m e n t s t h i sa r t i c l ew i l lf o c u so nk - m e a n sa l g o r i t h mt om a k ead e e p l y d i s c u s s i o n t h i sa r t i c l ef i r s t l yd i s c u s s e dt h ep r i n c i p l eo ft e l e c o mn e t w o r k s e c u r i t ye v a l u a t i o n ,r e l a t e dt e c h n o l o g i e sa n db a s e do nt h i sc h a r a c t e r i s t i c t oi m p r o v ek m e a n sa l g o r i t h m t os u m m a r i z e ,t h i sp a p e rh a sd o n es o m e w o r ka sf o l l o w i n g : 1 ) i n t r o d u c et h es t a t u so ft e l e c o m m u n i c a t i o nn e t w o r k sa n dt h e i rs e c u r i t y r e v i e w , a n dt a k ear e s e a r c ho nt h et e l e c o mn e t w o r ks e c u r i t ya s s e s s m e n t p r i n c i p l e s ,m e t h o d sa n ds t e p sf o rf u r t h e rs t u d y 2 ) t h ek e yt e c h n o l o g y o fd a t am i n i n ga sw e l la st h e a l g o r i t h mi s e x c a v a t e dd e e p l y i na l l u s i o nt ot h ea p p l i c a t i o no fi t ss a f e t ya s s e s s m e n ti n t e l e c o m m u n i c a t i o n s t e l e c o m m u n i c a t i o n sn e t w o r kc h a r a c t e r i s t i c sa n d t h eo r i g i n a ls y s t e mw a si m p r o v e d i i i h e l p f u lt oi m p r o v en e t w o r km a n a g e m e n te f f i c i e n c ya n dr e d u c ec o s to f n e t w o r km a n a g e m e n t a tt h ee n dt h i sa r t i c l ed e s c r i b et h ef u t u r ed e v e l o p m e n tp r o s p e c t c u r r e n t l y , i nm a n yc o m p a n i e so fi ts y s t e m s ,n e t w o r ks e c u r i t yw o r kh a s o n l yj u s tb e g u n ,s ot h ea p p l i c a t i o no fn e t w o r ks e c u r i t yt e c h n o l o g yw i l lb e d e v e l o p e dg r e a t l y k e yw o r d s :c l u s t e r i n ga l g o r i t h m ,t e l e c o m n e t w o r k ,s e c u r i t y e v a l u a t i o n ,d a t am i n i n g i v 第一章引言 1 1 知识 1 1 1 1 1 1 1 1 1 2 本文 1 3 本文 1 4 本章小结l l 第二章电信安全评估技术的研究1 2 2 1 电信网络安全概述1 2 2 2 电信网络安全评估原理1 4 眵 2 3 电信网络安全评估方法1 5 2 3 1 静态评估方法1 6 2 3 2 动态评估方法1 7 2 4 电信网安全评估技术的步骤1 8 2 4 1 资产识别1 9 2 4 2 威胁识别2 0 7 2 4 3 脆弱性识别2 0 2 4 4 已有安全措施的确认2 0 2 5 电信网安全评估指标2 1 2 6 本章小结2 2 第三章电信安全评估系统分析与设计2 3 3 1 电信安全评估系统介绍2 3 3 1 1 系统功能模块2 3 3 1 2 系统体系结构2 5 3 2 电信安全评估系统层次结构分析2 6 3 2 1 脆弱性评估层面2 6 3 2 2 威胁评估层面2 9 3 2 3 风险评估层面3 0 3 3 本章小结3 1 第四章电信安全评估系统中聚类分析算法的分析3 2 4 1 电信安全评估系统改进方法3 2 4 2 聚类算法在电信安全评估系统中的应用3 3 4 2 1 聚类分析基础3 3 4 。2 2 聚类算法分析与比较3 5 4 2 3k - m e a n s 算法描述3 9 4 2 4 电信安全评估系统中k - m e a n s 算法的改进4 0 4 3 聚类分析算法应用实验4 3 4 3 1 数据准备4 3 4 3 2 实验及结果分析4 4 4 4 本章小结4 7 第五章电信安全评估中聚类分析算法的设计与实验4 8 5 1 电信安全评估中聚类分析算法的设计4 8 5 1 1 改进的系统整体框图设计4 8 5 1 2 应用原理及流程4 9 5 1 3 改进后脆弱性评估示例5 1 5 2 电信安全评估系统中聚类分析算法实验5 2 5 2 1 实验环境5 2 5 2 2 实验数据选择5 3 5 2 3 实验结果及分析5 4 5 3 本章小结5 7 第六章结论与展望5 8 6 1 结论5 8 6 2 展望5 9 参考文献6 0 致谢6 3 攻读硕士学位期间发表的论文6 4 i l 北京邮电大学硕i :研究生学位论文 电信安伞评估中聚类分析算法的分析勺设计 第一章引言 随着计算机网络的不断发展,全球信息化已成为以后发展的大趋势。但由于 计算机网络具有连接形式的多样性、终端分布不均匀性和网络的开放性、互联性 等特征,致使网络易受黑客、恶意软件和其他不轨的攻击,所以网上信息的安全 和保密是一个至关重要的问题。无论是在局域网还是在广域网中,都存在着自然 和人为等诸多因素的脆弱性和潜在威胁。网络的安全措施应是能全方位地针对各 种不同的威胁和脆弱性,这样才能确保网络信息的保密性、完整性和可用性。要 解决计算机网络的信息安全问题,制定安全策略,或是购买安全产品,必须要了 解正在使用的计算机网络系统目前究竟存在哪些安全隐患。作为网络信息安全策 略的重要组成部分,网络安全的定性和定量评估在安全体系中的作用和重要性已 经逐步为人们所认识。越来越多的用户希望对自己所用或将要用的网络产品或系 统的安全性具有清晰的认识,但大多缺乏相关的知识、专家经验和资源,无法判 定自己对网络产品或系统安全性的置信度是否适当,而又不想在这方面完全依赖 系统或产品的开发者,因此希望由第三方帮助分析其网络系统或产品的安全性, 即进行安全评估。 评估可使用户能够判断其网络产品和系统相对于自己的应用来说是否足够 安全,其中隐含的安全风险是否可以接受。另外,有关管理部门为了保证国家信 息基础设施的安全性,也要求对各种网络产品或系统进行安全评估,以确定其安 全可靠程度。计算机网络的安全性,是指计算机网络始终处于不危及人的生命、 财产和自然环境的安全的性质。所以,对网络产品或系统进行安全评估很有必要, 对网络发展也将具有重要意义。 目前,国内的电信市场主要由中国电信、中国移动、中国联通以及中国网通 等拥有电信业务经营权的运营商共同经营,他们主要从事基础网络的建设和基本 业务经营,同时纷纷对以数据业务为代表的新业务、电信增值业务投人了大量的 人力和物力在这些领域展歼角逐。随着w t o 的签订、国外运营商的逐步进入, 电信政策将越来越宽松,中国电信业的格局将发生急剧的变化。在这种剧烈的变 化下,谁为用户提供了更安全、快捷的服务,谁就将在巨大的中国电信市场抓住 先机、快速壮大。在这过程中,一个不容忽视的问题是:电信网络的安全。 北京邮i 乜人学硕i 二研究生学位论文电信安伞评估中聚类分析算法的分析j 设计 1 1 知识背景 1 1 1 电信网络的发展 经过十几年的努力,我国的电信运营网络已经具备了一定规模,融合了各种 数据通信技术,骨干网络和国际出口的带宽不断增加,网络节点遍布全国:可以 向各种用户提供包括卫星通信v s a t 、帧中继f r a m er e l a y ,i n t e r n e t 接入、 i n t e r n e t 信息服务、i p 电话、i p j v p n 、电子商务等等服务。 电信网络从结构上划分,一般可以分3 级节点:骨干节点,如北京、上海、 广州等:一级节点:如各省的主节点:各地市的电信节点。按网络的功能划分,几 乎所有的电信网络都包含以下这些部分:交换网络、信令网、传输网络、数据网 络、智能网络等部分。按不同网络所承担的业务内容来划分,一般又可以分为业 务网络、支撑网络、办公网络等几部分。而构成各级网络的设备及材料也纷繁复 杂,既有国内及国际各大厂商的网络设备,又有各种服务器及存储设备:而各种 设备上所运行的操作系统及数据库,几乎祖盖了目前国际上所有的主流产品一同 时,运行在这些操作系统及数据库上的应用软件,就更是五花八门,令人目不暇 接。 由于电信业务的延续性和交叉性,导致了不同业务网络之间的互相影响,使 得所有的网络构成了一个错综复杂,不可分割的整体。在这加剧网络问题复杂化 的同时,更使得运营商不可能从单一的网络或部分网络末解决信息安全问题。比 如,对于移动业务网络而言,尽管彩信和短信是各自独立的系统,但是,由于它 们的承载网络都是移动运营商的数据通信网( 如中国移动的c m n e t ,g p r s 网络) , 这就必然出现两种不同业务系统之间在信息通道上的连续性。换言之,只要攻击 者从这个大环境中的任何一个环节进人,就会透过数据通信网络在其上的各个业 务系统之间畅游。办公网络看似一个独立的网络,但由于它要接受支撑网络的各 种信息,而支撑网络的相当一部分数据又直接来自业务网络。这实际上已经在某 种程度上构成了办公网络、支撑网络、业务网络之间的一个通道。如果安全问题 得不到有效保障,只要其中任何一个环节出现安全漏洞,攻击行为就会在这些网 络之间畅通无阻。 由于电信企业的业务实时性,数分钟的网络故障就可能给企业带来巨大的经 济损朱。同时,网络故障的产生还影响了电信企业苦心经营的形象。尤其是在竞 争如此激烈的今天,企业形象的损失更意味着长期而巨大的经济损失。因此,电 信网络必须具备高可靠性,整个系统将支持全年9 9 9 9 9 的服务时问和7 x 2 4 小 时的全天候服务,充分利用系统和设备的能力,为客户提供可靠、完善、便捷的 2 北京邮电人学硕一j :研究生学位论文i 乜信安伞评估中聚类分析算法的分析与设计 服务。所以整个网络安全的构架都必须以此为基础,考虑设备的高可靠性,系统 的冗余备份和产品的先进性。 任何一个电信运营商,经历了多年的经营积累之后,都保存有客户资料、网 络运行数据、办公数据等海量的信息,至少都可以达到t b 级别。而且,这些数 据还在以每月t b 级的数量增长。随着各种电信业务的增加,数据的增长速度也 在呈加速度的趋势增加。如此庞大的信息量,而且这些信息的安全又直接影响到 一个电信公司的运营,给安全管理工作带来了更高的要求。 首先,这些资料具有很高的机密性。如果泄漏到竞争对手那里,将对企业的 运营产生诸多不利的影响,可能在你不知不觉中,你的竞争对手已经把你的重要 客户争取过去了。而且,这些数据的泄密,对于企业形象无疑更是一个重大的打 击。 其次,这些资料对可靠性和可用性的要求也极高。对电信企业数据来说,高 可靠性和高可用性是最基本的要求。企业的重要业务数据都存储在网络中,一旦 丢失或遭到破坏,后果不堪设想。在企业信息系统中,由于数据量大,且常常需 要跨平台操作,数据出错或丢失是难免的。同时,由于网络上存在的各种不安全 因素,包括企业自身管理不善、网络或系统设计不科学、一些别有用心的人也会 利用各种网络漏洞入侵,因此,建立一套行之有效的数据保护方案就显得尤为重 要。 目前的网络能力和安全保障基本满足了国民经济发展和信息化建设的需要, 但网络安全是相对的,网络开放互连、设备引进、新技术引入、自然灾害和敌对 势力的存在等造成了网络的脆弱性。随着国民经济信息化的全面推进,未来的形 势将对电信网络安全提出更高的要求。 1 1 2 电信网络安全现状 由于各电信运营商成立的历史不长,基本上刚刚经历大规模的网络建设阶 段,还没来得及在网络安全方面投人更多的时间和精力。因此,对于网络安全如 何建设,如何运行维护,还没有成熟的管理模式。 纵观各电信运营商目前在安全方面的作法,基本上还停留在“头痛医头,脚 痛医脚的阶段。往往只能在局部解决问题,或者先解决防病毒问题,或者是在 关键的网络界面上安装几台防火墙,或者在一些关键的服务器上安装人侵检测设 备。这种作法,一方面与电信企业没有一个贯彻整个企业的安全管理机构有关, 另一方面,也与安全管理人员的知识面及管理能力有关。因此,只能在小范围内 解决问题,或者说,只能在短时间内解决问题。 由于企业自身没有一整套的安全管理方案,因此,目前的安全建设往往依赖 3 _ t 北京邮电人学硕l :研究生学位论文 电信安伞评估中聚类分析算法的分析j 设计 各安全厂商。而安全厂商由于受规模和积累的限制,对如何开展大型电信企业的 安全建设及管理的见解也参差不齐,而且往往因为自身利益的驱动,会根据自身 的需要来宣传安全理论。于是,目前国内在网络安全的市场上,各种管理理论和 技术手段的建设也是“百花齐放,百家争鸣 。而实质上,每一家的理论往往具 有一定的片面性。如果把这些理论应用于电信企业中来,短时间内可能看不出其 弊端,但经历了l ,2 年的建设及管理之后,往往这些“带有小家子气 的安全 解决方案,就会把一个企业的安全牢牢地限定在一个小圈子里,让你欲罢不能。 在这种情况下,由于网络安全建设所涉及的都是一个企业最敏感的机密信息,你 无法擅自更换一个安全公司,因为这将意味着你的机密信息将在更大的范围内扩 散,为自己增加了许多潜在的安全威胁。但你又无法让这家公司继续为你做下去, 因为他确实没有太高深的理论和实践,无法胜任你公司业务的发展。 目f j f 我国电信网网络安全主要存在以下问题: 1 ) 立法进程和安全意识的滞后与电信网的发展不相适应; 2 ) 新技术引入带来的安全挑战; 3 ) 标准的缺位和标准制定周期过长; 4 ) 网络安全相关的行业监管以及企业运行维护管理的力度需进一步增强; 5 ) 应急通信保障体系有待进一步完善。 通过分析可以看出,影响我国电信网网络安全的主要因素包括: 1 ) 开放互连; 2 ) 新技术引入; 3 ) 管理; 4 ) 引进设备; 5 ) 标准; 6 ) 电磁泄露、电磁干扰; 7 ) 突发事件。 1 1 3 数据挖掘中的基本技术 由于网络技术、数据库技术、硬件实现技术的进步,使得大量信息能够置于 计算机中进行高效检索和查询。w e b 技术的出现促进了利用超文本格式将文字、 图像等信息汇于一体,丰富了信息资源,增强了信息产生和数据搜集能力。因此, 成千上万的数掘库应用于商业管理、行政办公、科学研究和工程开发,而系统存 储的海量历史数据又引发了新问题。因此从数据库中发现知识k d d ( k n o l l e d g e d i s c o v e r yi nd a t a b a s e ) 的核心技术一数据挖掘d m ( d a t am i n i n g ) 应运而生。 数据挖掘是源于大型零售商面对决策支撑问题而提出的,是从大量的、不 4 北京邮电大学硕l 研究生学位论文电信安全评估中聚类分析算法的分析与设计 完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知 道的、但又是潜在有用的信息和知识的过程。数据挖掘的任务主要是关联分析、 聚类分析、分类、预测、时序模式和偏差分析等。 通过数据挖掘所能发现的知识,可分为如下几种: ( 1 ) 广义型知识:反映同类事物共同性质的知识; ( 2 ) 特征型知识:反映事物各方面的特征知识; ( 3 ) 差异型知识:反映不同事物之间属性差别的知识; ( 4 ) 关联型知识:反映事物之间依赖或关联的知识; ( 5 ) 预测型知识:根据历史的和当前的数据推测未来数据; ( 6 ) 偏离型知识:揭示事物偏离常规的异常现象。 目前数据挖掘己成为信息安全领域的一项重要应用。数据挖掘技术实质上是 模式发现算法。诸如关联规则的一些技术对数据挖掘来说是独有的,但大部分来 自于机器学习或模式识别这样的相关领域。这里,我们将介绍四种众所周知的数 据挖掘技术,它们已经被广泛应用于网络,电信,金融及入侵检测中。 为了具体化,我们通过挖掘一个单独的关系数据库表来阐述数据挖掘技术。 表中的列被称为属性或者特性,行被称为记录。属性是让人们能够理解列的标识 符,记录是真j 下的数据库实体。例如,知道了属性“源端口 、“源地址 、 “报警号和“时间”,我们就可以将表1 - 1 中的记录解释为入侵检测报警信息。 最后,根据数据库中的记录r 和一个属性a ,我们用r a 来表示属性a 在r 上的 投影。例如,设:r = ( 1 2 3 4 ,1 7 2 1 6 2 2 3 ,8 0 ,1 7 2 3 0 1 0 0 1 0 ,9 0 ,1 8 :2 0 :1 8 ) 是表 1 - 1 中的第一个记录,a = t i m e ,那么,我们得出r a = 1 8 :2 0 :1 8 。 ( 1 ) 关联规则:关联规则是对属性值之间的本质的刻划,可以用如下数学模型 来描述晗。 设a 为属性集,i 为a 上的一组值集,称为数据项( i t e m ) i 的子集称为数 据项目集( i t e m s e t ) ,简称为项目集。项目集中的数据项个数为项目集的长度。 事务集( 即审计记录数据库) d = t 1 ,t 2 ,t n 是关于t i 的集合,其中每一个事 务t i 都是i 中的一组数据项集合,表示由属性集表示的审计记录。t i 有一个唯 一标识符t i d i 。若项目集x l _ i 且x 生t ,则称审计记录t 包含项目集x 。一条关 联规则就是形如x = y 的蕴涵式,其中x 生i ,y 生i ,xny = m 。称x 为前提, y 为结果。事务集d 中的关联规则x = y 是由支持度( s u p p o r t ) 和置信度 ( c o n f i d e n c e ) 约束的。置信度表示规则的强度,支持度表示在规则中出现的频度。 项目集x 的支持度s u p p o r t ( x ) 是d 中包含x 的事务数量与d 的总事务数量之比。 但为便于下文叙述,项目集x 的支持度用数据库d 中包含x 的数量来表示,且约 定项目集中的数据项都是按顺序排列的。 5 北京i i $ , t 1 人学硕l :研究生学位论文电信安全评估中聚类分析算法的分析0 设计 表1 - 1 数据库表格样例 s o u r c e p s o u r c e l pd e s td e s t l pa i a l m t i m e 0 r tp o r tn o 1 2 3 41 7 2 1 6 2 2 38 01 7 2 3 0 1 0 0 1 09 01 8 :2 0 :1 8 1 6 3 11 7 2 1 6 2 2 28 01 7 2 3 0 1 0 0 1 04 7 1 8 :1 8 :2 0 1 9 3 21 7 2 1 6 2 2 12 31 7 2 2 3 1 0 1 0 0 1 3 1 8 :2 0 :2 1 7 7 7 71 7 2 2 2 1 6 38 01 7 2 3 0 1 0 0 1 09 018 :2 0 :2 7 3 2 8 41 7 2 1 6 2 2 38 01 7 2 3 0 1 0 0 1 09 0 1 8 :2 0 :3 1 6 2 6 91 7 2 1 6 2 2 28 01 7 2 3 0 1 0 0 1 04 71 8 :2 0 :3 1 7 2 3 01 7 2 1 6 2 2 12 71 7 2 2 3 1 0 1 0 01 31 8 :2 0 :3 2 规则x = y 的支持度s u p p o r t ( x = y ) 定义为:在d 中包含x u y 的事务所占比 例,表示同时包含x 和y 的事务数量与d 的总事务量之比。 规则x = y 的置信度c o n f i d e n c e ( x = y ) 定义为:在d 中,y 在包含x 的事务 中所占的比例,表示包含x 的事务中有多大的可能性包含y 。 关联规则可表示为如下形式:x ,y = z , c ,s 。 s u p p o r t ( x u y ) 就是此关联规则的支持度s ,c o n f i d e n c e ( x u y ) 就是此关联规 则的置信度c 。 最小支持度m i n s u p p o r t 表示项目集在统计意义上的最低重要性。最小置信 度m i n c o n f i d e n c e 表示规则的最低可靠性。如果项目集x 满足x s u p p o r t = m i n s u p p o r t ,则称x 为频繁项目集。般由用户给定最小置信度阈值和最小支持 度阈值。置信度和支持度大于相应闭值的规则称为频繁关联规则。因此,形成了 关联规则挖掘问题,即“找出支持度和置信度超过用户指定最小值的所有关联规 则”。例如,假定用户给定的最小支持度为0 4 和最小置信度为0 9 5 ,我们可以 计算下面关联规则的支持度和置信度。 ( a l a r m n o = 9 0 ) = ( d e s t l p = 1 7 2 3 0 1 0 0 1 0 八d e s t p o r t = 8 0 ) 从表卜1 中,我们可以看出这条关联规则的支持度是3 7 ( 即表中7 个记 录里有三个满足规则的左手和右手边) ,置信度是1 0 ( 即所有的记录都满足规则 的左右手边) 。显然,这条关联规则满足用户给定的最小支持度和最小置信度的 要求。 ( 2 ) 频繁情节规则:大部分的数据挖掘技术都被用来分析无序的记录集合。 关联规则是这类数据挖掘技术的典型代表。但有时记录的顺序包含了不能忽视的 重要信息。当记录代表诸如入侵检测警报这样的事件时,这是经常出现的情况。 频繁情节规则通过揭示相近的一段时间内记录之间的相关性来考虑记录顺序。很 明显,频繁情节规则只适用于拥有时问属性的数据库记录,因为,如果没有时间 属性,则相近的时间记录没有定义。 不同的数据挖掘著作对频繁情节规则的定义存在着一定的差异口4 l 。所有这 6 北京邮电人学硕十研究生学位论文 电信安伞评估中聚类分析算法的分析与设计 些差异的根源是它们如何描述“频繁同时发生”的记录之间的含义。频繁情节规 则最简单的形式表示为p ,q = r , c ,s ,w ,p ,q ,r 是一个用户定义的可接受的 谓词类中的谓词晴3 。直观来说,这个规则表明了各自满足p 和q 的两个记录,它 们的后面通常还跟有满足r 的第三个记录。参量s ,c 和w 分别称为支持度、置 信度和窗口宽度,它们的含义如下:支持度s 表明一个w 秒的时间窗口中包含满 足p ,q ,r 的三个记录p ,q ,r 的概率。而且考虑到一个w 秒的时间窗口中包含一个 满足p 的p 记录和个满足q 的q 记录:那么,置信度c 表示在相同的时间窗口 中也包含一个满足r 的r 记录的概率。 注意支持度和置信度己经用于关联规则中。但是,它们被重新定义以反应这 种含义的新语义,这里体现的是记录之间的语义关系,而不是关联规则环境中体 现的属性值之间的语义关系。 寻找频繁情节规则的问题与寻找关联规则问题是类似的。具体说,假设三元 组 s ,c ,w ,问题是找出置信度和支持度至少为s 和c 的频繁情节规则。特别的, 这也包含了从用户定义的可接受的谓词类中寻找合适的谓词p ,q ,r 。 例如,若s = o 2 ,c = 0 6 0 ,w = 4 秒,则,表2 - i 中有如下的频繁情节规则: ( 警报类型= 9 0 ) n ( 警报类型= 4 7 ) = ( 警报类型= 13 ) 因为包含警报类型9 0 和4 7 的一个四秒时间窗口也包含了警报类型1 3 ,这 种情况发生的概率可能超出o 6 的置信度,而且,4 秒的时问窗口包含所有三种 警报类型( 9 0 ,4 7 ,1 3 ) 的概率高于0 2 的支持度。此例中确切的支持度和置信度分 别是4 1 8 和4 6 。 ( 3 ) 分类:分类是将数据库中的记录分给一个目标类的预定义集。分类的困 难是数据库中的记录没有清楚的给出目标类,但目标类必须从记录现成的属性值 中得出。实际上,建立分类器比使用它们难得多。因此,大多数关于分类的论文 中只关注如何建立分类器,而且,建立一个分类器通常意味着从样例中“学习 c a 【7 】 o 例如,我们想将表i - i 的警报分为实警和虚警,为了给这个任务建立分类器, 我们遵循一般的练习并使用一个所谓的训练数据集。训练数据集由己经被分为实 警和虚警的警报信息组成。根据训练数据集中的实例,可以通过自动学习构造一 个分类器这个分类器可以预测未来分类标签以及以前未知的数据库记录。很明 显,这样的分类器可以被用来解决将表i - i 中的记录分类。分类器可以用不同的 表示法来存储它们的分类知识。最常用的两种知识表示方法是“如果一那么 规 则和决策树。 “如果一那么规则检查“如果”部分的记录属性,并在“那么部分假定 类标签。一棵决策树是一个类似流动表的树结构,每个节点表示对一个属性值的 7 北京邮电人学硕f :r i f 究生学位论文电信安伞评估中聚类分析算法的分析j 设计 一个测试,每个分支代表一个测试结果,每片叶子表示一个类标签。 ( 4 ) 聚类:聚类是寻找一组数据库记录,使得在一个给定组聚类中的记录 相似,而不同组聚类中的记录不相似聃1 。显然,相似的概念是定义的关键。实 际上,相似性对数值属性的定义来说相对容易,但对诸如i p 地址或端口号这样 的分类属性来说较难解决嘲n 伽1 。 清楚地区分聚类和分类这两个概念是很重要的。在分类中,给出了带标识的 训练记录,我们的任务是学习一个区分规则,这个规则可以根据它们的类成员对 未来记录进行分类。另一方面,聚类不能依靠训练数据,相反,聚类方法将记录 分组是以相似性为基础的,这也称作“无指导的学习”,因为没有老师知道正确 的聚类,而分类是“有指导的学习 。 聚类方法可以粗略的分为分割法和分层法。其区别在于用不同的构造方法去 利用数据。分割法把一个给定的数据集拆分为不相交的部分,其数量是由用户定 义的。分层法将一个数据集分解成一个分层结构序列,分层结构的根是完整的数 据集,叶子节点是单个的数据记录,中间层代表可变的粒度部分。 1 1 4 数据挖掘中的聚类分析算法 聚类是根据数据中发现的描述对象及其关系的信息,将数据对象分组。其目 标是,组内的对象相互之问是相似的( 相关的) ,而不同组中的对象是不同的( 不 相关的) 。组内的相似性( 同质行) 越大,组间差别越大,聚类就约好。聚类与分 类不同,聚类分析的输入数据集是一组未标记的对象,也就是说此时输入的数据 对象还没有进行任何分类,聚类的目的是根据一定的规则,合理地进行分组或聚 类,并用显式或隐式的方法描述不同的类别。由于分析可以采用不同的算法,所 以对于相同的数据集合可能有不同的划分。在机器学习中,聚类是无指导学习的 一个例子,分类是有指导学习的一个例子,两者所采用的方法相差甚远,并且聚 类的时间复杂度要比分类大得多。目前有多种聚类算法,算法的选择取决于数据 的类型和聚类的应用目的。 大体上聚类的算法可以分成下列几类: 1 ) 划分聚类( p a n i t i o n e dc l u s t e r i n g ) l 将给定的数据对象划分成不重叠的 子集( 簇) ; 2 ) 层次聚类( h i e r a r c h i c a lc l u s t e r i n g ) :将给定的数据对象集合进行层次 的分解。根据层次分解的形成方式,又可以分为凝聚的或分裂的层次方法。 3 ) 基于密度的聚类:其主要思想是只要临近区域的( 对象或数据点的数目) 超过某个阀值,就继续聚类。 4 ) 基于网格的聚类:把对象空问量化为有限数目的单元,形成一个网格结构, 8 北京邮电大学硕上研究生学位论文 电信安伞评估中聚类分析算法的分析与设计 所有的聚类操作都在网格结构( 即量化空间) 上进行。 5 ) 基于模型的聚类:为每个簇假定了一个模型,寻找数据对此模型的最佳拟 合。 从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的 统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚 类、有重叠聚类和模糊聚类等。采用k 一均值、k 一中心点等算法的聚类分析工具 已被加入到许多著名的统计分析软件包中,如s p s s 、s a s 等。从机器学习的角度 讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督 学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定 标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示 例式的学习。从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且 聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集 中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法( 如分类和 定性归纳算法) 的预处理步骤。 传统的聚类算法已经比较成功的解决了低维数据的聚类问题。但是由于实际 应用中数据的复杂性,在处理许多问题时,现有的算法经常失效,特别是对于高 维数据和大型数据的情况。因为传统聚类方法在高维数据集中进行聚类时,主要 遇到两个问题。高维数据集中存在大量无关的属性使得在所有维中存在簇的可 能性几乎为零;高维空间中数据较低维空间中数据分布要稀疏,其中数据间距 离几乎相等是普遍现象,而传统聚类方法是基于距离进行聚类的,因此在高维空 间中无法基于距离来构建簇。 高维聚类分析已成为聚类分析的一个重要研究方向。同时高维数据聚类也是 聚类技术的难点。随着技术的进步使得数据收集变得越来越容易,导致数据库规 模越来越大、复杂性越来越高,如各种类型的贸易交易数据、w e b 文档、基因表 达数据等,它们的维度( 属性) 通常可以达到成百上千维,甚至更高。但是,受 “维度效应 的影响,许多在低维数据空间表现良好的聚类方法运用在高维空间 上往往无法获得好的聚类效果。高维数据聚类分析是聚类分析中一个非常活跃的 领域,同时它也是一个具有挑战性的工作。目前,高维数据聚类分析在市场分析、 信息安全、金融、娱乐、反恐等方面都有很广泛的应用。 9 北京邮电人学硕j :研究生学位论文i 乜信安伞评估中聚类分析算法的分析与设计 1 2 本文的研究意义 电信企业作为互联网的依存对象、维护者和运营者,不可避免地受着安全问 题的影响,因而,必然密切关注着网络安全的最新进展,包括层出不穷的网上安 全隐患、最新的攻击手段和网络安全技术的发展。而目前的网络安全问题,集中 体现在非法人侵,拒绝服务攻击,数据驱动型攻击( 如蠕虫,恶意代码,病毒邮 件等) 等方面。通过对最近2 年来攻击事件的分析,网上安全隐患已经超过了上 网速度慢,成为网络用户最关注的问题之一。其中部分的攻击形式,严重危及了 网络自身的运行安全。 网络环境中各种安全相关信息量非常大,而且它们有许多是重叠相关的,大 量数据的无分类状态隐藏了数据的真实结构所以对数据进行聚类分析可以揭示 大量数据中的真实结构,筛选出有意义的数据特征n 2 儿n 】【3 。 数据挖掘是目前学术界研究的热点,它在应用领域取得了巨大的成功。数据 挖掘技术对信息安全领域产生巨大的影响。一方面,数据挖掘技术的兴起对入侵 检测、计算机犯罪取证、网络安全审计、恶意代码邮件检测等领域的研究工作 提供了强有力的支持,数据挖掘技术的发展极大地推动了信息安全领域的研究工 作;另一方面,数据挖掘技术也对信息安全研究人员提出了挑战,主要表现在 数据挖掘对隐私和数据的安全有不利的影响。 聚类分析就是把一个数据集分解或划分成不同的组,使同一组中的点彼此 相似,但与其他组中的点尽可能不同。通过聚类,能够识别密集的和稀疏的区域, 从而发现全局的分布模式,以及数据属性之间的有趣的相互关系。在w e b 数据挖 掘中,通过聚类分析可以把相似浏览模式的用户集合到一起,便于开发和执行 未来的网络信息安全防范策略。 本文的目的是在对电信运营企业的网络与服务进行安全加固的过程中,提出 一些趋势预测及分析。研究和运用数据挖掘的算法加强网络及服务的安全性。通 过分析数据和所发生网络事件之间的内在联系帮助网络管理员预测下一个时段 可能出现的网络安全问题可以提早预防和及时应对。具体来说有两个目的: ( 1 ) 提出一种全面的适用于电信运营企业的电信安全评估系统,使得评估过 程更加容易。 ( 2 ) 改进此评估系统后使得可以将评估结果。自动”处理,可以对评估过程 中的异常安全行为或特征未知的行为做出准确、迅速的检测,可以对电信安全评 估工作进行有效的分析与处理。 1 0 北京邮i 乜火学硕上研究生学位论文电信安伞评估中聚类分析算法的分析j 设计 1 3 本文的组织 评估可使用户能够判断其网络产品和系统相对于自己的应用来说是否足够 安全,其中隐含的安全风险是否可以接受。另外,有关管理部门为了保证国家信 息基础设施的安全性,也要求对各种网络产品或系统进行安全评估,以确定其安 全可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 你信不?性格可决定运气
- 新型数据基础设施发展研究报告-推动全闪存数据中心建设助力数字经济高质量发展
- 吉首大学《国际商务谈判》2021-2022学年第一学期期末试卷
- 吉林艺术学院《字体设计》2021-2022学年第一学期期末试卷
- 吉林艺术学院《文化政策法规》2021-2022学年第一学期期末试卷
- 吉林艺术学院《乐理Ⅱ》2021-2022学年第一学期期末试卷
- 2024年供应商付款优惠协议书模板
- 小型汽车租用协议书范文范本
- 吉林师范大学《音频处理与视频剪辑》2021-2022学年第一学期期末试卷
- 河道洗砂承包协议书范文模板
- GB/T 25840-2010规定电气设备部件(特别是接线端子)允许温升的导则
- GB/T 25146-2010工业设备化学清洗质量验收规范
- GB/T 20934-2007钢拉杆
- GB/T 12239-2008工业阀门金属隔膜阀
- GB/T 10822-2003一般用途织物芯阻燃输送带
- 学生辩论稿 强将手下无弱兵
- 微生物实验室管理培训考核试题含
- 招投标管理培训课件
- 社会责任程序
- SY∕T 7338-2016 石油天然气钻井工程 套管螺纹连接气密封现场检测作业规程
- 静脉治疗管理规范
评论
0/150
提交评论