




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第6章支持向量机在网络安全其他方面的应用6.1支持向量机在病毒程序检测中的应用6.2支持向量机在计算机键盘用户身份验真中的应用6.3支持向量机在垃圾邮件过滤中的应用6.4小结
6.1支持向量机在病毒程序检测中的应用
6.1.1计算机病毒防治概述
随着Internet飞速发展,病毒的发展也出现了以下一些新的苗头[141]:
(1)基于“视窗”的计算机病毒越来越多;
(2)新病毒层出不穷,感染发作有增无减;
(3)网络成为计算机病毒传播的主要媒介;
(4)病毒的破坏性不断增加。常用的方法如下[142]。
1.比较法
比较法是用原始备份与被检测的引导扇区或被检测的文件进行比较。好处是简单、方便,不需专用软件。缺点是无法确认计算机病毒的种类名称,或备份与文件之间的差别不一定是由于病毒引起的,还需要进一步的确认。
2.加总比对法(校验和法)
根据每个程序的档案名称、大小、时间、日期及内容,加总为一个检查码,附于程序的后面或将所有检查码放在同一个数据库中,利用加总对比系统以判断是否感染了病毒。这种技术可侦测到各式的计算机病毒,但最大的缺点是误判高,对于隐形计算机病毒也无法侦测到。
3.特征字串搜索法
用每一种计算机病毒含有的特定字符串对被检测的对象进行扫描,如果在被检测对象内部发现了某一种特定的字节串,就表明发现了该字节串所代表的计算机病毒。目前常见的防杀计算机病毒软件对已知计算机病毒的检测大多采用这种方法。
4.虚拟机查毒法
该技术专门用来对付多态变形计算机病毒。用软件仿真技术成功地仿真CPU执行,在DOS虚拟机下伪执行计算机病毒程序,安全并确实地将其解密,使其显露本来的面目,再加以扫描。
5.实时反病毒技术
该技术为计算机构筑起一道动态、实时的反病毒防线,时刻监视系统当中的病毒活动、系统状况,时刻监视软盘、光盘、因特网、电子邮件上的病毒传染,将病毒阻止在操作系统外部。优秀的反病毒软件由于采用了与操作系统的底层无缝连接技术,实时监视器占用的系统资源较小,用户不仅完全感觉不到对机器性能的影响,而且不用考虑病毒的问题。6.1.2支持向量机理论应用于病毒程序检测的可行性分析
病毒程序检测方法主要应用特征来帮助检测,这些特征包括很多不同的属性(如文件名、内容字符串或字节等),并且多从排除恶意程序所产生的漏洞的角度来获得系统的安全性。但是现实的情况是一个新的病毒程序可能不包括已知的特征。事实上目前每天大约就能产生8到10个病毒,其中大部分是无法检测出来的,除非获得了它们的特征。病毒程序检测的一个关键问题是要使设计出的检测系统能够检测出未知的病毒程序。现有多种用于病毒程序检测的方法,如RIPPER方法[143]、多贝叶斯分类器[144]、神经网络[145]方法,这些方法都需要大量或是完备的程序组成的数据集,并将这些程序分成恶意和普通两种类型,才能达到比较高的检测性能,并且训练时间较长。病毒程序检测的一个关键问题是要使设计出的检测系统能够检测出未知的病毒程序。现有多种用于病毒程序检测的方法,如RIPPER方法[143]、多贝叶斯分类器[144]、神经网络[145]方法,这些方法都需要大量或是完备的程序组成的数据集,并将这些程序分成恶意和普通两种类型,才能达到比较高的检测性能,并且训练时间较长。6.1.3基于支持向量机的病毒程序检测方法
基于支持向量机的恶意程序检测模型主要由程序数据预处理器、支持向量机分类器和决策系统三部分组成,如图6.1.1所示[146]。图6.1.1基于支持向量机的病毒程序检测模型6.1.4病毒程序检测实验和结果分析
在实验中比较了3种常用的核函数:多项式核函数、RBF核函数和两层神经网络核函数,SVM算法的检测结果(对应惩罚因子C=100)如表6.1.1、表6.1.2和表6.1.3所示[146]。表6.1.4给出了支持向量机方法和其他几种典型的方法的结果比较[146]。从表6.1.4可知,基于支持向量机分类器方法的检测率远高于基于特征和RIPPER方法。和多贝叶斯方法比较,在训练样本数相对较少的情况下,支持向量机方法仍然具有较高的分检测率和算法的正确率,同时也具有较低的误报率。6.1.5总结与分析
基于支持向量机的病毒程序检测方法首先根据标定好的包含恶意程序与普通程序的样本集的训练数据来训练支持向量机,得到支持向量机相关参数,再根据测试结果对所选的核进行调整得到最优的学习模型。
6.2支持向量机在计算机键盘
用户身份验真中的应用
6.2.1身份验真概述
随着人们对计算机技术和网络信息资源依赖程度的提高,计算机安全和用户身份认证问题越来越突出了。生物认证是近几年流行的用户身份鉴别技术,并且逐渐得到关注,从最初的指纹识别,到后来的声音、手势、掌纹、虹膜及人脸等的识别。6.2.2支持向量机应用于身份验真的可行性
目前利用键入特性进行身份验真所采用的主要方法有传统统计模式识别的方法、模糊分类算法以及人工神经网络的方法。这些方法的基础是经典的统计理论,而经典的统计理论是基于以下3个假设:
(1)数据集满足某一概率分布,这是根据数据集进行参数估计的基础;
(2)现实生活里大多数问题中数据的随机分量满足正态分布,即联合概率分布是高斯分布;
(3)根据第2个假设,参数估计采用最大似然估计,在大多数应用中简化为最小化损失函数的均方误差。这3个假设在现实生活中很难完全满足[148],因为:
(1)现实生活中的问题大多是高维的,并且如果数据间的函数映射很复杂,随着输入空间独立变量数目的增长,参数估计需要的样本数则呈指数增长,即引起维数灾难;
(2)分类器的设计必须考虑到现实生活中数据的分布不满足正态分布的情况,为这类问题寻找有效的学习算法;
(3)传统方法极易产生过学习现象,推广性差。6.2.3基于支持向量机的计算机键盘用户验真方法
基于支持向量机的计算机键盘用户验真方法首先通过特征提取获得用于分类的特征向量,然后根据获得口令数据将特征向量分为训练数据和测试数据,根据训练数据获得训练好的分类器。使用测试数据对采用支持向量分类器进行键盘用户验真的安全系统进行检验[148]。6.2.4计算机键盘用户验真实验和结果分析
本实验的参与者为10名计算机系在读研究生,从他们中间随机抽出5名参与者作为系统合法用户,其他5名参与者作为系统入侵者。由于字符数过多的口令对识别结果无任何帮助,故合法用户每人以包含自己名字汉语拼音的8个字符作为口令。10名参与者每人输入这5个口令各20次。整个实验在无监督情况下进行,所有参与者在数据获取程序的控制下,每隔6小时进行一次输入,全部数据的输入历时大约10天。对5个合法用户的实验数据利用W检验法对他们各自的口令输入进行正态性检验,结果是每个用户的15维样本均存在不满足正态分布的分量,这充分说明了键入特性识别中的数据是不满足正态分布的,因此传统的基于正态分布的方法无法取得理想的效果。表6.2.1显示了分别利用BP(BackPropagation)、PNN(ProbabilityNeuralNework),RBF(RadialBasisFunction)及LVQ(LearningVectorQuantization)四种传统方法进行键盘用户身份验真的实验结果。表6.2.2显示了SVM采用常用的3种核函数在相应参数下的实验结果,表中的数据是重复实验20次(包括训练集反例的生成及各模型的训练)所取的平均值。表6.2.1和表6.2.2中的键盘用户身份验真方法的性能指标采用合法用户的拒绝率FAR(FalseAlarmRate)和非法用户的通过率IPR(ImpostorPassRate)来衡量。6.2.5总结与分析
基于支持向量机的计算机键盘用户验真方法,利用键入特性进行身份验真,是一种非常有效的方法。在利用基本的支持向量机方法进行键入特性的识别时,因为所需训练样本较少,训练时间瞬间即可完成,所以对用户数目固定和用户数目动态变化的系统来说均适用,因此具有非常广阔的应用前景。
6.3支持向量机在垃圾邮件过滤中的应用
6.3.1垃圾邮件过滤概述
随着互联网的普及,电子邮件以其快捷、方便的优点逐渐发展成为人们工作和生活的重要通信工具之一。然而,随之而来的垃圾邮件问题也日益严峻,它不仅传播有害信息,耗费大量的公共资源,干扰电子邮件通信的正常秩序,而且危害互联网的信息安全,侵害电子邮件用户和企业的合法权益。垃圾邮件(Spam、JunkMail)在国际上没有统一的定义。在《中国互联网协会反垃圾邮件规范》中垃圾邮件被界定为:
(1)收件人事先没有提出要求或者不同意接收的广告、电子刊物以及各种形式的宣传邮件;
(2)收件人无法拒收的电子邮件;
(3)隐藏发件人身份、地址、标题等信息的电子邮件;
(4)含有虚假的信息源、发件人、路由等信息的电子邮件。具体的危害主要表现在以下几个方面:
(1)占用网络带宽,浪费网络资源,干扰邮件系统的正常运行。当有限的网络资源和网络带宽上充斥大量的垃圾邮件时,就降低了网络的使用效率。对邮件服务器而言,收到的垃圾邮件占用了它的磁盘空间,而且,如果垃圾邮件得不到有效控制,用户会放弃邮箱,服务商将被迫终止服务,给企业带来很大的损失。另外,当一些用户利用邮件服务器对外发送垃圾邮件时,该服务器会被列入黑名单而遭外部封杀。因此,邮件服务器既要拒收来自外部的垃圾邮件,还要阻止自己的邮件用户对外发送垃圾邮件。
(2)浪费用户的宝贵时间和上网费用。如果我们每天都要花费一段时间来处理垃圾邮件,工作效率就要降低,对整个社会来说,被浪费的时间更是一大笔宝贵的财富。有关调查显示,2003年网民平均每天需花费6.5分钟来处理无用的邮件,单是下载垃圾邮件所花费的上网费与电话费,全年就要浪费全球网民94亿美元。
(3)对网络安全形成威胁。一些垃圾邮件传播色情、反动等各式各样的有害信息,给社会带来危害。黑客们利用电子邮件系统发送数以万计的垃圾邮件攻击目标,使之瘫痪、拒绝服务。垃圾邮件还可以被病毒利用,成为它们的传播途径。6.3.2支持向量机应用于垃圾邮件过滤的可行性分析
垃圾邮件的过滤问题实质上可以看做是一个分类问题。在1999年Drunker和Vapnik就提出了电子邮件系统的支持向量机模型[149]。后来Brutlag和Meek把线性支持向量机用于邮件分类对其加以改进[150]。当前对于基于支持向量机的邮件过滤研究还处于初步阶段,对于数据量过大的数据集,SVM训练时间过长,并且在邮件的分类过滤中垃圾邮件具有自身的一些特点,如错分合法邮件比错分垃圾邮件要严重很多。为此在2004年Aleksander等人提出了一种考虑特定内容错分代价的SVM邮件过滤算法[151]。但无论怎样,SVM具有其他方法无法比拟的优点,如结构风险最小化、全局唯一解、在非线性和高维模式中也表现出很好效果,是邮件过滤中很有前途的一种方法。
一封邮件是否是垃圾邮件,以及在多大程度上是垃圾邮件,不同的用户有不同的理解。因此,对邮件过滤的处理应被视为不确定信息的处理问题。带有模糊隶属度的模糊支持向量机能够很好地处理垃圾邮件过滤这种不确定信息的处理问题,并且可取得较好的效果。6.3.3基于支持向量机的中文垃圾邮件过滤方法
1.模糊支持向量分类机
模糊支持向量分类机根据不同训练点对分类的贡献不同,赋予不同的隶属度,从而消弱噪声或野点对分类的影响[152]。这样,不再要求每个训练点精确地属于两个类别中的一个,而是以某种可能性属于某一类。此时训练集已在式(2.3.13)所示的训练集的基础上增加了隶属度信息。
(6.3.1)
(6.3.2)
(6.3.3)为了求解上述的二次优化问题,构造Lagrange函数:
(6.3.4)根据Wolfe对偶定义,利用上述的Lagrange函数对
求极小,即:
(6.3.5)
(6.3.6)
(6.3.7)将式(6.3.5)~式(6.3.7)带入式(6.3.4)中,并转化为对偶形式:
(6.3.8)
(6.3.9)
(6.3.10)求解上述二次规划问题可得其最优解a*,则模糊支持向量分类机的决策函数为
(6.3.11)
其中,
(6.3.12)
(6.3.13)
2.中文垃圾过滤系统
基于模糊支持向量机的中文垃圾邮件过滤系统框图如图6.3.1所示[153]。
各部分的主要功能如下。
1)邮件分块
邮件分块是将电子邮件的信头和信体两部分分离开来(有时候仅仅根据信头信息就可以判断一封邮件是否是垃圾邮件),以便于随后分别进行基于信头和信体的过滤。图6.3.1垃圾邮件过滤系统框图
2)中文分词
中文电子邮件不同于英文邮件,每个词条间没有固定的空格分隔符。为了将中文电子邮件向量化,首先需要进行分词,即先根据标点对文档进行粗切分,把文档分解成若干个句子,然后再对这些句子用正向最大匹配法和逆向最大匹配法进行扫描切分,如果两种分词方法得到的匹配结果相同,则认为分词正确,否则按最小交集处理。
3)去停用词
分词处理完成之后,得到一系列文本单词所组成的表列,特征辞典是由表列中的单词所构成的集合。为了缩小文本特征辞典(TermList),提高邮件分类器的训练分类效率,通常需要对辞典进行去停用词处理。
(6.3.14)
5)训练分类器
使用训练邮件,并选择多项式核函数和径向基核函数训练生成FSVM分类机。其中模糊隶属度确定方法使用改进的基于类中心的隶属度函数设计方法:样本对分类所起的作用随着样本远离类别的几何中心而逐渐增大,即将样本到类别几何中心的距离与该类中离类别几何中心最远的样本到类别几何中心的距离的比值定义为隶属度;对于那些离类别几何中心太远的噪声和孤立点,设置一个阈值,当样本与类别几何中心的距离大于阈值时,就赋一个很小的隶属度;阈值根据两类样本几何中心之间的距离和样本的稠密情况决定,通过调整阈值,就可以使支持向量的隶属度较大,而噪声或孤立点的隶属度很小,即在给噪声或孤立点赋小隶属度的同时,保证了支持向量有较大的隶属度,从而使分类精度较高。
6)分类(测试)
新邮件通过FSVM分类机进行分类。FSVM分类机的性能使用如下三个评价指标进行衡量。
(1)召回率(Recall):
(6.3.15)
即垃圾邮件检出率。它反映了过滤系统发现垃圾邮件的能力。召回率越高,“漏网”的垃圾邮件越少。
(2)正确率(Precision):
(6.3.16)
即垃圾邮件检对率。它反映了过滤系统真正“找对”垃圾邮件的能力。正确率越大,将非垃圾邮件误判为垃圾邮件的数量就越少。
(3)F值:
(6.3.17)6.3.4中文垃圾邮件过滤实验和结果分析
采用FSVM进行中文垃圾邮件过滤的实验环境为:CPU2.0GHz,WindowsXPSP2,80GB硬盘,512MB内存。实验所用语料来自于中国教育和科研网紧急响应组(CCERT)于2005年6月公布的电子邮件数据集。实验所采用的电子邮件样本是从中随机抽取的一部分,其中垃圾邮件为2000封,合法邮件为2000封,共计4000封电子邮件样本。实验共进行了10次,每次实验都从数据集中随机抽取同等数量的邮件。训练集共选取邮件2000封,其中垃圾邮件为1000封,合法邮件为1000封。测试集共选取邮件2000封,其中垃圾邮件为1000封,合法邮件为1000封。前5次实验选取多
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 东莞美容院加盟合同范本
- 个人房产与中介合同范本
- 先拿货后付款合同范例
- 2024年吴忠市人民医院自主招聘事业单位工作人员考试真题
- 加盟授权合同范例范例
- 农村空地出售合同范本
- 2024年曲靖六十九医院人才招聘考试真题
- 以资抵债合同范本
- 2024年广州市天河区体育西路小学聘用制专任教师招聘考试真题
- 创意园厂房合同范例
- 2025年企业法务顾问聘用协议范本
- 无菌手术台铺置的细节管理
- 《康复评定技术》课件-第五章 运动控制
- 议论文8(试题+审题+范文+点评+素材)-2025年高考语文写作复习
- 【理特咨询】2024生成式人工智能GenAI在生物医药大健康行业应用进展报告
- 2025新人教版英语七年级下单词默写表(小学部分)
- 2025年春新外研版(三起)英语三年级下册课件 Unit6第1课时Startup
- 2025江苏苏州高新区狮山商务创新区下属国企业招聘9人高频重点提升(共500题)附带答案详解
- 《蒙牛集团实施财务共享过程中存在的问题及优化建议探析》8800字(论文)
- 平抛运动的经典例题
- 录井作业现场风险评估及控制措施
评论
0/150
提交评论