版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
0引言在“大数据”时代背景下,网络用户数量正在逐年增加,再加上全球化的发展,数据资源呈现高度的信息化,信息资源与日俱增,2019年2月CNNIC发布的第43次《中国互联网络发展状况统计报告》显示,截至2018年12月,我国互联网普及率为59.6%,网民数量达8.29亿,网络社会规模高居世界第一。而随着黑客工具的逐渐泛滥,黑客门槛逐渐降低,大多数的信息资源不能得到很好的保护,导致用户信息泄露,网络信息安全面临更加严峻的考验。据测算,2014年前11个月,360网站安全检测平台共扫描各类网站164.2万个,其中存在安全漏洞的网站有61.7万个,占扫描网站总数的37.6%;存在高危安全漏洞的网站有27.9万个,占扫描网站总数的17.0%。入侵检测系统(IntrusionDetectionSystem,IDS)的引入是解决网络安全问题的可行方法之一,它是一种积极主动的实时安全防护技术,能够有效弥补防火墙的不足。与防火墙和其他安全措施相比,入侵检测系统提供了更主动、更实时和更完善的安全保护。网络行为异常检测是入侵检测系统中的一个重要环节,它能实时跟踪关键网络特性(如流量、带宽使用和协议使用等),如果监测到有不寻常事件或趋势就会生成警报。网络行为数据的特点是数据量大、维数高(网络行为性质种类多)、样本容量小(异常数据仅占收集到的信息的一小部分),需要及时有效的处理和分析,使得网络行为异常检测成为一项非常困难的任务。支持向量机(SupportVectorMachine,SVM)是一种基于统计学习理论的机器学习方法,它将最大区间原理和核函数理论相结合,有效地解决了小样本、高维数、非线性、超学习、局部最优解等问题。它于1995年由文献[4]正式发表,由于在文本分类任务中显示出卓越性能,很快成为机器学习的主流技术,并且直接掀起了“统计学习”在2000年前后的高潮。针对各式各样的需求,SVM这个强大的机器学习算法被应用于各种不同的背景中,将SVM应用于网络行为异常的高效性和准确性也已经得到许多研究者的认可。如文献[6]中,作者将一种聚类的SVM应用在入侵检测背景下,提出了一种将聚类算法与SVM相结合的方法来提高入侵检测系统的识别精度和识别率。文献[7]也将SVM和网络入侵检测结合在一起,提出了一种基于自适应混沌粒子群优化SVM参数算法的入侵检测模型。通过分析参数对SVM模型的重要性,提出一种基于ICPSO-SVM的入侵检测模型。然而对于涉及大量样本和极其高维特征的大规模问题,现有的一些SVM算法仍然具有挑战性,如何提高效率,使得SVM算法能适用于大规模数据一直是研究重点。而稀疏支持向量机(Sparse-SupportVectorMachine,S-SVM)在面对着海量高维数据的计算中,利用其特有的稀疏性,能起到更加高效的作用。S-SVM在面对着海量高维数据的计算中,利用其特有的稀疏性,能起到更加高效的作用。它是一种强大的数据分类技术,通过引入一种特殊的稀疏正则化约束模型,在选择数据特征的同时,对模型进行了研究,在预测中不仅具有较高的精度,而且具有良好的稀疏性。在对网络行为异常进行检测时,很多算法在面对大规模的网络行为数据时,由于存储限制和维数灾难,很难进行有效检测,本文主要针对这一问题,引入列生成和约束生成的方法求解S-SVM模型,检测网络异常行为。并用HTTPDATASETCSIC2010数据集来评估此算法的可行性和准确性。1基于列和约束生成的稀疏支持向量机本文通过将列生成算法和约束生成算法结合起来求解稀疏支持向量机,来解决大规模网络行为异常检测问题。首先基于稀疏支持向量机建立本文网络行为异常检测算法的模型为式。(1)混合的列生成和约束生成算法的思想是希望降低高维海量网络行为异常检测问题的规模,即将原问题公式(1)限制到一个规模更小的限制问题即公式(2)中。原问题式中网络行为数据样本数量被定义为,数据特征数量被定义为,那么这个限制问题中的网络行为数据样本数量为,数据特征数量为。(2)为了方便计算,同样将此限制问题转换成对偶问题。(3)将求得的最优对偶变量定义为,当前最优特征权重定义为。首先基于约束生成算法的原理,对网络行为数据样本进行添加,即通过公式(4)用当前最优特征权重求出未被当前限制问题公式(2)训练过的网络行为数据样本的检测数,来判断此网络行为数据样本能否添加到限制问题中。
(4)在未被当前限制问题训练过的网络行为数据样本中找到个满足的网络行为数据样本,将这些数据样本添加到限制问题中,更新限制问题。再基于列生成算法的原理,对网络行为数据特征进行添加,即通过公式(5),求非基变量的检验数,来寻找可以添加到基变量中的和它对应的特征向量。(5)找到个满足的和它对应的特征向量,将这些和它对应的特征向量分别添加到基变量和限制问题公式(2)中,更新基变量和限制问题,再求解新的限制问题的对偶问题,循环添加未在当前限制问题中的网络行为数据的样本和特征。直到没有可添加的数据特征时,判断用当前最优特征权重求出未被当前限制问题训练过的网络行为数据样本的检测数是否满足,如果仍然有满足的数据样本,则再添加个到限制问题中,,如果没有满足的数据样本,则结束循环。当前最优特征权重,就是本节大规模网络行为异常检测问题模型中最优特征权重。2实验结果分析HTTPDATASETCSIC2010数据集是由西班牙研究委员会(SpanishNationalResearchCouncil,CSIC)信息安全研究所制作的,它是一个专门针对网站应用程序防火墙的测试集。数据集是自动生成的,包含36,000个正常请求和25,000多个异常请求,其中,异常的请求包括资料隐码攻击(SQLinjection)、缓冲区溢出(bufferoverflow)、信息收集(informationgathering)、文件公开(filesdisclosure)、CRLF注入漏洞(HTTP响应拆分漏洞)、跨站脚本攻击(CrossSiteScripting,XSS)、服务端包含注入(ServerSideIncludes,SSI)、参数篡改(parametertampering)等攻击。经过预处理后,它是一个61065×33550的矩阵。随机从61065个样本中抽取3000个样本来对本文中介绍的基于列和约束生成算法求解的稀疏支持向量机(NLPL-S-SVM)进行实验。同样用此3000个样本的数据集对基于随机梯度下降算法求解的稀疏支持向量机(PGD-S-SVM)进行训练,并且将训练得到的评估性能进行对比,如图1所示。图1 NSPL-S-VM算法和PGD-S-SVM算法检测性能对比从图中可以看出,本文的NSPL-S-SVM算法在数据特征数量远大于样本数量的数据集上测试的准确率和检测率都比PGD-S-SVM算法测试的值高。但是NSPL-S-SVM算法将正常网络行为判定为异常网络行为的概率,即错误率比用PGD-S-SVM高。3结语在海量高维的网络行为数据中,为了更有效地检测异常行为,本文针对大规模的网络行为数据提出了基于列和约束生成求解的稀疏支持向量机。实验结果表明,本文所提方法提高了网络行为异常
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 莲藕交易合同范本
- 酒店住房合同范本
- 《针刀配合腰背肌功能锻炼治疗产后腰椎棘间韧带劳损的临床观察》
- 《知乎问答社区中主流媒体的公众沟通研究》
- 2024年圆通快递收寄禁限物品合同
- 《高速逆流分离泵结构设计与其密封性能研究》
- 《注射用头孢西丁钠及盐酸四环素有关物质HPLC分析方法影响因素研究》
- 《《技术驱动的闪电拓张》口译实践报告》
- 丽水缙云县部分机关事业单位招聘笔试真题2023
- 二零二四年度城乡畜牧饲养物流承包合同
- 川芎茶调颗粒的安全性评价研究
- 中国食物成分表2018年(标准版)第6版
- 2024年江西省财投供应链金融有限公司招聘笔试参考题库附带答案详解
- 2024年政府工作报告基础知识试题及答案(100题)
- JTG F80-1-2004 公路工程质量检验评定标准 第一册 土建工程
- 2023-2024苏教版小学五年级数学上册全册测评试卷(含答案)
- 小学英语就业能力展示
- 中医-艾灸治疼痛
- “安全风险分级管控”工作制度(2篇)
- 新能源汽车技术职业生涯规划
- 《艾滋病毒》课件
评论
0/150
提交评论