版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1数据加工数据加工是整个建模的第一步,这是因为现实网络流量中充斥着大量的无用干扰信息,且数据参差不齐。攻击者会发现系统中存在的漏洞,并通过各种复杂的编码、转义技术来混淆和躲避web安全检查。整体数据加工流程如图1所示。图1数据加工流程通过数据加工模块对原始数据进行数据解析与加工,将混淆视听的数据转换成真正有价值的数据。数据渗透模块中包含base64处理、HTML转义字符处理、URL解码处理、干扰字符处理、HTML注释处理、特殊操作符处理等操作。Base64内容是数据的一种编码表示,有一定的加密作用,是网络上最常见的用于传输8Bit字节代码的编码方式之一。Base64编码可用于在HTTP环境下传递较长的标识信息,在web攻防中,攻击者使用Base64来将URL中一个较长的标识符编码为一个字符串,用作HTTP表单中的参数,采用Base64编码具有不可读性,即所编码的XSS攻击数据不会直接被安全人员用肉眼所识别。字符转义也称字符实体,在HTML中像“<”和“>”这类符号已经用来表示HTML标签,因此不能直接当作文本中的符号来使用。为了在HTML文本中使用这些符号,就需要定义它的转义字符串,且有些字符在ASCII字符集中没有定义,也需要使用转义字符串来表示。攻击者利用了转义字符的原理,当需要隐蔽自己的攻击意图时会在URL中隐藏HTML标签,用“"”等字符进行HTML的“<”关键符号替代,来迷惑web安全人员。在互联网上传送URL只能采用ASCII字符集,即只能使用英文字母、阿拉伯数字和某些标点符号,如果包含中文等其余字符时,就需要再使用编码。攻击者利用了URL编解码原理,将恶意代码通过URL编码后进行隐蔽混淆,以逃过web安全检索。除了编码转义等混淆手段,攻击者也会在URL中加入干扰字符和注释信息等,起到蒙蔽视听的作用。2特征工程特征工程是把数据加工模块清洗好的规整数据进行加工处理,转换为机器模型可识别的向量化指标数据。特征工程作为衔接数据加工和算法模型的中间桥梁,是整个算法建模流程的重中之重,好的特征工程能够有效提炼出正常样本和恶意样本的差异所在,帮助机器学习模型做出正确的抉择,有效提高模型的检测性能。本文将特征分为常规特征、字符统计特征、特定模式特征和特殊字符特征四大类,共19个特征。特征分类如图2所示。图2特征工程分类其中信息熵常被用来作为一个系统的信息含量的量化指标,用于表示一段信息的混杂程度。常见的XSS攻击信息中包含的字符种类较多且字符混杂程度较高,信息熵偏高,用信息熵特征能较好地识别出XSS攻击,信息熵计算公式:式中:x为随机变量;p(x)为输出概率函数;H(X)为信息熵值。统计特征用于表示XSS攻击信息中某类特殊关键词的出现频数。XSS攻击中往往带有某类特定的恶意关键词用于恶意函数或恶意代码的链接传递作用,而正常的URL信息中很少带有此类关键词,所以关键词信息作为一个特征,能很好地区分正常URL信息和XSS攻击信息,但若单一凭借关键词的出现频率来认证XSS攻击,模型会有较高的误报率。为了解决高误报问题,通过反复地对大量正反样例进行观察与取证,使特征在涵盖关键词信息的同时,会为关键词设计其前后特定模式的字符顺序,当仅出现某单一关键词时并不会触发此类特征,关键词正则匹配公式:在URL信息中会包含一些攻击者精心构造和编排的特定字符,其中局部单一的字符串不具有XSS攻击的威胁。当其前后字符遵循特定的出现顺序时即具备触发恶意攻击,比如JAVASCRIPT模式的XSS攻击,此模式以<aaa>形式的字符作开头、</aaa>形式的字符作结尾,中间以其余字符填充并整体混淆在URL信息中,这种特定模式的字符串用肉眼难以区分出其危害,本文使用正则匹配发掘此类字符:并通过特定模式特征统计其出现频数,检测流程如图3所示。图3特定模式检测流程3
算法模型算法模型是把特征工程加工好的特征进行巧妙组合,通过高阶决策指标对高纬特征进行融合、分类并给出最终结果指示的过程。安全算法模型有别于传统的入侵检测系统(IntrusionDetectionSystems,IDS)规则,传统的IDS规则通过专业知识区分恶意网络攻击,并基于手工和经验的方式来维护检测规则和维持检测性能。IDS规则局限于人为经验和繁琐的工程步骤,而算法模型则通过构建复杂的决策逻辑,发掘数据中真正有用的关联信息,在减轻人工静态工作强度的同时可有效提高检测效率。通常而言,算法模型具有较低的维护成本和较高的检测准确率,在安全评估和安全决策方面具有较好的应用前景。本文采用机器学习决策树分类算法进行算法建模。决策树是一种从根节点开始对数据集进行测试划分,并将不同数据测试结果最终划分成不同叶子节点的树状结构的方法,本质上是通过一系列复杂规则对数据进行分类的过程。对于给定的数据样本集合,决策树C4.5使用信息增益率来选择分裂属性,属性A的信息增益表达式:式中:训练集S通过属性A划分为n个子数据集,表示第i个子数据集中样本的数量,|S|表示在属性划分之前的数据样本总量,通过属性A划分样本集之后的信息增益和信息增益率为:类型为连续型的属性进行离散化处理,对属性B的具体取值进行升序排列后得到序列:式中:为属性B的具体取值。在序列D中的N-1种二分方法求得二分阈值:阈值将数据集划分为两个子集,并通过计算其信息增益选取N-1种信息增益最大的分割方式作为属性B的划分结果:式中:E(S)代表数据集进行属性划分之前的信息熵、代表数据集按照属性B进行数据划分之后的信息熵。决策树的决策运营逻辑如图4所示。图4决策树运营逻辑为了防止过拟合的问题,决策树C4.5采用一种自顶向下的剪枝方法,通过评价一个叶子节点在剪枝前与剪枝后对样本误判率的高与低,来决定此叶子节点是否具备剪枝的必要。对于一个覆盖了m个样本、e个错误样本的叶子节点,该叶子节点的样本划分误判率是,其中p表示惩罚因子。对于一棵有n个叶子节点的决策树,其误判率为:式中:为树结构中第i个叶子节点的错误样本数;为树结构中第i个叶子节点的样本总数;为树结构中全部叶子节点的惩罚因子。对于二分类子树的误判次数就是伯努利分布,即可估算出子树对于误判次数的均值和标准差为:去掉原先的叶子节点,将子树替换为新的二分类叶子结点后,其误判次数也满足伯努利分布,新叶子节点的误判率和误判次数均值为:当子树的误判次数均值和标准差之和大于对应叶子节点的误判均值时,则进行剪枝操作,剪枝后在整体树结构中原子树替换为新的叶子节点。剪枝条件为:决策树是一种白盒模型,对数据量的依赖程度较小,且模型的决策逻辑具有可观测性,相较于其他黑盒模型算法而言,决策树算法具有更强的可解释性。决策树的算法流程如图5所示。图5决策树算法流程4
性能测试与分析模型训练数据集通过网络开源共享、公司安全团队积累、互联网流量渠道采集,由共计420万条数据组成,并在安全数据分析专家的指导下进行修正和核实整个数据集的标注评判。数据集由330万白样本和90万黑样本组成。将整体样本集按照7∶3分别划分成用于模型训练和用于模型验证的数据集,模型采用2分类的方式进行结果评判,并采集线上流量数据进行模型分析测试,通过准确率和召回率等评判指标来进行模型的修正与回溯。通过比较不同方法的性能,得到了如表1所示的结果。表1 不同评估方法的性能比较如表1所示,基于机器学习建模的XSS攻击防范检测具有较高的准确率,在提炼IDS规则特征的同时,能较好地融合安全专家的业务经验知识。本文模型能够从海量信息中高效准确发掘攻击信息,具有很强的衍生性能,且可维护性强,能有效地降低人力维护成本,在高效运营的同时能及时发掘攻击者的真实意图,并为安全分析人员提供更好的指示,使他们能够更好地维护网络安全环境。5结语本文研究了基于机器学习建模的XSS攻击防范检测模型,在网络流量安全智能检测领域引入机器学习技术,实现了对网络流量中跨站脚本攻击的智能化检测。通过分析现有检测方式对XSS攻击检测的不足,并结合XSS攻击灵活多变、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 22863-13:2025 EN Fireworks - Test methods for determination of specific chemical substances - Part 13: Qualitative detection of elemental metals in firework compositions
- 2024年版婚内背叛离婚合同样本版
- 测试信号课程设计
- 微机时钟课程设计
- 泰勒课程设计理论实例
- 《生产主管职业化训练教程》
- 稻谷干燥系统课程设计
- 电镀课程设计总结
- 美少女头像绘画课程设计
- 骨科护士工作总结
- 交通灯课程设计交通灯控制器
- 单层钢结构工业厂房纵向定位轴线的定位
- 肿瘤科常见急重症
- 03SG715-1蒸压轻质加气混凝土板(NACL)构造详图
- 粉体工程第六章粉碎过程及设备
- 尽职调查工作底稿1_公司业务调查
- 洪水计算(推理公式法)
- GMW系列往复式给料机说明书
- 集装箱码头堆场项目可行性研究报告写作范文
- 医保药店一体化信息管理系统操作手册
- 2016年河南省对口升学文秘类基础课试题卷
评论
0/150
提交评论