版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国互联网信息中心发布的第49次《中国互联网发展状况统计报告》显示,截至2021年12月,中国互联网普及率达73.0%。互联网中采用加密的流量呈逐年攀升的趋势。在全球主要国家与地区,这一数据更是已经超过了90%。由数据统计机构Netmarketshare发布的统计数据可知,截至2019年10月2日,超文本传输安全协议(HyperTextTransferProtocoloverSecureSocketsLayer,HTTPS)加密万维网(WorldWideWeb,WWW)流量在全球范围内被使用的比例已经超过90%;2019年12月,谷歌宣称80%的Android应用程序默认使用传输层安全协议(TransportLayerSecurity,TLS)加密所有流量,且这一比例还会随着时间的推移而继续增大。越来越多的恶意软件隐匿在加密TLS流量中来传输恶意信息,对用户、企业和国家的通信安全造成威胁。因此,对TLS恶意加密流量进行高效识别对网络监管和打击犯罪有着重要意义。
目前,已经有国内外研究人员对网络恶意加密流量进行研究,并且取得了一定的成就。提出对加密流量进行深度包检测(DeepPacketInspection,DPI)而无需解密的技术,但在设置阶段需要大量的计算和较长的检测时间。提出了一种TLS指纹识别系统,该系统利用目标地址、端口和服务器名精心构造的指纹串。近年来,半监督学习在图像识别、自然语言处理等领域也取得了显著成绩。提出了一种半监督检测模型,首先在大型未标记数据集上训练,然后使用少量标记数据集重新训练模型。谷歌的研发队伍提出了MixMatch和FixMatch技术,利用集成方法,提高了模型准确率。为解决网络恶意加密流量识别方法中大量标记样本获取困难问题,本文提出一种基于FixMatch的网络恶意加密流量识别方法。通过借助网络流量图片化方法将PCAP格式的原始流量数据以流为单位进行切分、填充、映射到灰度图片中,构建FixMatch模型并对恶意加密流量进行分类,在公开数据集上进行验证,实验证明识别效果优于现有方法。1相关知识1.1卷积神经网络卷积神经网络(ConvolutionalNeuralNetworks,CNN)是一种人工神经网络,目前已成为语音分析和图像识别领域的研究热点,广泛应用于人脸识别、疾病分析、图像处理等领域。CNN一般由输入层、卷积层、池化层、全连接层以及输出层构成。其中卷积层可从输入数据中快速精准地提取样本特征。池化层有2个典型特性:一是可以大幅度加快模型的训练速度,对提取的特征信息进行降维处理,降低训练量。二是防止模型训练结果过拟合。实际的操作中,常在两个相邻的卷积层之间加入一层池化层。全连接层的特性之一是能将当前训练所提取的特征和保留的样本特征进行组合。正是由于CNN拥有局部连接和权值共享的特性,使得CNN可以精准高效地从输入数据中挖掘潜在的特征。1.2一致性正则化一致性正则化是当前最先进的半监督学习算法的一个重要组成部分。一致性正则化利用未标记的数据,它依赖于这样一个假设:当输入相同图像的扰动版本时,模型应该输出相似的预测。该想法首次在LearningwithPseudo-Ensembles中提出,其中模型通过标准监督分类损失和损失函数对未标记数据进行训练。式中:为一批标记的样本,为训练样本,为one-hot标签。设为一批未标记的样本,其中u是确定X和U相对大小的超参数。设为模型对输入X产生的预测类分布。1.3相关半监督深度学习算法1.3.1伪标签(PseudoLabel)伪标签是一种简单有效的深度神经网络半监督方法。其在监督的方式下训练有标签的样本,对于无标记样本通过伪标签的方法选择出该数据具有的最大概率预测类,把这个预测出的标签作为实际标签使用。伪标签利用模型本身的思想为未标记的数据获取人工标签。具体来说,这指的是用“硬”标签(即模型输出的参数最大值),并且只保留最大类概率高于预定义阈值的人工标签。令伪标记使用以下损失函数:式中:τ为阈值,两个概率分布p和q之间的交叉熵为1.3.2MixMatchMixMatch是一种整体方法,它结合了半监督学习主流范例中的思想。给定一组标注实例X及其对应的one-hot目标(代表L个可能标签中的一个)和一批大小相同的未标记示例U,MixMatch将生成一批经过处理的增强标记示例X'和一批猜测标签U'的增强未标记示例。然后分别使用U'和X'计算单独的标记和未标记损失项。半监督学习的组合损失L如下:式中:H(p,q)为分布p与分布q间的交叉熵;T,K,α,为超参数。模型对参数为θ的输入x产生类标签y上的分布。1.3.3ICT插值一致性训练(InterpolationConsistencyTraining,ICT)鼓励对于无标记样本点的插值的预测和这些样本的预测的插值保持一致。ICT可以将决策边界移动到数据分布的低密度区域,如果两个样本在输入分布中属于同一个聚类或簇,它们很可能属于同一个类别,这被称为聚类假设,这也表明好的决策边界应当位于数据分布的低密度区域。不同的一致性正则化技术的区别在于如何选择对未标记数据的扰动,常规的做法是使用随机扰动,但是在高维情况下只有很小比例的随机扰动能够将决策边界推到低密度区域,对此,ICT提出了一种简单但是有效的基于插值一致性的方法:式中:为ICT的训练分类器,θ'为θ的滑动平均。为参数为λ的线性插值函数:1.3.4FixMatch在一致性正则化和伪标记方法基础上,将它们相结合,提出了新的一些具有更高准确率的方法。在2020年提出了FixMatch,该方法结合了伪标签和一致性正则化的思想,尽管FixMatch的整个环节较简单,但其在多个标准数据集上都得到了目前的最好结果。FixMatch利用了两种增强:“弱”和“强”。FixMatch中使用的弱增强分为平移和翻转两类,数据增强前后,图片变化不大。平移是基于空间上的变换,表现为上、下、左、右的平行移动。翻转表现为对图片进行水平、垂直翻转。FixMatch中使用的强增强包含Cutout、CTAugment和RandAugment。Cutout是一种模拟遮挡的方法,表现为对图像的部分区域进行遮挡。AutoAugment是一种能够利用搜索算法,自动检索合适的数据增强策略的方法。RandAugment是AutoAugment的变体,它给定了一个可以选择的数据增强方法的列表,并给定了一些可能的数据增强幅度。可以从这几个列表中选择N个增强方法,然后随机选择一个数据增强幅度上限M,使得这N个数据增强方法的幅度不能超过给定的幅度上限M,然后将这一系列增强方法用于图片。CTAugment通过控制理论的思想解决了RandAugment中对于数据增强策略的学习需求,动态学习了每个变换的幅度。对于每一个有标签样本,用交叉熵损失训练一个有监督模型。对于每一个无标签样本,采用弱增强得到一幅图像,将该图像传递给模型,得到一个预测结果,该模型会设定一个阈值,如果这个预测结果最高的类别的置信度高于阈值,那么,该类别就会作为这张图片的标签。此时,运用了自训练的思想,即伪标签。然后,强增强后的图片通过模型进行一个分类的预测,此时会得到另一个预测结果,对模型的输出施加交叉熵损失。根据一致性正则化的思想,模型希望弱增强和强增强这两种数据增强方法后的图片的预测结果尽可能一致。最后,有标签样本损失和无标签样本损失的加权当作模型总损失,以总损失最小为目标优化模型。FixMatch的处理流程如图1所示。图1FixMatch的处理流程2基于FixMatch的TLS网络恶意流量识别方法2.1网络流量图片化基于文献[19]对数据处理的经验,本节的网络流量图片化主要是使用工具集USTCTK2016将原始流量数据(PCAP)处理成cifar10数据集格式(便于更好地迁移到多数模型)。(1)流量切分:按照流量表示形式将原始PCAP文件按照数据流形式切分为多个PCAP文件,本数据流是具有相同五元组信息的数据包的时间排序集合。(2)图片生成:将处理过的文件按照784字节进行统一长度处理,即保留文件前784字节数据,舍弃文件785字节及以后的所有信息,如果长度少于784字节,则在文件后面补充0x00;统一长度后的文件按照二进制形式转换为灰度图片,即一个字节对应灰度像素值,如0x00对应黑色,0xff对应白色,输出格式为PNG。在公开数据集上对网络流量进行图片化处理后的效果如图2、图3所示。图3USTC-TFC2016数据集下流量图片化展示2.2构建FixMatch的TLS网络恶意流量识别模型2.2.1数据增强根据FixMatch模型中的弱增强和强增强方法对转换成图片的数据进行数据增强处理。本文采用的弱增强为50%的概率对图片进行水平翻转,利用reflect的方式进行填充,然后进行随机裁剪和数据归一化处理;本文采用RandAugment方法进行数据强增强,规定从RandAugment给定的数据增强方法列表N中随机选择增强方法,从1到10之间随机选择一个数据增强幅度上限M,使得这N个数据增强方法的幅度不能超过给定的幅度上限M。2.2.2FixMatch模型构建FixMatch结合了伪标签和一致性正则化的思想,其损失函数由两个交叉熵损失项组成:应用于标记数据的监督损失和非监督损失针对有标签样本:使用交叉熵损失训练一个有监督模型,得到有监督样本的损失函数针对无标签样本:首先,在给定的无标签图像的弱增强版本下计算模型的预测类分布如果得到的类别预测结果的最值大于预先给定的阈值,则该类别就是这个图片的标签。其次,使用作为伪标签,该图片再经过强增强,得到强增强后的分类预测结果。这个结果与新生成的标签信息做交叉熵损失,得到无标签样本的损失式中:τ为一个标量超参数,表示阈值以上保留一个伪标签。有标签样本损失和无标签样本损失的加权当作模型总损失,以总损失最小为目标优化模型,FixMatch最小的损失函数为其中为一个固定的标量超参数,表示未标记损失的相对权重。FixMatch算法伪代码如算法1所示。FixMatch模型的训练流程:对于每一个有标签的样本,用交叉熵损失训练一个有监督模型,得到一个有标签样本的损失;对于每一个没有标签的样本,采用弱增强得到一幅图像,将该图像传递给模型,得到一个预测结果。比较模型与预先设定的阈值,如果这个预测结果最高的类别的置信度高于阈值,该类别就会作为这张图片的标签,即伪标签。然后,强增强后的图片也会通过模型进行一个分类的预测,此时会得到另一个预测结果,对模型的输出施加交叉熵损失。基于FixMatch的网络恶意加密流量检测系统架构如图4所示。图4基于FixMatch的网络恶意加密流量检测系统架构3实验结果及分析3.1实验环境与数据集本文实验在Windows10环境下运行,处理器为AMDRyzen74800H,GPU为RTX2060,内存为16GB。采用Pytorch1.8.0软件框架实现基于FixMatch的网络恶意加密流量识别。本实验选用的是开放数据集CTU-MalwareCapture和USTC-TFC2016中的部分数据,数据由原始的PCAP文件组成。从CTU-MalwareCapture中选择了Dridex,Dynamer,HTBot,Miuref,Zbot和Cerber6类使用TLS进行加密通信的恶意应用流量;从USTC-TFC2016中选择了Neris,Shifu,Zeus,Virut和Htbot5类使用TLS进行加密通信的恶意应用流量。数据集构成如表1和表2所示。表1CTU-Malware-Capture恶意家族样本表2USTC-TFC2016数据集样本3.2评价指标本文采用查准率(Precision)、召回率(Recall)、值(F1-score)和准确率(Accuary)作为评价指标来估计方法的分类效果,其定义如下:查准率(Pre):召回率(Rec):准确率(Acc):式中:TP,TN,FP和FN分别为正确识别的目标流量数、正确识别的其他流量数、错误识别的目标流量数和错误识别为其他流量数的目标流量数。3.3模型参数设置FixMatch模型训练时,选择带动量的随机梯度下降算法(StochasticGradientDescent,SGD)作为优化器,且动量的大小设置为0.9。批量大小(BatchSize)设置为100。本文参照FixMatch原论文的设定,将无监督部分损失的系数设置为1,无标签数据批量倍数u设置为7。过滤低置信度的无标签样本阈值τ设为0.95,学习率(LearningRate)设置为0.01,并且使用带热启动(WarmUp)的余弦学习率衰减(CosineDecaySchedule)。本文使用的网络恶意加密流量分类模型的骨干网络是CNN,批量大小设置为50。将数据集打乱后,设定0.2为拆分阈值,选取20%做测试集,剩下的为训练集。本文将提出的基于FixMatch的TLS网络恶意流量识别方法分别与近年来提出的半监督学习方法MixMatch、ICT以及经典半监督学习方法PseudoLabel进行对比。在进行实验前,对上述3种模型的超参数进行设置,根据此前研究者们提供的参考值并结合实验结果,对实验参数进行多次调整,设置参数值如表3所示。表3半监督模型超参数3.4实验结果及分析3.4.1不同标记样本占比的结果对比将本文构建的FixMatch模型与其他3种半监督模型在不同少标记样本下进行实验,在数据集和USTC-TFC2016下多分类结果如图5、图6所示。(a)不同标记占比下的准确率对比(b)不同标记占比下的查准率对比(c)不同标记占比下的召回率对比(d)不同标记占比下的F1对比图5CTU-Malware-Capture在不同标记样本占比下的多分类结果对比
值逐渐趋于稳定。(a)不同标记占比下的准确率对比(b)不同标记占比下的查准率对比(c)不同标记占比下的召回率对比(d)不同标记占比下的F1对比图6USTC-TFC2016在不同标记样本占比下的多分类结果对比由图5、图6可知,在20%标记样本下,本文使用的所有半监督模型都达到0.9以上的水平,这说明使用20%的标记数据集,大部分模型都可以准确识别恶意流量类型。随着标记样本量的减少和未标记样本占比的上升,FixMatch模型逐渐显示出更好的分类效果。当标记样本占比下降到10%时,除FixMatch模型各项指标依然保持较高水平外,其他模型指标都有明显下降,说明FixMatch模型整体效果要优于其他半监督模型。在CTU-Malware-Capture数据集下,当标记样本占比下降到0.3%时,与PseudoLabe算法相比,FixMatch模型的查准率、召回率、值分别提高了4.56%,3.26%和3.93%。在USTC-TFC2016数据集下,当标记样本占比下降到0.5%时,与ICT相比,FixMatch模型的查准率、召回率、值分别提高了3.11%,3.47%和3.29%。该实验说明,标记样本占比逐渐减少对FixMatch模型造成的影响相对较小,尤其是标记样本占比极小时,FixMatch模型的优势更加明显。3.4.2不同算法性能对比随着样本数量的增加,FixMatch的准确率有稳定上升的趋势,在相同的样本总数下,只需要少量标记样本就能达到其他半监督学习模型的识别效果,这大大减少了在网络流量识别中需要准确标记所有训练样本的人力、物力和时间成本。同时,在样本数量不断增加时,模型的准确率、查准率、召回率和
值逐渐趋于稳定。通过上述实验可以看到,在CTU-MalwareCapture和USTC-TFC2016数据集下,FixMatch在20%的标记样本数时,能达到很好的识别效果。表4详细记录了FixMatch模型与MixMatch、ICT和PseudoLabel3种半监督模型的对比结果。从表4可以看出,在CTU-Malware-Captu
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年体育场馆室内装修协议
- 2024年土木工程合同模板(国际版)
- 2024年员工劳动合同模板
- 2024年夫妻财产分开协议:规定离婚后各自财产管理的文件
- 2024年升级版:租赁合同担保条款
- 2024夏季工兼职合同范本
- 2024年住宅买卖合同法定条款
- 2024年全新设计:单身财产分割合同范本
- 2024年国际化肥贸易出口合同
- 2024年婚姻终止财产协议
- 江苏省南京市建邺区2024-2025学年九年级上学期期中考试物理试题(无答案)
- 中小学师德师风建设各项制度汇编
- 广东省珠海市子期中学、梅华中学 2024-2025 学年上学期期中考试七年级数学试题(无答案)
- 2024秋期河南开放大学本科《消费者权益保护法》一平台无纸化考试(形考任务1至3+我要考试)试题及答案
- 公务员2024年国考申论真题(地市级)及参考答案
- 2024年河南省信阳市招才引智绿色通道招聘市直事业单位人员183人高频难、易错点500题模拟试题附带答案详解
- 民用无人机操控员执照(CAAC)考试复习重点题及答案
- 2024年中国南水北调集团水网水务投资限公司及下属单位社会招聘高频难、易错点500题模拟试题附带答案详解
- 广西南宁市第十四中学2023-2024学年七年级上学期期中地理试题
- 2024-2030年中国应急产业市场发展分析及竞争形势与投资机会研究报告
- 2024年中国电动鼻毛器市场调查研究报告
评论
0/150
提交评论