版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
现象与原因非平衡数据处理方法概览欠采样过采样混合采样特征层算法层面提纲非平衡数据分类问题在网络信息安全问题中,诸如恶意软件检测、SQL注入、不良信息检测等许多问题都可以归结为机器学习分类问题。这类机器学习应用问题中,普遍存在非平衡数据的现象。产生的原因攻击者的理性特征使得攻击样本不会大规模出现。警惕性高的攻击者,会经常变换攻击方式避免被防御方检测出来。少数类样本的信息量比多数类要少得很多。非平衡数据对各种分类器的影响KNNBayes决策树Logistic回归当用于非平衡数据分类时,为了最大化整个分类系统的分类精度,必然会使得分类模型偏向于多数类,从而造成少数类的分类准确性低。现象与原因非平衡数据处理方法概览欠采样过采样混合采样特征层算法层面提纲处理方法现象与原因非平衡数据处理方法概览欠采样过采样混合采样特征层算法层面提纲欠抽样欠抽样方法通过减少多数类样本来提高少数类的分类性能。常见的欠采样方法有随机欠采样、启发式欠采样等。随机欠采样通过随机地去掉一些多数类样本来减小多数类的规模,缺点是会丢失多数类的一些重要信息,不能够充分利用已有的信息。
启发式欠采样基本出发点是保留重要样本、有代表性的样本,而这些样本的选择是基于若干启发式规则。经典的欠采样方法是邻域清理(NCL,Neighborhoodcleaningrule)和Tomelinks法,其中NCL包含ENN,典型的有以下若干种。EditedNearestNeighbor(ENN)对于多数类的样本,如果其大部分k近邻样本都跟它自己本身的类别不一样,就将他删除。也可以从少数类的角度来处理:对于少数类样本,如果其大部分k近邻样本都是少数类,则将其多数类近邻删除。把多数类样本转换为少数类CondensedNearestNeighbor(CNN)对点进行KNN分类,如果分类错误,则将该点作为少数类样本。在实际运用中,选择比较小的K。把多数类样本转换为少数类或剔除NearMiss(NM)NearMiss-1:对于每个多数类样本,计算其与最近的三个少数类样本的平均距离,选择最小距离对应的多数类样本。NearMiss-2:与NearMiss-1相反,计算与最远的三个少数类样本的平均距离,并选择最小距离对应的多数类样本。NearMiss-3:对每个少数类样本,选择与之最接近的若干个多数类样本。NearMiss-1针对数据分布的局部特征;NearMiss-2针对数据分布的全局特征。NearMiss-1倾向于在比较集中的少数类附近找到更多的多数类样本,而在离群的少数类附近找到更少的多数类样本。TomekLinks方法如果有两个不同类别的样本,它们的最近邻都是对方,也就是A的最近邻是B,B的最近邻是A,那么A,B就是Tomeklink。数学语言:两个不同类别的样本点xi和xj,它们之间的距离表示为d(xi,xj),如果不存在第三个样本点xl使得d(xl,xi)<d(xi,xj)或者d(xl,xj)<d(xi,xj)成立,则称(xi,xj)为一个Tomeklink
1234TomekLinkRemoval处理方法:把所有Tomeklink都删除掉,即对于Tomeklink的两个样本,如果有一个属于多数类样本,就将该多数类样本删除掉。现象与原因非平衡数据处理方法概览欠采样过采样混合采样特征层算法层面提纲方法概览SMOTEBorderline-SMOTE1Borderline-SMOTE2SMOTESyntheticMinorityOversamplingTechnique(SMOTE)该算法只是简单在两个近邻之间进行插值采样,而没有考虑到采样点附近的样本分布情况,从而可能产生趋向于其他类别的样本,以及样本重复等问题。Borderline-SMOTE1该算法根据少数类近邻样本的类别分布情况,判断该样本以后被误分的可能性,从而有选择地进行线性插值采样生成新的少数类样本。Borderline-SMOTE2在DANGER数据集中的点不仅从S集中求最近邻并生成新的少数类点,同时也在L数据集中求最近邻,并生成新的少数类点。这会使得少数类的点更加接近其真实值。现象与原因非平衡数据处理方法概览欠采样过采样混合采样特征层算法层面提纲组合采样SMOTE+TomekLinkRemovalSMOTE+ENNSMOTE+TomeLinks首先,利用SMOTE方法生成新的少数类样本,得到扩充后的数据集T。然后剔除T中的Tomeklinks对。为什么需要这两者的组合呢?避免SMOTE导致原本属于多数类样本的空间被少数类“入侵”(invade),由Tomeklinks去除噪声点或者边界点。ABCSMOTE+ENN和SMOTE+Tomeklinks方法的思路相似,包含两个步骤。1)利用SMOTE方法生成新的少数类样本,得到扩充后的数据集T。2)对T中的每一个样本使用kNN(一般k取3)方法预测,若预测结果和实际类别标签不符,则剔除该样本。现象与原因非平衡数据处理方法概览欠采样过采样混合采样特征层算法层面提纲特征层解决不平衡数据分类的思路就是选择最合适的特征表示空间,再进行分类。“最合适”是指提高少数类及整体的分类正确性。把数据样本投影到这个“最合适”的子空间中,多数类可能聚集在一起或重叠在一起,那么就有利于减小数据的非平衡性。根据机器学习的特征理论,在特征空间的构造方面,存在两大类方法,即特征选择和特征提取。现象与原因非平衡数据处理方法概览欠采样过采样混合采样特征层算法层面提纲算法层面a)代价敏感:设置损失函数的权重,使得少数类判别错误的损失大于多数类判别错误的损失b)单类分类器方法:仅对少数类进行训练,例如运用SVM算法c)集成学习方法:即多个分类器,然后利用投票或者组合得到结果。代价敏感算法相关问题正常、入侵检测错误时代价是什么以分类错误总代价最低为优化目标,能更加关注错误代价较高类别的样本,使得分类性能更加合理。实现方法:一是,改变原始的数据分布来得到代价敏感的模型;二是,对分类的结果进行调整,以达到最小损失的目的;三是,直接构造一个代价敏感的学习模型。代价矩阵优化目标最优的Bayes预测就是把x分为使得R(i|x)最小化的类别k,即:K=argminR(i|x),i=1,2,…N其中R(i|x)是某个类别i的样本x的分类风险Metacost算法:教材代价敏感SVM对于一个给定的训练数据集((x1,Y1,),…,(xn,yn)),标准的非代价敏感支持向量机学习出一个决策边界普通SVM偏置惩罚支持向量机(BP-SVM)代价敏感教练损失支持向量机(CSHL-SVM)单分类器方法密度估计法基于聚类的方法基于支持域的方法SVM单类支持向量机(OneclassSVM)支持向量数据描述(SupportVectorDataDescription,SVDD)当多数类中存在明显簇结构时,使用聚类方法获得聚类结构有利于提高多数类轮廓描述的精度。集成学习的方法典型的集成学习方法有Bagging、Boosting、StackingSMOTEBaggingSMOTEBoostBaggingOverBagging:每次迭代时应用随机过采样在小类数据UnderBagging:每次迭代时应用随机下采样在大类数据SMOTEBagging:结合了SMOTE与bagging,先使用SMOTE生成更加全面的小类数据,然后应用baggingAsymmetricbagging:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《习题及答案》课件
- 药物治疗颈外动脉闭塞长期效果-洞察分析
- 线下体验式营销升级-洞察分析
- 水污染生物降解机制-洞察分析
- 虚拟农场规划与管理-洞察分析
- 心脏扩大康复训练策略-洞察分析
- 先进制造技术在航空应用-洞察分析
- 脱硫自动化控制-洞察分析
- 《v消费者市场分析》课件
- 糖果巧克力市场趋势分析-洞察分析
- LS 8010-2014植物油库设计规范
- GB/T 20911-2007锻造用半成品尺寸、形状和质量公差
- 病生-肾功能衰竭附有答案
- 开放水域潜水员理论知识考试试题与答案
- 邻二甲苯安全技术说明书
- 广东省房屋建筑和市政工程工程质量安全检测收费指导价
- 国内工程建设招标招投标实务操作手册范本
- 施工放样测量记录表
- 2022年新高考山东地理高考真题(含答案)
- 预防注射低分子肝素钙皮下出血的护理-PPT课件
- 广东金融学院会计学原理模拟题
评论
0/150
提交评论