《R语言数据挖掘》第十一章 R的模式甄别:诊断异常数据_第1页
《R语言数据挖掘》第十一章 R的模式甄别:诊断异常数据_第2页
《R语言数据挖掘》第十一章 R的模式甄别:诊断异常数据_第3页
《R语言数据挖掘》第十一章 R的模式甄别:诊断异常数据_第4页
《R语言数据挖掘》第十一章 R的模式甄别:诊断异常数据_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第十一章R的模式甄别:诊断异常数据学习目标理论方面,掌握模式甄别的分析思路,主要诊断方法的特点,适用性和应用场景。实践方面,掌握R各种模式甄别方法的实现、应用以及结果解读,能够正确运用模式甄别方法探索实际数据中的异常值。什么是模式模式,简言之,就是数据中的异常值。发现数据中的模式极为必要,且有众多应用场景,其中最常见的是欺诈侦测。例如:依据海量历史数据,发现信用卡刷卡金额、手机通话量的非常规增加例如:诊断医疗保险欺诈和虚报瞒报行为模式甄别方法对不同的模式甄别问题应采用不同的甄别方法。模式甄别涉及两种情况第一,甄别历史上尚未出现过的模式数据特点:只有相关的属性特征变量,没有是否为模式的标签变量。模式通常表现出严重偏离数据全体,与“正常”数据有明显的“不同”模式甄别方法对不同的模式甄别问题应采用不同的甄别方法。模式甄别涉及两种情况第二,甄别历史上曾经出现过的模式数据特点:既有相关的属性特征变量,部分样本在是否为模式的标签变量上有明确的取值解决该类问题的思路忽略标签变量找到特征变量与标签变量取值间的规律性非平衡数据集问题模式甄别结果及评价以怎样的标准确定“平衡点”或最低分数线评价标准决策精度:d/(b+d),正确甄别的比例回溯精度:也称召回率或查全率:d/(c+d),正确甄别的观测个数占实际模式个数的比例模式甄别的无监督侦测方法分析过程不涉及标签变量,不在标签变量监督下进行,称为无监督侦测。判断观测是否严重偏离数据全体从概率角度从特征空间的距离角度从特征空间的密度角度依概率侦测模式依概率侦测模式:从概率角度出发,将统计学中的离群点视为可能的模式需已知或假定概率分布示例依距离侦测模式:DB方法属性特征空间中,模式观测点通常远离正常观测点DB方法计算特征空间中两两观测点间的距离若与观测xp的距离大于阈值D的观测个数大于pN,(0<p<1,N为样本量),那么观测xp可被视为模式观测DB方法的两个可调参数阈值D和比例pDB方法示例依密度侦测模式:LOF方法LOF方法基于局部密度,在指定邻居个数MinPts的条件下,考察观测xp其局部邻域的分离程度,作为观测xp的模式风险评分观测xp的k-距离观测xp的k-距离邻域观测xp与观测xo的k-可达距离计算观测xp的局部可达密度依密度侦测模式:LOF方法观测xp的局部离群因子LOF得分相关R函数lofactor(data=数据矩阵,k=MinPts)示例模式甄别的有监督侦测方法模式甄别涉及模式标签变量的取值,且在标签变量监督下进行,称为有监督侦测朴素贝叶斯分类法根据最大后验概率原则,输出变量应预测为k个后验概率中最大概率值对应的类别相关R函数NaiveBayes(x=输入变量矩阵或数据框,grouping=输出变量,fL=0)模式甄别的有监督侦测方法Logistic回归:认为观测属于模式的概率与特征变量之间存在如下非线性关系相关R函数glm(R公式,data=数据框名,family=binomial(link="logit"))predict(object=glm函数结果对象名,newdata=新数据输入变量矩阵或数据框,type="response")非平衡数据集的SMOTE处理非平衡数据集:指数据集中某一类或者某些类的样本量远远大于其它类。多数类称为正类,少数类称为负类不平衡率是测度非平衡数据集不平衡程度的重要指标解决非平衡数据集分类问题的方法基于数据层面的方法基于算法层面的方法非平衡数据集的SMOTE处理基于算法层面的方法:通过数据重抽样,改变非平衡数据集的分布,旨在提高后续分类模型的分类性能随机过抽样:随机复制负类样本,即对负类做多次有放回的随机抽样,达到增加少数类样本的目的随机欠抽样:随机去掉正类样本,即全抽负类样本,在此基础上抽取与之相当的正类样本,以降低数据的不平衡程度随机过抽样和欠抽样方法自身存在局限性,相关的改进算法较多非平衡数据集的SMOTE处理SMOTE算法:通过一定规则随机制造新的负类样本点基本假设:相距较近的负类之间的样本仍是负类在相距较近的负类间插入负类的“人造合成”观测需指定两个参数合成率:m%(m>100),对观测点Xi人造合成m/100个观测近邻个数k:找到距观测点Xi最近的k个负类近邻观测点非平衡数据集的SMOTE处理SMOTE算法步骤从负类观测点Xi的k个负类近邻中随机挑选一个近邻Yij(j=1,2,…,k),合成一个新的负类观测点Pj(j=1,2,…,m)重复该步骤m次,得到Xi的m个合成观测对每个负类观测都做同样的处理还可对正类观测做欠抽样处理相关R函数SMOTE(R公式,data=数据框名,perc.over=200,k=k,perc.under=200)模式甄别的半监督侦测方法仅依据较少的已知标签变量值,找到特征变量与标签变量取值间的规律性。利用这种规律对预测新样本是否为模式观测,是模式甄别半监督侦测的核心目标半监督分类:自训练分类模型视数据集D中的完整观测为一个数据子集,记为Di基于Di建立一个分类模型,记为Mi利用Mi对数据集中的其他观测进行预测将预测置信度较高的前若干个观测合并到Di中重复多次,Di包含的观测数量不断增多,Mi参数依Di不断调整,直到无法得到更大的Di。此时的Mi为最终的分类预测模型模式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论