Python数据挖掘与机器学习第2版 课件 第 10 章 离群点检测_第1页
Python数据挖掘与机器学习第2版 课件 第 10 章 离群点检测_第2页
Python数据挖掘与机器学习第2版 课件 第 10 章 离群点检测_第3页
Python数据挖掘与机器学习第2版 课件 第 10 章 离群点检测_第4页
Python数据挖掘与机器学习第2版 课件 第 10 章 离群点检测_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Python数据挖掘与机器学习第10章离群点检测第10章离群点检测本章内容离群点概述离群点检测sklearn中的异常值检测方法10十一月202421离群点概述3数据库中的数据由于各种原因常常会包含一些异常记录,对这些异常记录的检测和解释有很重要的意义。异常检测目前在入侵检测、工业损毁检测、金融欺诈、股票分析、医疗处理等领域都有着比较好的实际应用效果。异常检测的实质是寻找观测值和参照值之间有意义的偏差。离群点检测是异常检测中最常用的方法之一,是为了检测出那些与正常数据行为或特征属性差别较大的异常数据或行为。1离群点概述4离群点的概念离群点(Outlier)是指显著偏离一般水平的观测对象。离群点检测(或称异常检测)是找出不同于预期对象行为的过程。离群点的本质仍然是数据对象,但它与其他对象又显著差异,又被称为异常值。1离群点概述5离群点不同于噪声数据。噪声是指被观测数据的随机误差或方差,观测值是真实数据与噪声的混合。而离群点属于观测值,既可能是真实数据产生,也有可能由噪声带来。离群点的产生主要有以下原因:1.第一类离群值是总体固有变异性的极端表现,这类离群值与样本中其余观测值属于同一总体。2.第二类离群值是由于试验条件和试验方法的偶然偏离所产生的结果,或产生于观测、记录、计算中的失误,这类离群值与样本中其余观测值不属于同一总体。1离群点概述6离群点的类型:全局离群点、条件离群点和集体离群点。1.全局离群点当一个数据对象明显地偏离了数据集中绝大多数对象时,该数据对象就是全局离群点(GlobalOutlier)。全局离群点有时也称为点异常,是最简单的一类离群点。如图10-1中区域R中的点,它们显著偏离数据集的绝大多数的数据对象,因此属于全局离群点。1离群点概述7离群点的类型:全局离群点、条件离群点和集体离群点。2.条件离群点与全局离群点不同,当且仅当在某种特定情境下,一个数据对象显著地偏离数据集中的其他对象时,该数据对象被称为条件离群点(ContextualOutlier)。一般地,在情境离群点检测中所考虑对象的属性划分为条件属性和行为属性。条件属性是指数据对象的定义中定义情境的属性。行为属性指数据对象中定义对象特征的属性。1离群点概述8离群点的类型:全局离群点、条件离群点和集体离群点。3.集体离群点当数据集中的一些数据对象显著地偏离整个数据集时,该集合形成集体离群点(CollectionOutlier)。不同于全局或条件离群点,在集体离群点检测中,除了考虑个体对象的行为,还要考虑集体的行为。1离群点概述9离群点检测的挑战:1.正常对象和离群点的有效建模2.针对应用的离群点检测3.在离群点检测中处理噪声4.可理解性2离群点的检测离群点的检测方法很多,每种方法在检测时都会对正常数据对象或离群点作出假设,从所做假设的角度,离群点检测方法可以分为基于统计学的离群点检测、基于近邻的离群点检测、基于聚类以及基于分类的离群点检测。10十一月2024102离群点的检测基于统计学的离群点检测在基于统计学的离群点检测方法中,假设数据集中的正常数据对象由一个统计模型产生,如果某数据不符合该统计模型,则该数据对象是离群点。在基于统计的离群点检测过程中,一般先设定数据集的分布模型,如正态分布、泊松分布和二项式分布等,然后根据模型进行不和谐检验以发现离群点。不和谐检验中需要样本空间数据集的参数知识、分布的参数知识以及期望的离群点数目。10十一月2024112离群点的检测基于统计学的离群点检测【例10-1】假设某类数据总体服从正态分布,现有部分数据{6,7,6,8,9,10,8,11,7,9,12,7,11,8,13,7,8,14,9,12},基于统计方法检测离群点。10十一月2024122离群点的检测2基于邻近性的离群点检测给定特征空间中的数据对象集,可以使用距离度量对象之间的相似性。直观地,远离其他大多数对象的数据对象被视为离群点。基于邻近性的方法假定离群点对象与它最近邻的邻近性显著偏离数据集中其他对象与其近邻之间的邻近性。基于邻近型的离群点检测方法有基于距离的和基于密度的方法。10十一月2024132离群点的检测

基于邻近性的离群点检测(1)

基于距离的离群点检测方法在基于距离的离群点检测方法中,离群点就是远离大部分对象的点,即与数据集中的大多数对象的距离都大于某个给定阈值的点。基于距离的检测方法考虑的是对象给定半径的邻域。如果在某个对象的邻域内没有足够的其他的点,则称此对象为离群点。基于距离的离群点方法有嵌套-循环算法、基于索引的算法和基于单元的算法。10十一月2024142离群点的检测

基于邻近性的离群点检测(1)

基于距离的离群点检测方法基于距离的离群点方法有嵌套-循环算法、基于索引的算法和基于单元的算法。下面简要介绍嵌套-循环算法。10十一月2024152离群点的检测

基于邻近性的离群点检测(2)

基于密度的离群点检测方法基于密度的离群点检测方法考虑的是对象与它近邻的密度。如果一个对象的密度相对于它的近邻低得多,则被视为离群点。最有代表性的基于密度的离群点检测方法是基于局部离群点离群因子的离群点检测方法。局部离群因子(LocalOutlierFactor,LOF)会给数据集中的每个点计算一个离群因子LOF,通过判断LOF是否接近于1来判定是否是离群因子。10十一月2024162离群点的检测

基于邻近性的离群点检测(2)

基于密度的离群点检测方法局部离群因子(LocalOutlierFactor,LOF)会给数据集中的每个点计算一个离群因子LOF,通过判断LOF是否接近于1来判定是否是离群因子。若LOF远大于1,则认为是离群因子,接近于1,则是正常点。对于任何给定的数据点,局部离群因子算法计算的离群度等于数据点p的k近邻集合的平均局部数据密度与数据点自身局部数据密度的比值。10十一月2024172离群点的检测3基于聚类的离群点检测离群点与簇的概念高度相关,因此,可以通过考察对象与簇之间的关系检测离群点。直观地,离群点是一个属于小的偏远簇或者不属于任何簇的数据对象。基于聚类的离群点检测方法分为两个阶段,首先对数据进行聚类,然后计算对象或簇的离群因子,将离群因子大的对象或稀疏簇中的对象判定为离群点。对于基于原型的聚类,可以用对象到其簇中心的距离度量对象属于簇的程度。10十一月2024182离群点的检测4基于分类的离群点检测如果训练数据中有类标号,则可以将其视为分类问题。该问题的解决思路是训练一个可以区分正常数据和离群点的分类模型。构造分类器时,训练数据的分布可能极不均衡,相对正常数据,离群点的数目极少,这样会造成在构建分类器时精度收到很大影响。为了解决两类数据的不均衡问题,可以使用一类模型(One-classModel)进行检测。10十一月2024193sklearn中的异常值检测方法sklearn中关于异常检测的方法主要有两种:(1)noveltydetection:当训练数据中没有离群点,我们的目标是用训练好的模型去检测另外新发现的样本;(2)outlierdetection:当训练数据中包含离群点,模型训练时要匹配训练数据的中心样本,忽视训练样本中的其他异常点;10十一月2024203sklearn中的异常值检测方法sklearn提供了一些机器学习方法,可用于奇异(Novelty)点或异常(Outlier)点检测,包括OneClassSVM、IsolationForest、LocalOutlierFactor(LOF)等。其中OneClassSVM可用于NoveltyDetection,而后两者可用于OutlierDetection。10十一月202421本章小结离群点(Outlier)是指显著偏离一般水平的观测对象。离群点不同于噪声数据。离群点一般分为全局离群点、条件离群点和集体离群点。离群点检测方法可以分为基于统计学的离群

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论