版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Page 1离群点分析Page 2主要内容Page 3离群点简介n 1.什么是离群点?什么是离群点?n 在样本空间中,与其他样本点的普通行为或特征不一致的在样本空间中,与其他样本点的普通行为或特征不一致的点,我们称为离群点点,我们称为离群点n 2.离群点的来源离群点的来源n 数据来源于异类,如欺诈、入侵、不寻常的实验结果数据来源于异类,如欺诈、入侵、不寻常的实验结果等等n 数据变量固有变化引起,如顾客的新的购买方式、基数据变量固有变化引起,如顾客的新的购买方式、基因突变等因突变等n 数据丈量和搜集误差数据丈量和搜集误差n 3.为什么要进展离群点检测?为什么要进展离群点检测?n “一个人的噪声也
2、许是其他人的信号一个人的噪声也许是其他人的信号Page 4离群点简介n 4.离群点检测中的困难n 1在时间序列样本中发现离群点普通比较困难,由于这些离群点能够会隐藏在趋势、季节性或者其他变化中;n 2对于维度为非数值型的样本,在检测过程中需求多加思索,比如对维度进展预处置等;n 3针对多维数据,离群点的异常特征能够是多维度的组合,而不是单一维度就能表达的。n 5.离群点检测的主要运用领域入侵检测入侵检测欺诈检测欺诈检测医疗医疗公共卫生公共卫生生态系统生态系统Page 5四种常见的离群点检测方法Page 6四种常见的离群点检测方法n 一.基于统计的离群点检测n 离群点的概率定义:离群点是一个对象
3、,关于数据的概率分布模型,它具有低概率。n 基于统计的离群点检测的思绪Page 7四种常见的离群点检测方法n 不调和检验的两个过程:任务假设、备择假设n 假设某个样本点不符合任务假设,那么我们以为它是离群点。假设它符合备选假设,我们以为它是符合某一备选假设分布的离群点。n 实例:n 例如我们设儿童上学的详细年龄总体服从正态分布,所给的数据集是某地域随机选取的开场上学的20名儿童的年龄详细的年龄特征如下:n 年龄=6,7,6,8,9,10,8,11,7,9,12,7,11,8,13,7,8,14,9,12n 那么.相应的统计参数是:均值=9.1; 规范差=2.3。n 假设选择数据分布的阈值为:阈
4、值=均值2规范差n 故在4.5 ,13.7区间以外的数据都是潜在的离群点,n 将最大值取整为13。所以年龄为14的孩子能够是个例外。而且由均值可知,此地的 孩子普遍上学较晚.教育部门以后可据此作一些政策上的改良。Page 8四种常见的离群点检测方法n 基于统计的离群点检测的优缺陷Page 9四种常见的离群点检测方法n 二.基于间隔的离群点检测基于基于间间隔的离群点定隔的离群点定义义: 假假设数设数据集合据集合D D中,中,对对象至少有象至少有pctpct部分部分与对与对象象o o的的间间隔大于隔大于dmindmin,那,那么称对么称对象象o o是以是以pctpct和和dmindmin为参数为参
5、数的基于的基于间间隔的离群点。即隔的离群点。即DBDBpctpct,dmindmin离群点离群点三三种种有效的有效的发发掘基于掘基于间间隔的离群点隔的离群点检测检测的算法:的算法: 1 1基于索引的算法基于索引的算法 2 2嵌套循嵌套循环环算法算法 3 3基于基于单单元的算法元的算法Page 10四种常见的离群点检测方法n 基于间隔和(distance sum-based, DS)检测算法:n与DB (p, d)孤立点一样,DS孤立点发掘算法运用同样的间隔公式,如绝对间隔或欧式间隔,但不根据p和d来断定孤立点,而是先计算数据对象两两之间的间隔,再计算每个对象与其他对象的间隔之和。n设M为用户期
6、望的孤立点个数,那么间隔之和最大的前M个对象即为要发掘的孤立点,这样可消除用户设置参数p和d的需求。Page 11四种常见的离群点检测方法n 案例:孤立点发掘在高等学校科技统计数据分析中的运用n 孤立点实验数据源:选自全国普通高等学校科技统计数据上报基表中的数据n 甘肃省2019年科技统计上报数据中的一所高校数据n n 对基表中的数据,如选取科技人员职称和学历作为最终测试对象,因职称只需院士、正高、副高、讲师、助教和其它职称共六种职称,而学历只需高中以下、中专、大专、本科、硕士和博士共六种职称,职称和学历跨度小,检测出来的孤立点孤立程度相对较低,应选取跨度较大的出生年月作为测试对象。选取三个目
7、的:出生年月、学位和职称作为检测属性。Page 12四种常见的离群点检测方法n 实验及结果分析n 用DS算法时,取M=20,算法前往间隔的值最大的20个教师信息如表1所示。n 经过分析,可以发现孤立点数据中存在两种典型的孤立点类别:n (1)孤立点数据远远偏离于正常值的范围n 序号1-4 噪声n (2)孤立点数据偏离于正常值的范围n 能够是录入错误,能够是真实数据序号出生年月学历职称1198907大学本科正高级2198510硕士研究生副高级3196008博士研究生初级4197909专科副高级5196002博士研究生中级6195511博士研究生副高级7198109硕士研究生副高级8197408博
8、士研究生初级9198109硕士研究生副高级10198206博士研究生副高级11198301博士研究生副高级12195706博士研究生副高级13195712博士研究生副高级14197302硕士研究生正高级15197211大学本科正高级16195001硕士研究生正高级17197304硕士研究生副高级18195011硕士研究生副高级19196911硕士研究生初级20197002硕士研究生初级Page 13四种常见的离群点检测方法n 三.基于密度的离群点检测n 部分离群点:一个对象相对于它的部分邻域,特别是关于部分密度,它是远离的。 图1是二维数据集,图中包含两个簇C1 ,C2和两个离群点o1 , o
9、2,其中C1稠密,C2稀疏。 o2是全局离群点,o1是部分离群点。根据上述定义及发掘算法,o2离群点易于发掘,但o1却难以发掘,假设为了发掘出o1;而调整参数,那么C1中的大多数数据点都将被标识为离群点。Page 14四种常见的离群点检测方法n 基于密度的离群点检测根本概念基于密度的离群点检测根本概念n 1、对象、对象p的第的第k间隔间隔n 对于正整数对于正整数k,对象对象p的第的第k间隔可记作间隔可记作k-distance(p)。n 在样本空间中,存在对象在样本空间中,存在对象o,它与对象,它与对象p之间的间隔记之间的间隔记作作d(p,o)。假设满足以下两个条件,我们那么以为。假设满足以下两
10、个条件,我们那么以为k-distance(p)= d(p,o):n 1 在样本空间中,至少存在在样本空间中,至少存在k个对象个对象q,使得,使得d(p,q)= d(p,o);n 2 在样本空间中,至多存在在样本空间中,至多存在k-1个对象个对象q,使得,使得d(p,q)d(p,o)。 显而易见,假设运用k-distance(p)来量化对象p的部分空间区域范围,那么对于对象密度较大的区域,k-distance(p)值较小,而对象密度较小的区域,k-distance(p)值较大。Page 15四种常见的离群点检测方法n 2、对象p的第k间隔领域k-distance neighborhood of
11、an object pn知对象p的第k间隔,那么,与对象p之间间隔小于等于k-distance(p)的对象集合称为对象p的第k间隔领域,记作:Nkdis(p)(p)n该领域其实是以p为中心,k-distance(p)为半径的区域内一切对象的集合不包括P本身。由于能够同时存在多个第k间隔的数据,因此该集合至少包括k个对象。n可以想象,离群度较大的对象Nkdis(p)(p)范围往往比较大,而离群度小的对象Nkdis(p)(p)范围往往比较小。对于同一个类簇中的对象来说,它们涵盖的区域面积大致相当。Page 16四种常见的离群点检测方法3 3、对对象象p p相相对对于于对对象象o o的可的可达间达间
12、隔隔公式:公式: 也就是也就是说说,假,假设对设对象象p p远远离离对对象象o o,那,那么两么两者之者之间间的可的可达间达间隔就是隔就是它们它们之之间间的的实践间实践间隔,但是假隔,但是假设它们设它们足足够够近即近即p p在在o o的的k k间间隔隔邻邻域域内内,那,那么实践间么实践间隔用隔用o o的的k k间间隔替代。隔替代。4 4、部分可、部分可达达密度密度 对对象象p p的部分可的部分可达达密度定密度定义为义为基于基于p p的的k-k-近近邻邻的平均可的平均可达达密度的密度的倒倒数数。 根据部分可根据部分可达达密度定密度定义义,假,假设对设对象象p p的周的周围围分布稀疏,即分布稀疏,
13、即对对象象p p远远离本人的离本人的k-k-近近邻邻,那,那么么p p与与其其k-k-近近邻邻的平均可的平均可达间达间隔隔较较大,大,而其部分可而其部分可达达密度密度会会相相应应比比较较小。小。Page 17四种常见的离群点检测方法5 5、部分离群点因子、部分离群点因子LOFLOF它它代表了代表了p p为为离群点的程度。离群点的程度。公式:公式:假假设对设对象象p p的离群程度的离群程度较较大,那大,那么它么它k k领领域中大多域中大多数数是离是离对对象象p p较远较远且且处处于某一于某一个类个类簇的簇的数数据据对对象,那象,那么这么这些些数数据据对对象的象的lrdlrd应该应该是偏大,而是偏
14、大,而对对象象p p本身的本身的lrdlrd是偏小,最后所得的是偏小,最后所得的LOFLOF值值也也是偏大。反之,假是偏大。反之,假设对设对象象p p的离群程度的离群程度较较小,小,对对象象o o的的lrdlrd和和对对象象p p的的lrdlrd类类似,最后所得的似,最后所得的LOFLOF值应该值应该接近接近1 1。优优点点经过经过基于密度的部分离群点基于密度的部分离群点检测检测就能在就能在样样本空本空间数间数据分布不均据分布不均匀匀的情的情况况下也可以准确下也可以准确发现发现离群点。离群点。Page 18四种常见的离群点检测方法n 四、基于偏向的离群点检测根本思想根本思想基于偏离的孤立点检测基于偏离的孤立点检测 deviation-based outlier deviation-based outlier detection detection 不采用统计检验或基于间隔的度量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 商标使用规范与指南
- 电子产品公司备用金审批
- 楼顶防水包工合同范例
- 旅游学校租赁合同
- 酒店管理岗位劳动合同
- 建筑监理简易施工合同
- 限竞房买卖居间合同范本
- 临时包装工招聘合同
- 汽车制造倒板施工合同
- 塑料制品贸易公司招聘合同
- 2024-2030年中国骆驼奶行业市场发展趋势与前景展望战略分析报告
- 专职会计劳务合同模板
- 中学生廉洁教育课件
- 智慧城市会展融合
- DB50-T 771-2017 地下管线探测技术规范
- 2024年全国普法知识考试题库与答案
- 教学计划(教案)-2024-2025学年人教版(2024)美术一年级上册
- 2024年全国职业院校技能大赛中职组(婴幼儿保育赛项)考试题库-下(多选、判断题)
- 机械工程导论-基于智能制造(第2版)第3章 机械设计与现代设计方法
- 2024年新高考Ⅰ卷、Ⅱ卷、甲卷诗歌鉴赏试题讲评课件
- 任务二:诗歌朗诵教案 人教版
评论
0/150
提交评论