版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2014数学建模竞赛选拔承 诺 书我们仔细阅读了数学建模竞赛选拔的规则.我们完全明白,在做题期间不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人研究、讨论与选拔题有关的问题。我们知道,抄袭别人的成果是违反选拔规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守选拔规则,以保证选拔的公正、公平性。如有违反选拔规则的行为,我们将受到严肃处理。我们选择的题号是(从A/B/C中选择一项填写): A 队员签名 :1. 2. 3. 日期: 2014 年 8 月 23 日2014年南数学建模
2、竞赛选拔编 号 专 用 页评阅编号(评阅前进行编号):评阅记录(评阅时使用):评阅人评分备注A题:离群点的判定摘要离群点(outlier)是指数值中,远离数值的一般水平的极端大值和极端小值。称之为歧异值,有时也称其为野值。本文对离群点的判定、计算结果的评价与预测问题进行了建模、求解和相关分析。针对问题一,在计量测试领域中, 离群值是指粗差即粗大误差或过失误差的测量值。为了准确地判别离群点,本文建立了合适的判别模型,通过已知条件建立学生化残差模型来判别一维数据的离群点,通过一维数据的均值,残差等找出了离群点。最后通过DPS数据处理系统,结合3S检验准则、狄克松准则、格拉布拉斯准则对结果进行了合理
3、的检验。针对问题二,对于离群点的处理,本文从技术上设法判断其出现的原因,详细地介绍了离群点检验的6种方法,并用一组实例通过计算,完成检验,并得出结果。针对问题三,对n维数据建立判别离群点的数学模型,采用降维的方法,运用LLE算法寻找样本数据的内在嵌入分布,并通过距离公式和离群点权值判别式进行权值数据判定,根据权值的大小标识出数据集中的离群点,最后对其结果进行了科学的评价。最后对本文所建立的模型及使用的方法的优缺点进行了相关的讨论,并分析了在其他情况下的推广应用问题。关键词:离群点 学生化残差模型 DPS 格拉布斯准则 LLE算法一、 问题重述1.1 问题背景离群点(outlier)是指数值中,
4、远离数值的一般水平的极端大值和极端小值。因此,也称之为歧异值,有时也称其为野值。 形成离群点的主要原因有:首先可能是采样中的误差,如记录的偏误,工作人员出现笔误,计算错误等,都有可能产生极端大值或者极端小值。其次可能是被研究现象本身由于受各种偶然非正常的因素影响而引起的。例如:在人口死亡序列中,由于某年发生了地震,使该年度死亡人数剧增,形成离群点;在股票价格序列中,由于受某项政策出台或某种谣传的刺激,都会出现极增,极减现象,变现为离群点。 不论是何种原因引起的离群点对以后的分析都会造成一定的影响。从造成分析的困难来看,统计分析人员说不希望序列中出现离群点,离群点会直接影响模型的拟合精度,甚至会
5、得到一些虚伪的信息。因此,离群点往往被分析人员看作是一个“坏值”。但是,从获得信息来看,离群点提供了很重要的信息,它不仅提示我们认真检查采样中是否存在差错,在进行分析前,认真确认,而且,当确认离群点是由于系统受外部突发因素刺激而引起的时候,他会提供相关的系统稳定性,灵敏性等重要信息。1.2 目标任务1. 针对一维数据,建立判别离群点的数学模型;并对模型的计算结果进行评价或检验;2. 如果数据中出现离群点应该如何处理?并举例说明该处理方法对后续建模分析的影响;3. 针对n维数据,建立判别离群点的数学模型;并对模型的计算结果进行评价或检验。二、 问题分析离群值是样本中的个别值,其数值明显偏离其它样
6、本的值,故通常称做异值。1、对于问题一,判别与剔除离群值一般采用两种方法。第一种方法是, 对测量列进行统计检验,通过统计规律判断是否含有离群值。通常假定随机变量的测量值服从正态分布,并且运用一定的检验方法,例如如格拉布斯检验或狄克逊检验等,对所得到的测量值进行判断,然后利用处理后的测量值来确定被测量的特征参数估计。一般都是以残差分析为对象。在给定显著性水平的情况下,根据残差值是否超出标准差的某一倍数,来判断是否存在离群值进而消除其影响。第二种方法是,采用可避免或抑制离群值影响的测量结果及其不确定度的稳健估计进行处理,这种方法可以保证当发生少许或严重模型差异时, 处理结果所受到的影响比较小。对于
7、一维数据离群点的判别,我们采用的是学生残差化分析,并利用DPS数据处理系统对其模型计算结果进行检验。2、对于问题二,对于测定中的异常值的处理,必须持慎重态度,不能贸然从事。由于在一组平行测定所得到的分析数据中,有时会出现个别测定值与其他数据相关较远,这些数据称为离群值或逸出值(Qutlier)。初学者多倾向于随意舍弃这一可疑值,以获得精确度较好的分析结果。对于离群值,首先应从技术上设法判断其出现的原因,如果查明确由实验技术上的失误引起的,不管这样的测定值是否为异常值,都应舍弃,而不必进行统计检验。但是,有时由于各种原因未必能从技术上找出它出现的原因,在这种情况下应对其进行统计检验,以便于从统计
8、上判明离群值是否应该保留或舍弃。本文在问题二的论述中,详细介绍了离群点检验的6种方法,并用一组一维实例来进行检验,并得出结果。3、对于问题三而言,对n维数据建立判别离群点的数学模型,并对模型的计算结果进行评价或检验,采用了降维的方法,并运用LLE算法分别计算出样本点与邻近点的距离,以及相应的权值和降维后的特征向量。通过对判别式的分析,离群点的权值变化情况可以通过判别式得出,从而判别出离群点。三、 模型假设1、假设一维数据满足正态分布;2、假设每年的试题难度差不多;3、对于每个样本点都可以找到它的k个近邻点;4、假设n维数据在局部是线性的。四、 符号约定符号定义与说明S标准差实验学生化残差残差样
9、本学生残差绝对值样本点的距离权值这里只给出主要符号的意义,其他符号将在文中给出,在此不再一一赘述。五、 模型的建立与求解5.1 一维数据中离群判定模型的建立及对其结果的检验5.1.1 建立学生化残差分析模型对于一维数据 首先算出它的算术平均值及其残差分别为:,再选取一样本,可得出其实验标准差与样本标准差分别为:实验标准差 : 样本标准差 : 而实验学生化残差为残差与实验标准差之比,样本学生化残差是残差与样本标准差之比,它们可以通称为学生化残差,其值及其绝对值分别是:实验学生化残差: 样本学生化残差: 实验学生残差绝对值: 样本学生残差绝对值: 根据其学生化残差分析模型性质可知,对于,其服从正态
10、分布,则学生化残差服从汤普森分布,若某一测量列的样本学生化残差的绝对值的最大值为多个测量列的样本学生化残差的绝对值的最大值一定分别满足于: 当n为偶数 ; 当n为奇数;所以通过学生化残差模型判别一维数据的的离群点,首先要算其统计量:然后确定其显著水平,通过查表可得到其临界值,当时,可以认为对应的为离群值,应当给予剔除,否则该一维数据不含离群值。若剔除一个离群值,则对剩余的个一维数据继续使用该模型判断直到检验不到离群值,也就是到所有的为止。5.1.2 模型的求解如下表所示,通过学生化残差分析模型求解,判别出其离群点,并运用DPS数据处理系统对其离群点加以检验。表1 一维测量数据举例n123456
11、78长度(mm)11251248125012591273127912851285n910111213141516长度(mm)12931300130513121324131513251350(1) 利用公式求出均值和残差绝对值均值: 残差: 可得到残差绝对值表如下:表2 测量数据残差绝对值n12345678残差(mm)15835332410422n910111213141516残差(mm)1017222941324267 (2) 求出试验标准差s标准差: (3) 求出临界值根据给定的,由于,所以通过查表可以得到临界值为: 临界值: (4) 判别离群点因为 所以第一个一维数据1125是离群点,应该
12、剔除,此时n=15重新计算均值,残差绝对值,以及实验标准差。通过继续查表可得当剔除一个离群点以后的临界值,由于,所以该一维数据中不再含有离群点。5.1.3 模型计算结果的检验 对离群点(异常值)检验的方法有很多种如3S检验准则,狄克松(Dixon准则,格拉布拉斯(Grubbs)准则等,但相对而言DPS数据处理系统(Data Processing System对离群点的检验更方便、更快捷,数据处理系统平台是由浙江大学研制的通用多功能数理统计和数学模型处理软件系统。能较快的处理异常值。其具体步骤如下:(1)启动DPS软件,首先将表1的实验测量数据输入工作表。图1 DPS数据处理输入数据(2)选择菜
13、单选项“数据分析”,并点击其中选项“异常值检验”图2 DPS数据处理数据分析(3)进行异常值检验后会出现菜单“异常数据剔除检验”,选择相应的检验分析方法与p值,单击“确定”,就会出现检验结果。 图3 DPS数据处理剔除异常数据(5) 与学生化残差模型计算结果对比对比,可以发现DPS数据处理系统检验结果,与原始结果一致,说明学生化残差模型适用于一维数据的离群点的判别。5.2 离群值的处理及检验在一组平行测定所得到的分析数据中,有时会出现个别测定值与其他数据相关较远,这些数据称为离群值或逸出值(Qutlier)。初学者多倾向于随意舍弃这一可疑值,以获得精确度较好的分析结果。对于离群值,首先应从技术
14、上设法判断其出现的原因,如果查明确由实验技术上的失误引起的,不管这样的测定值是否为异常值,都应舍弃,而不必进行统计检验。但是,有时由于各种原因未必能从技术上找出它出现的原因,在这种情况下应对其进行统计检验,以便于从统计上判明离群值是否应该保留或舍弃。5.2.1 问题的分析图4 离群值的检验方法5.2.2 离群值的检验方法离群值的检验可分两大类:一类是标准偏差预先已知的场合;另一类是标准偏差未知的场合。只能利用待检验的一组分析数据本身来检验其中的离群值是否为异常值。1、 标准偏差预先已知检验时使用统计量 (10)式中是被检验的离群值,是一组测定值的算术平均值,是由不包括异常值在内的其他实验测定值
15、求得。如果根据式(10)计算的值查表大于舍弃界限中相应置信度下的临界值,则将作为异常值舍弃。2、 标准偏差未知在更多情况下标准偏差是未知的,只能利用待检验的一组分析数据本身来检验其中的离群值是否应该保留或舍弃。(1) 莱达因准则对于采集几个数据的测量列,先求得算术平均值及剩余误差然后再根据贝塞尔法求得均方根偏差。判别依据如下(假设符合正态分布,即测量列也服从正态分布);,则为粗大估计,应予舍去;,则为正常数据,应予保留。根据概率论统计,当误差服从正态分布时,误差大于的观测数据出现的概率小于0.003,即在大于300次的观测中才有出现1次的可能。因此若采用莱因达准则(亦称准则)进行粗差剔除时,置
16、弃概率是较小的,这样有时就会将不合理的异常值也予以保留。(2) 肖维勒准则肖维勒准则也是以正态分布为前提的。假设多次重复测量所得n个测量值中,某数据的残余误差,则剔除此数据。,实用中由于(是样品容量为时的判别系数),所以这在一定程度上弥补了莱因达准则的不足,相对莱因达准则而言,这一判别准则要苛刻得多。(与的对应关系在下表3中给出)表3 与的对应关系n34567891011121.381.541.651.731.801.881.921.962.002.03n1314151618203040502.072.102.132.152.202.242.392.493.00(3) 格拉布斯准则假设测量列为
17、正态分布列。将按它们的大小,从小到大的顺序排列,设为,即最小,最大。如果怀疑或者为异常数值,那么可以这样来进行判定。先求出它们的算术平均值和标准偏差,然后计算出统计量与临界值比较,进行判断,其中,为数据数目,为显著性水平,通常取,即取置信度为。下表列出了格拉布斯检验法的临界值,以下为数理统计的相关公式:当时:当时:首先将该试验数据代入以上各式并计算,然后将求得的与表格拉布斯临界值进行比较:若,认为不存在异常数据;若,认为对应为异常数据。将异常试验数据剔除,则剩余个数据,并重复以上步骤,再次判断,直到经过次判断,得到无异常数据。但应指出的是:要对测试数据异常值进行详细分析,只有确定其是由于测量过
18、失引起的误差,才能进行剔除。表4 格拉布斯临界值n345678910111213g1.151.461.671.821.942.032.112.182.232.292.33n1415161718192025304050g2.372.412.442.472.52.532.562.662.752.872.96将分析数据由小至大按顺利排列:,其中可疑值为或。先计算出该组数据的平均值和标准偏差,再计算统计量或根据事先确定的置信度和测定次数查表,如果大于所查数值,则相对于的或为异常值,应予以舍去;否则,应予保留。(4) t分布检验法在几次重复试验中,有个别较大的剩余误差被怀疑是过失误差,则应将含有此剩余误
19、差的测试值剔除,然后按余下的个测试值及剩余误差来计算标准差的估计量:表5为t分布临界值。按置信概率和t分布的自由度来查表5中值以确定该值是否应剔除。表5 t分布临界值n12345t12.714.3033.1822.7762.571n678910t2.4472.3652.3062.2622.228若被怀疑并被剔除的测试值确实属于含有过失误差应满足:也就是说满足于上式时,该测试值剔除是合理的;如果不满足上式,则说明该测试值不含有过失误差,所以应该将它放入测试值的数列,并重新计算标准差估计量。(5) 狄克逊准则若有1组测量数据,且为正态分布,则可能为异常值的测量数量必然出现在两端,即或。分别使用不同
20、的统计量(见表6),当求得统计量大于表7相应置信度和测量次数的临界值时,则可将被检测的数值作为异常值舍去。表6 不同范围的极差比n检验检验3n78n1011n1314n15表7 狄克逊临界值n345678r0.9410.7650.6420.560.5070.554n910111213r0.5120.4770.5760.5460.521(6) 极差法利用极差检验一组分析数据中的离群值时,使用统计量式中为极差。根据事先确定的置信度和测定次数查表,如果上式算出的值大于表中相应的值,则可以认为该离群值为异常值,应从该组分析数据中舍弃;否则,应予保留。(7) 其他方法5.2.3 举例说明例:测试得到某电
21、线电缆产品某状态下的电性指标为1.56,2.09,2.09,2.09,2.23,2.33,2.42,2.42,2.56,2.66等10个数据,试找出离群点并对其进行处理。解:方法 用t分布检验法进行检验。首先怀疑最大的2.66是异常值,剔除2.66后进行计算:查表5可得:即满足所以测试值2.66不含有过失误差,不是异常数,不应被剔除。方法 用格拉布斯检验法进行检验因为:所以:查表4格拉布斯临界值,所以,因此,认为对应为异常数据。取出后,试验总数据数为,重复以上步骤并进行如下的计算:因为:所以:查表4格拉布斯临界值,所以,认为对应不是异常数据。因此,除1.56是异常数据外,其他均为有效数据值。方
22、法 用狄克逊检验法进行检验因为:查表7狄克逊临界值,由此可得:,所以最小试验数据1.56为异常值,不可信,应予以剔除;,所以最大试验数据2.66不是异常值,可信,应予以保留。故,由以上三种方法可得出结论:1.56为异常值,不可信,应予以剔除;2.66不是异常值,可信,应予以保留。5.3 n维数据中离群判定模型的建立及对其结果的检验如果科学、合理地对数模竞赛成绩进行评价和预测,除全国竞赛成绩、赛区成绩外,还需要考虑许多的因素。5.3.1 问题的分析对于n维数据离群点的判别不同与一维数据的判别方法。对高维数据的估计需要的样本个数与维数构成指数增长的关系,大量的数据分析问题本质上是非线性的,甚至是高
23、度的非线性,对此我们不能利用已有的快速成熟的线性模型进行研究因此。对于n为数据离群点的判别与检验可用采用基于局部线性加权的离群点检测方法,其基本思想是:为了适合挖掘高维复杂数据集中的离群点,该算法利用LLE算法对高维非线性数据进行维数约减,从高维采样数据中恢复得到低维数据集结合本文提出的距离公式,并根据本文提出的离群点权值判别式进行权值数据的判别。同时,在判别基础上,设定分段线性处理,再利用局部邻近点加权,最终确定离群点。实验表明了此算法能够快速处理带有离群点的非线性高维数据集,结果与对象空间分布顺序无关,并且效率优于已有的同类基于距离的离群点检测算法。5.3.2 离群点判别的数学模型的建立1
24、. LLE算法LLE是一种依赖于局部线性的算法,它认为在局部意义下,数据结构是线性的,或者说局部意义下的点在一个超平面上。主要使用局部的线性描述整体的非线性,从而表达整体的情况。LLE算法能够实现高维输入数据点映射到低维坐标系,同时保留邻接点之间的关系。(1) 距离的计算对于n维空间中的每一个样本与其它n-1个样本的距离,在样本点分布稀疏的区域,近邻点所组成的局部邻域应该要比在样本点分布比较稠密的区域大,所以对距离定义如下:其中,分别表示,和其他点之问的平均值,采用这个距离公式寻找离群点。的分子是普通的欧氏距离,分母是数值,所以可以给出满足距离定义的要求:,当且仅当成立,满足距离的非负性; 满
25、足距离对称要求)满足三角不等式要求,即这个距离使处于样本点分布较密集区域的样本点之间的距离增大,而使处于样本点分布较稀疏的区域的样本点之间的距离缩小,这样会使降维后的样本数据集整体分布趋于均匀化,有利于离群点的权值计算。同时,距离公式可设定所需的距离阈值用于判别定理。(2) 权值的计算在这些数据中,对于每个,找到与他相邻的k个近邻点后,计算该点和每个紧邻点的权值,即最小化:其中, 如果不是的近邻,则。(3) 计算低维嵌入空间中的和的值 根据n维空间中样本点和它的近邻点的权值来计算低维嵌入空间中的和的值。在低维的空间中我们保持着局部的线性结构,而权值w代表着局部的信息,所以固定权值使下面的损失函
26、数最小化: 其中。要求并且,从而使得对平移、旋转、伸缩变化都具有不变形。使最小化的解为矩阵M的最小几个特征值所对应的特征向量构成的矩阵。取最小的m+1个特征值对应的特征向量,去掉其中最小的特征值对应的特征向量,剩余的m个特征向量组成的矩阵就是低维空间中所得特征向量。2,离群点权值的判别定理 经过LLE降维方法处理后,其低维数据集是通过权值计算而来的,离群点的权值的变化情况由以下定理判别:令代表相应的真实情况,代表的邻域,并设,则有 令代表相应的离群点,同时。再令 则有,其中,代表点的邻域矩阵。在上面的叙述中,各离群点之间、不同真实值之间,以及与离群点之间是相互独立的,个离群点是同均值(0),同
27、方差的,并且记,且有如下判别式:, 其中为欧几里德范数,,为的最小非零特征值,。综上可得下面判别式: 由上述定理可知,在邻域大小k已知情况下,离群点权值主要由3个因素决定: 数据点之间距离d的大小; 邻域的影响; 真实值的权值的大小;3,具体算法的描述 对于n维空间中每个样本计算它和其他n-1个样本点之间的距离,根据距离的大小,选择前k个与样本点最近的点作为其临近点,常采用改进欧氏距离来度量两个点之间的距离。 对于每一个样本点,找到它的k个近邻点之后,计算该点和它的每个近邻点之间的权值。 对最小化所得的每一个权值组成一个权值矩阵,并对权值进行约束限制。 根据n维空间中的样本点和它的近邻之间的权
28、值来计算低维嵌入空间中的值和。 根据距离公式改进降维后样本数据集中各点之间的距离,以使样本数据中的离群点更加突出。 经过LLE算法降维,包括离群点的低维数据是通过权值W计算而得,离群点的变化情况可由判别式得出。 由于使用LLE算法进行降维,LLE算法是从保持局部线性假设出发,因为在降维后的数据集中,对从判别式中得到的离群点权值,利用一点的近邻点的线性组合来表式出该离群点。5.3.3 模型的评价从模型的计算结果来看,模型给出了判别离群点的具体方法,从总体上来看,这个模型综合考虑了各种因素的影响,经过了严谨的数学推理,从计算结果上来看还是比较合理的,其合理性主要体现在以下几个方面:1,在这个模型的
29、求解过程中,保持了数据所含感兴趣信息,与此同时,还降低了数据的维数,这样既使运算简单,而且还不失其合理性。2,LLE算法能够实现高维输入数据点映射到一个低维坐标系,同时保留了邻接点之间的关系,这样固有的几何结构就能够得到保留。而且此算法不仅能够有效地发现数据的非线性结构,同时具有平移、旋转等不变特性。3,对原有欧氏距离的计算方法进行了改进,这样使处于样本点分布较密集区域的样本点之间的距离增大,而使处于样本点分布较稀疏的区域的样本点之间的距离缩小,这样会使降维后的样本数据集整体分布趋于均匀化,以使样本数据集中的离群点更加突出,而且有利于离群点的权值计算。通过以上分析可以发现,此模型的判别结果还是
30、比较合理的,既保证了得到的结果相当接近于全局最优解,又保证了能非常快速地得到结果。因此,此判别方法对于n维数据中离散点的判别效果还是不错的。六、 模型评价及推广6.1 模型优点1、学生化残差模型,就残差模型而言,它是一种重要的回归诊断量,通过对残差进行统计处理从中提炼出这些信息的方法,可以发现现行模型的缺陷。通过与残差图和相应的假设检验结合起来是一种比较理想的方法;2、DPS系统检测检测与剔除离群点,该方法比较简单、直观和快捷,有利于数据的处理与分析;3、LLE算法能够实现高维输入数据点映射到一个低维坐标系,同时保留了邻接点之间的关系,这样固有的几何结构就能够得到保留。而且此算法不仅能够有效地发现数据的非线性结构,同时具有平移、旋转等不变特性。6.2 模型缺点1、学生化残差模型,仅适用于简单的一维数据离群点的判定,而对于高维或一些复杂的一维数据,处理起来比较麻烦;2、 在计算所有点之
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 倡导低碳生活演讲稿15篇
- 二零二五年度个人土地储备与开发管理合同2篇
- 2024年巴中市人民医院高层次卫技人才招聘笔试历年参考题库频考点附带答案
- 2025版木地板电商平台版权声明协议2篇
- 北京印刷学院《细胞工程原理》2023-2024学年第一学期期末试卷
- 职工辞职报告(合集15篇)
- 2025版城市绿化项目廉洁施工服务合同3篇
- 定制衣柜合同书
- 配件采购合同范本
- 二零二五年度个人汽车贷款逾期罚息合同3篇
- 普外科医疗组长竞聘演讲
- 北京市朝阳区2022-2023学年三年级上学期英语期末试卷
- GB/T 9755-2024合成树脂乳液墙面涂料
- 哔哩哔哩MATES人群资产经营白皮书【哔哩哔哩】
- 【历史】第一、二单元测试题2024~2025学年统编版七年级历史上册
- 婚姻家庭规划
- 认识实习报告(10篇)
- 【MOOC】内科护理学-中山大学 中国大学慕课MOOC答案
- 2024年商业地产买卖合同样本
- 2023-2024学年广东省深圳市福田区七年级(上)期末英语试卷
- 双碳全景系列培训第一章碳达峰、碳中和
评论
0/150
提交评论