第六讲-1-异常值处理_第1页
第六讲-1-异常值处理_第2页
第六讲-1-异常值处理_第3页
第六讲-1-异常值处理_第4页
第六讲-1-异常值处理_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1异常值检验和处理2异常值检验广义定义:在所获统计数据中相对误差较大的观察数据称之为异常值(outlier),或称奇异值。狭义定义:一批数据中有部分数据与其余数据相比明显不一致的称为异常值,或称离群值。一个样本中出现概率很小的值叫做异常值(outlier)。

对可疑值的取舍实质是区分可疑值与其它测定值之间的差异到底是由过失、还是随机误差引起的。如果已经确证测定中发生过失,则无论此数据是否异常,一概都应舍去;而在原因不明的情况下,就必须按照一定的统计方法进行检验,然后再作出判断。根据随机误差分布规律,在为数不多的测定值中,出现大偏差的概率是极小的,因此通常就认为这样的可疑值是由过失所引起的,而应将其舍去,否则就予以保留。4异常值检验方法概述对于正态、指数、Weibull、对数正态分布等均已构造了一些异常数据检验方法。其中,正态分布是统计学中最常见也是最重要的一种分布,许多分布都可经适当变换化为正态分布,例如:泊松分布可通过平方根变换化为正态分布。正态分布数据的异常值检验方法:格鲁布斯法、狄克逊检验法、罗马诺夫斯基t检验法与偏度——峰度检验法。

5数据异常值剔除的可能性和必要性采样误差分析误差操作误差……已经有公认的方法

由小至大排序,可疑值Xi可能为x1或xn;计算该组数据的平均值和标准差;计算统计量Gi。若xi可疑,格鲁布斯法(Grubbs)式中:s—包括可疑样本在内的标准差;—包括可疑值在内的全部样本的平均值。(4)查临界值表G(α,n),根据事先确定的置信度和测定次数查表。7N样品数Α显著性水平Nα0.010.050.010.0531.1551.153122.5502.28541.4921.463132.6072.33151.7491.672142.6592.37161.9441.822152.7052.40972.0971.938162.7472.44382.2212.032172.7852.47592.3232.110182.8212.504格鲁布斯检验临界值G(α,n)表(5)比较Gi和G(α,n)。若Gi>G(α,n),可疑值为异常值;若Gi≤G(α,n),则Gi不是异常值而保留

。故该方法的准确度较Q法高,因此得到普遍采用。8

检验步骤:

(1)从小到大排列数据,可疑值为两个端值

狄克逊(Dixon)检验法检验法-极差比法,Q法当3≤n≤7时:或

当8≤n≤10时:或

(2)根据n数目的不同,计算出相应的r值。注意:N不同,计算公式不同分段计算公式……9(3)根据n和α查表;(4)将计算求得的r大和r小分别与查得的r(0.05,n)或r(0.01,n)进行比较。

如果r大(或r小)>r(0.05,n)或r(0.01,n),则最大(或最小)的可疑值为异常值,不可信。如果r大(或r小)<r(0.05,n)或r(0.01,n),则最大(或最小)的可疑值不是异常值,应保留。适于3<n<30n34567891011r(0.05,n)0.9410.7650.6420.5600.5070.5540.5120.4770.576r(0.01,n)0.9880.8890.7800.6980.6370.6830.6350.5970.679狄克逊(Dixon)检验法Q值表10例7

测定某溶液浓度(mol·L-1),得结果:

0.1014,0.1012,0.1016,0.1025,

问:0.1025是否应弃去?

(置信度为90%)0.1025应该保留.x=0.1015~n=411t分布检验法(汤姆逊法)

在测量列xj(j=1,2,3,……,n)中选择可疑值xj,将其剔除后计算平均值和标准差s(不包括可疑值xj)。根据测量次数n选取显著水平0.05或0.01,查表得到t检验系数K(0.05,n)或K(0.01,n)。t检验法临界值K(α,n)n45678910111213K(0.05,n)4.973.563.042.782.622.512.432.372.332.29K(0.01,n)11.466.535.044.363.963.713.543.413.313.23如果测量值xj为异常值

事先将可疑值xj排除在外,保证了计算出的标准差s的独立性与正确性,在理论上是比较严格的。有可能将一些正常的测定值判定为异常值,为了避免发生这种“判无为有”与“判少为多”的错误,应选较小的检出水平。12[例4]测药物中的Co(μg/g)结果为:1.25,1.27,1.31,1.40.问:1.40是否为可疑值? __

[解]去掉1.40求余下数据

X=1.28d=0.023_则:|x

可疑-x

好|=|1.40-1.28|=0.12>4×0.023说明:1.40为离群值检验步骤(1)去掉可疑值xj,求余下值的平均值

4d法和平均偏差>4dn-1,xj为异常值(2)求差值并与4d比较132-13[例5]某学生测N(%):20.48;20.55;20.60;20.53;20.50问:

(1)用Q检验20.60是否保留___

(2)报告分析结果n,S

,x

,d/x

(3)若xT=20.56计算Er%

(4)P=0.95时平均值的置信区间并说明含义

|20.60-20.55|[解](1)Q计=—————

=0.42(20.60-20.48)

Q表

=0.86>Q计

20.60保留14 ___

(2)x=20.53%(d/x)×10000/00=1.70/00

S=0.035% _

x–xT20.53-20.56

(3)Er%=——·100=————·100=-0.14

xT

20.56这说明在20.53±0.043区间中包括总体平均值μ的把握性为95%15平均值加减三倍标准差法163倍四分位间距法17五数概括法-非参数检验法“五数”指中位数M,上四分位数QU、下四分位数QL和上、下极值。识别数据中的异常值需要有对于异常值不敏感的展布度,而且它要强调数据中心部分的行为而不是强调极端值,所以选择四分展布(记为H=QU-QL),而不能选极差与标准差。通常人们认为在区间(QL-1.5H,QU+1.5H)之外的数据可看作异常值。这种方法简单易操作,对大样本检验功效较高,但对小样本则略显粗糙。在实际问题中,我们只能对这些数据分隔出来加以特别注意,根据实际情况仔细检查它们是否确为异常值。18在统计数据中,有时发现个别测定数据离群,统计检验判为异常值,但若它与其它测定值的差异仍在仪器的精度范围之内,这种数据不应舍弃,可以保留这些异常的测定值,并在数据处理结果中加以必要的说明,这可能更合理。19异常值的处理直接剔除显著异常值,条件?用中位值来代替稍有异常的数据的平均值,接近临界值,?因舍弃和保留可疑数据对中位值的影响最小。替代显著异常值:无原因的显著异常值用正常值最大值代替异常值、用正常值最小值代替异常值或用总体平均值代替异常值。20替代显著异常值的两个公式(不能替代极小值):

影响系数法GL=M*[(nk+1)/(k+1)]式中:k—人为赋值的影响系数,通常取k=0.1或k=0.05;

M—包括可疑值在内的均值;

GL—替代值。式中:I—F

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论