探索性数据分析简介_第1页
探索性数据分析简介_第2页
探索性数据分析简介_第3页
探索性数据分析简介_第4页
探索性数据分析简介_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摸索性数据分析介绍ExploratoryDataAnalysis(EDA)摸索性数据分析(EDA)是一种崭新统计研究方向。近几十年来,已有多本有关EDA方面著作和许多学术研究论文,实际应用也取得了显著成效。目前,摸索性数据分析已得到统计学界公认,是一种极有发展前程新领域。DavidC.Hoaglin等著,陈忠琏等译.摸索性数据分析.北京:中国统计出版社,199810/10/20231试验优化技术1/29一、摸索性数据分析主要特点研究从原始数据入手,完全以实际数据为根据

传统统计分析办法是先假定数据服从某种分布,如多数情况下假定数据服从正态分布,然后用适应这种分布模型进行分析和预测。但客观实际多数数据并不满足假定理论分布(如正态分布),这样实际场所就会偏离严格假定所描述理论模型,传统统计办法就也许体现很差,从而使其应用具有极大不足。EDA则不是从某种假定出发,而是完全从客观数据出发,从实际数据中去摸索其内在数据规律性。10/10/20232试验优化技术2/29

分析办法从实际出发,不以某种理论为根据

传统统计分析办法是以概率论为理论基础,对多种参数估计、检查和预测给出具有一定精度度量办法和度量值。EDA则以不完全正式办法处理数据。在摸索数据内在数量特性、数量关系和数量变化时,什么办法能够达成这一目标就采取什么办法,灵活看待,灵活处理。办法选择完全服从于数据特点和研究目标,并且更重视数据特性值稳健耐抗性,而相对放松对概率理论和精确度刻意追求。10/10/20233试验优化技术3/29

分析工具简单直观,更易于普及

传统统计分析办法应用数学工具越来越深奥,统计研究也越来越理论化,这样就使应用人越来越胆怯统计。EDA提供多种多样丰富多彩详细考查数据办法。例如,它利用简单直观茎叶图、箱线图、残差图、字母值、数据变换、中位数平滑等与传统统计办法截然不一样办法,使得具有一般数学知识人就能够进行复杂数据分析。这不但极大地扩大了统计分析顾客群体,并且为统计思想注入了新活力。10/10/20234试验优化技术4/291.耐抗性(Resistance)所谓耐抗性即对于数据局部不良行为非敏感性,它是EDA追求主要目标之一。对于具有耐抗性分析成果,当数据一小部分被新数据替代时,虽然它们与本来数值很不同样,分析成果也只会有轻微变化。人们关注耐抗性,主要是由于“好”数据也难免有差错甚至是重大差错,因此数据分析时要有防御大错破坏性影响措施。EDA是一种耐抗分析办法,其分析成果具有较强耐抗性。

中位数平滑是一种耐抗技术。中位数(Median)是高耐抗统计量,而样本均值不是。二、摸索性数据分析四大主题10/10/20235试验优化技术5/292.残差(Residuals)残差是数据减去一种总括统计量或模型拟合值后来残余部分,即:残差=数据-拟合。例如:用若干对(xi,yi)拟合,则残差为。EDA以为,分析一组数据而不认真考查残差是不完全。EDA能够并且应当利用耐抗分析把数据中主导行为与反常行为清楚地分离开。当数据大部分遵从一致模式,这个模式就决定一种耐抗拟合。耐抗残差包括对于这个模式剧烈偏离及机遇起伏。10/10/20236试验优化技术6/293.重新体现(Re-expression)重新体现即找到合适尺度或数据体现方式以更利于简化分析。EDA强调,要尽早考虑数据原始尺度是否合适问题。假如尺度不合适,重新体现成另一种尺度也许更有助于促进对称性、变异恒定性、关系直线性或效应可加性等。重新体现亦称变换(Transformation),一批数据x1,x2,…,xn变换是一种函数T,它把每个xi用新值T(xi)来替代,使得变换后数据值是

T(x1),T(x2)

,…,T(xn)。

10/10/20237试验优化技术7/294.启示(Revelation)EDA强调启示。所谓启示就是通过EDA新图解显示和多种分析显示,发觉规律,得到启迪,满足分析者需要:看出数据、拟合、诊断量度以及残差等行为,从而抓住意想不到特点以及常见一贯行为。10/10/20238试验优化技术8/291.批(Batch)或数据批批即由n个观测值x1,x2,…,xn组成数据组。在传统统计中,这个数据组常称为样本,但批只是原始数据组,没有像对样本那样任何假设,如数据间独立、服从正态分布等。注意:在传统统计中,常用样本均值、方差等统计量是不耐抗,虽然只有一种异常数据也会对它们产生巨大有害影响。而在EDA中,为了摸索性目标,用基于排序和计数简单总括统计量,如中位数,经常是耐抗,即一批数据一小部分无论如何变化也只对这个总括统计量有很小影响。三、摸索性数据分析常用术语10/10/20239试验优化技术9/292.次序统计量(OrderStatistics)若把数据批x1,x2,…,xn排成从小到大次序,即

则叫做数据批x1,x2,…,xn次序统计量。而x(i)是第i个次序统计量。在排序基础上,从最小值到最大值各个数据值先后名次,即为观测值升秩(Upwardrank),即x(1)升秩为1,x(2)升秩为2,x(i)升秩为i;类似地,有降秩概念,在排序基础上,从最大值到最小值先后名次即为降秩(Downwardrank),x(i)降秩为n+1-i,同一种数据有:升秩+降秩=n+110/10/202310试验优化技术10/293.深度(Depth)数据批中一种数据值深度是它升秩与降秩二者中最小值。在EDA中要求:次序统计量中,

两个极端值x(1)和x(n)深度为1两个次极端值x(2)和x(n-1)深度为2第i个数据值和第n+1-i个数据值深度皆为i在EDA中,用深度概念能够要求如何从数据批中提炼出多种摸索性总括值。10/10/202311试验优化技术11/294.中位数(Median)中位数是处于次序统计量中间数据,它用计数办法给出数据批中心,中位数将次序统计量提成“低值”和“高值”两部分。中位数用字母M表达,即

中位数深度记为d(M)10/10/202312试验优化技术12/295.四分数(Fourth)EDA要求:深度为点为四分点,对应数分别称为四分数。四分数有下、上两个,分别记作,则

[]表达取整运算,当d(F)遇有1/2时,表达四分数取深度d(F)相邻两数平均。

10/10/202313试验优化技术13/29由四分数定义可知,每个四分数都在中位数和那个对应极端值半中间,从而两个四分数括住了这批数据中间那二分之一,这二分之一一般被以为具有典型意义。显然,在次序统计量中,下四分数下列为“低值”部分,上四分数以上为“高值”部分。把中位数、四分数和极端数放在一起组成五数总括,能够给出某些又用信息。

10/10/202314试验优化技术14/29【例1】Bendixen(1977)给出了需要二十四小时以上呼吸支持(一种强化治疗)11类病人生存百分率。分析什么百分率是典型。次序统计量为i:1234567891011x(i):36374552565866687590100由于n=11,中位数深度d(M)=(11+1)/2=6,中位数M=x(6)=58;四分数深度d(F)=(6+1)/2=3.5,因而下四分数Fl=(x(3)+x(4))/2=48.5,上四分数Fu=(x(9)+x(8))/2=71.5将中位数、极端数、四分数放在一起五数总括可知:这11类病人生存百分率典型值是58%,尽管生存率能够高达100%,低到36%,但其中二分之一生存率是48.5%~71.5%10/10/202315试验优化技术15/296.展布(Spread)展布是反应数据集中程度一种指标,在EDA中,一般用两个分位点差距来定义。如一种简单耐抗量度是四分展布dF,它定义为

dF=Fu-Fl它给出数据批中间二分之一宽度,简称四分展布或F展布。F展布强调数据批中心部分行为而不强调极端值,它是对边远值不敏感展布,这一点极差和标准差都做不到。当然,两个极端值之差即极差也是展布,不过离群值对极差影响太大,一般极差没有什么耐抗性。10/10/202316试验优化技术16/297.临界值(Criticalvalue)在EDA中,称Fl-1.5Fl与Fu+1.5Fl分别为下、上内界值,称最接近它们数据为临界值,将不大于下内界值和大于上内界值数据称为界外值或离群值。深入,又称Fl-3Fl与Fu+3Fl为下、上外界值,而称这之外数据为远外值或异常值。EDA要求总括统计量要对离群值尤其是异常值具有耐抗性。10/10/202317试验优化技术17/29四、耐抗线性回归传统回归使用最广泛是最小二乘回归,但最小二乘回归不能提供耐抗性。耐抗线性回归避免了这一困难。它把数据提成3个组,用组内中位数达成耐抗性。基本思绪是:首先把n个数据点(x1,y1),…,(xn,yn)提成3个组,每个组内用中位数形成一种总括点,再在这3个总括点基础上得到一条线,然后通过迭代调整或平滑这条直线。这种办法称为三组耐抗线法。10/10/202318试验优化技术18/291.形成3个组

首先把x值排序,使得,在此基础上,把n个数据点(xi,yi)提成左、中、右3个组,使组大小尽也许相等。当xi之间没有等值结时,组内数据点数依赖于n除以3得到余数:组n=3kn=3k+1n=3k+2左kkk+1中kk+1k右kkk+110/10/202319试验优化技术19/29当xi之间有等值结时,各组数据点个数也许不能达成上述配备,由于有同样x值点应当进入同一组。10/10/202320试验优化技术20/292.确定总括点在所形成3个组内,先求组内x值中位数,然后单独求y值中位数,得到总括点x坐标和y坐标:

(xL,yL)(xM,yM)(xR,yR)

得到这3个总括点也许是数据点,也也许不是数据点,由于x和y中位数是单独确定。

这种确定组内总括点办法给了拟合直线耐抗性。10/10/202321试验优化技术21/293.计算斜率和截距或中心值若回归直线为,则,初始直线斜率初始直线截距当所有数据点x值都远离0时,用斜率和截距来表达拟合直线意义不大,以斜率和中心值来表达一般更有用。

10/10/202322试验优化技术22/29以斜率和中心值来表达初始直线是式中,斜率b0计算和前面同样,中心值(又称水平)a0*用下式计算:10/10/202323试验优化技术23/294.残差拟合与迭代得到初始直线后,计算每个数据点残差

按先前分组找出eL,eM,eR,利用三个残差数据总括点用相同办法拟合直线,得到斜率和水平(xL,eL)(xM,eM)(xR,eR)10/10/202324试验优化技术24/29用残差拟合得到斜率和水平对初始直线斜率和水平进行调整,得到调整后斜率和水平

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论