非参数统计1剖析课件_第1页
非参数统计1剖析课件_第2页
非参数统计1剖析课件_第3页
非参数统计1剖析课件_第4页
非参数统计1剖析课件_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

非参数统计目录第一章引言第二章单样本检验第三章两样本位置和尺度检验第四章多样本检验第五章尺度检验*第六章相关和回归第七章分布检验和拟合优度检验第八章列联表第九章非参数密度估计和非参数回归*第十章稳健统计方法简介*第一章引言主要内容1.统计的实践2.非参数统计方法简介3.参数统计过程与非参数统计的比较4.非参数统计的历史5.基础知识简介1.统计的实践我们周围的世界数学是以符号和数据构建的世界。随着计算机和互联网的出现数据繁衍,信息匮乏:观察数据激增,需对设计数据细分。数据的复杂性和不确定性更为突出。数据分析方法和手段不足。统计的方法论就方法论而言,统计分析主要解决两方面的问题:

寻找数据内部差异中共同的特征。寻找数据之间本质的差异。统计分析的目标是从数据中发现比数据本身更为有用的知识2.非参数统计方法简介参数方法定义:样本被视为从分布族的某个参数族抽取出来的总体的代表,而未知的仅仅是总体分布具体的参数值,推断问题就转化为对分布族的若干个未知参数的估计问题,用样本对这些参数做出估计或者进行某种形式的假设检验,这类推断方法称为参数方法。比如:(1)研究保险公司的索赔请求数时,可能假定索赔请求数来自泊松分布P(a);(2)研究化肥对农作物产量的影响效果时,平均意义之下,每测量单元(可能是)产量服从正态分布N(a,b).一个典型的参数检验过程1.总体参数Example:PopulationMean2.假定数据的形态为

WholeNumbersorFractions

Example:HeightinInches(72,60.5,54.7)3.有很强的假定Example:正态分布4.例子:ZTest,tTest,2Test非参数检验过程1.不涉及总体的分布Example:ProbabilityDistributions,Independence2.数据的形态各异定量数据定序数据Example:Good-Better-Best名义数据Example:Male-Female3.例子:WilcoxonRankSumTest/RunTestF,F,F,F,F,F,F,F,M,M,M,M,M,M,MF,M,F,M,F,M,F,M,F,M,F,M,F,M,F在不知总体分布的情况下如何利用数据所包含的信息呢?一组数据的最基本的信息就是次序.如果可以把数据点按大小次序排队,每一个具体数目都有它的在整个数据中的位置或次序,称为该数据的秩(rank).非参数统计中的“非参数(nonparametric)”意味着其方法不涉及描述总体分布的有关参数;它被称为和分布无关(distribution-free),意思是其推断方法和总体分布无关。注意:不应理解为与所有分布(例如有关秩的分布)无关.非参数方法3.参数统计与非参数统计比较对总体假定较少,有广泛的适用性,结果稳定性较好。1.假定较少2.不需要对总体参数的假定3.与参数结果接近针对几乎所有类型的数据形态。容易计算在计算机盛行之前就已经发展起来。非参数检验的优点1. 可能会浪费一些信息特别当数据可以使用参数模型的时候。Example:ConvertingDataFromRatiotoOrdinalScale2. 大样本手算相当麻烦3. 一些表不易得到非参数检验的弱点本学期内容结构体系

第一章引言

第二章单样本问题

第三章两样本位置问题

第四章多样本数据模型

第六章相关和回归

第七章分布检验和拟合优度检验

第八章列联表非参数统计的主要内容内容非参数检验相应的参数检验单样本中位数检验秩和检验独立样本t检验配对样本/单一样本符号检验Wilcoxon检验成对样本t-检验多样本Kruskal-Wallis检验单一因素ANOVA两因素Friedman检验双因素ANOVA相关性检验Spearman秩相关Pearson相关性检验分布的检验Kolmogorov-Smirnov4.非参数统计的历史非参数统计的历史非参数统计的形成主要归功于20世纪40年代~50年代化学家F.Wilcoxon等人的工作。Wilcoxon于1945年提出两样本秩和检验,1947年Mann和Whitney二人将结果推广到两组样本量不等的一般情况;Pitman于1948年回答了非参数统计方法相对于参数方法来说的相对效率方面的问题;非参数统计的历史(续)60年代中后期,Cox和Ferguson最早将非参数方法应用于生存分析。70年代到80年代,非参数统计借助计算机技术和大量计算获得更稳健的估计和预测,以P.J.Huber以及F.Hampel为代表的统计学家从计算技术的实现角度,为衡量估计量的稳定性提出了新准则。90年代有关非参数统计的研究和应用主要集中在非参数回归和非参数密度估计领域,其中较有代表性的人物是Silverman和J.Fan。5.基础知识简介(1)假设检验和置信区间(2)连续性修正(3)检验的简单介绍(4)数据处理(5)其他相关概念介绍(1)假设检验和置信区间问题:

(a)新引进的生产过程是否优于旧过程?(b)几种不同的肥料哪一种更有效?(c)大学生的就业率与城市失业率之间是否存在关系?内容

(a)假设的真正涵义和作用(b)如何选择零假设和备择假设(c)检验的p-值和显著性水平的作用(d)两类错误(e)置信区间和假设检验之间的关系(1)设置零假设和备选假设;(2)构造检验统计量T(X1,X2,…Xn);(3)数值实现t=T(x1,x2,…xn);(4)计算零假设下,r.v.T落入某区间的精确概率或近似概率。假设检验的步骤:P值零假设成立的条件下,统计量取到观测值范围的可能性,即P(T>t)、P(T<t)、P(|T|>t)的值称为p值。若p值很小,说明观测值的实现在零假设下为小概率事件,故拒绝零假设。犯第一类错误的概率为p。若p值很大,则不能拒绝零假设,而此时可能犯第二类错误。单边检验和双边检验的p值??强势的检验较弱势的检验,拒绝原假设的概率更大,更容易拒绝零假设。势依赖很多原因:显著性水平,参数的真值,样本大小,检验统计量的选择。利用信息越多的检验统计量势越大;其他条件一样时,势越大,检验越有效。统计软件一般不给出,仅给出p值。显著性水平由用户自己决定。注意:显著性检验的主要目的拒绝零假设。包含参数的区间,的置信区间为置信区间:H1正确时,拒绝H0的概率称为检验的势。(2)连续性修正当用连续性分布去近似离散分布时,常常用连续性修正。对一个离散分布的点的概率P(X=x),用连续分布相应的区间概率来近似。相应离散点的概率就变换成连续分布密度函数曲线下单位区间的面积。对二项分布,超几何分布,Pisson分布做正态近似时,常用连续性修正。二项分布Bin(n,p):=超几何分布:

=,这里p=S/NYate连续修正:

所用的统计量为Yate连续修正量为

有近似的自由度为1的卡方分布(3)检验的简单介绍实践中,检验统计量都等价于形为的二次型,这里x是一个k维随机向量,有近似的多元正态分布N(0,V),V是k

×k的正定协方差矩阵。若Q为k个独立的N(0,1)的平方和,则Q~(k)Pearson拟合优度统计量:它度量了在r个不可兼的类中观察到的频数O1,…Or,和零假设下各类的期望频数E1,…Er零假设下,Qp近似的服从自由度为(r-1)的分布。若这些期望值基于p个未知参数的渐近有效估计,则Qp为自由度(r-p-1)的分布。与pearson统计量类似,似然比统计量也用于与列联表有关的检验。基于随机化模型的检验P9关于离散分布的列联表检验P10(4)数据处理拿到数据时,首先要有一个直观概念。若数据来自一个总体,先通过绘图了解它的大致分布情况,如是否对称,是否有很长的尾部,是否有远离数据主体的点等。若数据来自不同总体,除了上述了解,还需要看各样本的形状是否类似,通过二维或三维图观察样本间的联系或相关性。Q-Q图:按照升幂排列后的数据的样本分位点和已知分布的分位点所做的图。盒形图:上下两条线表示数据的最大值和最小值,盒子的上下两条边分别表示数据的

分位点,盒子中的线为中位数。这种图称为盒形图。数据常常需要处理以符合非参数统计推断方法的某些条件,最常用的是指数变换。数据处理数据处理茎叶图横放后,可类似看做直方图。根据盒形图可以观察:2)25%及75%的分位点的位置,均值的位置;3)50%的数据的集中区域;4)数据的分布是否对称或出现左(右偏)1)数据的范围由上述图形观察可发现:对数和指数变换可以将不对称的数据对称化,更接近于正态分布。(5)其他相关概念介绍(1)渐近相对效率ARE,局部最优势检验LMP*1.渐近相对效率ARE

下表给出了四种不同总体分布下,符号检验(用S代表),Wilcoxon符号秩检验(用W+代表),相对于t检验的渐近相对效率。

可以看出总体是正态分布时,t检验效果最好,但相对于Wilcoxon检验的优势也不大(),但当总体不是正态分布时,Wilcoxon检验就优于或等于t检验了。重指数分布时,符号检验也优于t检验。若标准正态总体有部分污染,假定它被以比例污染,污染后的总体分布函数为下表给出了Wilcoxon对t检验的ARE:上面是特别情况下的ARE值,下表给出了Wilcoxon检验,符号检验,t检验的ARE的范围:2.局部最优势检验LMP(2)顺序统计量

顺序统计量:

对于样本X1,X2,……Xn,如果按照升幂排列,得到X(1)≤X(2)≤…≤X(n)称X(k)为第k个顺序统计量。

基于顺序统计量的统计量:中位数众数出现次数最多的数极差修整均值这里,j为求均值前删掉的最小或最大观测值的数目。

顺序统计量的分布:

设总体的分布函数F(x),则第r个顺序统计量的分布函数为:

(3)秩统计量1.无结点秩的定义:例题:某学院本科三年级有9个专业组成,统计每个专业学生每月消费数据如下,求消费数据的秩和顺序统计量的现值:300230208580690200263215520

秩:642891537顺序统计量(200208215230263300520580690)结:观测数据中大小相等的数据称为结。2.有结数据的秩:设样本X1,X2…Xn取自总体X的简单随机抽样,将数据排序后,相同的数据点组成一个“结”,称重复数据的个数为结长。例1:3.83.21.21.23.43.2

3.2解:结长为3。(4)线性秩统计量

线性符号秩统计量:

设Ri+为|Xi|在|X1|,…,|Xn|中的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论