非参数统计讲义课件_第1页
非参数统计讲义课件_第2页
非参数统计讲义课件_第3页
非参数统计讲义课件_第4页
非参数统计讲义课件_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

在初等统计学中,最基本的概念是什么?如:总体,样本,随机变量,分布,估计和假设检验等.其很大一部分内容是和正态理论相关的。在那里,总体的分布形式或分布族往往是给定的或者是假定了的,所不知道的仅仅是一些参数的值或他们的范围。(主要工作是什么?)

第一章绪论

§1.1非参数统计在初等统计学中,最基本的概念是什么?1然而,在实际生活中,那种对总体的分布的假定并不是能随便做出的。数据并不是来自所假定分布的总体;或者,数据根本不是来自一个总体;还有可能,数据因为种种原因被严重污染。这样,在假定总体分布的情况下进行推断的做法就可能产生错误的结论。于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。这就是非参数统计的宗旨。然而,在实际生活中,那种对总体的分布的假定并不是能随便做出的2因为非参数统计方法不利用关于总体分布的知识,所以,就是在对于总体分布的任何知识都没有的情况下,它也能很容易而又很可靠地获得结论。这时,非参数方法往往优于参数方法。在不知总体分布的情况下如何利用数据所包含的信息呢?一组数据的最基本的信息就是次序。如果可以把数据点按大小次序排队,每一个具体数目都有它的在整个数据中(从最小的数起)的位置或次序,称为该数据的秩(rank)。数据有多少个观察值,就有多少个秩。在一定的假定下,这些秩和它们的统计量的分布是求得出来的,而且和原来的总体分布无关。这样就可以进行所需要的统计推断。因为非参数统计方法不利用关于总体分布的知识,所以,就是在对于3注意:非参数统计的名字中的“非参数(nonparametric)”意味着其方法不涉及描述总体分布的有关参数;它被称为和分布无关(distribution—free),是因为其推断方法和总体分布无关;不应理解为与所有分布(例如有关秩的分布)无关.什么是非参数统计?不假定总体分布的具体形式,从数据本身获得所需要的信息,通过推断方法得到相关结论的一种分析方法。注意:非参数统计的名字中的“非参数(nonparametri4一个典型的参数检验过程1.总体参数Example:PopulationMean2.假定数据的形态为

WholeNumbersorFractions

Example:HeightinInches(72,60.5,54.7)3.有很强的假定Example:正态分布,F分布4.例子:ZTest,tTest,2Test一个典型的参数检验过程1.总体参数5一个例子:对两组学生进行语法测试,如何比较两组学生的成绩是否存在差异?甲乙25302934242513322430323744332284731403033351821352822一个例子:对两组学生进行语法测试,如何比较两组学生的成绩是否6原始数据秩2530293424251332243032379.514.012.021.07.59.52.017.57.514.017.524.04433228473140303335182135282226.019.55.51.027.016.025.014.019.522.53.04.022.511.05.5原始数据秩259.54426.07非参数检验过程1.不涉及总体的分布Example:ProbabilityDistributions,Independence2.数据的形态各异定量数据定序数据Example:Good-Better-Best名义数据Example:Male-Female3.例子:WilcoxonRankSumTest/RunTestF,F,F,F,F,F,F,F,M,M,M,M,M,M,MF,M,F,M,F,M,F,M,F,M,F,M,F,M,F非参数检验过程1.不涉及总体的分布F,F,F,F,F8参数统计与非参数统计的比较问题:一种统计方法是否比其它方法更好,通常要从几个方面来考虑。有效性或效率(efficiency)。在其他条件相同情况下,一种方法需要的样本容量越小,则效率越高,通常用二者的样本容量比值来度量相对效率。在假设检验中,样本均值是检验总体均值的一个好的检验统计量,它对总体均值的不同十分敏感,但是的分布取决于总体的分布,而这通常是未知的。参数统计与非参数统计的比较问题:9稳健性(robust)。如果一种方法背后的某个假设条件不成立,但它还是近似有效的,则可认为这一方法对这一条件是稳健的。通常来说,稳健是指基于正态假设的方法(即使潜在的总体分布是非正态的)检验统计量也有近似相同的零分布。比如单样本的t检验,当样本容量很大时,对于正态假设是稳健的。没有一个总体是精确的服从正态分布或其他已知分布,如果总体是近似正态分布的,那么基于正态分布来进行推断是安全的,反之,我们就要考虑非参数方法。稳健性(robust)。如果一种方法背后的某个假设条件不成立10t检验这一方法是稳健的,当总体是非正态分布时,它是否象正态分布一样有效?一种方法固然应该是稳健的,更应该是有效的。相合性或渐进性(consistent),多数参数检验对于非正态分布条件是稳健的,相合的,即随着样本容量的增加,方法将更为稳健,对于无限样本而言,方法是精确的且不依赖于总体分布。t检验这一方法是稳健的,当总体是非正态分布时,它是否象正态分11对总体假定较少,有广泛的适用性,结果稳定性较好。1.假定较少2.不需要对总体参数的假定3.与参数结果接近针对几乎所有类型的数据形态。容易计算在计算机盛行之前就已经发展起来。非参数检验的优点对总体假定较少,有广泛的适用性,结果稳定性较好。非参数检验的121. 可能会浪费一些信息特别当数据可以使用参数模型的时候。2. 大样本手算相当麻烦3. 一些表不易得到非参数检验的弱点因此我们实际上给出了一个没有实际意义的结果:没有一种方法是万能的。1. 可能会浪费一些信息非参数检验的弱点因此我们实际上给出了13本学期内容结构体系本学期内容结构体系14非参数统计的主要内容内容非参数检验相应的参数检验独立样本中位数检验秩和检验独立样本t检验2配对样本/单一样本符号检验Wilcoxon检验成对样本t-检验>2独立样本Kruskal-Wallis检验单一因素ANOVA两因素Friedman检验双因素ANOVA相关性检验Spearman秩相关Pearson相关性检验分布的检验Kolmogorov-Smirnov非参数统计的主要内容内容非参数检验相应的参数检验独立样本中位15§1.2顺序统计量,秩和线性秩统计量

一、顺序统计量因为非参数方法通常并不假定总体分布。因此,观测值的顺序及性质则作为研究的对象。顺序统计量:对于样本X1,X2,X3,…,Xn,如果按照升幂排列,得到称为第k个顺序统计量。§1.2顺序统计量,秩和线性秩统计量一、顺序统计量称162、基于顺序统计量的统计量中位数极差3、顺序统计量分布函数设总体的分布函数F(X),则第r个顺序统计量的分布函数为2、基于顺序统计量的统计量中位数极差3、顺序统计量分布函数17(4)顺序统计量密度函数(如果分布密度存在)(4)顺序统计量密度函数(如果分布密度存在)18同样我们可以得到顺序统计量X(r)和X(s)的联合密度函数为:特别地,极差的分布函数为:同样我们可以得到顺序统计量X(r)和X(s)的联合密度函数19分位数对于离散数据,给定n个值X1,…,Xn,则p分位数定义为为:定义(连续分布)分位数对于离散数据,给定n个值X1,…,Xn,则p分位数定义20二、秩统计量1、秩统计量设X1,X2,X3,…,Xn来自总体的样本,记Ri为样本点Xi的秩,即样本中小于或等于Xi的样本点的个数,即其中

例如:观测值5.61.42.75.22.64.82.3秩7146352显然,X(Ri)=X(i),记R=(R1,R2,…,Rn),称R为由样本产生的统计量,也称秩统计量二、秩统计量其中例如:观测值5.61.42.75.22.21注:有结点数据(重复数据)的秩定义:设X1,X2,X3,…,Xn来自总体的简单随机样本,将数据排序后,相同的数据点形成一个结,重复数据的个数为结长。此时秩定义为对应秩(无重复数据时)的平均数。如:85,87,87,92,83,83,83,95,结为多少?结长为多少?对应秩?答案:5个结,结长为1,2,1,3,1,对应秩为4,5.5,5.5,7,1,2,3,8注:有结点数据(重复数据)的秩定义:设X1,X2,X3,…,222、秩统计量的分布和数字特征●

的联合分布为:

的概率分布为:

的数学期望:●

的方差:●的协方差:特别地2、秩统计量的分布和数字特征●的概率分布为:23作业:1,了解非参数统计的历史(查阅相关文献)2,熟悉R作业:1,了解非参数统计的历史(查阅相关文献)24参考书:非参数统计 吴喜之编著 中国统计出版社实用非参数统计(第三版)[美]W.J.Conover崔恒建译人民邮电出版社参考书:非参数统计25在初等统计学中,最基本的概念是什么?如:总体,样本,随机变量,分布,估计和假设检验等.其很大一部分内容是和正态理论相关的。在那里,总体的分布形式或分布族往往是给定的或者是假定了的,所不知道的仅仅是一些参数的值或他们的范围。(主要工作是什么?)

第一章绪论

§1.1非参数统计在初等统计学中,最基本的概念是什么?26然而,在实际生活中,那种对总体的分布的假定并不是能随便做出的。数据并不是来自所假定分布的总体;或者,数据根本不是来自一个总体;还有可能,数据因为种种原因被严重污染。这样,在假定总体分布的情况下进行推断的做法就可能产生错误的结论。于是,人们希望在不假定总体分布的情况下,尽量从数据本身来获得所需要的信息。这就是非参数统计的宗旨。然而,在实际生活中,那种对总体的分布的假定并不是能随便做出的27因为非参数统计方法不利用关于总体分布的知识,所以,就是在对于总体分布的任何知识都没有的情况下,它也能很容易而又很可靠地获得结论。这时,非参数方法往往优于参数方法。在不知总体分布的情况下如何利用数据所包含的信息呢?一组数据的最基本的信息就是次序。如果可以把数据点按大小次序排队,每一个具体数目都有它的在整个数据中(从最小的数起)的位置或次序,称为该数据的秩(rank)。数据有多少个观察值,就有多少个秩。在一定的假定下,这些秩和它们的统计量的分布是求得出来的,而且和原来的总体分布无关。这样就可以进行所需要的统计推断。因为非参数统计方法不利用关于总体分布的知识,所以,就是在对于28注意:非参数统计的名字中的“非参数(nonparametric)”意味着其方法不涉及描述总体分布的有关参数;它被称为和分布无关(distribution—free),是因为其推断方法和总体分布无关;不应理解为与所有分布(例如有关秩的分布)无关.什么是非参数统计?不假定总体分布的具体形式,从数据本身获得所需要的信息,通过推断方法得到相关结论的一种分析方法。注意:非参数统计的名字中的“非参数(nonparametri29一个典型的参数检验过程1.总体参数Example:PopulationMean2.假定数据的形态为

WholeNumbersorFractions

Example:HeightinInches(72,60.5,54.7)3.有很强的假定Example:正态分布,F分布4.例子:ZTest,tTest,2Test一个典型的参数检验过程1.总体参数30一个例子:对两组学生进行语法测试,如何比较两组学生的成绩是否存在差异?甲乙25302934242513322430323744332284731403033351821352822一个例子:对两组学生进行语法测试,如何比较两组学生的成绩是否31原始数据秩2530293424251332243032379.514.012.021.07.59.52.017.57.514.017.524.04433228473140303335182135282226.019.55.51.027.016.025.014.019.522.53.04.022.511.05.5原始数据秩259.54426.032非参数检验过程1.不涉及总体的分布Example:ProbabilityDistributions,Independence2.数据的形态各异定量数据定序数据Example:Good-Better-Best名义数据Example:Male-Female3.例子:WilcoxonRankSumTest/RunTestF,F,F,F,F,F,F,F,M,M,M,M,M,M,MF,M,F,M,F,M,F,M,F,M,F,M,F,M,F非参数检验过程1.不涉及总体的分布F,F,F,F,F33参数统计与非参数统计的比较问题:一种统计方法是否比其它方法更好,通常要从几个方面来考虑。有效性或效率(efficiency)。在其他条件相同情况下,一种方法需要的样本容量越小,则效率越高,通常用二者的样本容量比值来度量相对效率。在假设检验中,样本均值是检验总体均值的一个好的检验统计量,它对总体均值的不同十分敏感,但是的分布取决于总体的分布,而这通常是未知的。参数统计与非参数统计的比较问题:34稳健性(robust)。如果一种方法背后的某个假设条件不成立,但它还是近似有效的,则可认为这一方法对这一条件是稳健的。通常来说,稳健是指基于正态假设的方法(即使潜在的总体分布是非正态的)检验统计量也有近似相同的零分布。比如单样本的t检验,当样本容量很大时,对于正态假设是稳健的。没有一个总体是精确的服从正态分布或其他已知分布,如果总体是近似正态分布的,那么基于正态分布来进行推断是安全的,反之,我们就要考虑非参数方法。稳健性(robust)。如果一种方法背后的某个假设条件不成立35t检验这一方法是稳健的,当总体是非正态分布时,它是否象正态分布一样有效?一种方法固然应该是稳健的,更应该是有效的。相合性或渐进性(consistent),多数参数检验对于非正态分布条件是稳健的,相合的,即随着样本容量的增加,方法将更为稳健,对于无限样本而言,方法是精确的且不依赖于总体分布。t检验这一方法是稳健的,当总体是非正态分布时,它是否象正态分36对总体假定较少,有广泛的适用性,结果稳定性较好。1.假定较少2.不需要对总体参数的假定3.与参数结果接近针对几乎所有类型的数据形态。容易计算在计算机盛行之前就已经发展起来。非参数检验的优点对总体假定较少,有广泛的适用性,结果稳定性较好。非参数检验的371. 可能会浪费一些信息特别当数据可以使用参数模型的时候。2. 大样本手算相当麻烦3. 一些表不易得到非参数检验的弱点因此我们实际上给出了一个没有实际意义的结果:没有一种方法是万能的。1. 可能会浪费一些信息非参数检验的弱点因此我们实际上给出了38本学期内容结构体系本学期内容结构体系39非参数统计的主要内容内容非参数检验相应的参数检验独立样本中位数检验秩和检验独立样本t检验2配对样本/单一样本符号检验Wilcoxon检验成对样本t-检验>2独立样本Kruskal-Wallis检验单一因素ANOVA两因素Friedman检验双因素ANOVA相关性检验Spearman秩相关Pearson相关性检验分布的检验Kolmogorov-Smirnov非参数统计的主要内容内容非参数检验相应的参数检验独立样本中位40§1.2顺序统计量,秩和线性秩统计量

一、顺序统计量因为非参数方法通常并不假定总体分布。因此,观测值的顺序及性质则作为研究的对象。顺序统计量:对于样本X1,X2,X3,…,Xn,如果按照升幂排列,得到称为第k个顺序统计量。§1.2顺序统计量,秩和线性秩统计量一、顺序统计量称412、基于顺序统计量的统计量中位数极差3、顺序统计量分布函数设总体的分布函数F(X),则第r个顺序统计量的分布函数为2、基于顺序统计量的统计量中位数极差3、顺序统计量分布函数42(4)顺序统计量密度函数(如果分布密度存在)(4)顺序统计量密度函数(如果分布密度存在)43同样我们可以得到顺序统计量X(r)和X(s)的联合密度函数为:特别地,极差的分布函数为:同样我们可以得到顺序统计量X(r)和X(s)的联合密度函数44分位数对于离散数据,给定n个值X1,…,Xn,则p分位数定义为为:定义(连续分布)分位数对于离散数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论