非参数统计讲义(课堂)课件_第1页
非参数统计讲义(课堂)课件_第2页
非参数统计讲义(课堂)课件_第3页
非参数统计讲义(课堂)课件_第4页
非参数统计讲义(课堂)课件_第5页
已阅读5页,还剩167页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

非参数统计非参数统计教学要求

本课程的目的是使学生认识到非参数统计方法是统计中最常用的推断方法之一,理解非参数统计方法和参数统计方法的区别,理解非参数统计的基本概念,掌握非参数统计的基本理论和计算,能应用统计软件和非参数统计方法分析解决实际问题。教学要求本课程的目的是使学生认识到非参数统计方法是统计中最统计是分析数据信息的科学

这个定义决定了统计的命运:和数学不同,统计不能欣赏自己,它不为实际服务就没有存在必要统计必须为各个领域服务统计必须和数据打交道因此,统计必须和计算机结合统计是分析数据信息的科学

这个定义决定了统计的命运:和数学不非参数统计产生的背景问题学生请假与星期几有关吗?股票涨跌与星期几有关吗?夫妻的审美观有差异吗?广告的播出时间与电脑销量有关吗?婴儿出生数白天与晚上有明显差异吗非参数统计产生的背景问题学生请假与星期几有关吗?

用实例说明非参数统计方法和参数统计方法的区别,使学生认识到学习非参数统计方法的必要性。第一讲非参数统计概论用实例说明非参数统计方法和参数统计方法的区别,使参数统计与非参数统计的比较经典统计的多数检验都假定了总体的背景分布。分布由参数决定的,期望与方差总体的分布形式或分布族往往是给定的或者是假定了的,所不知道的仅仅是一些参数得知或它们的范围。人们的主要任务就是对一些参数,比如均值和方差(或标准差)进行估计或检验。参数统计与非参数统计的比较经典统计的多数检验都假定了总体的背非参数统计非参数统计方法(NonparametricStatisticalmethod)对总体的概率分布假定以及测量尺度的要求即使有也很少的统计方法。当能够得到分类数据和顺序数据时可以使用的方法。也称为无分布方法(Distribution-freeStatisticsmethods),也称自由分布统计学。表示无需对总体概率分布做出假定。因常按大小或出现先后次序排列资料进行分析,故又称次序统计学(OrderStatistics)非参数统计非参数统计方法(NonparametricSta什么是非参数检验?不假定了总体的具体背景分布形式。这些检验多根据数据观测值的相对大小建立检验统计量,然后找到在零假设下这些统计量的分布。看这些统计量的数据实现是否在零假设下属于小概率事件。这种和数据本身的总体分布无关的检验称为非参数检验。什么是非参数检验?不假定了总体的具体背景分布形式。非参数检验有什么优越性?在总体分布未知时,如果还假定总体有诸如正态分布那样的已知分布,在进行统计推断就可能产生错误甚至灾难。非参数检验总是比传统检验安全。但是在总体分布形式已知时,非参数检验就不如传统方法效率高。但非参数统计在总体分布未知时效率要比假定了错误总体分布时的传统方法要高,有时要高很多。非参数检验有什么优越性?在总体分布未知时,如果还假定总体有诸哪个好?哪个好?选择飞机与选择用参数与非参数方法的思路相同。大型飞机很好,但对机场的要求很高。参数统计对数据要求很高。小型飞机不一定舒适,但起降时对机场的要求很低。同理非参数统计对数据要求较低。选择飞机与选择用参数与非参数方法的思路相同。统计方法的选择:用参数统计方法与非参数统计方法1、考虑对总体的假定。对总体有假定时用参数,已具备使用参数统计方法时一般不用非参数统计。2、数据的度量尺度。定距与定比可以用参数。非参数统计方法的应用条件:1、用于分析定类数据2、用于分析定序数据3、用于分析定距、定比数据时总体分布未做假定。统计方法的选择:用参数统计方法与非参数统计方法非参数统计方法参数统计(ParametricStatisticalmethod)有两个特点:1、以推断某特定参数为对象。如总体均值μ,总体比例P,总体方差,两个总体殚值的差等。2、常需要假定总体的分布是已知的,有的要假设总体是服从正态分布的,才能作出推断。参数统计(ParametricStatisticalme数据的四种尺度:定类、定序、定距、定比对定类和定序的只能用非参数统计分析方法数据的四种尺度:对定类和定序的只能用非参数统计分析方法非参数检验的特点1、非参数统计方法应用广泛。2、它对资料的要求易于得到满足。3、当总体分布有具体形式未知,而且样本容量很小时,无法用参数统计方法,只能用非参数方法。4、大多数非参数统计方法简单、直观、易于掌握和应用。5、总体分布形式已知时,非参数统计的方法的检验功效不如假定总体已知的各种参数统计方法。非参数检验的特点6、非参数统计方法所推断的通常不是总体参数7、其通常按大小或出现先后顺序排列的资料进行分析。8、通常以中位数代表分布的中心,以极差代表离散程度。6、非参数统计方法所推断的通常不是总体参数非参数统计讲义(课堂)课件非参数统计讲义(课堂)课件非参数统计讲义(课堂)课件非参数统计讲义(课堂)课件非参数统计讲义(课堂)课件非参数统计的主要内容内容非参数检验相应的参数检验2独立样本中位数检验秩和检验独立样本t检验2配对样本/单一样本符号检验Wilcoxon检验成对样本t-检验>2独立样本Kruskal-Wallis检验单一因素ANOVA两因素Friedman检验双因素ANOVA相关性检验Spearman秩相关Pearson相关性检验分布的检验Kolmogorov-Smirnov非参数统计的主要内容内容非参数检验相应的参数检验2独立样本中MatrixofNonparametricStatisticsLevelofMeasurementNonparametricTestNonparametricCorrelationOneSampleTwoSamplesKSamplesRelatedUnrelatedRelatedUnrelatedNominalBinomialTestChi-SquareTestMcNemarChangeTestFisherExactTestfor2x2TablesChi-SquareTestforrx2TablesCochranQTestChi-SquareTestforrxkTablesCramerCoefficientPhiCoefficientKappaCoefficientAsymmetricalLambdaStatisticOrdinalKolmogorov-SmirnovOne-SampleTestOne-SampleRunsTestChange-PointTestSignTestWilcoxonSignedRanksTestMedianTestMann-WhitneyUTestRobustRank-OrderTestKolmogorov-SmirnovTwo-SampleTestSiegel-TukeyTestforScaleDifferencesFriedmanTwo-WayANOVAbyRanksPageTestforOrderedAlternativesExtensionoftheMedianTestKruskal-WallisOne-WayANOVAJonckheereTestforOrderedAlternativesSpearmanRank-OrderCoefficientKendallRank-OrderCoefficientKendallPartialRank-OrderCoefficientKendallCoefficientofConcordanceKendallCoefficientofAgreementCorrelationBetweenkJudgesandaCriterionTestGammaStatisticSomer’sIndexofAsymmetricAssociationMatrixofNonparametricStatis非参数统计的历史非参数统计的形成主要归功于20世纪40年代~50年代化学家F.Wilcoxon等人的工作。Wilcoxon于1945年提出两样本秩和检验,1947年Mann和Whitney二人将结果推广到两组样本量不等的一般情况;Pitman于1948年回答了非参数统计方法相对于参数方法来说的相对效率方面的问题;非参数统计的历史60年代中后期,Cox和Ferguson最早将非参数方法应用于生存分析。70年代到80年代,非参数统计借助计算机技术和大量计算获得更稳健的估计和预测,以P.J.Huber以及F.Hampel为代表的统计学家从计算技术的实现角度,为衡量估计量的稳定性提出了新准则。60年代中后期,Cox和Ferguson最早将非参数方法应用90年代有关非参数统计的研究和应用主要集中在非参数回归和非参数密度估计领域,其中较有代表性的人物是Silverman和J.Fan。非参数统计分为广义的和狭义的两种狭义的非参数统计主要研究假设检验,本课程研究狭义的。广义的非参数统计只要不考虑总体的分布的统计分析方法90年代有关非参数统计的研究和应用主要集中在非参数回归和非参但是在总体分布形式已知时,非参数检验就不如传统方法效率高。这是因为非参数方法利用的信息要少些。往往在传统方法可以拒绝零假设的情况,非参数检验无法拒绝。但非参数统计在总体未知时效率要比传统方法要高,有时要高很多。是否用非参数统计方法,要根据对总体分布的了解程度来确定。

但是在总体分布形式已知时,非参数检验就不如传统方法效率高。这

因为非参数统计方法不利用关于总体分布的知识,所以,就是在对总体的任何知识都没有的情况下,它也能很容易而又很可靠地获得结论。这时非参数方法往往优于参数方法,并且非参数检验总是比传统检验安全。因为非参数统计方法不利用关于总体分布的知识,所以,非参数统计讲义(课堂)课件非参数统计讲义(课堂)课件非参数统计讲义(课堂)课件非参数统计讲义(课堂)课件非参数统计讲义(课堂)课件数据的秩秩(rank)利用秩的大小进行推断就避免了不知道背景分布的困难。这也是大多数非参数检验的优点。多数非参数检验明显地或隐含地利用了秩的性质;但也有一些非参数方法没有涉及秩的性质。数据的秩秩(rank)利用秩的大小进行推断就避免了不知道背景非参数检验中秩是最常使用的概念。什么是一个数据的秩呢?一般来说,秩就是该数据按照升幂排列之后,每个观测值的位置。

非参数检验中秩是最常使用的概念。什么是一个数据的秩呢?一般来非参数统计讲义(课堂)课件秩(rank)

非参数检验中秩是最常使用的概念。什么是一个数据的秩呢?一般来说,秩就是该数据按照升幂排列之后,每个观测值的位置。例如我们有下面数据Xi159183178513719Ri75918426310这下面一行(记为Ri)就是上面一行数据Xi的秩。

秩(rank)非参数检验中秩是最常使用的概念。什么是一个数159183178513719数据输入SPSS159183178513719数据输入SPSS非参数统计讲义(课堂)课件非参数统计讲义(课堂)课件例题:某学院本科三年级有9个专业组成,统计每个专业学生每月消费数据如下,用SPSS求消费数据的秩和顺序统计量的现值:

300230208580690200263215520例题:某学院本科三年级有9个专业组成,统计每个专业学生每月消2.有结数据的秩设样本X1,X2,…,XN取自总体X的简单随机抽样,将数据排序后,相同的数据点组成一个“结”,称重复数据的个数为结长。例1:3.83.21.21.23.43.23.2解:结长为3。2.有结数据的秩统计推断:假设检验假设检验:假设检验是指我们可以对某一参数的假定值进行先验判断或预期,然后利用小概率原理对其进行检验,得到接受或拒绝原假设的结论。小概率原理:我们认为小概率事件由于发生的可能性很小,在一次试验中它几乎是不会发生的。如果发生了,说明我们的假设有问题,所以我们将拒绝原来的假设。统计推断:假设检验假设检验:小概率原理:非参数统计讲义(课堂)课件参数统计的假设检验如:检验正态分布的均值是否相等H0:u1=u2;H1:u1≠u2检验均值是否等于零H0:u=0;H1:u≠0

参数统计的假设检验如:检验正态分布的均值是否相等例8-5

用自动装袋机装葡萄糖,每袋标准重500克,每隔一定时间需检查机器工作是否正常.现抽得10袋,测得其重量为(单位:克)495,510,505,498,503,492,502,512,497,506,假定重量服从正态分布,问机器是否正常?解由于2未知,所以用T检验法提出假设例8-5用自动装袋机装葡萄糖,每袋标准重500克,每隔一定所以应接受H0,可以认为,机器工作正常.对拒绝域P值,由T=0.9733,df=9,可得(EXCEL函数=TDIST(0.9733,9,2)=0.35583559所以应接受H0,可以认为,机器工作正常.对拒绝域P值,由T假定甲、乙两机床截下的长度方差相等,问长度的期望值是否一样?例8-8从两台切断机所截下的坯料(长度按正态分布)中,分别抽取8个和9个产品,测得长度如下(单位:mm):甲:150,145,152,155,148,151,

152,148乙:152,150,148,152,150,150,

148,151,148假定甲、乙两机床截下的长度方差相等,问长度的期望值是否一样?设甲床截下的长度为X;乙床截下的长度为Y,由假定知21=22=2检验假设

解设甲床截下的长度为X;乙床截下的长度为Y,由假定知21=非参数统计讲义(课堂)课件对查表得拒绝域为所以应接受对查表得拒绝域为所以应接受参数方法定义:样本被视为从分布族的某个参数族抽取出来的总体的代表,而未知的仅仅是总体分布具体的参数值,推断问题就转化为对分布族的若干个未知参数的估计问题,用样本对这些参数做出估计或者进行某种形式的假设检验,这类推断方法称为参数方法。比如:(1)研究保险公司的索赔请求数时,可能假定索赔请求数来自泊松分布P(a);(2)研究化肥对农作物产量的影响效果时,平均意义之下,每测量单元(可能是)产量服从正态分布N(a,b).参数方法定义:样本被视为从分布族的某个参数族抽取出来的总体的接受域置信区间假设检验区间估计统计量

枢轴量对偶关系同一函数假设检验与区间估计的联系接受域置信区间假区统计量枢轴量对偶关系同一函数假设检验与区假设检验的基本概念若对参数有所了解但有猜测怀疑,需要证实之时用假设检验的方法来处理若对参数一无所知用参数估计的方法处理假设检验的基本概念若对但有猜测怀疑,用假设若对参数用参数估计接受域置信区间检验统计量及其在H0为真时的分布枢轴量及其分布原假设

H0备择假设

H1待估参数

0

0(

2未知)(

2未知)接受域置信区间检验统计量及其在枢轴量及其分布原假设备择假设待一个典型的参数检验过程1.总体参数Example:PopulationMean2.假定数据的形态为

WholeNumbersorFractions

Example:HeightinInches(72,60.5,54.7)3.有很强的假定Example:正态分布4.例子:ZTest,tTest,2Test一个典型的参数检验过程1.总体参数一个例子:对两组学生进行语法测试,如何比较两组学生的成绩是否存在差异?组1组244253330222983447243125401330323324353018322137352822一个例子:对两组学生进行语法测试,如何比较两组学生的成绩是否非参数统计讲义(课堂)课件原始数据秩2530293424251332243032379.514.012.021.07.59.52.017.57.514.017.524.04433228473140303335182135282226.019.55.51.027.016.025.014.019.522.53.04.022.511.05.5原始数据秩259.54426.0非参数统计讲义(课堂)课件假设检验的基本思想...因此我们拒绝假设

=50...如果这是总体的真实均值样本均值m=50抽样分布H0这个值不像我们应该得到的样本均值...20假设检验的基本思想...因此我们拒绝假设=50..单边备择单边备择双边备择零假设(原假设)与备择假设:例:单边备择零假设(原假设)与备择假设:例:假设检验的方法1.置信区间法

置信区间提供了在某一置信度(例如95%)下真实参数值的取值范围。

如果零假设中的值未落入该区间,也就是说小概率事件发生了,我们认为小概率事件由于发生的可能性很小,在一次试验中它几乎是不会发生的。如果发生了,说明我们的假设有问题,所以我们将拒绝该零假设。概念:接受域(置信区间)、拒绝域、临界值

假设检验的方法置信区间提供了在某一置信度(例第一类错误和第二类错误:一个偏离

由小概率原理我们可以看出,我们的这种判断是有可能犯错误的。我们把可能犯的错误分为两类:第一类错误和第二类错误。第一类错误:零假设是正确的,却做出拒绝零假设的判断,此为弃真错误。第二类错误:零假设是错误的,却做出接受零假设的判断,此为取伪错误。第一类错误和第二类错误:一个偏离由小概率原理假设检验不可能完全避免这两类错误,我们只能想办法使犯错误的概率尽量减小。1-置信水平,也称显著性水平犯第一类错误的概率=犯弃真错误的概率犯第二类错误的概率=犯取伪错误的概率假设检验不可能完全避免这两类错误,我们只能想办法使犯错误的概

两类错误

假设检验存在着接受错误的假设和拒绝正确假设的可能性.正确拒绝H0正确接受H0决策行动H0

为非真H0为真假设的真实状态检验结果假设检验的各种可能结果1-a1-β两类错误假设检验存在着接受错H0:无罪假设检验中的两类错误(决策结果)陪审团审判裁决实际情况无罪有罪无罪正确错误有罪错误正确H0检验决策实际情况H0为真H0为假接受H01-a第二类错误(b)拒绝H0第一类错误(a)功效(1-b)假设检验就好像一场审判过程统计检验过程H0:无罪假设检验中的两类错误陪审团审判裁决实际情况无罪有

错误和错误的关系你不能同时减少两类错误!和的关系就像翘翘板,小就大,大就小错误和错误的关系你不能同时减少两类错误!和非参数统计讲义(课堂)课件2.显著性检验

显著性检验:在给定显著性水平下,为考察样本值的显著性而进行的假设检验。检验是统计显著的:能够拒绝零假设,即观察到的样本值落入拒绝域。检验是统计不显著的:不能够拒绝零假设,即观察到的样本值落入接受域。2.显著性检验

确定显著性水平,求临界值.

在假设检验中,认为零假设代表的事件概率很大,备择假设代表的对立事件概率很小.

根据实际推断原理(小概率原理),规定一个界限,当某事件的概率,就认为该事件是实际不可能事件.显著性水平.

如果在一次检验中,备择假设代表的小概率事件居然发生了,就有理由怀疑零假设的正确性.

这就是假设检验的基本原理.确定显著性水平,求临界值.显著水平的选择与P值P值(概率值)也称为统计量的精确显著性水平。它可定义为拒绝零假设的最小的显著性水平。一般规律:

P值越小,越能拒绝零假设。某一点对应的p值指的是以该值为临界点确定的拒绝域的概率。显著水平的选择与P值P值(概率值)也称为统统计检验的步骤总结:第一步:表述零假设H0和备择假设H1;第二步:选择检验统计量;第三步:确定检验统计量的概率分布;第四步:选择显著性水平,即犯第一类错误的概率;第五步:选择置信区间法或显著检验方法。统计检验的步骤总结:置信区间法:根据检验统计量的概率分布,建立一个置信区间(也即接受域),如果该区间包括零假设值,则接受零假设,否则拒绝零假设。显著检验法:在零假设下,得到相关统计量,并根据相应的概率分布及事先给定的显著性水平计算相应的接受域(拒绝域),根据计算得到的值是否落入接受域(拒绝域)来决定是否接受(拒绝)零假设。如果不想事先选择显著性水平,则可依据该统计量的p值进行判断。计算该统计量取某一特殊值的概率。如果这一概率值较小,则拒绝零假设,否则,接受零假设。置信区间法:根据检验统计量的概率分布,建立一个置信区间(也即什么是P值?

(P-Value)是一个概率值如果我们假设原假设为真,P-值是观测到的样本均值不同于(<或>实测值的概率左侧检验时,P-值为曲线上方小于等于检验统计量部分的面积右侧检验时,P-值为曲线上方大于等于检验统计量部分的面积被称为观察到的(或实测的)显著性水平H0

能被拒绝的的最小值什么是P值?

(P-Value)是一个概率值利用P值进行决策单侧检验若p-值

,不能拒绝H0若p-值<,拒绝H0双侧检验若p-值

/2,不能拒绝H0若p-值</2,拒绝H0利用P值进行决策单侧检验双尾Z检验

(P-值计算实例)

【例】欣欣儿童食品厂生产的盒装儿童食品每盒的标准重量为368克。现从某天生产的一批食品中随机抽取25盒进行检查,测得每盒的平均重量为x=372.5克。企业规定每盒重量的标准差为15克。确定P-值。368克欣欣儿童食品厂双尾Z检验

(P-值计算实例)【例】欣欣儿童食品厂双尾Z检验

(P-值计算结果)样本统计量的Z值(观察到的)计算的检验统计量为:01.50-1.50Z双尾Z检验

(P-值计算结果)样本统计量的Z值计算的双尾Z检验

(P-值计算结果)p-值为P(Z-1.50或Z1.50)样本统计量的Z值(观察到的)01.50-1.50Z双尾Z检验

(P-值计算结果)p-值为P(Z-双尾Z检验

(P-值计算结果)p-值为P(Z-1.50或Z1.50)样本统计量的Z值(观察到的)01.50-1.50Z1/2p-值1/2p-值双尾Z检验

(P-值计算结果)p-值为P(Z-双尾Z检验

(P-值计算结果)p-值为P(Z-1.50或Z1.50)从Z分布表查找1.50样本统计量的Z值(观察到的)01.50-1.50Z1/2p-值1/2p-值.4332双尾Z检验

(P-值计算结果)p-值为P(Z-双尾Z检验

(P-值计算结果)p-值为P(Z-1.50或Z1.50)从Z分布表查找1.50样本统计量的Z值(观察到的)0.5-0.4332

=0.066801.50-1.50Z1/2p-值1/2p-值.4332双尾Z检验

(P-值计算结果)p-值为P(Z-双尾Z检验

(P-值计算结果)01.50-1.50Z1/2p-值=.06681/2p-值=.06681/2=.0251/2=.025拒绝拒绝双尾Z检验

(P-值计算结果)01.50-1.50Z1双尾Z检验

(P-值计算结果)2p=0.1336>

=0.05,不能拒绝H0检验统计量未在拒绝区域01.50-1.50Z1/2p-值=.06681/2p-值=.06681/2=.0251/2=.025拒绝拒绝双尾Z检验

(P-值计算结果)2p=0.1336非参数统计讲义(课堂)课件非参数统计讲义(课堂)课件非参数统计非参数统计教学要求

本课程的目的是使学生认识到非参数统计方法是统计中最常用的推断方法之一,理解非参数统计方法和参数统计方法的区别,理解非参数统计的基本概念,掌握非参数统计的基本理论和计算,能应用统计软件和非参数统计方法分析解决实际问题。教学要求本课程的目的是使学生认识到非参数统计方法是统计中最统计是分析数据信息的科学

这个定义决定了统计的命运:和数学不同,统计不能欣赏自己,它不为实际服务就没有存在必要统计必须为各个领域服务统计必须和数据打交道因此,统计必须和计算机结合统计是分析数据信息的科学

这个定义决定了统计的命运:和数学不非参数统计产生的背景问题学生请假与星期几有关吗?股票涨跌与星期几有关吗?夫妻的审美观有差异吗?广告的播出时间与电脑销量有关吗?婴儿出生数白天与晚上有明显差异吗非参数统计产生的背景问题学生请假与星期几有关吗?

用实例说明非参数统计方法和参数统计方法的区别,使学生认识到学习非参数统计方法的必要性。第一讲非参数统计概论用实例说明非参数统计方法和参数统计方法的区别,使参数统计与非参数统计的比较经典统计的多数检验都假定了总体的背景分布。分布由参数决定的,期望与方差总体的分布形式或分布族往往是给定的或者是假定了的,所不知道的仅仅是一些参数得知或它们的范围。人们的主要任务就是对一些参数,比如均值和方差(或标准差)进行估计或检验。参数统计与非参数统计的比较经典统计的多数检验都假定了总体的背非参数统计非参数统计方法(NonparametricStatisticalmethod)对总体的概率分布假定以及测量尺度的要求即使有也很少的统计方法。当能够得到分类数据和顺序数据时可以使用的方法。也称为无分布方法(Distribution-freeStatisticsmethods),也称自由分布统计学。表示无需对总体概率分布做出假定。因常按大小或出现先后次序排列资料进行分析,故又称次序统计学(OrderStatistics)非参数统计非参数统计方法(NonparametricSta什么是非参数检验?不假定了总体的具体背景分布形式。这些检验多根据数据观测值的相对大小建立检验统计量,然后找到在零假设下这些统计量的分布。看这些统计量的数据实现是否在零假设下属于小概率事件。这种和数据本身的总体分布无关的检验称为非参数检验。什么是非参数检验?不假定了总体的具体背景分布形式。非参数检验有什么优越性?在总体分布未知时,如果还假定总体有诸如正态分布那样的已知分布,在进行统计推断就可能产生错误甚至灾难。非参数检验总是比传统检验安全。但是在总体分布形式已知时,非参数检验就不如传统方法效率高。但非参数统计在总体分布未知时效率要比假定了错误总体分布时的传统方法要高,有时要高很多。非参数检验有什么优越性?在总体分布未知时,如果还假定总体有诸哪个好?哪个好?选择飞机与选择用参数与非参数方法的思路相同。大型飞机很好,但对机场的要求很高。参数统计对数据要求很高。小型飞机不一定舒适,但起降时对机场的要求很低。同理非参数统计对数据要求较低。选择飞机与选择用参数与非参数方法的思路相同。统计方法的选择:用参数统计方法与非参数统计方法1、考虑对总体的假定。对总体有假定时用参数,已具备使用参数统计方法时一般不用非参数统计。2、数据的度量尺度。定距与定比可以用参数。非参数统计方法的应用条件:1、用于分析定类数据2、用于分析定序数据3、用于分析定距、定比数据时总体分布未做假定。统计方法的选择:用参数统计方法与非参数统计方法非参数统计方法参数统计(ParametricStatisticalmethod)有两个特点:1、以推断某特定参数为对象。如总体均值μ,总体比例P,总体方差,两个总体殚值的差等。2、常需要假定总体的分布是已知的,有的要假设总体是服从正态分布的,才能作出推断。参数统计(ParametricStatisticalme数据的四种尺度:定类、定序、定距、定比对定类和定序的只能用非参数统计分析方法数据的四种尺度:对定类和定序的只能用非参数统计分析方法非参数检验的特点1、非参数统计方法应用广泛。2、它对资料的要求易于得到满足。3、当总体分布有具体形式未知,而且样本容量很小时,无法用参数统计方法,只能用非参数方法。4、大多数非参数统计方法简单、直观、易于掌握和应用。5、总体分布形式已知时,非参数统计的方法的检验功效不如假定总体已知的各种参数统计方法。非参数检验的特点6、非参数统计方法所推断的通常不是总体参数7、其通常按大小或出现先后顺序排列的资料进行分析。8、通常以中位数代表分布的中心,以极差代表离散程度。6、非参数统计方法所推断的通常不是总体参数非参数统计讲义(课堂)课件非参数统计讲义(课堂)课件非参数统计讲义(课堂)课件非参数统计讲义(课堂)课件非参数统计讲义(课堂)课件非参数统计的主要内容内容非参数检验相应的参数检验2独立样本中位数检验秩和检验独立样本t检验2配对样本/单一样本符号检验Wilcoxon检验成对样本t-检验>2独立样本Kruskal-Wallis检验单一因素ANOVA两因素Friedman检验双因素ANOVA相关性检验Spearman秩相关Pearson相关性检验分布的检验Kolmogorov-Smirnov非参数统计的主要内容内容非参数检验相应的参数检验2独立样本中MatrixofNonparametricStatisticsLevelofMeasurementNonparametricTestNonparametricCorrelationOneSampleTwoSamplesKSamplesRelatedUnrelatedRelatedUnrelatedNominalBinomialTestChi-SquareTestMcNemarChangeTestFisherExactTestfor2x2TablesChi-SquareTestforrx2TablesCochranQTestChi-SquareTestforrxkTablesCramerCoefficientPhiCoefficientKappaCoefficientAsymmetricalLambdaStatisticOrdinalKolmogorov-SmirnovOne-SampleTestOne-SampleRunsTestChange-PointTestSignTestWilcoxonSignedRanksTestMedianTestMann-WhitneyUTestRobustRank-OrderTestKolmogorov-SmirnovTwo-SampleTestSiegel-TukeyTestforScaleDifferencesFriedmanTwo-WayANOVAbyRanksPageTestforOrderedAlternativesExtensionoftheMedianTestKruskal-WallisOne-WayANOVAJonckheereTestforOrderedAlternativesSpearmanRank-OrderCoefficientKendallRank-OrderCoefficientKendallPartialRank-OrderCoefficientKendallCoefficientofConcordanceKendallCoefficientofAgreementCorrelationBetweenkJudgesandaCriterionTestGammaStatisticSomer’sIndexofAsymmetricAssociationMatrixofNonparametricStatis非参数统计的历史非参数统计的形成主要归功于20世纪40年代~50年代化学家F.Wilcoxon等人的工作。Wilcoxon于1945年提出两样本秩和检验,1947年Mann和Whitney二人将结果推广到两组样本量不等的一般情况;Pitman于1948年回答了非参数统计方法相对于参数方法来说的相对效率方面的问题;非参数统计的历史60年代中后期,Cox和Ferguson最早将非参数方法应用于生存分析。70年代到80年代,非参数统计借助计算机技术和大量计算获得更稳健的估计和预测,以P.J.Huber以及F.Hampel为代表的统计学家从计算技术的实现角度,为衡量估计量的稳定性提出了新准则。60年代中后期,Cox和Ferguson最早将非参数方法应用90年代有关非参数统计的研究和应用主要集中在非参数回归和非参数密度估计领域,其中较有代表性的人物是Silverman和J.Fan。非参数统计分为广义的和狭义的两种狭义的非参数统计主要研究假设检验,本课程研究狭义的。广义的非参数统计只要不考虑总体的分布的统计分析方法90年代有关非参数统计的研究和应用主要集中在非参数回归和非参但是在总体分布形式已知时,非参数检验就不如传统方法效率高。这是因为非参数方法利用的信息要少些。往往在传统方法可以拒绝零假设的情况,非参数检验无法拒绝。但非参数统计在总体未知时效率要比传统方法要高,有时要高很多。是否用非参数统计方法,要根据对总体分布的了解程度来确定。

但是在总体分布形式已知时,非参数检验就不如传统方法效率高。这

因为非参数统计方法不利用关于总体分布的知识,所以,就是在对总体的任何知识都没有的情况下,它也能很容易而又很可靠地获得结论。这时非参数方法往往优于参数方法,并且非参数检验总是比传统检验安全。因为非参数统计方法不利用关于总体分布的知识,所以,非参数统计讲义(课堂)课件非参数统计讲义(课堂)课件非参数统计讲义(课堂)课件非参数统计讲义(课堂)课件非参数统计讲义(课堂)课件数据的秩秩(rank)利用秩的大小进行推断就避免了不知道背景分布的困难。这也是大多数非参数检验的优点。多数非参数检验明显地或隐含地利用了秩的性质;但也有一些非参数方法没有涉及秩的性质。数据的秩秩(rank)利用秩的大小进行推断就避免了不知道背景非参数检验中秩是最常使用的概念。什么是一个数据的秩呢?一般来说,秩就是该数据按照升幂排列之后,每个观测值的位置。

非参数检验中秩是最常使用的概念。什么是一个数据的秩呢?一般来非参数统计讲义(课堂)课件秩(rank)

非参数检验中秩是最常使用的概念。什么是一个数据的秩呢?一般来说,秩就是该数据按照升幂排列之后,每个观测值的位置。例如我们有下面数据Xi159183178513719Ri75918426310这下面一行(记为Ri)就是上面一行数据Xi的秩。

秩(rank)非参数检验中秩是最常使用的概念。什么是一个数159183178513719数据输入SPSS159183178513719数据输入SPSS非参数统计讲义(课堂)课件非参数统计讲义(课堂)课件例题:某学院本科三年级有9个专业组成,统计每个专业学生每月消费数据如下,用SPSS求消费数据的秩和顺序统计量的现值:

300230208580690200263215520例题:某学院本科三年级有9个专业组成,统计每个专业学生每月消2.有结数据的秩设样本X1,X2,…,XN取自总体X的简单随机抽样,将数据排序后,相同的数据点组成一个“结”,称重复数据的个数为结长。例1:3.83.21.21.23.43.23.2解:结长为3。2.有结数据的秩统计推断:假设检验假设检验:假设检验是指我们可以对某一参数的假定值进行先验判断或预期,然后利用小概率原理对其进行检验,得到接受或拒绝原假设的结论。小概率原理:我们认为小概率事件由于发生的可能性很小,在一次试验中它几乎是不会发生的。如果发生了,说明我们的假设有问题,所以我们将拒绝原来的假设。统计推断:假设检验假设检验:小概率原理:非参数统计讲义(课堂)课件参数统计的假设检验如:检验正态分布的均值是否相等H0:u1=u2;H1:u1≠u2检验均值是否等于零H0:u=0;H1:u≠0

参数统计的假设检验如:检验正态分布的均值是否相等例8-5

用自动装袋机装葡萄糖,每袋标准重500克,每隔一定时间需检查机器工作是否正常.现抽得10袋,测得其重量为(单位:克)495,510,505,498,503,492,502,512,497,506,假定重量服从正态分布,问机器是否正常?解由于2未知,所以用T检验法提出假设例8-5用自动装袋机装葡萄糖,每袋标准重500克,每隔一定所以应接受H0,可以认为,机器工作正常.对拒绝域P值,由T=0.9733,df=9,可得(EXCEL函数=TDIST(0.9733,9,2)=0.35583559所以应接受H0,可以认为,机器工作正常.对拒绝域P值,由T假定甲、乙两机床截下的长度方差相等,问长度的期望值是否一样?例8-8从两台切断机所截下的坯料(长度按正态分布)中,分别抽取8个和9个产品,测得长度如下(单位:mm):甲:150,145,152,155,148,151,

152,148乙:152,150,148,152,150,150,

148,151,148假定甲、乙两机床截下的长度方差相等,问长度的期望值是否一样?设甲床截下的长度为X;乙床截下的长度为Y,由假定知21=22=2检验假设

解设甲床截下的长度为X;乙床截下的长度为Y,由假定知21=非参数统计讲义(课堂)课件对查表得拒绝域为所以应接受对查表得拒绝域为所以应接受参数方法定义:样本被视为从分布族的某个参数族抽取出来的总体的代表,而未知的仅仅是总体分布具体的参数值,推断问题就转化为对分布族的若干个未知参数的估计问题,用样本对这些参数做出估计或者进行某种形式的假设检验,这类推断方法称为参数方法。比如:(1)研究保险公司的索赔请求数时,可能假定索赔请求数来自泊松分布P(a);(2)研究化肥对农作物产量的影响效果时,平均意义之下,每测量单元(可能是)产量服从正态分布N(a,b).参数方法定义:样本被视为从分布族的某个参数族抽取出来的总体的接受域置信区间假设检验区间估计统计量

枢轴量对偶关系同一函数假设检验与区间估计的联系接受域置信区间假区统计量枢轴量对偶关系同一函数假设检验与区假设检验的基本概念若对参数有所了解但有猜测怀疑,需要证实之时用假设检验的方法来处理若对参数一无所知用参数估计的方法处理假设检验的基本概念若对但有猜测怀疑,用假设若对参数用参数估计接受域置信区间检验统计量及其在H0为真时的分布枢轴量及其分布原假设

H0备择假设

H1待估参数

0

0(

2未知)(

2未知)接受域置信区间检验统计量及其在枢轴量及其分布原假设备择假设待一个典型的参数检验过程1.总体参数Example:PopulationMean2.假定数据的形态为

WholeNumbersorFractions

Example:HeightinInches(72,60.5,54.7)3.有很强的假定Example:正态分布4.例子:ZTest,tTest,2Test一个典型的参数检验过程1.总体参数一个例子:对两组学生进行语法测试,如何比较两组学生的成绩是否存在差异?组1组244253330222983447243125401330323324353018322137352822一个例子:对两组学生进行语法测试,如何比较两组学生的成绩是否非参数统计讲义(课堂)课件原始数据秩2530293424251332243032379.514.012.021.07.59.52.017.57.514.017.524.04433228473140303335182135282226.019.55.51.027.016.025.014.019.522.53.04.022.511.05.5原始数据秩259.54426.0非参数统计讲义(课堂)课件假设检验的基本思想...因此我们拒绝假设

=50...如果这是总体的真实均值样本均值m=50抽样分布H0这个值不像我们应该得到的样本均值...20假设检验的基本思想...因此我们拒绝假设=50..单边备择单边备择双边备择零假设(原假设)与备择假设:例:单边备择零假设(原假设)与备择假设:例:假设检验的方法1.置信区间法

置信区间提供了在某一置信度(例如95%)下真实参数值的取值范围。

如果零假设中的值未落入该区间,也就是说小概率事件发生了,我们认为小概率事件由于发生的可能性很小,在一次试验中它几乎是不会发生的。如果发生了,说明我们的假设有问题,所以我们将拒绝该零假设。概念:接受域(置信区间)、拒绝域、临界值

假设检验的方法置信区间提供了在某一置信度(例第一类错误和第二类错误:一个偏离

由小概率原理我们可以看出,我们的这种判断是有可能犯错误的。我们把可能犯的错误分为两类:第一类错误和第二类错误。第一类错误:零假设是正确的,却做出拒绝零假设的判断,此为弃真错误。第二类错误:零假设是错误的,却做出接受零假设的判断,此为取伪错误。第一类错误和第二类错误:一个偏离由小概率原理假设检验不可能完全避免这两类错误,我们只能想办法使犯错误的概率尽量减小。1-置信水平,也称显著性水平犯第一类错误的概率=犯弃真错误的概率犯第二类错误的概率=犯取伪错误的概率假设检验不可能完全避免这两类错误,我们只能想办法使犯错误的概

两类错误

假设检验存在着接受错误的假设和拒绝正确假设的可能性.正确拒绝H0正确接受H0决策行动H0

为非真H0为真假设的真实状态检验结果假设检验的各种可能结果1-a1-β两类错误假设检验存在着接受错H0:无罪假设检验中的两类错误(决策结果)陪审团审判裁决实际情况无罪有罪无罪正确错误有罪错误正确H0检验决策实际情况H0为真H0为假接受H01-a第二类错误(b)拒绝H0第一类错误(a)功效(1-b)假设检验就好像一场审判过程统计检验过程H0:无罪假设检验中的两类错误陪审团审判裁决实际情况无罪有

错误和错误的关系你不能同时减少两类错误!和的关系就像翘翘板,小就大,大就小错误和错误的关系你不能同时减少两类错误!和非参数统计讲义(课堂)课件2.显著性检验

显著性检验:在给定显著性水平下,为考察样本值的显著性而进行的假设检验。检验是统计显著的:能够拒绝零假设,即观察到的样本值落入拒绝域。检验是统计不显著的:不能够拒绝零假设,即观察到的样本值落入接受域。2.显著性检验

确定显著性水平,求临界值.

在假设检验中,认为零假设代表的事件概率很大,备择假设代表的对立事件概率很小.

根据实际推断原理(小概率原理),规定一个界限,当某事件的概率,就认为该事件是实际不可能事件.显著性水平.

如果在一次检验

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论