第七章+非参数检验_第1页
第七章+非参数检验_第2页
第七章+非参数检验_第3页
第七章+非参数检验_第4页
第七章+非参数检验_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、主讲教师:潘玉荣主讲教师:潘玉荣系系 别:数学与物理系别:数学与物理系问题的提出 在数据分析中,由于种种原因,人们往在数据分析中,由于种种原因,人们往往无法对总体分布做简单假定,但却又希往无法对总体分布做简单假定,但却又希望能从样本数据中获得尽可能多的信息。望能从样本数据中获得尽可能多的信息。非参数检验正是一类基于这种考虑,在总非参数检验正是一类基于这种考虑,在总体分布未知或知道甚少的情况下,利用样体分布未知或知道甚少的情况下,利用样本数据对总体分布等进行推断的方法。本数据对总体分布等进行推断的方法。 SPSS中非参数检验方法主要涉及以下方面:中非参数检验方法主要涉及以下方面:单样本非参数检验

2、单样本非参数检验两独立样本非参数检验两独立样本非参数检验多独立样本参数检验多独立样本参数检验两配对样本非参数检验两配对样本非参数检验多配对样本非参数检验多配对样本非参数检验7.1单样本的非参数检验单样本的非参数检验 得到一批样本数据以后,往往希望了解样得到一批样本数据以后,往往希望了解样本来自的总体分布是否与某个已知的理论本来自的总体分布是否与某个已知的理论分布相吻合。可以绘制样本数据的直方图分布相吻合。可以绘制样本数据的直方图、P-P图、图、Q-Q图等方法做粗略判断,还图等方法做粗略判断,还可以利用非参数检验的方法来实现。可以利用非参数检验的方法来实现。 SPSS单样本非参数检验正是对单个总

3、体的单样本非参数检验正是对单个总体的分布进行推断的方法,其中包括了卡方检分布进行推断的方法,其中包括了卡方检验、二项分布检验、验、二项分布检验、K-S检验以及变量值检验以及变量值随机检验等方法。随机检验等方法。7.1.1卡方检验的基本思想卡方检验的基本思想 卡方检验方法可以根据样本数据,推断总体分布与卡方检验方法可以根据样本数据,推断总体分布与期望分布是否存在显著差异,是一种吻合性检验,期望分布是否存在显著差异,是一种吻合性检验,通常适合于对有多项分类值得总体分布的分析。通常适合于对有多项分类值得总体分布的分析。 卡方检验基本思想的理论依据是:如果从一个随机卡方检验基本思想的理论依据是:如果从

4、一个随机变量变量X中随机抽取若干个观察样本,这些观察样本中随机抽取若干个观察样本,这些观察样本落在落在X的的k个互不相交的子集中的观察频数服从一个互不相交的子集中的观察频数服从一个多项分布,这个多项分布当个多项分布,这个多项分布当k趋向无穷时近似服趋向无穷时近似服从卡方分布。从卡方分布。 卡方分布的零假设:样本来自的总体分布与期望分卡方分布的零假设:样本来自的总体分布与期望分布或某一理论分布无显著差异。布或某一理论分布无显著差异。卡方检验的应用案例卡方检验的应用案例 为了研究上述心脏病人猝死人数与日为了研究上述心脏病人猝死人数与日期的关系,收集到了期的关系,收集到了168个观察数据,其个观察数

5、据,其中星期一至星期日的死亡人数分别一次为中星期一至星期日的死亡人数分别一次为55、23、18、11、26、20、15,并用,并用数字数字17表示星期。现在利用这批样本数表示星期。现在利用这批样本数据推断心脏病人猝死人数与日期的关系是据推断心脏病人猝死人数与日期的关系是否为否为2.8:1:1:1:1:1:1 卡方分布的零假设:样本来自的总体分布卡方分布的零假设:样本来自的总体分布与期望分布或某一理论分布无显著差异。与期望分布或某一理论分布无显著差异。总体分布卡方检验的基本操作总体分布卡方检验的基本操作 操作步骤:操作步骤: (1)选择菜单)选择菜单AnalyzeNonparametric Te

6、sts Chi-Square,于是出现一个窗口于是出现一个窗口 (2)选定待检验的变量到)选定待检验的变量到Test Variable List框框中。中。 (3)在)在Expected Range框选项中确定参与分框选项中确定参与分析的观测值得范围,其中析的观测值得范围,其中Get from data表示所表示所有观察数据都参与分析;有观察数据都参与分析;Use specified range只有在取值范围内的观察数据才参与分析。只有在取值范围内的观察数据才参与分析。 (4)在在Expected Values框中给出各个框中给出各个pi值。其值。其中中 All categories equa

7、l表示所有自己的表示所有自己的pi都都相同,即期望分布为均匀分布,相同,即期望分布为均匀分布,Values框后可依框后可依次输入次输入pi值。值。卡方检验的应用案例分析卡方检验的应用案例分析死亡日期死亡日期 观察数期望数残差1.005553.5 1.52.002319.1 3.93.001819.1 -1.14.001119.1 -8.15.002619.1 6.96.002019.1 0.97.001519.1 -4.1总数168 心脏病猝死卡方检验结果心脏病猝死卡方检验结果 死亡日期卡方 7.757df 6渐近显著性sig. 0.256 从上述表中可以认为样本来自的分布与指定的理论分布无显

8、著差异,即心脏病人猝死人数与日期的关系是否为2.8:1:1:1:1:1:17.1.2二项分布检验的基本思想二项分布检验的基本思想 二项分布检验正是要通过样本数据检验样本来自的二项分布检验正是要通过样本数据检验样本来自的总体是否服从指定概率值总体是否服从指定概率值p的二项分布,其零假设的二项分布,其零假设是样本来自总体与指定的二项分布无显著差异。是样本来自总体与指定的二项分布无显著差异。 若是小样本中采用精确检验方法,计算若是小样本中采用精确检验方法,计算n次试验中次试验中成功出现的次数小于等于成功出现的次数小于等于x次的概率,即:次的概率,即: 若是大样本下,看看采用近似检验,采用若是大样本下

9、,看看采用近似检验,采用Z检验统检验统计量计量 。 当当 小于小于 时加时加0.5,当,当 大于大于 时减时减0.5,0()xiin iniP XxC p q0.5(1)xnpZnppxx2n2n SPSS自动计算上述精确概率和近似概自动计算上述精确概率和近似概率值。如果概率值小于显著水平,则拒绝率值。如果概率值小于显著水平,则拒绝零假设,认为样本来自的总体与制定的二零假设,认为样本来自的总体与制定的二项分布有显著差异;否则无差异。项分布有显著差异;否则无差异。二项分布检验的基本操作二项分布检验的基本操作 (1)选择菜单:分析)选择菜单:分析非参数检验非参数检验二项式二项式(Binomial)

10、 (2)选择待定检验的变量到)选择待定检验的变量到检验变量列表检验变量列表框中框中 (3)在)在定义二分法定义二分法框中制定如何分类。如果检框中制定如何分类。如果检验变量为二值变量,则选验变量为二值变量,则选从数据中获取从数据中获取选项,选项,且数据编辑窗口中的第一条数据所在类默认为且数据编辑窗口中的第一条数据所在类默认为“成功成功”;如果检验变量不是二值变量,可在;如果检验变量不是二值变量,可在【割割点点】框后输入具体数值,小于等于该值得观测值框后输入具体数值,小于等于该值得观测值为成功。为成功。 (4)在)在【检验比例检验比例】框中输入二项分布的检验概框中输入二项分布的检验概率值。率值。

11、至此,至此,SPSS将自动检验成功的概率是否与输入将自动检验成功的概率是否与输入的检验概率值的检验概率值p存在显著差异。存在显著差异。二项分布检验的应用案例二项分布检验的应用案例 为了验证某批合格品率是否不低于为了验证某批合格品率是否不低于90%,现从该批产品中随机抽取,现从该批产品中随机抽取23个样个样品进行检测并得到检测结果数据。品进行检测并得到检测结果数据。Binomial Test合格19.8.9.193a不合格4.2231.0Group 1Group 2Total是否合格CategoryNObservedProp. Test Prop.Exact Sig.(1-tailed)Alte

12、rnative hypothesis states that the proportion of cases in the first group .9.a. 7.1.3单样本单样本K-S检验的基本思想检验的基本思想 K-S检验能够利用样本数据推断样本来检验能够利用样本数据推断样本来自的总体是否与某一理论分布有显著差异,自的总体是否与某一理论分布有显著差异,是一种拟合优度的检验方法,适用于连续型是一种拟合优度的检验方法,适用于连续型随机变量的分布。在随机变量的分布。在SPSS中的理论分布主中的理论分布主要包括正态分布、均匀分布、指数分布和泊要包括正态分布、均匀分布、指数分布和泊松分布。松分布。

13、SPSS单样本单样本K-S检验的基本思路:检验的基本思路:(1)在零假设前提下,计算各样本观测值在理论分)在零假设前提下,计算各样本观测值在理论分布中出现的理论累计概率值布中出现的理论累计概率值F(x). (2)计算各样本观测值的实际累计概率值计算各样本观测值的实际累计概率值S(x),计,计算实际累计概率值与理论概率值的差算实际累计概率值与理论概率值的差D(x). (3)计算差值序列中的最大绝对值,即计算差值序列中的最大绝对值,即D=max(|S(Xi)-F(Xi)|).通常由于实际累计概通常由于实际累计概率为离散值,因此率为离散值,因此D修正为修正为D=max(max(|S(Xi)-F(Xi

14、)|), max(|S(Xi-1)-F(Xi)|) ). D统计量也称为统计量也称为K-S统计量统计量 在在SPSS中,无论是大样本还是小样本,只给出大中,无论是大样本还是小样本,只给出大样本下的样本下的 和对应的概率和对应的概率p值值.nD单样本单样本K-S检验的基本操作检验的基本操作(1)选择菜单)选择菜单AnalyzeNonparametric Tests 1-sample K-S(2)选定待检验的变量到)选定待检验的变量到Test Variable List框框中。中。 (3)在在Test Dstribution框中选择理论分布,其框中选择理论分布,其中中【Normal】为正态分布,为

15、正态分布,【Uniform】为均为均匀分布,匀分布,Poisson为泊松分布,为泊松分布,Exponential为指数分布。为指数分布。 至此,至此,SPSS将自动计算将自动计算K-S检验统计量和对检验统计量和对应的概率应的概率p值,并将结果输出到输出窗口中。值,并将结果输出到输出窗口中。单样本单样本K-S检验的应用案例检验的应用案例案例案例1:分析:分析21名周岁儿童身高的总体与名周岁儿童身高的总体与正态分布有无显著差异。正态分布有无显著差异。 案例案例2:根据居民存款数据,分析居民一次存款金额根据居民存款数据,分析居民一次存款金额是否服从正态分布。是否服从正态分布。7.2两独立样本的非参数

16、检验两独立样本的非参数检验含义:由样本数据推断两独立总体的分布是否存在显著差异( (或两样本是否来自同一总体) )基本假设:H0:两总体分布无显著差异(两样本来自同一总体)例如:某工厂用甲乙两种不同的工艺生产同一种例如:某工厂用甲乙两种不同的工艺生产同一种产品。如果希望检验两种工艺下产品的使用寿命产品。如果希望检验两种工艺下产品的使用寿命是否存在显著差异,可从两种工艺生产出的产品是否存在显著差异,可从两种工艺生产出的产品中随机抽样,得到各自的使用寿命数据:中随机抽样,得到各自的使用寿命数据: 工艺工艺使用寿命样本值使用寿命样本值甲工艺甲工艺675,682,692,679,669,661,693

17、乙工艺乙工艺662,649,672,663,650,651,646,6527.2.1两独立样本的K-S检验将两样本混合并按升序排序将两样本混合并按升序排序分别计算两个样本秩的累计频数和累计频率分别计算两个样本秩的累计频数和累计频率两个累计频率相减两个累计频率相减.如果差距较小如果差距较小,则认为两总体分布无显著差则认为两总体分布无显著差异异应保证有较大的样本数应保证有较大的样本数混合排序后的混合排序后的样本数据样本数据组标记组标记甲工艺累计频甲工艺累计频数数乙工艺累计频乙工艺累计频数数甲工艺累计频甲工艺累计频率率乙工艺累计频乙工艺累计频率率累计频率差累计频率差64620100.1250.125

18、64920200.250.2565020300.3750.37565120400.50.565220500.6250.6256611150.1430.6250.4826622160.1430.750.6076632170.1430.8750.7326691270.2860.8750.5896722280.28610.7146751380.42910.5716791480.57110.4296821580.71410.2866921680.85710.1436931781107.2.2两独立样本非参数检验的基本操作(1)择菜单)择菜单AnalyzeNonparametric Tests 2-In

19、dependent Sample (2)选定待检验的变量到)选定待检验的变量到Test Variable List框中。框中。 (3)指定存放组标志的变量到指定存放组标志的变量到【grouping variable】框,并单击框,并单击【define groups】按钮给出两个组标志值。按钮给出两个组标志值。 (4)在在Test Type框中选中哪种检验方法。框中选中哪种检验方法。 至此,至此,SPSS将根据用户的选择进行检将根据用户的选择进行检验,并将结果输出到输出窗口中。验,并将结果输出到输出窗口中。7.2.3 两独立样本非参数检验的应用案例两独立样本非参数检验的应用案例 由上表可知,甲乙

20、两种工艺下产品使由上表可知,甲乙两种工艺下产品使用寿命的累计概率的绝对差为用寿命的累计概率的绝对差为0.732. 的观测值为的观测值为1.415,概率,概率p为为0.037,小于显著水平,小于显著水平0.05,应拒绝零,应拒绝零假设,认为甲乙两种工艺下产品寿命的假设,认为甲乙两种工艺下产品寿命的分布存在显著差异。分布存在显著差异。 nD案例案例2:利用第利用第2章居民储蓄调查存款数据,章居民储蓄调查存款数据,对城镇和农村储户存款金额的分布进行比对城镇和农村储户存款金额的分布进行比较分析。(学生练习)较分析。(学生练习)7.3多独立样本的非参数检验多独立样本的非参数检验通过分析多组样本数据推断样

21、本来自的多个总体的位数或分布是否存在显著差异。多组独立样本是指按独立抽样方式获得的多组样本。基本假设H0:多总体分布无显著差异问题:问题: 希望对北京、上海、成都和广州四个城希望对北京、上海、成都和广州四个城市的周岁儿童的身高进行比较分析。采用市的周岁儿童的身高进行比较分析。采用独立抽样方式获得四组独立样本。独立抽样方式获得四组独立样本。城市城市身高样本数据身高样本数据北京(北京(1)79,75,78,76,72上海(上海(2)72,71,74,74,73成都(成都(3)76,78,78,77,75广州(广州(4)70,72,71,71,697.3.1中位数检验中位数检验 中位数检验通过对多组

22、独立样本的分析,中位数检验通过对多组独立样本的分析,检验它们来自的总体的中位数是否存在显检验它们来自的总体的中位数是否存在显著差异。著差异。零假设:多个独立样本来自的多个总体的零假设:多个独立样本来自的多个总体的中位数无显著差异。中位数无显著差异。基本思想:如果多个的中位数无显著差异基本思想:如果多个的中位数无显著差异,或者说多个总体有共同的中位数,那么,或者说多个总体有共同的中位数,那么这个共同的中位数应在各样本组中均处在这个共同的中位数应在各样本组中均处在中间位置上。中间位置上。中位数检验基本步骤中位数检验基本步骤将将多组多组样本混合并按升序排序样本混合并按升序排序,并求出混,并求出混合样

23、本的中位数。合样本的中位数。分别计算分别计算各组各组样本样本中大于和小于上述中位中大于和小于上述中位数的样本个数。数的样本个数。利用卡方检验方法分析各样本的来自总体利用卡方检验方法分析各样本的来自总体对于上述中位数的分布是否一致。得到一对于上述中位数的分布是否一致。得到一个列联表,并构造卡方统计量个列联表,并构造卡方统计量,它服从自由它服从自由度为(度为(2-1)*(n-1)。)。SPSS自动计算卡方统计量和对应的概率自动计算卡方统计量和对应的概率p值值.北京北京上海上海成都成都广州广州合计合计大于大于7442.2502.2552.2502.259小于等于小于等于7412.7552.7502.

24、7552.7511合计合计5555207.3.2多独立样本的多独立样本的K-W检验检验将多组样本数据混合并按升序排序将多组样本数据混合并按升序排序,求出各求出各变量值的秩变量值的秩对多个样本的秩分别求平均秩序对多个样本的秩分别求平均秩序如果各样本的平均秩大致相等如果各样本的平均秩大致相等,则认为多个则认为多个总体分布无显著差异总体分布无显著差异案例分析结果案例分析结果 通过中位数和通过中位数和K-W检验均发现四检验均发现四个城市周岁儿童身高的分布是存在个城市周岁儿童身高的分布是存在显著差异的。显著差异的。7.3.3 多独立样本非参数检验的操作步骤多独立样本非参数检验的操作步骤(1)择菜单)择菜

25、单AnalyzeNonparametric Tests KIndependent Sample (2)选定待检验的变量到)选定待检验的变量到Test Variable List框框中。中。 (3)指定存放组标志的变量到指定存放组标志的变量到【grouping variable】框,并单击框,并单击【define groups】按按钮给出两个组标志值。钮给出两个组标志值。 (4)在在Test Type框中采用哪种检验方法。框中采用哪种检验方法。 至此,至此,SPSS将根据用户的选择进行检验,并将根据用户的选择进行检验,并将结果输出到输出窗口中。将结果输出到输出窗口中。 学生练习:根据居民储蓄调查

26、数据,对不学生练习:根据居民储蓄调查数据,对不同职业储户存款金额的分布进行比较分析同职业储户存款金额的分布进行比较分析。7.4两配对样本非参数检验两配对样本非参数检验含义含义:由样本数据推断两配对总由样本数据推断两配对总 体分布是否存在显著差异体分布是否存在显著差异.基本假设基本假设:H0:两配对总体分布两配对总体分布 无显著差异无显著差异.数据要求数据要求:两配对的样本数据两配对的样本数据7.4.1两配对的符号检验两配对的符号检验将样本将样本2的各样本值减去样本的各样本值减去样本1的各样本值的各样本值.如果差值为正如果差值为正,则记为正号则记为正号;如果差值为负如果差值为负,则则记为负号记为负号如果正号的个数与负号的个数相当如果正号的个数与负号的个数相当,则认为则认为无显著变化无显著变化.否则否则,认为有显著变化认为有显著变化两样本的配对符号检验采用二项分布检验的两样本的配对符号检验采用二项分布检验的方法,检验正号个数和负号个数的分布是否方法,检验正号个数和负号个数的分布是否服从服从p为为0.5的二项分布。的二项分布。7.4.2两配对的应用案例(学生操作)两配对的应用案例(学生操作)跳远训

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论