第七章+非参数检验_第1页
第七章+非参数检验_第2页
第七章+非参数检验_第3页
第七章+非参数检验_第4页
第七章+非参数检验_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章非参数检验

主讲教师:潘玉荣系别:数学与物理系问题的提出在数据分析中,由于种种原因,人们往往无法对总体分布做简单假定,但却又希望能从样本数据中获得尽可能多的信息。非参数检验正是一类基于这种考虑,在总体分布未知或知道甚少的情况下,利用样本数据对总体分布等进行推断的方法。

SPSS中非参数检验方法主要涉及以下方面:单样本非参数检验两独立样本非参数检验多独立样本参数检验两配对样本非参数检验多配对样本非参数检验§7.1单样本的非参数检验得到一批样本数据以后,往往希望了解样本来自的总体分布是否与某个已知的理论分布相吻合。可以绘制样本数据的直方图、P-P图、Q-Q图等方法做粗略判断,还可以利用非参数检验的方法来实现。SPSS单样本非参数检验正是对单个总体的分布进行推断的方法,其中包括了卡方检验、二项分布检验、K-S检验以及变量值随机检验等方法。7.1.1卡方检验的基本思想卡方检验方法可以根据样本数据,推断总体分布与期望分布是否存在显著差异,是一种吻合性检验,通常适合于对有多项分类值得总体分布的分析。卡方检验基本思想的理论依据是:如果从一个随机变量X中随机抽取若干个观察样本,这些观察样本落在X的k个互不相交的子集中的观察频数服从一个多项分布,这个多项分布当k趋向无穷时近似服从卡方分布。卡方分布的零假设:样本来自的总体分布与期望分布或某一理论分布无显著差异。卡方检验的应用案例为了研究上述心脏病人猝死人数与日期的关系,收集到了168个观察数据,其中星期一至星期日的死亡人数分别一次为55、23、18、11、26、20、15,并用数字1~7表示星期。现在利用这批样本数据推断心脏病人猝死人数与日期的关系是否为2.8:1:1:1:1:1:1卡方分布的零假设:样本来自的总体分布与期望分布或某一理论分布无显著差异。~总体分布卡方检验的基本操作操作步骤:(1)选择菜单Analyze→NonparametricTests→Chi-Square,于是出现一个窗口(2)选定待检验的变量到TestVariableList框中。(3)在ExpectedRange框选项中确定参与分析的观测值得范围,其中Getfromdata表示所有观察数据都参与分析;Usespecifiedrange只有在取值范围内的观察数据才参与分析。

(4)在ExpectedValues框中给出各个pi值。其中Allcategoriesequal表示所有自己的pi都相同,即期望分布为均匀分布,Values框后可依次输入pi值。卡方检验的应用案例分析死亡日期

观察数 期望数 残差 1.00 55 53.5 1.5 2.00 23 19.1 3.9 3.00 18 19.1-1.1 4.00 11 19.1 -8.1 5.00 26 19.1 6.9 6.00 20 19.1 0.9 7.00 15 19.1 -4.1 总数 168

心脏病猝死卡方检验结果

死亡日期 卡方 7.757 df 6 渐近显著性sig.0.256

从上述表中可以认为样本来自的分布与指定的理论分布无显著差异,即心脏病人猝死人数与日期的关系是否为2.8:1:1:1:1:1:17.1.2二项分布检验的基本思想二项分布检验正是要通过样本数据检验样本来自的总体是否服从指定概率值p的二项分布,其零假设是样本来自总体与指定的二项分布无显著差异。若是小样本中采用精确检验方法,计算n次试验中成功出现的次数小于等于x次的概率,即:

若是大样本下,看看采用近似检验,采用Z检验统计量。

当小于时加0.5,当大于时减0.5,

SPSS自动计算上述精确概率和近似概率值。如果概率值小于显著水平,则拒绝零假设,认为样本来自的总体与制定的二项分布有显著差异;否则无差异。二项分布检验的基本操作(1)选择菜单:分析→非参数检验→二项式(Binomial)(2)选择待定检验的变量到[检验变量列表]框中(3)在[定义二分法]框中制定如何分类。如果检验变量为二值变量,则选[从数据中获取]选项,且数据编辑窗口中的第一条数据所在类默认为“成功”;如果检验变量不是二值变量,可在【割点】框后输入具体数值,小于等于该值得观测值为成功。(4)在【检验比例】框中输入二项分布的检验概率值。至此,SPSS将自动检验成功的概率是否与输入的检验概率值p存在显著差异。二项分布检验的应用案例为了验证某批合格品率是否不低于90%,现从该批产品中随机抽取23个样品进行检测并得到检测结果数据。7.1.3单样本K-S检验的基本思想

K-S检验能够利用样本数据推断样本来自的总体是否与某一理论分布有显著差异,是一种拟合优度的检验方法,适用于连续型随机变量的分布。在SPSS中的理论分布主要包括正态分布、均匀分布、指数分布和泊松分布。SPSS单样本K-S检验的基本思路:(1)在零假设前提下,计算各样本观测值在理论分布中出现的理论累计概率值F(x).(2)计算各样本观测值的实际累计概率值S(x),计算实际累计概率值与理论概率值的差D(x).(3)计算差值序列中的最大绝对值,即D=max(|S(Xi)-F(Xi)|).通常由于实际累计概率为离散值,因此D修正为D=max(max(|S(Xi)-F(Xi)|),max(|S(Xi-1)-F(Xi)|)

).D统计量也称为K-S统计量在SPSS中,无论是大样本还是小样本,只给出大样本下的和对应的概率p值.单样本K-S检验的基本操作(1)选择菜单Analyze→NonparametricTests→1-sampleK-S(2)选定待检验的变量到TestVariableList框中。(3)在TestDstribution框中选择理论分布,其中【Normal】为正态分布,【Uniform】为均匀分布,Poisson为泊松分布,Exponential为指数分布。至此,SPSS将自动计算K-S检验统计量和对应的概率p值,并将结果输出到输出窗口中。单样本K-S检验的应用案例案例1:分析21名周岁儿童身高的总体与正态分布有无显著差异。案例2:根据居民存款数据,分析居民一次存款金额是否服从正态分布。§7.2两独立样本的非参数检验含义:由样本数据推断两独立总体的分布是否存在显著差异(或两样本是否来自同一总体)基本假设:H0:两总体分布无显著差异(两样本来自同一总体)例如:某工厂用甲乙两种不同的工艺生产同一种产品。如果希望检验两种工艺下产品的使用寿命是否存在显著差异,可从两种工艺生产出的产品中随机抽样,得到各自的使用寿命数据:工艺使用寿命样本值甲工艺675,682,692,679,669,661,693乙工艺662,649,672,663,650,651,646,6527.2.1两独立样本的K-S检验将两样本混合并按升序排序分别计算两个样本秩的累计频数和累计频率两个累计频率相减.如果差距较小,则认为两总体分布无显著差异应保证有较大的样本数

混合排序后的样本数据组标记甲工艺累计频数乙工艺累计频数甲工艺累计频率乙工艺累计频率累计频率差64620100.1250.12564920200.250.2565020300.3750.37565120400.50.565220500.6250.6256611150.1430.6250.4826622160.1430.750.6076632170.1430.8750.7326691270.2860.8750.5896722280.28610.7146751380.42910.5716791480.57110.4296821580.71410.2866921680.85710.1436931781107.2.2两独立样本非参数检验的基本操作(1)择菜单Analyze→NonparametricTests→2-IndependentSample(2)选定待检验的变量到TestVariableList框中。(3)指定存放组标志的变量到【groupingvariable】框,并单击【definegroups】按钮给出两个组标志值。(4)在TestType框中选中哪种检验方法。至此,SPSS将根据用户的选择进行检验,并将结果输出到输出窗口中。7.2.3两独立样本非参数检验的应用案例

由上表可知,甲乙两种工艺下产品使用寿命的累计概率的绝对差为0.732.

的观测值为1.415,概率p为0.037,小于显著水平0.05,应拒绝零假设,认为甲乙两种工艺下产品寿命的分布存在显著差异。

案例2:利用第2章居民储蓄调查存款数据,对城镇和农村储户存款金额的分布进行比较分析。(学生练习)§7.3多独立样本的非参数检验通过分析多组样本数据推断样本来自的多个总体的位数或分布是否存在显著差异。多组独立样本是指按独立抽样方式获得的多组样本。基本假设H0:多总体分布无显著差异问题:希望对北京、上海、成都和广州四个城市的周岁儿童的身高进行比较分析。采用独立抽样方式获得四组独立样本。城市身高样本数据北京(1)79,75,78,76,72上海(2)72,71,74,74,73成都(3)76,78,78,77,75广州(4)70,72,71,71,697.3.1中位数检验中位数检验通过对多组独立样本的分析,检验它们来自的总体的中位数是否存在显著差异。零假设:多个独立样本来自的多个总体的中位数无显著差异。基本思想:如果多个的中位数无显著差异,或者说多个总体有共同的中位数,那么这个共同的中位数应在各样本组中均处在中间位置上。中位数检验基本步骤将多组样本混合并按升序排序,并求出混合样本的中位数。分别计算各组样本中大于和小于上述中位数的样本个数。利用卡方检验方法分析各样本的来自总体对于上述中位数的分布是否一致。得到一个列联表,并构造卡方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论