信息分析与决策Chapert抽样与统计推断非参数检验_第1页
信息分析与决策Chapert抽样与统计推断非参数检验_第2页
信息分析与决策Chapert抽样与统计推断非参数检验_第3页
信息分析与决策Chapert抽样与统计推断非参数检验_第4页
信息分析与决策Chapert抽样与统计推断非参数检验_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第四章第四章 样本数据的统计分析样本数据的统计分析非参数检验非参数检验 在数据分析过程中,由于多种原因,在数据分析过程中,由于多种原因,人们往往无法对总体分布形态作简单假人们往往无法对总体分布形态作简单假设,但却希望能从样本数据中获得尽可设,但却希望能从样本数据中获得尽可能多的信息。这种情况下,能多的信息。这种情况下,在总体分布在总体分布未知或知之甚少的情况下,未知或知之甚少的情况下,利用样本数利用样本数据据对总体分布形态进行推断对总体分布形态进行推断的方法。的方法。单样本的参数检验单样本的参数检验 拿到一批样本数据后,往往希望了解拿到一批样本数据后,往往希望了解样本来自的总体分布是否与某个已

2、知的样本来自的总体分布是否与某个已知的理论分布相吻和。理论分布相吻和。SPSS单样本非参数检验单样本非参数检验正是对单个总体的分布形态进行推断的正是对单个总体的分布形态进行推断的方法方法。主要介绍以下两种检验方法包括:。主要介绍以下两种检验方法包括:u 卡方检验卡方检验 u K-S检验检验 卡方检验卡方检验卡方检验卡方检验解决以下类似问题:解决以下类似问题:Ex: 医学家研究心脏病人猝死人数与日期医学家研究心脏病人猝死人数与日期的关系时发现,一周之中周一心脏病人的关系时发现,一周之中周一心脏病人猝死者较多,其他日子则相当。每周的猝死者较多,其他日子则相当。每周的比例近似为比例近似为2.8:1:

3、1:1:1:1:1。现收集到心现收集到心脏病人死亡日期的样本数据,需要脏病人死亡日期的样本数据,需要推断推断其总体分布是否与上述理论分布相吻合其总体分布是否与上述理论分布相吻合?卡方检验卡方检验 卡方检验分布推断卡方检验分布推断总体分布总体分布与与期望期望分布分布或某一或某一理论分布理论分布之间是否存在显著之间是否存在显著差异。为吻合性分布检测,通常差异。为吻合性分布检测,通常适用于适用于多项分类值总体分布的分析多项分类值总体分布的分析。一般其零。一般其零假设为:假设为:H0: 总体分布与理论分布无显著差异。总体分布与理论分布无显著差异。卡方检验卡方检验Ex:为研究心脏病人猝死人数与日期的:为

4、研究心脏病人猝死人数与日期的关系,收集到关系,收集到168个观察数据。统计样本个观察数据。统计样本数据,周一至周日的的死亡人数依次数据,周一至周日的的死亡人数依次为为:55,23,18,11,26,20,15. 现利用这批数现利用这批数据推断总体分布是否为理论值据推断总体分布是否为理论值2.8:1:1:1:1:1:1。 这类这类问题变量往往问题变量往往 为离为离散数据散数据。卡方检验卡方检验Data: “(非参数检验非参数检验)心脏病猝死心脏病猝死”Command: AnalyzeNonparametric Tests Chi-Square Expected Values 框中给出各个框中给出

5、各个pi的值。的值。All categories equal 表示所有表示所有pi都相同,都相同,即期望分布为均匀分即期望分布为均匀分布;布;Value框中依次框中依次输入输入pi.卡方检验卡方检验观察值观察值按照理论分布,按照理论分布,168人人一周内每天死亡的期一周内每天死亡的期望频数。望频数。卡方统计量为卡方统计量为7.757,对,对应的概率值为应的概率值为0.2560.05, 不能拒绝原不能拒绝原假设。即总体分布与理假设。即总体分布与理论分布无显著差异。论分布无显著差异。卡方检验卡方检验卡方检验的基本理论依据卡方检验的基本理论依据: 如果从一个随机变量如果从一个随机变量X中随机抽取若干

6、中随机抽取若干个观察样本,这些观察样本落在个观察样本,这些观察样本落在X的的k个互不个互不相交的子集中的观察频数服从一个多项分布,相交的子集中的观察频数服从一个多项分布,这个多项分布当这个多项分布当k趋于无穷时近似趋于无穷时近似服从卡方分服从卡方分布布。 基于这一思想,对变量基于这一思想,对变量X总体分布的研总体分布的研究就可从究就可从对各个观察频数对各个观察频数的分析入手。的分析入手。卡方检验卡方检验 观察频数观察频数期望频数期望频数K-S检验检验 K-S检验检验是以俄罗斯科学家是以俄罗斯科学家Kolmogorov-Smirnov命名的一种非参数命名的一种非参数检验方法。该方法利用样本数据推

7、断样检验方法。该方法利用样本数据推断样本来自的总体是否服从某一理论分布,本来自的总体是否服从某一理论分布,适用于探索连续型随机变量的分布。适用于探索连续型随机变量的分布。K-S检验检验例如,例如,u收集一批周岁儿童身高的样本数据,收集一批周岁儿童身高的样本数据,利用样本数据推断周岁儿童总体的身高利用样本数据推断周岁儿童总体的身高是否是否服从正态分布服从正态分布。u 采集收费站过车的流量,推断是否服采集收费站过车的流量,推断是否服从从泊松分布泊松分布。K-S 检验检验零假设零假设H0: 总体与指定的理论分布无显著总体与指定的理论分布无显著差异。差异。SPSS可以检测的分布包括:可以检测的分布包括

8、:K-S 检检 验验K-S检验的基本原理及统计量检验的基本原理及统计量u 零假设前提下,计算各样本观测值在零假设前提下,计算各样本观测值在理论分布中出现的理论分布中出现的理论累计概率值理论累计概率值F(x)。u计算样本观察值的计算样本观察值的实际累计概率值实际累计概率值S(x)u计算实际计算实际累计概率值与理论累计概率累计概率值与理论累计概率值的差值的差D(x).K-S 检验检验 K-S 检验检验Ex1:在高速公路某观测点观测每分钟内通过:在高速公路某观测点观测每分钟内通过的机动车数。共做了的机动车数。共做了2000余次的观测。分析余次的观测。分析高速路上车流的分布。高速路上车流的分布。在在1

9、分钟内分钟内观察到的观察到的车数(辆)车数(辆)0110观察到相观察到相应车数的应车数的次数次数(频次频次)5319216K-S 检验检验SPSS的分析:的分析:Data: “CH7非参公路车流非参公路车流”Command: Analyze Noparametric Test 1 Sample k-s K-S 检验检验分析报告分析报告K-S 检验检验Ex2: 储户存储户存(取取)款金额的分布检验款金额的分布检验利用利用K-S检验分析储户一次存检验分析储户一次存(取取)款金额的总款金额的总体是否服从正态分布。体是否服从正态分布。Data:“居民储蓄调查数据居民储蓄调查数据(存款存款)”Comma

10、nd:Command: Analyze Noparametric Test 1 Sample k-sK-S 检验检验K-S 的结果报告的结果报告不是正不是正态分布态分布K-S 检验检验图形观察:借助图形直观观察图形观察:借助图形直观观察P-P图:图:一种散点图,可用于观察样本数据分一种散点图,可用于观察样本数据分布与理论或期望数据分布之间的关系。布与理论或期望数据分布之间的关系。Command: GraphsP-PK-S 检验检验u 横轴为样本数据实际累计横轴为样本数据实际累计概率值,纵轴为期望概率值,纵轴为期望(理理论论)累计概率值。累计概率值。u 若数据与理论分布一致时,若数据与理论分布一

11、致时,各个数据点应落在中间的各个数据点应落在中间的对角线上。对角线上。u 该例中,该例中,数据分布与理论数据分布与理论分布存在较大差距分布存在较大差距。在。在较低的样本区域中,实际累计概率明显小于理较低的样本区域中,实际累计概率明显小于理论累计概率。在较大的样本值区间中,实际累论累计概率。在较大的样本值区间中,实际累计概率值又明显大于理论累计概率值。计概率值又明显大于理论累计概率值。K-S 检验检验u 横轴为样本数据实际累计横轴为样本数据实际累计概率值,纵轴为实际累计概率值,纵轴为实际累计概率与期望累计概率之概率与期望累计概率之差差。u 若数据与理论分布一致时,若数据与理论分布一致时,图中各点

12、应随机分散在图中各点应随机分散在0横线的附近。横线的附近。u 该例中,该例中,图中的点有明显图中的点有明显的趋势性,的趋势性,因此说明样本因此说明样本来自的来自的总体分布与理论分总体分布与理论分布存在显著差异。布存在显著差异。两独立样本的非参数检验两独立样本的非参数检验 两独立样本的非参数检验室在两独立样本的非参数检验室在总体分布不了解的情况下,通过对总体分布不了解的情况下,通过对两组独立样本的分析,来推断样本两组独立样本的分析,来推断样本来自的两个总体的分布是否存在显来自的两个总体的分布是否存在显著差异的方法。著差异的方法。两独立样本的非参数检验两独立样本的非参数检验Ex: 某工厂用甲乙两种

13、不同的工艺生产同一种某工厂用甲乙两种不同的工艺生产同一种产品。如果希望检验产品。如果希望检验两种工艺下产品的使用两种工艺下产品的使用寿命是否存在显著差异寿命是否存在显著差异,从两种工艺生产处,从两种工艺生产处的产品中随机抽样,得到各自使用寿命的数的产品中随机抽样,得到各自使用寿命的数据。据。工艺工艺使用寿命样本值使用寿命样本值甲甲(1)675,682,692,669,679,630乙乙(2)662,649,672,663,650,651,646,652可采用多种非参数检验的方法检验它们的分可采用多种非参数检验的方法检验它们的分布是否存在显著差异,进而对两种工艺的优布是否存在显著差异,进而对两种

14、工艺的优劣进行评价。劣进行评价。Mann-Whitney U检验检验H0: 两组独立样本来自的总体样本分布无显著两组独立样本来自的总体样本分布无显著差异。差异。检验原理:检验原理: 通过对两组样本通过对两组样本秩秩的研究来实现推断。将的研究来实现推断。将两组样本放在一起,按样本观察值的大小排两组样本放在一起,按样本观察值的大小排序,每个观察值就有一个序号,谓之序,每个观察值就有一个序号,谓之秩秩。将。将第一组样本的秩相加,记为第一组样本的秩相加,记为w1. 同样得到第同样得到第二组样本的秩和二组样本的秩和w2.Mann-Whitney U检验检验Mann-Whitney U检验统计量检验统计量

15、n,m分别为两组样本的个案数。在小样本下,分别为两组样本的个案数。在小样本下,U统计量服从统计量服从Mann-Whitney分布分布 .依据依据U观测观测值和概率值值和概率值p, 检验假设。在大样本下,检验假设。在大样本下,U统计统计量近似服从正态分布。量近似服从正态分布。Wilcoxon秩和检验法秩和检验法两组独立样本,两组独立样本, n,m分别为两组样本的个案数,分别为两组样本的个案数,设设n m.检验原理检验原理:累加样本个数少的样本组的样本的:累加样本个数少的样本组的样本的秩,记为秩,记为W. 如果两个总体的分布相同,那么如果两个总体的分布相同,那么两个样本组也能当是均匀混合的。即两个

16、样本组也能当是均匀混合的。即W不能太不能太大,也不能太小。大,也不能太小。W应该介于两个数字之间应该介于两个数字之间 W1和和W2 由由n,m, 决定。决定。Wilcoxon给出了给出了W的的概率分布数值表,依据进行检验。概率分布数值表,依据进行检验。Wilcoxon秩和检验法秩和检验法H0: 两组独立样本来自的总体样本分布无两组独立样本来自的总体样本分布无显著差异。显著差异。,拒绝,拒绝H0,两个分布有两个分布有差异差异.两个分布相同两个分布相同两独立样本的非参数检验两独立样本的非参数检验Data:“CH6CH7独独立检验激励实验齐立检验激励实验齐”Command:AnalyzeNonpar

17、ametric Test2 Independent SampleEx:两种激励方法的效果问题:两种激励方法的效果问题两独立样本的非参数检验两独立样本的非参数检验结果分析结果分析:Ranks统计表输统计表输出各组的样本数,出各组的样本数,秩和的均值等秩和的均值等Mann-Whiteney U = 12.5,WilcoxonW = 40.5 .两个统两个统计量对应的计量对应的p值均大于值均大于0.05,因此因此两种激励方法没有显两种激励方法没有显著差异。著差异。两配对样本两配对样本的非参数检验的非参数检验 在对总体分布不甚了解的情况下,通过在对总体分布不甚了解的情况下,通过对对两组配对样本分析两组

18、配对样本分析,推断两个总体的分布是,推断两个总体的分布是否存在显著差异的方法。否存在显著差异的方法。Ex1:检验一种新的训练方法是否会对提高运检验一种新的训练方法是否会对提高运动员的成绩有显著效果动员的成绩有显著效果。配对样本为方法使。配对样本为方法使用前后运动员的最好成绩。用前后运动员的最好成绩。Ex2:不同广告形式对商品的销售是否产生显不同广告形式对商品的销售是否产生显著影响著影响。配对样本则为几种不同商品在广告。配对样本则为几种不同商品在广告形式下的销售额。形式下的销售额。两配对样本的非参数检验两配对样本的非参数检验配对样本要求:配对样本要求:样本数一致样本数一致,且,且各样本各样本值的

19、先后次序是不能随意更改值的先后次序是不能随意更改的。的。主要介绍以下两种检测方法:主要介绍以下两种检测方法:u 符号检验符号检验 SignuWilcoxon符号秩检验符号秩检验符号检验符号检验符号检验也成为正负号个数检验法符号检验也成为正负号个数检验法检验原理:利用正负符号的个数实现检验。检验原理:利用正负符号的个数实现检验。u第二组样本的观察值第二组样本的观察值-第一组样本观察值,第一组样本观察值,差值为差值为正记正记“+”,差值为负记,差值为负记“-”。u比较比较“+”与与“-”的个数的个数u 若个数相当,则可认为第二组样本若个数相当,则可认为第二组样本大于大于第第一组样本的个数与一组样本

20、的个数与小于小于第一组样本的个数第一组样本的个数大大致相当致相当。总体上讲两组配对样本的数据分布。总体上讲两组配对样本的数据分布差距较小,反之差距大。差距较小,反之差距大。符号检验符号检验u 若采用二项分布检验的方法,问题转若采用二项分布检验的方法,问题转化单样本的二项分布检验,即化单样本的二项分布检验,即检验正检验正负号个数的分布是否服从负号个数的分布是否服从p=0.5的二项的二项分布。分布。u 在在小样本情况小样本情况下,计算下,计算二项分布的精二项分布的精确概率确概率。大样本情况下大样本情况下 ,采用,采用修正了修正了的的Z统计量统计量,近似正态分布。,近似正态分布。符号检验符号检验Ex

21、: 检测新的训练方法检测新的训练方法Data:样本为跳远运动员在训练前后的最好成绩:样本为跳远运动员在训练前后的最好成绩“非非参数检验(两配对样本参数检验(两配对样本-训练成绩)训练成绩)”运动员编号使用方法前使用方法后差的符号15.745.79+26.286.12-35.465.44+46.036.03105.875.93+不参与不参与分析,分析,剔除剔除前后成绩的两配对样本的符号检验计算过程前后成绩的两配对样本的符号检验计算过程符号检验符号检验Command: AnalyzeNonparametric Test2 Related-Samples Test符号检验符号检验报告分析:报告分析:

22、小样本,采用了二项分小样本,采用了二项分布的检验,统计量对应布的检验,统计量对应的概率的概率, 不能拒绝零假设,即不能拒绝零假设,即新新的训练方法没有显著效的训练方法没有显著效果果。训练后成绩降低了的有训练后成绩降低了的有2人,成绩提高的有人,成绩提高的有7人,人,1人保持不变。人保持不变。两配对样本的两配对样本的Wilcoxon符号秩检符号秩检验验 配对样本分布的差异是否显著也可采用配对样本分布的差异是否显著也可采用Wilcoxon 符号秩检验方法符号秩检验方法运动员编号使用方法前使用方法后绝对差值秩差的符号15.745.790.053+26.286.120.168-35.465.440.0

23、21+46.036.030105.875.930.064+不参与不参与分析,分析,剔除剔除前后成绩的两配对样本前后成绩的两配对样本Wilcoxon符号秩检验计算过程符号秩检验计算过程两配对样本的两配对样本的Wilcoxon符号秩检符号秩检验验检测原理:检测原理:u 分别计算正号秩总和分别计算正号秩总和W+和符号秩总和和符号秩总和W-u若二者大致相当则说明两组样本数据差的若二者大致相当则说明两组样本数据差的正负变化程度基本相当,两配对总体的分布正负变化程度基本相当,两配对总体的分布无显著差异。无显著差异。u小样本下检测统计量为小样本下检测统计量为服从服从Wilcoxon符合秩分布。大样本近似服从

24、正态符合秩分布。大样本近似服从正态分布,可利用分布,可利用。Wilcoxon符号秩检验符号秩检验Ex: 检测新的训练方法检测新的训练方法Wilcoxon符号秩检验结果符号秩检验结果负号秩总和为负号秩总和为9,正号秩总和为,正号秩总和为36. Z检验统计量为检验统计量为-1.599,对应概率值,对应概率值p = 0.11 0.05, 拒绝假设,新的训拒绝假设,新的训练方法无效。练方法无效。多组独立样本的总体分布是否相多组独立样本的总体分布是否相同的检验同的检验 多独立样本的非参数检验是通过分析多独立样本的非参数检验是通过分析多组独立样本数据,推断样本来自的多组独立样本数据,推断样本来自的多个总体

25、的分布是否存在显著差异。多个总体的分布是否存在显著差异。 检验思路同两组独立样本总体分布的检验思路同两组独立样本总体分布的检验。检验。SPSS提供的检验方法主要有提供的检验方法主要有。多组独立样本的总体分布是否相多组独立样本的总体分布是否相同的检验同的检验u 中位数检验:中位数检验:通过对多组独立样本的分析,通过对多组独立样本的分析,检验它们来自的总体的中位数是否存在显检验它们来自的总体的中位数是否存在显著差异。统计量为著差异。统计量为 2uKruskal-Wallis 检验:检验:Mann-Whitney U检验检验在多个独立样本下的推广。统计量在多个独立样本下的推广。统计量K-W。u Jo

26、nkheer-Terpstra检验:检验思想同两独立检验:检验思想同两独立变量的变量的Mann-Whitney U检验,统计量检验,统计量J-T.多组独立样本的总体分布是否相多组独立样本的总体分布是否相同的检验同的检验Ex:城市周岁儿童身高的比较问题城市周岁儿童身高的比较问题Data: “(非参数检验非参数检验)多独立样本多独立样本-儿童身高儿童身高”Command:AnalyzeNonparametric TestK Independent Samples多组独立样本的总体分布是否相多组独立样本的总体分布是否相同的检验同的检验结果分析:结果分析:四组共同的中位四组共同的中位数位数位74.多组

27、独立样本的总体分布是否相多组独立样本的总体分布是否相同的检验同的检验三种方法的检测三种方法的检测结论一致:结论一致:四个四个城市周岁儿童身城市周岁儿童身高的分布存在显高的分布存在显著差异。著差异。多配对样本多配对样本的非参数检验的非参数检验 通过分析通过分析多组配对样本数据多组配对样本数据,推断,推断多个总体的中位数或分布是否存在显著多个总体的中位数或分布是否存在显著差异差异。主要的检验方法:主要的检验方法:Friedman检验检验,Cochran Q 检验,检验,Kendall 协同系数检验协同系数检验。多配对样本的非参数检验多配对样本的非参数检验uFriedman检验检验 利用秩实现检验利

28、用秩实现检验。其秩为在。其秩为在各个区组内分别独立排序得出。统计量为各个区组内分别独立排序得出。统计量为Friedman. Ex:不同促销手段对商品销售的影响不同促销手段对商品销售的影响分析:分析不同促销手段带来的商品销售的分析:分析不同促销手段带来的商品销售的影响,可通过分析影响,可通过分析各种促销形式下各种促销形式下商品销售商品销售额的额的总体分布是否存在显著差异来推断总体分布是否存在显著差异来推断。多配对样本的非参数检验多配对样本的非参数检验Data:“非参数检验(多配对样本非参数检验(多配对样本-促销方式)促销方式)”Command: Command:AnalyzeNonparamet

29、ric Test K related Samples多配对样本的非参数检验多配对样本的非参数检验结果分析结果分析三中促销手段下销售额三中促销手段下销售额的平均秩分别为的平均秩分别为2.1,2.5,1.4. 统计量为统计量为6.2,对应概率对应概率p=0.0450.05, 因此拒绝因此拒绝H0假设。认为假设。认为不同不同促销手段的销售额促销手段的销售额数据分布存在明显差异数据分布存在明显差异,第二种形式效果最好第二种形式效果最好。多配对样本的非参数检验多配对样本的非参数检验uCochran Q 检验检验 统计量为统计量为Q。该检验。该检验方法方法适合二值品质型数据适合二值品质型数据的分析。的分析

30、。Ex:收集乘客对多家航空公司是否满意:收集乘客对多家航空公司是否满意的数据,分析航空公司的服务水平是否的数据,分析航空公司的服务水平是否存在显著差异。存在显著差异。多配对样本的非参数检验多配对样本的非参数检验Data:“非参数检验非参数检验(多配对样本多配对样本-航空公司航空公司)”1-满意,满意,0-不满意不满意Command: Command:AnalyzeNonparametric Test K related Samples多配对样本的非参数检验多配对样本的非参数检验 结果分析结果分析三家航空公司得到乘三家航空公司得到乘客的客的满意人数分别为满意人数分别为13,8,2,不满意人数为,不满意人数为2,7,13.统计量的观测值统计量的观测值为为14.0,相应的,相应的p值为值为0.0010.05,拒绝拒绝H0假假设设,认为三家航空公,认为三家航空公司的司的服务水平有显著服务水平有显著差异。差异。甲公司的服务甲公司的服务水平最高。水平最高。多配对样本的非参数检验多配对样本的非参数检验u 多配对样本的多配对样本的Kendall协同系数检验协同系数检验Ex: 有有6名歌手参加比赛,名歌手参加比赛,4名评委进行名评委进行评判打分。现在需要根据表中的数据推评判打分。现在需要根据表中的数据推断这断这4个评委的评判标准是否一致个评委的评判标准是否一致。多配对样本的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论