用SPSS作定序数据分析PPT课件_第1页
用SPSS作定序数据分析PPT课件_第2页
用SPSS作定序数据分析PPT课件_第3页
用SPSS作定序数据分析PPT课件_第4页
用SPSS作定序数据分析PPT课件_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、引例9好礼来蛋糕店老板研制出一种新型口味的生日蛋糕。为确认市场需求情况,老板专门组织研究人员做了一个试验:随机抽取了6位顾客,请其中3位品尝新型口味蛋糕,请另外3 位品尝传统口味蛋糕。6位顾客被告知,品尝结束后根据自己的感觉按下列标准给蛋糕打分:打分结果汇总如下: 得分:605040302010感觉:非常好相当好较好一般较差非常差新型口味蛋糕打分(样本新型口味蛋糕打分(样本1 1) 303040402020传统口味蛋糕打分(样本传统口味蛋糕打分(样本2 2) 101060605050对于定序数据,均值不再是确定位置的合适的统计量。此外,均值比较方法的应用,在小样本的情况下,前提条件是总体服从正

2、态分布,在此问题中,我们对两个打分总体的分布状况一无所知。第1页/共38页威尔科克森秩和检验符号检验威尔科克森符号秩和检验第2页/共38页总体1 1与总体2 2位置相同总体1 1在总体2 2左侧传统口味打分总体2 2新型口味打分总体1 1新口味与传统口味打分总体问题的实质是:无论打分情况在总体中是何种分布,只要两个总体分布的位置相同,就表明两种口味的蛋糕的受欢迎程度相当;如果新型口味蛋糕打分总体的位置在传统口味的左侧,则表明传统口味蛋糕更受欢迎。0H1H两个总体位置相同总体1 1位置在左侧针对新型口味打分总体与传统口味打分总体的位置比较问题,可以提出检验假设:样本样本1 1样本样本2 2304

3、020106050总体1总体2第3页/共38页样本样本1 1样本样本2 2303040402020101060605050 新型口味蛋糕与传统口味蛋糕打分结果赋秩 如果两个总体位置相同的原假设成立,那么两个样本的秩和 与 就应当非常接近。 与 之间的差距越大就越是拒绝原假设的证据。任意选定 为检验统计量 ,则较小的 意味着大部分较小的观测值在样本1之中。 越小,就越是拒绝原假设的证据。问题归结为:要确定一个标准,以衡量 “足够小”。这个标准要从秩和 的抽样分布中寻找和确定。 91TT对两个样本中的6 6个观测值进行排序,最小的记为1 1,最大的记为6 6。通常将这种排序的结果称作秩 1T2T1

4、T2T1TTTT91TTT234561秩秩912秩和1T秩和2T第4页/共38页样本样本1 1的秩的秩秩和秩和样本样本2 2的秩的秩秩和秩和1 1,2 2,3 31 1,2 2,4 41 1,2 2,5 51 1,2 2,6 61 1,3 3,4 41 1,3 3,5 51 1,3 3,6 61 1,4 4,5 51 1,4 4,6 61 1,5 5,6 62 2,3 3,4 42 2,3 3,5 52 2,3 3,6 62 2,4 4,5 52 2,4 4,6 62 2,5 5,6 63 3,4 4,5 53 3,4 4,6 63 3,5 5,6 64 4,5 5,6 66 67 78 89

5、 98 89 910101010111112129 91010111111111212131312121313141415154 4,5 5,6 63 3,5 5,6 63 3,4 4,6 63 3,4 4,5 52 2,5 5,6 62 2,4 4,6 62 2,4 4,5 52 2,3 3,6 62 2,3 3,5 52 2,3 3,4 41 1,5 5,6 61 1,4 4,6 61 1,4 4,5 51 1,3 3,6 61 1,3 3,5 51 1,3 3,4 41 1,2 2,6 61 1,2 2,5 51 1,2 2,4 41 1,2 2,3 315151414131312121

6、31312121111111110109 912121111101010109 98 89 98 87 76 6样本容量为3时,两个样本的所有可能的排序方式存在20种排序的可能性,每一种排序出现的概率是相等的,即1/20。其中秩和9、10、11、12各出现3次;秩和为8、13各出现2次;秩和为6、7、14、15各出现一次。第5页/共38页T的抽样分布T TP P(T T)67891011121314151/201/202/203/203/203/203/202/201/201/20总计总计10.050.100.150.006891011712141513TP(T)样本容量为3时,T的抽样分布给

7、定显著性水平=0.05,则有: ,于是可在此抽样分布下确定拒绝域为T6。因为 ,所以没有理由拒绝原假设。最终结论为,两个总体的位置相同。两种口味的蛋糕的受欢迎程度相当。691TT5.00)6()6(TPTP第6页/共38页不同样本容量下的检验统计量T的抽样分布是不同的,本例中两个样本容量都是3,这是最简单的一种情况。统计学家已经完成了不同样本容量下的T的抽样分布表计算和编制,供使用时查阅。 3456789103456789106778991022151720222427293111121314151617182124273033364942161819202224252629322640434

8、650542325262830323335374146505458636731333537394143464651566166717680394245474952545757626773798490954952555760636669687480879399105111606366697376798380187941011071141211271n2nLTUT威尔科克森秩和检验的临界值(=0.05时的单尾检验; =0.10时的双尾检验 )其中 和 的取值使得:LTUT05. 0)()(ULTTPTTPLTUTLTUTLTUTLTUTLTUTLTUTLTUT第7页/共38页理论上可以得出任何样本

9、容量下的检验统计量的抽样分布,但这一过程过于繁琐。统计学家已经证明,当样本容量大于10时,检验统计量T服从均值为E(T),标准差为 的正态分布:标准化的检验统计量T12) 1(2121nnnnT2) 1()(211nnnTETTETZ)(第8页/共38页某大学经济学院为配合全校经济学课程的教学改革,打算引进一本新版教材。为确认新版教材的优劣,负责教师做了一个试验:随机抽取3030名学生,利用假期给其中1515名学生研读新版教材,另外1515名学生研读传统教材。3030名学生被告知,研读教材完成后,根据自己的感受,按照下列标准给教材打分:5=非常好 ;4=相当好;3=一般;2=较差;1=非常差。

10、开学后,3030名学生的反馈结果如表所示 。问:在5%的显著性水平下,是否可以认为新版本教材的学生评价要高于传统教材 。新版教材(新版教材(样本样本1 1)传统教材(传统教材(样本样本2 2)3 35 5 4 4 3 3 2 25 5 1 1 4 4 5 5 3 33 35 5 5 5 5 54 44 1324134 22 2 4345比较两个总体位置。定序数据。样本是相互独立的。适合采用威尔科克森秩和检验。两个容量为15的样本数据第9页/共38页 :两个总体位置相同。 :总体1 在总体2 的右侧新版教材(样本新版教材(样本1 1)传统教材(样本传统教材(样本2 2)3 35 5 4 4 3

11、3 2 25 5 1 1 4 4 5 5 3 33 35 5 5 5 5 54 44 1324134 22 2 43450H1H威尔科克森秩和检验计算表拒绝原假设。结论:新版本教材的学生评价要高于传统教材 。5 .2322) 11515(152) 1()(211nnnTE1 .2412) 11515(151512) 1(2121nnnnT64. 183. 11 .245 .2325 .276)(05. 0ZTETzT如果观测值有相等的情况,应以几个秩的均值赋给每一个观测值。秩1212272719.512126 627272 219.527271212121227272727272719.5秩1

12、9.5212619.521219.566619.51219.5 27271T2T276.5276.5188.5第10页/共38页威尔科克森秩和检验应用条件1. 问题的目标:比较两个总体的位置。2. 数 据 类 型: 定序数据或非正态分布的数值型数据。3. 样 本 特 性: 独立样本。4.4.比较的两个总体除了位置不同外,其它方面的特征没有差异。 第11页/共38页某体育用品公司设计出一种新款式的旅游鞋,在一项试验中,研究人员想确定新款式的旅游鞋与旧款式的哪一种穿起来更舒服一些。为此,随机抽选了12位顾客,让他们分别试穿两种旅游鞋,然后,让每位顾客按照下列标准来评价两种旅游鞋的舒服程度:得得 分

13、:分:5 54 43 32 21 1舒服感觉:舒服感觉:非常舒服非常舒服比较舒服比较舒服没有感觉没有感觉不太舒服不太舒服很不舒服很不舒服试穿后所得评价结果如下表所示: 新旧两种款式旅游鞋试穿打分结果新旧两种款式旅游鞋试穿打分结果试穿顾客试穿顾客旧款式旧款式新款式新款式1 12 23 34 45 56 67 78 89 91010111112124 42 24 41 12 21 11 12 24 41 13 33 35 53 33 32 24 43 34 45 53 32 24 45 5-1-1+1-1-2-2-3-3+1-1-1-2差值差值符号- - -+ +- - - - - -+ +- -

14、 - -匹配样本数据不可进行混合排序,不适合威尔科克森秩和检验。可考虑针对每对匹配的观测值计算其差值。当某一对观测值的差值符号为正时,表明该顾客更为偏好旧款旅游鞋;当某一对观测值的差值符号为负时,表明该顾客更为偏好新款旅游鞋。 第12页/共38页将正号在样本容量中所占的比率记作 。以正号个数做为检验统计量,记作 。x0H1H:两种款式旅游鞋舒服程度打分总体位置相同:两种款式旅游鞋舒服程度打分总体位置不同问题中的原假设为:p5 . 0:0PH5 . 0:1PH问题中的原假设也可表述为:x12n5 . 0p原假设为真时,正号个数的抽样分布为,二项比率的二项分布。 第13页/共38页 时正号个数时正

15、号个数 的抽样分布服从二项分布的抽样分布服从二项分布正号个数正号个数概率概率正号个数正号个数概率概率0 01 12 23 34 45 56 60.00020.00020.00290.00290.01610.01610.05370.05370.12080.12080.19340.19340.22560.22567 78 89 9101011111212- -0.19340.19340.12080.12080.05370.05370.01610.01610.00290.00290.00020.0002- -12n5 . 0pxx12120.100.100.200.20111110109 98 87

16、 76 65 54 43 32 21 10 0接受域拒绝域拒绝域x xx xp拒绝准则: 。93xx或 ,落入拒绝域。所以,拒绝两种款式旅游鞋舒服程度打分总体位置相同的愿望设。结论:顾客更为偏好新款旅游鞋,做出这一推断的把握程度为95%95%。32x第14页/共38页在一个试验中,研究人员想确定人们认为乘坐两款车中的哪一种更舒服。挑选了25个人分别乘坐在欧洲豪华车和北美中型车的后座,让每个人按照如下方式来评价乘坐的舒适程度:1=非常不舒适;2=不太舒适;3=模棱两可;4=比较舒适;5=非常舒适。得如表数据。在5%的显著性水平下,能否从这些数据中推断出欧洲豪华型车比北美中型车更舒适?被调查者被调

17、查者 欧洲车型(样本欧洲车型(样本1) 北美车型(样本北美车型(样本2)1234567891011121314151617181920212223242512532514423423242453433522142133222231413134123423对舒适度的评价第15页/共38页被调查者被调查者欧洲车型欧洲车型北美车型北美车型1234567891011121314151617181920212223242512532514423423242453433522142133222231413134123423配对数据差值符号计算表5个差值中,18个正值、5个负值、2个零。如果原假设成立,正号

18、与负号都应近似等于样本容量的一半。选择正号个数为检验统计量并记为x。x服从二项分布。若原假设成立,二项比例为p=0.5。由二项分布的性质我们知道:当n足够大时,x近似服从均值为 、标准差为 的正态分布。标准化后可得服从标准正态分布的检验统计量:问题中:x =18、n =25-2 =23、p=0.5,统计量值:np)1 (pnp )1(pnpnpxz645. 171. 2)5 . 01 (5 . 0235 . 02318)1 (05. 0zpnpnpxz拒绝原假设。结论:人们认为乘坐欧洲l轿车比乘坐北美轿车更舒适。差值-1+1+1+1+1+2-2+2+20+1+1+1-1+1+1+1+1+1+2

19、+20-1+3-1- + +-+0+-+0-+-符号原假设:两种车型同样舒适。第16页/共38页符号检验应用条件1. 问题的目标:比较两个总体的位置。2. 数 据 类 型: 定序数据。3. 样 本 特 性: 匹配样本。第17页/共38页为研究长跑运动对增强普通高校学生的心功能效果,对某校15名男生进行测试,经过5个月的长跑锻炼后看其晨脉是否减少。锻炼前后的晨脉数据如下表所示。我们想知道长跑锻炼前后学生的晨脉有无显著的差异。锻炼前锻炼前 707656636356586065657566565970锻炼后锻炼后 485460644855544551485648645054长跑锻炼前后晨脉变化分析:

20、问题的原假设是两个总体的位置相同。但这是两个匹配样本数据,不可对两个样本的观测值混合排序,因此不适合采用威尔科克森秩和检验。可考虑算出每对数据的差值,形成单个样本,进而构造检验原假设的统计量。此外,此数据为数值型数据,每对数据差值的大小有实际含义,如果采用符号检验,无疑将会损失差值大小上的有用信息。可考虑将符号检验与威尔科克森检验结合起来,进而构造检验原假设的统计量。第18页/共38页序号序号锻炼前锻炼前锻炼后锻炼后123456789101112131415707656636356586065657566565970485460644855544551485648645054长跑锻炼前后晨脉变

21、化符号秩和计算表 注意:在我们的研究中只考虑正的和负的差值。如果差值为0,该观测则应从进一步的研究中去掉,样本容量也相应减小。此数据中没有出现这种情况。如果原假设为真,那么正的秩和(T+)与负的秩和(T-)应当接近相等。两者之间的差异越大,就越是拒绝原假设的证据。选择两者之中较小者即负的秩和T-为检验统计量T,即T=T-,则负的秩和T-越小就越是拒绝原假设的证据。差值+22+22-4-1+15+1+4+15+14+17+19+18-8+9+16差值绝对值222241151415141719188916秩14.514.53.51.58.51.53.58.57.011.013.012.05.06.

22、010.0符号秩+14.514.5- 8.51.53.58.57.011.013.012.0-6.010.0-3.52.5-5.0-符号秩-T+ =110T- =10合 计第19页/共38页 单尾单尾 或或 双尾双尾 单尾单尾 或或 双尾双尾67891011121314151617181920212223242526272829301246811141721253035404652596673819098107117127137202632394755647484951061181311441581721872032192352532712893083282468111417212630364

23、14754606875839210111012013014115219243037445261707990100112124136150163178193208224241258276294313nLTUT威尔科克森符号秩和检验临界值表025. 005.005.010. 0统计学家根据符号秩和的概率分布编制了威尔科克森符号秩和检验临界值表。此问题中样本容量为15,在0.05的显著性水平下进行双侧检验,查表得拒绝域的临界值为25。决策原则为:如果较小的秩和为25或更小,则拒绝原假设。此问题中较小的秩和为10,故拒绝原假设。结论:长跑锻炼前后学生的晨脉具有显著的差异。LTUT第20页/共38页威尔

24、科克森符号秩和检验临界值表一般只给到样本容量为30时有关的临界值。尽管在理论上我们可以得出任何样本容量下的检验统计量的抽样分布,但这一计算过程过于繁琐。统计学家已经证明,当样本容量大于30时,检验统计量T服从均值为E(T),标准差为 的正态分布:T标准化的检验统计量为:24) 12)(1(nnnT4) 1()(nnTETTETZ)( 也就是说,样本容量大于30 时,可借助上述统计量进行Z检验。第21页/共38页传统上班制与弹性上班制上下班所花费时间传统上班制与弹性上班制上下班所花费时间序号序号传统上班制传统上班制弹性上班制弹性上班制差值差值差值绝对值差值绝对值秩秩符号秩符号秩+ +符号秩符号秩

25、- -1 12 23 34 45 56 67 78 89 9101011111212131314141515161617171818191920202121222223232424252526262727282829293030313132323434353543434646161626266868383861615252686813136969181853531818414125251717262644443030191948482929242451514040262620201919424231313131444444441515282863633939636354546565121271

26、7113135555191938382323141421214040333318185151333321215050383822221919212138383 34 4-1-12 21 1-2-25 5-1-1-2-2-2-23 31 1-2-25 5-2-2-1-13 32 23 35 54 4-3-31 1-3-3-4-43 31 12 24 41 1-2-24 43 34 41 12 21 12 25 51 12 22 23 31 12 25 52 21 13 32 23 35 54 43 31 13 34 43 31 12 24 41 12 24 421.021.027.027.04.

27、54.513.013.04.54.513.013.031.031.04.54.513.013.013.013.021.021.04.54.513.013.031.031.013.013.04.54.521.021.013.013.021.021.031.031.027.027.021.021.04.54.521.021.027.027.021.021.04.54.513.013.027.027.04.54.513.013.027.027.021.021.027.027.0- -13.013.04.54.5- -31.031.0- - - -21.021.04.54.5- -31.031.0-

28、- -21.021.013.013.021.021.031.031.027.027.0- -4.54.5- - -21.021.04.54.513.013.027.027.04.54.5- -27.027.0- - -4.54.5- - -13.013.0- -4.54.513.013.013.013.0- - -13.013.0- -13.013.04.54.5- - - - - -21.021.021.021.027.027.0- - - - - -13.013.0- -合合 计计 =367.5 =367.5 =160.5 =160.5TT由于私家车数量的急聚增加,人们日常工作上下班变得很

29、困难,要在路上耽误许多时间。采用弹性上班制或许会改变这种状况。研究人员随机抽取了32位在职人员,记录下来他们某天正常上班花在路上的时间,然后让他们自由选定上下班时间,以避开交通高峰,并记录下某天花在路上的时间,获得如下样本数据: 第22页/共38页0H1H:传统上班制与弹性上班制上班所花时间相同:传统上班制与弹性上班制上班所花时间不同32n5 .367TT 26441323241nnTE 48.532413221323224121nnnT 94. 148.532645 .367TTETZ05. 096. 1025. 02ZZ94. 1Z96. 1025. 02 ZZ若给定显著性水平落入接受域,

30、所以没有理由拒绝原假设。结论是传统上班制与弹性上班制上班所花时间没有显著差异,做出这一推断的把握程度为95%。第23页/共38页威尔科克森符号秩和检验应用条件1. 问题的目标:比较两个总体的位置。2. 数据类型: 数据值型数据。3. 差值分布: 非正态分布3. 样本特性: 匹配样本。第24页/共38页两个独立样本的非参数检验(威尔科克森秩和检验)两个相关样本的非参数检验(符号检验)第25页/共38页对两种型号汽车进行了有关里程表现的检验.从每一型号中随机挑出12辆汽车,且以高速行驶1000英里为基础得到了每种型号汽车的每加仑行驶里程数如下表:第第1 1种型号每加种型号每加仑仑里程数里程数第第2

31、 2种型号每加种型号每加仑仑里程数里程数20.619.918.618.918.820.221.020.519.819.819.220.521.317.617.418.519.721.117.318.817.816.918.020.1每加仑行驶里程数的两个独立样本数据在=0.10的显著性水平下,检验两种型号汽车的每项加仑行驶里程数总体间是否有显著差异。第26页/共38页建立上述数据的SPSS数据集如图所示,其中包含number(序号)、singhao( 汽车型号)和liching(行驶里程)三个变量。第一种型汽车编与第二种型号汽车分别编码为1、2。操作步骤:(1)按AnalyzeNonparam

32、etricTests 2Independent Samples顺序单击菜单项,打开对话框,并指定检验变量licheng进入”Test Variable List” 框内。如下图示:(2)指定分组变量xinghao进入”Grouping Variable” 框内,并点击Define Groups按钮,输入分组值1、2。第27页/共38页操作步骤:(3)在Test Type框中,选择检验方法Mann-Whitney U(曼-惠特尼检验)。Mann-Whitney U(曼-惠特尼检验)等同于Wilcoxon(威尔科克森)秩和检验。是由曼-惠特尼与威尔科克林联合提出的。原假设为两个总体位置相同;备择假

33、设为两个总体位置不同。(4)【OK】。见输出结果如下:Ranks1215.46185.50129.54114.5024汽车型号第1种型号第2种型号Total行使里程NMean RankSum of RanksTest Statisticsb36.500114.500-2.051.040.039aMann-Whitney UWilcoxon WZAsymp. Sig. (2-tailed)Exact Sig.2*(1-tailed Sig.)行使里程Not corrected for ties.a. Grouping Variable: 汽车型号b. 检验统计量的P值小于0.05。故拒绝两个总体

34、位置相同的原假设。即两种型号汽车的每项加仑行驶里程数总体间存在有显著差异第28页/共38页符号检验威尔科克森符号秩和检验第29页/共38页建立欧美车型比较的数据的SPSS数据集如图所示,其中包含number(序号)、european( 欧洲车型)和american(美洲车型)三个变量。数据编码: 1=非常不舒适;2=不太舒适;3=模棱两可;4=比较舒适;5=非常舒适。操作步骤:(1)按AnalyzeNonparametricTests 2Related Samples顺序单击菜单项,打开对话框,并指定变量european和american进入”Test Pair(s) List” 框内。如下图

35、示:第30页/共38页操作步骤:(2)在Test Type框中,选中Sign复选项。(3)【OK】。见输出结果如下:Frequencies185225Negative DifferencesaPositive DifferencesbTiescTotal美洲车型 - 欧洲车型N美洲车型 欧洲车型b. 欧洲车型 = 美洲车型c. Test Statisticsb.011aExact Sig. (2-tailed)美洲车型 -欧洲车型Binomial distribution used.a. Sign Testb. 检验统计量的P值小于0.1。故拒绝两个总体位置相同的原假设。结论:人们认为乘坐欧洲

36、l轿车比乘坐北美轿车更舒适。第31页/共38页建立长跑锻炼前后晨脉变化的数据的SPSS数据集如图所示,其中包含number(序号)、 ( 长跑前)和after(长跑后)三个变量。操作步骤:(1)按AnalyzeNonparametricTests 2Related Samples顺序单击菜单项,打开对话框,并指定变量before 和after进入”Test Pair(s) List” 框内。如下图示:第32页/共38页操作步骤:(2)在Test Type框中,选中Wilcoxon复选项。(3)【OK】。见输出结果如下:检验统计量的P值小于0.05。故拒绝两个总体位置相同的原假设。结论:长跑锻炼

37、前后学生的晨脉具有显著的差异。Ranks12a9.17110.003b3.3310.000c15Negative RanksPositive RanksTiesTotal长 跑 后 - 长 跑 前NMean RankSum of Ranks长 跑 后 长 跑 前b. 长 跑 前 = 长 跑 后c. Test Statisticsb-2.842a.004ZAsymp. Sig. (2-tailed)长跑后 - 长跑前Based on positive ranks.a. Wilcoxon Signed Ranks Testb. 第33页/共38页结束第34页/共38页商科毕业生(样本商科毕业生(样本1 1)非商科毕业生(样本非商科毕业生(样本2 2)601725113751841319822528112527176011976048251516603522221660242817239603660323929-雇佣期样本数据由于雇佣和培训新员工的成本较高,雇主们更乐意挽留素质较高的员工。一家大公司的人力资源经理为了建立用人机制,比较了在跳槽到其他公司前,商科和非商科的毕业生在本公司工作的时间。这位经理从5年前

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论