定型数据分析习题答案(共35页)_第1页
定型数据分析习题答案(共35页)_第2页
定型数据分析习题答案(共35页)_第3页
定型数据分析习题答案(共35页)_第4页
定型数据分析习题答案(共35页)_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、精选优质文档-倾情为你奉上作业中的一些错误情况1:解题过程不完整,没有明确指出所检验的假设和检验统计量。2:算错检验统计量的值,或算错检验的p值。(P27Ex2)解法一:总体总共分3类,要检验顾客是否对这三种肉食的喜好程度相同,这是一个分布的拟合优度检验问题。(1)要检验的原假设为 :顾客对这三种肉食的喜好程度相同,即要检验:顾客对这三种肉食的喜好程度的分布为,(2)取检验统计量,检验分布为; (3)题中,则检验统计量的值为(计算过程略)(4)计算P值为: ,故在水平下拒绝,即调查数据不符合该均匀分布.解法二(采用似然比检验+p值形式)(1)要检验的原假设为 :顾客对这三种肉食的喜好程度相同,

2、即要检验:顾客对这三种肉食的喜好程度的分布为,(2)选取似然比检验统计量,检验分布为;(3)题中,则检验统计量的值为(计算过程略)(4)计算P值为: ,故在水平下拒绝,即顾客对这三种肉食的喜好程度的分布不是均匀分布.注:若显著性水平取,则临界值为。(P27Ex3)解法一:总体总共分10类,这是一个分布的拟合优度检验问题。(1)要检验的原假设为:学生对这十门课的选择没有倾向性,即要检验:学生选择这十门课的人数分布为,(2)取检验统计量,检验分布为; (3)题中,则检验统计量的值为(计算过程略)(4)计算P值为: ,故在水平下不能拒绝,即认为学生对这十门课的选择没有倾向性.解法二(采用似然比检验+

3、 p值形式)(1)要检验的原假设为:学生对这十门课的选择没有倾向性,即要检验:学生选择这十门课的人数分布为。(2)选取似然比检验统计量,检验分布为; (3)题中,则检验统计量的值为(计算过程略)(4)计算P值为: ,故在水平下不能拒绝,即认为学生对这十门课的选择没有倾向性.注:若采用拒绝域法,临界值为。(P27Ex4)解法一:(采用卡方拟合优度检验法+拒绝域形式)(一)总体总共分3类,这是一个不含未知参数的分布检验问题。(1)要检验的原假设为:股票投资的盈亏分布为,统计得到的频数分别为1697,1780,2129。(2)取检验统计量,拒绝域为,(3)对显著性水平,临界值为,(4)题中,则检验统

4、计量的值为故在水平下拒绝,即调查数据不符合该偏好分布.(二)总体总共分3类,这是一个不含未知参数的分布检验问题。(1)要检验的原假设仍为:股票投资的盈亏分布为,统计得到的频数分别为151+122,240,517+240。(2)取检验统计量,拒绝域为,(3)对显著性水平,临界值为,(4)题中,则检验统计量的值为故在水平下拒绝,即调查数据不符合该偏好分布.解法二:(采用似然比检验法+拒绝域形式) (一)总体总共分3类,这是一个不含未知参数的分布检验问题。(1)要检验的原假设为:股票投资的盈亏分布为,统计得到的频数分别为1697,1780,2129。(2)选取似然比检验统计量,检验分布为,拒绝域为(

5、3)对显著性水平,临界值为,(4)题中,则检验统计量的值为故在水平下拒绝,即调查数据不符合该偏好分布.(二)总体总共分3类,这是一个不含未知参数的分布检验问题。(1)要检验的原假设仍为:股票投资的盈亏分布为,统计得到的频数分别为273,240,757。(2)选取似然比检验统计量,检验分布为,拒绝域为(3)对显著性水平,临界值为,(4)题中,则检验统计量的值为故在水平下拒绝,即调查数据不符合该偏好分布.注1:有同学混淆了两种解法(卡方拟合优度检验法与似然比检验法)的记号与称呼。注2:本题中两种方法得到的检验统计量的值相差很大。(P28Ex5)解法一:(卡方拟合优度检验)总体总共分3类,分布中有1

6、个未知参数,这是一个含参数的分布检验问题。(1)要检验的原假设为:红、白、粉红色花的分布为,其中。(2)先在为真时,似然函数为取对数得求关于的导数,并令之为0得对数似然方程为:解得的极大似然估计值为(3)算出的分布列中的极大似然估计值;。(4)取检验统计量,拒绝域为,(5)对显著性水平,临界值为,(6)题中,则检验统计量的值为故在水平下不能拒绝,即调查数据符合该偏好分布.注:有同学误认为检验的临界值为。解法二:(采用似然比检验)(1) (2) (3)步骤同上。(4)算出无假定条件下诸的极大似然估计:,(5)选取似然比检验统计量,拒绝域为,(6)对显著性水平,临界值为,(7)则检验统计量的值为故

7、在水平下不能拒绝,即调查数据符合该偏好分布.注:p值(P28Ex6)解法一:(卡方拟合优度检验)总体总共分4类,分布中有2个参数,这是一个含参数的分布拟合检验问题。(1)要检验的原假设为:人的血型分布为,其中(2)先在为真时,算出似然函数在约束条件下,取,化似然函数为无约束二元函数:取对数得注意到用微分法很难求出极大似然估计值的精确解,我们考虑近似计算。首先由“O”型和“B”型两类的矩估计算出参数向量的初始估计:然后参照课本25页利用EXCEL算得的极大似然估计值(3)算出诸的极大似然估计值;且在为真时,对数似然函数的最大值为。(4)取检验统计量,拒绝域为,(5)对显著性水平,临界值为,(6)

8、题中,则检验统计量的值为(计算过程略)故在水平下不能拒绝,即调查数据符合该偏好分布.解法二:(采用似然比检验)(1) (2) (3)步骤同上。(4)算出无假定条件下诸的极大似然估计:,(5)选取似然比检验统计量,拒绝域为,(6)对显著性水平,临界值为,(7)题中,则检验统计量的值为(计算过程略)故在水平下不能拒绝,即调查数据符合该偏好分布.注1:本题中极大似然估计值的精确解很难得到,采用迭代法进行近似计算,计算量大,要使用软件进行计算,而且要确定未知参数向量的迭代初始值。由于实际未知参数只有两个,需要建立两个方程用于给出迭代初始值。一个很自然的考虑是利用诸的矩估计(也就是无假定条件下诸的极大似

9、然估计)可建立四个方程:为方便,关键是选择哪两个变量,和选择哪两个方程来建立方程组,计算用于迭代的初始值。本题中,我们选择了变量,选择了方程。注2: 无假定条件下似然函数对数似然函数的最大值为注:p值(P68Ex1)解:(本题是单边检验,采用四格表的U检验法)(1)建立四格表正常数病例数合计人数处理组57对照组142合计199(2)记概率P(正常|处理组),P(正常|对照组),疫苗有效是指,所以本题是要检验假设 ,(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数据算得检验统计量的值为故在水平下拒绝,即疫苗有效.注1:假设检验的第一步是建立假设,要正确建立原假设,并且要正

10、确建立备择假设!对于备择假设,具体场合下要能正确区分 “双边检验”与“单边检验”。(P68Ex3)解法一:(本题是单边检验,采用四格表的U检验法)(1)建立四格表长势良好长势不好合计A种肥料5347100B种肥料783117900合计8361641000(2)记概率P(长势良好|施A种肥料), P(长势良好|施B种肥料),B种肥料效果显著的好是指,所以本题是要检验假设 ,(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数据算得检验统计量的值为故在水平下拒绝,即B种肥料效果显著的好.解法二:(本题是单边检验,采用修正的四格表的U检验法)(1)建立四格表长势良好长势不好合计A

11、种肥料5347100B种肥料783117900合计8361641000(2)记概率P(长势良好|施A种肥料), P(长势良好|施B种肥料),B种肥料效果显著的好是指,所以本题是要检验假设 ,(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数据算得检验统计量的值为故在水平下拒绝,即B种肥料效果显著的好.注1:本题中的样本量比较大,故是否使用连续性修正,和似乎差异不大。一般样本容量比较大时不必使用连续性修正。注2:本题应采用单边检验,所以不能使用卡方检验!(P68Ex4)解法一:(本题是双边检验,采用四格表的U检验法)(1)建立四格表有自杀情绪无自杀情绪合计精神病患者3222

12、5神经病患者91625合计123850(2)记精神病患者有自杀情绪的比例,神经病患者有自杀情绪的比例,本题要检验两比例是否相等,即要检验假设 ,(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数据算得检验统计量的值为因为,故在水平下拒绝,即两比例不相等.解法二:(本题是双边检验,采用四格表的卡方检验法)(1)建立四格表有自杀情绪无自杀情绪合计精神病患者32225神经病患者91625合计123850(2)记精神病患者有自杀情绪的比例,神经病患者有自杀情绪的比例,本题要检验两比例是否相等,即要检验假设 ,(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数

13、据算得检验统计量的值为故在水平下拒绝,即两比例不相等.解法三:(本题是双边检验,采用四格表的似然比检验法)(1)建立四格表有自杀情绪无自杀情绪合计精神病患者32225神经病患者91625合计123850(2)记精神病患者有自杀情绪的比例,神经病患者有自杀情绪的比例,本题要检验两比例是否相等,即要检验假设 ,(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数据算得检验统计量的值为故在水平下拒绝,即两比例不相等.注1:拒绝域要与假设配套,主要看备择假设!本题是双边检验,U检验的拒绝域也应是双边形式的,不能再象P68ex1那样用单边形式的拒绝域!具体场合下要能正确区分 “双边检

14、验”与“单边检验”。注2:考虑到本题中的样本量比较小,特别有的格子里的值为3(都小于5了!),故使用连续性修正似乎更好些。采用四格表的修正的卡方检验法(解法四),则(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数据算得检验统计量的值为故在水平下不能拒绝,即两比例相等.有意思的是,这时候得出了相反的结论!注3:SPSS软件能很方便地计算四格表独立性双边检验的几种检验统计量和p值,下列为本题的SPSS卡方检验的程序输出。卡方检验值df渐进 Sig. (双侧)精确 Sig.(双侧)精确 Sig.(单侧)Pearson 卡方3.947a1.047连续校正b2.7411.098似

15、然比4.0911.043Fisher 的精确检验.095.048有效案例中的 N50a. 0 单元格(.0%) 的期望计数少于 5。最小期望计数为 6.00。b. 仅对 2x2 表计算(P71Ex12)本题是一个著名的心理学实验。解:(本题不妨取单边检验,采用四格表的U检验法)分两方面进行分析:种口味是否比6种口味更能吸引顾客试吃?种口味是否比6种口味更能吸引顾客购买?另外,数据计算上注意到:,。(一)种口味是否比6种口味更能吸引顾客试吃?(1)建立四格表顾客试吃顾客未试吃合计种口味145972426种口味104156260合计249253502(2)记概率P(顾客试吃|种口味),P(顾客试吃

16、|6种口味),现在要检验假设 ,(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数据算得检验统计量的值为故在水平下拒绝,即种口味比6种口味更能吸引顾客试吃.(二)种口味是否比6种口味更能吸引顾客购买?(1)建立四格表顾客购买顾客未购买合计种口味42382426种口味31229260合计35467502(2)记概率P(顾客购买|种口味),P(顾客购买|6种口味),现在要检验假设 ,(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数据算得检验统计量的值为故在水平下接受,即种口味没能比6种口味更能吸引顾客购买.(三)进一步考察种口味是否比6种口味更能吸引顾

17、客购买?考虑改成要检验假设 ,(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数据算得检验统计量的值为故在水平下拒绝,即种口味吸引顾客购买的比例竟然显著低于6种口味吸引顾客购买的比例.这似乎有点奇怪,不过仔细想来,符合生活中的实际情况。注1:关于本题的背景:果酱实验选择不是越多越好?有选择比没选择好,选择多比选择少好,这几乎成了人们生活中的常识。但实际情况并非如此。纽约哥伦比亚大学的研究人员希娜·延加开展自己的实验,研究发现,如果让消费者选择在6种还是24种果酱中挑选一种时,人们都愿意有更多的选择。可是真正决定购买的时候,在6种果酱中选择的人们作出的购买决定,是

18、在24种果酱中选择的人作出购买决定的10倍。实验是在加州斯坦福大学附近的一个以食品种类繁多而闻名的超市中进行的。工作人员在超市里设置了两个试吃摊位,一个有种口味的果酱,另一个有种口味的果酱。结果显示有种口味的摊位吸引的顾客较多:242位经过的客人中,60会停下来试吃,而260个经过种口味的摊位的客人中,停下来试吃的只有40。不过最终的结果却出乎人们的意料:在有种口味的摊位前停下的顾客中有30的人都至少买了一瓶果酱,而在有种口味的摊位前停下试吃者中只有3的人购买了果酱。看来过多选项也不见得是一件好事,它会使人们陷入游移不定的状态。注2:考察种口味是否比6种口味更能吸引顾客购买时,有同学采用的假设

19、检验如下:记概率P(顾客购买|试吃种口味),P(顾客购买|试吃6种口味),现在要检验假设 (P69Ex5)分析:记左半球中有良性肿瘤的比例,右半球中有良性肿瘤的比例,本题要检验假设注意到四个格子中有三个格子的频数小于5,显然这是一个小样本的场合,所以题目要求采用Fisher精确检验法进行检验。解:(Fisher精确检验法)(1)记左半球中有良性肿瘤的比例,右半球中有良性肿瘤的比例,本题要检验假设(2)采用Fisher精确检验法,即取超几何分布为检验分布,检验的p值为,(3)题中,并注意到题中,故检验的p值为因为,故在水平下不能拒绝,即认为两比例相等.注1:有同学未按照题目要求解题,题目要求采用

20、Fisher精确检验法,但仍有同学采用单边的U检验法甚至采用双边的卡方检验。注2:在计算出p值后,有不少同学给出的检验结论是错误的。P值是要和检验水平比较的:当P值>小时,不能拒绝原假设,即认为两比例相等.注3:计算P(HG(N,M,n)=k),可调用Excel中的函数HYPGEOMDIST(sample_s,number_sample,population_s,number_population)=HYPGEOMDIST(k;n,M,N)注4:下表中有其他几种方法的检验结果,由于是小样本,可以看到,连续性校正的效果与精确检验一致。又问为何下表中精确检验的双侧p值与单侧p值差不多? 卡方

21、检验值df渐进 Sig. (双侧)精确 Sig.(双侧)精确 Sig.(单侧)Pearson 卡方3.200a1.074连续校正b1.4221.233似然比3.1751.075Fisher 的精确检验.118.118有效案例中的 N16a. 3 单元格(75.0%) 的期望计数少于 5。最小期望计数为 1.50。b. 仅对 2x2 表计算(P69Ex7)解法一:(Fisher精确检验法)(1)将这个人随机猜测作为原假设,将有品酒能力作为备择假设。即记,本题要检验假设(2)采用Fisher精确检验法,即取超几何分布为检验分布,检验的p值为,(3)题中,并注意到题中,故检验的p值为因为,故在水平下

22、拒绝,即认为这个人不是随机猜测,而是有品酒能力的.注1:不少同学在如何建立原假设时有问题,首先应该选择“没有品酒能力”为原假设。注2:如何具体表示“没有品酒能力为原假设”,将其数学化,也存在不同的想法,这个问题的确值得进一步探讨。联系Ex8,大家可以讨论下如何建立假设的问题,这应该是一个没有绝对正确答案的问题,应该有一定主观性。注3:下表中有其他几种方法的检验结果,由于是小样本,可以看到,连续性校正的效果与精确检验一致。卡方检验值df渐进 Sig. (双侧)精确 Sig.(双侧)精确 Sig.(单侧)Pearson 卡方6.533a1.011连续校正b4.8001.028似然比6.7941.0

23、09Fisher 的精确检验.027.013有效案例中的 N30a. 0 单元格(.0%) 的期望计数少于 5。最小期望计数为 7.50。b. 仅对 2x2 表计算(P70Ex9)解:(本题应该仿照例3.9进行统计分析)方法一:采用McNemar检验记,(1)要进行边缘齐性检验,即检验假设 也就是要进行对称性检验 ,(2)采用McNemar卡方检验统计量,拒绝域为。(3)题中,则检验统计量的值为,故在水平下不能拒绝,即认为检测方法1检验为阳性的比例与检测方法2检验为阳性的比例相等.方法二:采用似然比检验(1)要进行边缘齐性检验,即检验假设 也就是要进行对称性检验 ,(2)采用似然比检验统计量,

24、拒绝域为。(3)题中,则检验统计量的值为,故在水平下不能拒绝,即认为检测方法1检验为阳性的比例与检测方法2检验为阳性的比例相等.(P71Ex11)分析:很多同学对本题也仿照例3.9进行统计分析,但也有少数同学注意到本题处于Ex10之后,似乎按照Ex10进行统计分析更为合理。关键是对文字“竞选初期支持民主党的选民后来支持共和党的比例”的解读产生的歧义,究竟是理解成:“选民在竞选初期支持民主党且后来支持共和党的比例”,还是“在竞选初期支持民主党的选民中后来支持共和党的比例”。即究竟是积事件的概率,还是条件概率?以下我把两种分析结果都罗列出来:理解一:理解为积事件的概率相等:采用McNemar检验(

25、1)要进行对称性检验,即检验假设 (2)采用McNemar卡方检验统计量,拒绝域为。(3)题中,则检验统计量的值为,故在水平下不能拒绝,即认为竞选初期支持民主党且后来支持共和党的比例与竞选初期支持共和党且后来支持民主党的比例相等.理解二:理解为两条件概率的相等:采用Ex10的检验方法记(1)要检验假设 (考虑交换频数与的位置,形成新的四格表,再用U检验)(2)采用检验统计量,拒绝域为。(3)算得检验统计量的值为,故在水平下拒绝,即认为“在竞选初期支持民主党的选民中后来支持共和党的比例”显著“小于竞选初期支持共和党的选民中后来支持民主党的比例”.(P71Ex13)解:由题意知:,。则相对危险度为

26、:。又因为,所以优比为:。注1:有些同学在解题时,设法还原出概率四格表,甚至还原出频率四格表。但这些表格都是错的。因为仅根据题中的已知条件是无法还原出四格表的!由题意可知条件概率,但不知道或的值,所以无法知道积事件的概率:,所以无法还原出概率四格表,更无法知道频率四格表。注2:本题未要求进行显著性检验。(P108Ex1)解:(本题是关于分布齐性的检验,也可以看作是独立性检验,应该采用二维列联表的卡方检验或似然比检验,具体可以写成如下四种不同的解法)(1)要检验假设供应商与零件质量独立供应商与零件质量不相互独立。(也就是要进行齐性检验各供应商的零件质量分布相同供应商的零件质量分布不全相同)方法一

27、:卡方检验+临界值检验法(2)采用卡方检验统计量,拒绝域为。(3)题中,临界值为,(4)检验统计量的值为,故在水平下不能拒绝,即认为供应商与零件质量独立,即各供应商的零件的质量分布都相同.方法二:似然比检验+临界值检验法(2)采用似然比检验统计量,拒绝域为。(3)题中,临界值为,(4)检验统计量的值为,故在水平下不能拒绝,即认为供应商与零件质量独立,即各供应商的零件的质量分布都相同.方法三:卡方检验+p值检验法(2)采用卡方检验统计量,检验分布为,且拒绝域形式为。(3)检验统计量的值为,(4)检验的p值为,故在水平下不能拒绝,即认为供应商与零件质量独立,即各供应商的零件的质量分布都相同.方法四

28、:似然比检验+p值检验法(2)采用似然比检验统计量,检验分布为,且拒绝域形式为。(3)检验统计量的值为,(4)检验的p值为,故在水平下不能拒绝,即认为供应商与零件质量独立,即各供应商的零件的质量分布都相同.(P109Ex7)(方表的一致性问题)两个中医对一批病人的诊断结果如下:医生A医生B阳虚阴虚阴阳两虚阳虚2531阴虚190阴阳两虚1215试计算一致性度量的估计值。(一)一致性度量的计算要检验医生A与医生B的诊断是否真的一致.(1)要检验假设医生A与B的诊断偶然一致医生A与B的诊断不是偶然一致。(2)采用检验统计量,拒绝域为。(3)取,临界值为,拒绝域为(4)检验统计量的值为,故在水平下拒绝

29、,即认为医生A与B的诊断不是偶然一致。对称度量值渐进标准误差a近似值 Tb近似值 Sig.一致性度量Kappa.776.0728.142.000有效案例中的 N57a. 不假定零假设。b. 使用渐进标准误差假定零假设。(P110Ex8)(联系附录7)解法一:边际和都给定时,我们按如下方式理解需要解决的问题。个单元中有个单元属于,记非随机示性变量 ()个单元的属性B看成等可能的随机分配,属于的有个单元,。记随机变量 ()则,且01P的分布列为时,的联合分布列 010*1从而有,则 所以解法二:给定,将表格压缩为四格表,;利用超几何分布处理。 BABj非Bj合计Ai*非Ai*合计则随机变量,由课本

30、62页公式因此(P159Ex1)分析:要确定别嘌呤醇会不会引起皮疹,数据是的三维列联表的分析,还涉及性别,一个基本思路是如何降维成二维列联表的卡方检验或似然比检验。解:记条件概率P(皮疹|使用别嘌呤醇),P(皮疹|不使用别嘌呤醇),“别嘌呤醇会引起皮疹”是指。(一)将三维列联表压缩成四格表的分析(1)压缩后得四格表引起皮疹未引起皮疹合计使用别嘌呤醇155267未使用别嘌呤醇9411631257合计10912151324(2)要检验假设别嘌呤醇与皮疹无关别嘌呤醇会引起皮疹。即要检验假设 ,(右侧检验)(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数据算得检验统计量的值为故

31、在水平下拒绝,即别嘌呤醇会引起皮疹.(二)将三维列联表按照性别变量分层,分别对两个四格表分析(1)分层后得 “是否使用别嘌呤醇×是否引起皮疹”(男性)四格表引起皮疹未引起皮疹合计使用别嘌呤醇53338未使用别嘌呤醇36645681合计41678719“是否使用别嘌呤醇×是否引起皮疹”(女性)四格表引起皮疹未引起皮疹合计使用别嘌呤醇101929未使用别嘌呤醇58518576合计68537605(2)要分别检验假设:(对于男性)别嘌呤醇与皮疹无关别嘌呤醇会引起皮疹。(对于女性)别嘌呤醇与皮疹无关别嘌呤醇会引起皮疹。(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)

32、由题中数据分别算得检验统计量的值为故在水平下都拒绝,即对于男性和女性,别嘌呤醇都会引起皮疹.(三)上述压缩和分层两方面的分析结果是一致的,综合来看,可以认为别嘌呤醇会引起皮疹。(四)(补充:条件独立性检验)(1)要检验假设:性别给定后别嘌呤醇与皮疹条件独立,性别给定后别嘌呤醇与皮疹不条件独立。(2)取检验统计量,拒绝域为。(3)对显著性水平,临界值,(4)由题中数据分别算得检验统计量的值为故在水平下都拒绝,即性别给定时,别嘌呤醇与皮疹不条件独立,是有关系的.注1:由于涉及小样本,特别要注意对于男性的分层检验,连续性校正应该更为合理。注2:可以发现,男性与女性的P值有差异。原因是什么?(P159

33、Ex2)解:(解题思路同Ex1)记条件概率P(死亡|护理较少),P(死亡|护理较多),题中关注的是是否成立。(一)将三维列联表压缩成四格表的分析(1)压缩后得四格表死亡存活合计较少20373393较多6316322合计26689715(2)要检验假设护理多少与婴儿死亡无关护理少会引起婴儿死亡多。即要检验假设 ,(右侧检验)(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数据算得检验统计量的值为故在水平下拒绝,即护理少会引起婴儿死亡多.(二)将三维列联表分层为两个四格表的分析(1)分层后得 “护理×婴儿生存情况”(A医院)四格表死亡存活合计较少3176179较多4

34、293297合计7469476“护理×婴儿生存情况”(B医院)四格表死亡存活合计较少17197214较多22325合计19220239(2)要分别检验假设:(对于A医院)护理多少与婴儿死亡无关护理少会引起婴儿死亡多。(对于B医院)护理多少与婴儿死亡无关护理少会引起婴儿死亡多。(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数据分别算得检验统计量的值为故在水平下都不能拒绝,即对于A医院和B医院,护理多少与婴儿死亡无关.(三)上述压缩和分层两方面的分析结果不一致,由于压缩会受到混杂因素的干扰,分层分析的结论是可靠的,所以认为护理多少与婴儿死亡无显著关系。注:本题类似

35、例5.2,和“Simpson悖论”的例子相似。医院是混杂因素,两医院中的护理多与护理少的婴儿比例差异很大。“护理×婴儿生存情况”(A医院)条件分布列死亡存活较少0.016760.98324死亡存活较多0.0.“护理×婴儿生存情况”(B医院)条件分布列死亡存活较少0.0.死亡存活较多0.080.92B医院的死亡率高于A医院,两个死亡率的差异主要是医院因素造成的。压缩后的四格表中其中,但(P160Ex3)分析:先将属性B和C合并成一个属性变量,再采用二维列联表的卡方检验或似然比检验(见教材129-130页)。解:(1)合并数据得城市* 文化程度和看法 交叉表城市1234文化程度

36、和看法1(小学不同意)23188122(小学不表态)76693(小学同意)21314(初中不同意)1061225(初中不表态)23184156(初中同意)52437(高中不同意)52238(高中不表态)20131189(高中同意)131361410(大学不同意)624611(大学不表态)1097412(大学同意)2415713(2)要检验假设城市间文化程度与看法没有差别 城市间文化程度与看法有差别。即要检验假设属性A与(B,C)独立 属性A与(B,C)不独立。(3)取检验统计量,拒绝域为,(4)显著性水平,临界值,(5)由题中数据算得检验统计量的值为故在水平下不能拒绝,即认为城市间文化程度与看

37、法没有差别.(P160Ex4)分析:参考教材例5.3的解法,建立表格,汇总各独立性检验的结果。解:用A表示年龄,B表示治疗效果,C表示治疗方法,独立性检验结果如下:原假设自由度临界值P值(A,B,C)36.45738.372714.0670.000(A,BC)(B,AC)(C, AB)34.29136.4573.80835.57538.3723.78256511.0712.59211.070.0000.0000.577(AB,AC)(BA,BC)(CA, CB)3.8081.64334.2913.7811.64635.5754349.4887.8159.4880.4330.6500.000综上

38、,治疗方法与(年龄,治疗效果)相互独立,即治疗方法之间没有显著差异。年龄与治疗效果之间不独立,有显著关系。接下来可以合并数据分析年龄与治疗效果之间的关系。注:相互独立意味着数据合起来看与分开来是一致的,因此合并各层数据,同一层的两个变量间的关系可以看得更为清楚稳定。(P160Ex6)(分开看与合起来看)分析:综合分层分析与压缩合并数据分析,得出合理的结论。解:记条件概率P(偏好饮料A|男性),P(偏好饮料B|女性),(一)将三维列联表压缩成四格表的分析(1)压缩后得四格表偏好饮料A偏好饮料B合计男性6769136女性423476合计109103212(2)要检验假设性别与饮料偏好没有关系性别与

39、饮料偏好有关系。即要检验假设 ,(双侧检验)(3)取检验统计量,拒绝域为,(4)对显著性水平,临界值,(5)由题中数据算得检验统计量的值为故在水平下不能拒绝,即性别与饮料偏好没有关系.(二)将三维列联表按照年龄变量分层,分别对两个四格表分析分层后得 “性别×饮料偏好”(年轻人)四格表偏好饮料A偏好饮料B合计男性372663女性112334合计484997“性别×饮料偏好”(老年人)四格表偏好饮料A偏好饮料B合计男性304373女性311142合计6154115对于年轻人,检验性别与饮料偏好是否有关系:(1)性别与饮料偏好没有关系性别与饮料偏好有关系。即要检验假设 ,(双侧检

40、验)(2)取检验统计量,拒绝域为,(3)对显著性水平,临界值,(4)由题中数据算得检验统计量的值为故在水平下拒绝,即对于年轻人,性别与饮料偏好是有关系的.对于老年人,检验性别与饮料偏好是否有关系:(1)性别与饮料偏好没有关系性别与饮料偏好有关系。即要检验假设 ,(双侧检验)(2)取检验统计量,拒绝域为,(3)对显著性水平,临界值,(4)由题中数据算得检验统计量的值为故在水平下拒绝,即对于老年人,性别与饮料偏好是有关系的.(三)上述压缩和分层两方面的分析结果是不一致的,应该采信分层的结论。以下分层进行相合性检验。对于年轻人,计算相合系数,并检验性别与饮料偏好是否有相合关系。(1)要检验假设:性别

41、与饮料偏好不相合性别与饮料偏有相合关系。(2)采用检验统计量,拒绝域为。(3)取,拒绝域为(4)根据SPSS软件的计算输出可知,检验统计量的值为,故在水平下拒绝,即对于年轻人,性别与饮料偏好有相合关系。对于老年人,计算相合系数,并检验性别与饮料偏好是否有相合关系。(1)要检验假设:性别与饮料偏好不相合性别与饮料偏有相合关系。(2)采用检验统计量,拒绝域为。(3)取,拒绝域为(4)根据SPSS软件的计算输出可知,检验统计量的值为,故在水平下拒绝,即对于老年人,性别与饮料偏好有相合关系。注1:由于对于年轻人,性别与饮料偏好有正相合关系,即年轻女性比年轻男性更喜欢饮料B。而对于老年人,性别与饮料偏好

42、有负相合关系,即老年女性比老年男性更喜欢饮料A。一正一负,数据合并后没有显著相合性了。注2:记号与称呼上,要能区分U检验统计量与检验统计量:注3:p值的概念要清楚,要能正确地表示与计算p值:首先要明确检验分布与拒绝域的形式;然后计算出检验统计量的观察值;最后,以检验统计量的值为临界值定出拒绝域,计算检验分布在此区域的概率。例如本题中,采用检验统计量,则检验分布为,拒绝域形式为;算出检验统计量的观察值;考虑拒绝域形式为:;基于检验分布,计算p值:注4:记号上注意区分卡方分布与分卡方分布的分位数。(P161Ex7)分析:联系教材例5.6,例5.7。比较“分开来看”与“合起来看”的结果是否一致。倘若

43、不一致,则是有偏比较。解:将外销与内销产品合起来看不合格品率:车间主任产品总数不合格品总数不合格品率王27032120.张17982580.李753870.王的车间的产品不合格品率最低,其次是李的车间,最高的是张的车间。再分内销产品与外销产品分别看不合格品率。从内销产品看不合格品率:车间主任产品总数不合格品总数不合格品率王23681310.张29330.李307120.王的车间的产品不合格品率最高,其次是李的车间,最低的是张的车间。从外销产品看不合格品率:车间主任产品总数不合格品总数不合格品率王123810.张12472550.李359750.王的车间的产品不合格品率最高,其次是李的车间,最低

44、的是张的车间。综上,“分开来看”与“合起来看”的结果不一致,因此是有偏比较。有偏的原因是各车间的内销与外销的比重不一致,而且总体上内销产品的不合格品率低于外销产品的不合格品率。无论内销产品还是外销产品,王的车间产品不合格品率都是最高的,但由于产品大多是内销产品,所以总的不合格品率却是最低的。因此产品类型(内销还是外销)是产生偏差的原因,是混杂因素。(P183Ex1)分析:将年龄与体质指数都作为定量变量,用SPSS建立Logistic线性回归模型。解:要建立Logistic线性回归模型(1)将原来的三维列联表拉直,建立含四个变量的数据集,四个变量分别为年龄,体质指数,是否患心血管病,人数。(2)

45、将数据集导入SPSS;(3)数据=加权个案=将人数设置为频数;(4)分析=回归=二元Logistic,用二元Logistic过程建立Logistic线性回归模型,将是否患心血管病设置为因变量,将年龄和体质指数设置为协变量,其他采用默认方式,点选确定,输出模型拟合结果:方程中的变量BS.E,WalsdfSig.Exp (B)步骤 1a年龄.054.01026.4201.0001.055体质指数.238.0828.4701.0041.269常量-8.2932.23413.7771.000.000a. 在步骤 1 中输入的变量: 年龄, 体质指数.即拟合的Logistic线性回归方程为由系数都为正可知:年龄越大越容易患心血管病,体质指数越大也越容易患心血管病。(P184Ex2)分析:将年龄(A)作为定量变量,婚姻状况作为定性名义变量,包含3个哑变量(M1, M2, M3),以及3个与年龄的交互作用变量(AM1, AM2, AM3),用SPSS建立Logistic线性回归模型。解:要建立Logistic线性回归模型SPSS输出模型拟合

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论