生物医学研究的统计学方法课后答案案例分析_第1页
生物医学研究的统计学方法课后答案案例分析_第2页
生物医学研究的统计学方法课后答案案例分析_第3页
生物医学研究的统计学方法课后答案案例分析_第4页
生物医学研究的统计学方法课后答案案例分析_第5页
已阅读5页,还剩100页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.专业整理..专业整理..学习帮手..学习帮手..专业整理..学习帮手.第1章绪论案例辨析及参考答案案例1-1某研究者的论文题目为“大学生身心健康状况及其影响因素研究”,以某地职业技术学院理、工、文、医学生(三年制)为研究对象,理、工、文、医学生分别挑选了60、38、19和46人,以问卷方式调查每位学生的一般健康状况、焦虑程度、抑郁程度等。得出的结论是:“大学生身心健康状况不容乐观,学业问题、就业压力、身体状况差、人际交往不良、社会支持不力为主要影响因素”。请问其结论合理吗?为什么?应该如何?案例辨析①样本不能代表总体。总体是“大学生”,而样本仅为某地三年制职业技术学院学生;②社会学调查的样本含量显得不足;③“理、工、文、医学生分别挑选……”这种说法中隐含人为“挑选”的意思,不符合统计学要求。正确做法应在论文的题目中明确调查的时间范围和地点,还应给“大学生”下一个明确的定义,以便确定此次调查的“总体”;对“大学生身心健康状况”可能有影响的因素很多,应结合具体问题拟定出少数最可能有影响的因素(如学科、在学年限等)进行分层随机抽样,以保证样本有较好的代表性;还应根据已知条件找到估计样本含量的计算公式,不可随意确定各学科仅调查几十人;当然,调查表中项目的设置也是十分重要的,此处从略。案例1-2两种药用于同一种病,A药治疗5例,4例好转;B药治疗50例,36例好转。结论是:A药优于B药。请问其结论合理吗?为什么?应该如何?案例辨析①A药样本仅5例,样本含量太少;②得出“A药优于B药”没有交待是否采用了统计学推断方法,若用目测法得出结论,则结论没有说服力;③未明确研究目的和研究结果将被使用的范围。正确做法①应明确研究目的和研究结果将被使用的范围,若是个别研究者或临床医生想了解这两种药的大致疗效,属于小规模的临床观察,其结论仅供少数人在今后临床实践中参考,其样本含量可能不需要很大,因为观察指标是定性的(有效、无效),一般来说,每个药物组也需要几十例(以不少于20例为宜);若属于新药的Ⅱ期临床试验,那就要严格按有关规定,比较准确地估计出所需要的样本含量,不仅如此,还有很多严格的要求,详见本书中临床试验设计一章;②从明确定义的总体中随机抽样进行实验研究,得到的实验结果不能仅凭数据大小作出判断,应进行假设检验,以提高结论的可信度。案例1-3某研究者为了探讨原发性高血压患者肾小管早期损害的监控指标,选取尿常规、蛋白定性检查阴性,血肌酐、尿素氮均在正常范围内的原发性高血压患者74例作为病例组,其中男43例,女31例,平均年龄61岁(4073岁)。根据高血压的病程将患者分为三组,Ⅰ组高血压病期<10年,Ⅱ组高血压病期1020年,Ⅲ组高血压病期>20年。另选取53名体检健康的职工为对照组。观测两组尿视黄醇结合蛋白(retinalbindingprotein,RBP)、微量白蛋白(microalbumin,mALB)、β微球蛋白(βmicroglobulin,β-MG)和N- 2 2 2乙酰-β-D-氨基葡萄糖苷酶(N-acetylβ--D-glucosaminidase,NAG)四项定量指标的取值。结论为:尿RBP、mALB、-MG和NAG是原发性高血压患者肾小球、肾小管早期损害的敏感2指标。请辨析这样设计实验存在什么问题?正确的做法是什么?案例辨析研究对象的选取在病例组和对照组之间存在不均衡性,即两组受试者之间,除了一组患有高血压,另一组未患高血压以外,在其他很多与评价高血压可能导致坏影响的方面都不一致。对照组选取的是53名体检健康的职工,未明确写出平均年龄以及年龄所在的范围,也未交代性别构成情况。但由我国现行的退休制度可知,在职职工的年龄通常在1860岁之间,平均年龄大约40岁。由临床医学基本常识可知,很多因素(比如年龄、性别等)不仅对血压有影响(通常是随着年龄的增大,血压有升高的趋势),而且对肾功能也有一定程度的影响;况且,高血压患者与健康职工还在“体力和脑力劳动强度、生活方式、心理和精神的紧张程度等诸多方面不具有可比性,而这些重要的非实验因素可能对肾功能也存在不同程度的影响。总之,原研究者所选取的病例组与对照组在很多重要的非实验因素方面(特别是年龄)不具有可比性,降低了结论的说服力。正确做法欲探讨高血压早期肾损害的监控指标,应根据高血压患者病程所分的三个组确定受试者的年龄段,从患者所取自的人群范围内随机选取一定数量的正常健康人(而不应仅局限在原研究者所在单位内),将正常健康人也分成相应的三个年龄段,并应尽可能确保在每个年龄段中,病例组与对照组受试者在其他重要非实验因素方面(如性别构成、体力和脑力劳动强度、生活方式、心理和精神的紧张程度等)均衡一致,采用相应的统计分析方法去比较定量指标的测定结果之间的差别,其结论才具有较高的可信度。案例1-4某部队共有1200人,在某段时间内患某病的人数有120人,其中男性114人,女性6人。某卫生员进行统计分析后说,经假设检验,该病的两性发病率(114/120=95%与6/120=5%)之间的差别有统计学意义,由此得出结论:“该病男性易得”。你对这个结论有何看法?若结论是错误的,那么,错误的实质是什么?正确的做法是什么?案例辨析这个结论是错误的!因为在这1200人中,究竟有多少男性和多少女性并不清楚,无法计算男性发病的频率和女性发病的频率。假如其中有1194名男性和6名女性,则男性发病率为(120/1194)100%=10.05%,而女性全部发病(女性总例数太少,不宜用百分之百发病率来描述)。显然,原来的结论是不成立的。该卫生员所犯错误的实质是将发病人员中性别的频率错误地当作人群中发病的频率了,因而得出毫无根据的错误结论。正确做法若这1200人是从一个总体中抽出来的样本,要弄清在这1200人中男、女人数各是多少,设分别为n和n,然后,分别计算男性和女性的发病频率,即男 女 120 6P100%,P100%;要想得出两个发病频率之间的差别是否能反映总男n 女n男 女体的情况,还应进行统计推断(即进行假设检验,此处从略)。第2章统计描述案例辨析及参考答案案例2-1本章的例2-1中,该医生同时还观察了1402名临产母亲的住院天数(教材表2-14),并得到平均住院天数为6.6天。请对此发表评论。教材表2-141402名临产母亲生产期间的住院天数组段(1)组中值Xi(2)频数 (3) 频率fi(4)1~279 5.633~4316 22.545~6559 39.877~8243 17.339~1089 6.3511~1257 4.0713~1423 1.6415~1619 1.3617~189 0.6419~201 0.0721~222 0.1423~242 0.1425~263 0.21合计—14021.00由加权法的计算公式(2-2)求出平均住院天数X20.056340.2254240.0014260.00216.6(天)案例辨析首先观察资料的分布形式,由于呈正偏峰分布,选用上述结果描述住院天数的平均水平不合适。正确做法宜选用不受定量资料分布情况限制的中位数来描述住院天数的平均水平。本例计算结果为M=6.1(天)。案例2-2某人编制了一张统计表(教材表2-15),你认为哪些需要改进?教材表2-151976—1979年吉林市各型恶性肿瘤的死亡率年龄组年龄组疾病0~15~35~55~75~胃癌无1.13/10万19.92/10万150/10万313.44/10万食管癌无0.1/10万2.18/10万35.20/10万73.56/10万肝癌0.34/10万1.64/10万25.30/10万97.51/10万134.33/10万肺癌无0.41/10万20.21/10万125.10/10万137.53/10万案例辨析原表格存在的问题:①标题不准确;②线条过多,出现了斜线、竖线和多余的横线;③数字区域出现了文字;④小数位数不统一,小数点没有纵向对齐;⑤量纲的标注位置有误。正确做法将原统计表中存在的上述错误纠正过来,修改后的统计表见案例表2-1。案例表2-11976—1979年吉林市各年龄组人群部分恶性肿瘤死亡情况调查结果疾病各年龄组死亡率(1/10万)0~15~35~55~75~胃癌0.001.1319.92150.00313.44食管癌0.000.102.1835.2073.56肝癌肺癌0.340.001.640.4125.3020.2197.51125.10134.33137.53案例2-3某人绘制一张统计图(教材图2-11),你认为哪些需要改进?.专业整理..专业整理..学习帮手..学习帮手..学习帮手..专业整理.专业整理.1972年恶性肿瘤1972年心脏病1972年肺结核1952年恶性肿瘤1952年心脏病1952年肺结核死亡率1801401006020教材图2-111952年与1972年某地肺结核、心脏病和恶性肿瘤的死亡率案例辨析原图形存在的问题:①缺标题;②复式条图误用为单式条图;③纵轴的量纲未注明;④未正确给出图例。正确做法将原图中存在的上述错误纠正过来,重新绘图(案例图2-1)。案例图2-1某地三种疾病死亡率在1952与1972年间的变化案例2-4以病死率为考察指标,对两所医院某病的治疗水平进行比较,结果见教材表2-16,由合计的病死率得出结论为乙医院治疗水平优于甲医院,请评述这个结论。教材表2-162000年两所医院某病的病死率比较病情严重程度出院人数甲医病死数院 病死率/% 乙医院出院人数病死数病死率/%轻1008 8.0 6506510.0中30036 12.0 2504016.0重合计60090 15.0 1001818.01000134 13.4 100012312.3案例辨析由教材表2-16可以看出,此表编制得不够规范,更为严重的是,虽然甲医院各种病情患者的病死率均低于乙医院,但总的病死率却是甲医院高于乙医院。这个矛盾的出现,是由于甲医院收治的重病人多,轻病人少,乙医院则是重病人少,轻病人多。两家医院收治患者的病情不均衡,不宜直接比较基于各自病情状况的病死率——“粗病死率”。正确做法因各医院收治的患者在病情方面不均衡,直接进行比较是不正确的,而是要进行标准化处理后再比较。标准化(standardization)有直接标准化法和间接标准化法两种。直接标准化首先确定一个标准组,将其病情分布视作标准分布,即两家医院理论上共同的病情分布状况。例如,某省内两家医院的对比,可以将全省、全国该类型患者入院时的病情分布作为标准组。这里,将两家医院各种程度病情的患者数对应相加,“构造”出标准组,这是在不能获得参考文献关于全省、全国情况时的做法。直接标准化计算过程见案例表2-2。案例表2-2用直接标准化法对2000年两所医院某病的病死率作比较病情严标准组人 原病死率p 预期病死率数N×pi i i重程度数Ni甲医院乙医院 甲医院乙医院轻7508.010.0 6075中55012.016.0 6688重合计70015.018.0 105126200013.412.3 231289甲医院的标准化病死率: 依照标准组的病情分布预期死亡数之和 231p 100%11.55%甲 标准组的总人数 2000乙医院的标准化病死率: 依照标准组的病情分布预期死亡数之和 289p 100%14.45%乙 标准组的总人数 2000经标准化,甲医院的标准化病死率低于乙医院,正确反映了两组病死率水平的对比关系。以甲医院的计算为例,粗病死率p是以甲医院实际病情分布为权重,对甲医院病死甲率水平的加权平均;标准化的p'则是以标准组病情分布为权重,对甲医院病死率水平的甲加权平均。即 1008%30012%60015% 100 300 600p8%12%15%甲100010001000100013.4% 7508%55012%70015% 750 550 700p8%12%15%甲200020002000200011.55%当进行对比的两组率为样本率时,下结论前需做假设检验,这里略去。间接标准化也需首先确定一个标准组(由文献获得),并给定标准组的各年龄别病死率及总的病死率。由案例表2-3求出两家医院各自收治的患者按标准组的病死率水平将发生的总的死亡数。标准组的选择依据同直接标准化法。案例表2-3用间接标准化法对2000年两所医院某病的病死率作比较病情严标准组 出院人数 预期病死率数N×pi i重程度病死率pi甲医院乙医院 甲医院乙医院轻9.0 100650 9.058.5中14.0 300250 42.035.0重合计16.0 600100 96.016.013.510001000 147.0109.5按标准组的病死率水平,甲医院有147例死亡,而实际甲医院仅有134例死亡,甲医院实际的病死发生程度低于标准组,两者程度之比134/147=0.91称作标化死亡比(standardmortalityratio,SMR),于是pSMR13.5%12.31%甲 甲同理,pSMR13.5%(123/109.5)13.5%1.1213.5%15.16%。 乙 乙结果,认为乙医院的病死率高于甲医院。这是根据数值大小得出的直观判断结果。若希望得出两医院标准化病死率之间的差别是否具有统计学意义,应进行假设检验,此处从略。本题目是以“病死率”为例阐述了阳性率的标准化的问题,其余如死亡率、发病率、治愈率等同理。第3章概率分布案例辨析及参考答案案例3-1为估计某地居民尿汞值的参考值范围,测得某地200名正常成人的尿汞值如教材表3-6。教材表3-6某地200名正常成人的尿汞值/μgL1尿汞值0~4~8~12~16~20~24~28~32~36~40~44~48~例数 45 30 41 20 15 12 13 5 4 6 3 4 2试根据该样本资料估计该地居民尿汞值的95%正常值范围。下面给出了多种解法,请辨析正误并讲出道理。若有正确的,请指出来;若没有正确的,请一定要补充上。解法一:计算得该样本资料的均数X13.78(μgL1),标准差S11.71(μgL1),于是估计该地居民尿汞值的95%正常值范围为(X1.96S,X1.96S)=(9.17,36.73)μgL1。解法二:估计该地居民尿汞值的95%正常值范围为(X0.95S,X0.95S)=(2.66,24.90)μgL1。解法三:估计该地居民尿汞值的95%正常值范围为(X1.64S,X1.64S)=(5.42,32.98)μgL1。解法四:估计该地居民尿汞值的95%正常值范围为(0,X1.64S)=(0,32.98)(μgL1)。解法五:估计该地居民尿汞值的95%正常值范围为(0,X1.96S)=(0,36.73)(μgL1)。解法六:估计该地居民尿汞值的95%正常值范围为(0,X0.95S)=(0,24.90)(μgL1)。解法七:估计该地居民尿汞值的95%正常值范围为(X1.64S,X)=(5.42,13.78)(μgL1)。解法八:估计该地居民尿汞值的95%正常值范围为(X1.96S,X)=(9.17,13.78)(μgL1)。解法九:估计该地居民尿汞值的95%正常值范围为(X0.95S,X)=(2.66,13.78)(μgL11)。案例辨析以上所有解法均是错误的。本案例解法一至解法九均利用正态分布法估计正常值范围,但却忽略了对该资料的正态性判断或检验。正确做法严格的正态性检验常用的方法有Z检验(通常称为矩法)、W检验、D检验等,需要借助统计软件完成。在这里我们用粗略判断的方法:作出频率分布图看是否对称,如果对称可初步判断为正态分布,否则判为非正态。该例频率分布明显不对称(案例图3-1)。00.0100.010.020.030.040.050.060~4~8~12~16~20~24~28~32~36~40~44~48~尿汞值(μg/L)频率密度案例图3-1表3-6资料的频率分布由此图可粗略判断尿汞值这个指标不服从正态分布(经对数变换后频率分布仍不对称),所以不能用正态分布法估计正常值范围,而应用适合描述偏态分布的百分位数法,计算P38,故估计该地居民尿汞值的95%正常值范围不高于38(μgL1)。95在本例中,如果该地居民尿汞值呈正态分布,则上述解法四计算公式是正确的,因为汞是对人身体有害的微量元素,越少越好,又不可能取负值,下限应该为0,只需求出单侧上限即可。案例3-2某地区10万人口中出现了20例流行性腮腺炎病例,有人希望据此推断该地区10万人口中不少于20人患流行性腮腺炎的概率。于是,有几位爱动脑筋的学生给出了自己的解法。请辨析他们的解法之正误,并讲出道理。解法一:P(X20)1P(X20) 200 201 202 20191(e0e1e2e19) 0! 1! 2! 19!20201()1(0)10.50.52020解法二:P(X20)1P(20)1(C00.000200.9998100000C10.000210.999899999 100000 100000C190.0002190.999899981)0.52975100000解法三:2020 2021 20100000P(X20) e20 e21e1000000.5297420! 21! 100000!解法四:P(X20)C200.0002200.999899980C210.0002210.999899979 100000 100000 C1000000.0002100000)0.52975100000案例辨析上述解法均是错误的。解法一将发生流行性腮腺炎的人数看作是服从n20的Poisson分布,并近似服从正态分布,来计算相应的概率。但本例各观察单位是否患病不是互相独立的,不满足Poisson分布的应用条件,所以不能按照Poisson分布模型处理。解法二按照二项分布计算概率,同样因为各观察单位是否患病非独立,不满足二项分布的应用条件。解法三也是按照Poisson分布计算概率,因为模型选择的错误,所以导致结果错误,同样可分析解法四。正确做法就本例而言,因患这种病是有传染性的,即不满足独立性条件,没有合适的统计计算方法;若满足独立性,则以上四种计算方法均正确。在解法一中,因20,将Poisson分布用正态分布来近似,近似程度较差,故计算出来的概率与直接按Poisson分布或二项分布计算的结果有较大出入。第4章参数估计案例辨析及参考答案案例4-1某研究者测得某地120名正常成人尿铅含量(mg·L-1)如下:尿铅含量0~4~8~12~16~20~24~28~32~36~合计例数 1422291815106321120试据此资料估计正常成人平均尿铅含量的置信区间及正常成人尿铅含量的参考值范围。由表中数据得到该例的n120,S8.0031,S0.7306,某作者将这些数据代X入公式(4-20),即采用XZS计算得到正常成人平均尿铅含量100(1)%置信区间X为(,14.0684);采用公式XZS计算得到正常成人尿铅含量100(1)%参考值范围为(,26.0306)。请问这样做是否合适?为什么?应当怎么做?案例辨析该定量资料呈偏峰分布,不适合用正态分布法计算100(1)%参考值范围。正确做法可以用百分位数法求正常成人尿铅含量100(1)%参考值范围的单侧上限。例如,当=0.05时,可直接求P分位数,(0,P)就是所求的正常成人尿铅含95 95量的95%正常值范围。欲求正常成人尿铅含量总体均数的置信区间,当样本含量n较大(比如说,n大于30或50)时,样本均数就较好地接近正态分布(根据数理统计上的中心极限定理)。本例,因为n120较大,不必对原始数据作对数变换就可以用XZS估计总体均数的置信区X间。案例4-2在BiPAP呼吸机治疗慢性阻塞性肺病的疗效研究中,某论文作者为了描述试验前的某些因素是否均衡,在教材表4-5中列出了试验前患者血气分析结果。由于作者觉得自己数据的标准差较大,几乎和均数一样大,将标准差放在文中显得不雅观,于是他采用“均数±标准误”(XS),而不是“均数±标准差”(XS)来对数据进行描述。问在X研究论文中以教材表4-5方式报告结果正确吗?为什么?教材表4-5试验组和对照组治疗前血气分析结果(XS)X组别例数年龄/岁pHp(CO)/kPaa 2p(O)/kPaa 2S(O)/%a 2试验组1263.004.337.360.0563.004.339.250.5585.121.73对照组1062.503.957.380.0663.004.339.160.6286.452.25案例辨析描述数据的基本特征不能采用XS,因为S为反映抽样误差大小的指 X X标,只表示样本均数的可靠性,而不能反映个体的离散程度。不仅如此,因S仅为与其对X应的S的1/n,有时,即使S很大(甚至大于X),用S表示离散度时,不易被察觉X出来,因此,用XS表达定量资料时,往往具有欺骗性。X正确做法当各组定量资料服从或近似服从正态分布时,反映个体的离散程度应该采用标准差,即描述数据的基本特征必须采用XS;否则,需要采用M(Q~Q)描述数1 3据的基本特征。此处,M为中位数、Q和Q分别为第1四分位数和第3四分位数。 1 3案例4-3某市往年的12岁男孩平均身高为140.0cm。现在从该市的12岁男孩中随机抽得120名作为研究对象,得到平均身高为143.1cm,标准差为6.3cm。请估计该样本对应总体均数的95%置信区间,并确定该均数是否与往年不同。某学生的回答如下:“该例12岁男孩平均身高的点估计值为143.1cm,按公式(4-21)计算得到该点估计值的95%置信区间为141.9~144.2cm。因为往年12岁男孩平均身高为140.0cm,没有落在所计算的95%置信区间以内,所以可以认为现有男孩平均身高与往年身高有差异”。请指出学生回答中的不恰当之处。案例辨析不恰当之处有三:①“点估计值的95%置信区间”的说法不对;②“以往男孩平均身高没有落在所计算的95%置信区间以内”的说法不对;③“现有男孩平均身高与往年身高有差异”的说法不对。正确做法①应该说“点估计值对应总体均数的95%置信区间”;②应该说“95%置信区间没有覆盖(包括)以往男孩平均身高”;③应该说“现有男孩平均身高与往年男孩平均身高的差异有统计学意义”。第5章假设检验案例辨析及参考答案案例5-1为了比较一种新药与常规药治疗高血压的疗效,以血压下降值为疗效指标,有人作了单组设计定量资料均数比较的t检验,随机抽取25名患者服用了新药,以常规药的疗效均值为,进行t检验,无效假设是,对立假设是,检验水平 0 0 0α=1%。结果t值很大,拒绝了无效假设。“拒绝了无效假设”意味着什么?下面的说法你认为对吗?你绝对否定了总体均数相等的无效假设。你得到了无效假设为真的概率是1%。你绝对证明了总体均数不等的备择假设。你能够推论备择假设为真的概率是99%。如果你决定拒绝无效假设,你知道你将犯错误的概率是1%。你得到了一个可靠的发现,假定重复这个实验许多次,你将有99%的机会得到具有统计学意义的结果。提示:就类似的问题,Haller和Kruss(2002)在德国的6个心理系问了30位统计学老师、44位统计学学生和39位心理学家。结果所有的统计学学生、35位心理学家和24位统计学老师认为其中至少有一条是正确的;10位统计学老师、13位心理学家和26位统计学学生认为第4题是正确的。(见StatisticalScience,2005,20(3):223-230.)案例辨析6个选择均不正确。可能犯Ⅰ类错误。α=1%是表示在无效假设成立的条件下,犯Ⅰ类错误的概率。可能犯Ⅰ类错误。α=1%是表示在无效假设成立的条件下,犯Ⅰ类错误的概率,而不是推论备择假设为真的概率是99%。在无效假设成立的条件下,就该例拒绝无效假设犯错误的概率是P。在无效假设成立的条件下,还可能犯错误,并不是完全“可靠”的发现;1-=99%是指无效假设成立的条件下不犯错误的概率是99%。正确做法“拒绝了无效假设”意味着在无效假设成立的条件下,推断犯错误的概率为P。案例5-2某工厂生产的某医疗器械的合格率多年来一直是80.0%。最近从该厂一次抽取20个该器械检测,合格13个,计算得到合格率为65.0%;一周后又抽取15个器械检测,合格10个,计算得到合格率为66.7%,分别进行Z检验,得到两总体率相等的结论,表明合格率没下降,两个合格率的平均值为65.85%,进行Z检验,得到两总体率不等的结论,表明合格率下降了。请对这一结论发表你的意见。案例辨析不正确,因为分别用n=20和n=15的两个小样本计算的样本频率与总体概率80.0%比较,进行两次Z检验,样本量太小,检验功效太小,不能得到总体概率不等的结论。正确做法加大样本量,对样本频率所代表的总体概率与已知总体概率80.0%进行假设检验,具体方法从略。(样本量的估计见本书第15章样本含量估计)第6章两样本定量资料的比较案例辨析及参考答案案例6-1为研究直肠癌患者手术前后血清CEA含量有无差异,作者收集了以下资料:术前(24例):31.530.028.639.745.220.337.324.036.220.523.129.033.135.228.926.425.923.830.431.627.933.034.032.7术后(12例):2.03.22.33.11.92.21.51.83.23.02.82.1有人采用了两独立样本的t检验,结果t=15.92,=34,P<0.05。从而得出结论:手术前后血清CEA含量有差异,术前CEA含量高于术后。也有人觉得上述分析方法不对,应该采用两独立样本的秩和检验,结果为:Z4.83,P<0.05。还有人认为应该采用校正t检验,结果:t=22.51,P<0.05。有人将上述三种方法作一比较,认为既然三者结论是一致的,所以采用哪种分析方法都无所谓。对此你有何看法?案例辨析属于盲目套用两独立样本的t检验,因为未检查定量资料是否满足参数检验的前提条件。若定量资料满足参数检验的前提条件,直接用秩和检验会降低检验功效。若定量资料不满足正态性要求,直接用校正的t检验也是不妥当的。应当采用哪种统计分析方法不应仅看结论是否一致,而应根据分析目的、设计类型、资料是否满足参数检验的前提条件等方面综合考虑,事先选定统计分析方法,不能等到计算结果出来了,再确定统计分析方法。正确做法此案例涉及完全随机设计两小样本资料的假设检验,统计方法的选择一定要结合数据特征。通过对两组数据进行正态性检验,发现两样本均来自正态总体,但方差齐性检验结果表明,两总体方差不齐,所以最好的办法就是t检验,此种情况一般不主张采用秩和检验,因为检验功效会大大降低。案例6-2为研究不同药物对肥胖患者的疗效,将BMI≥28的肥胖患者随机分成两组,每组10人,测得他们服药前及服药2个月后体重的变化(教材表6-10)。试评价:①A、B两种药物对肥胖患者是否有效。②A、B两种药物的疗效有无差别。教材表6-10两组肥胖患者服药前后体重变化/kg药物12345678910A服药前75.661.267.877.273.265.480.074.482.668.6服药后73.060.263.672.074.660.869.477.479.663.4B服药前69.489.966.863.470.086.690.474.867.484.4服药后60.895.561.662.069.478.071.076.658.275.4(1)假设数据服从正态分布,且总体方差齐,在评价A、B两种药物对肥胖患者是否有效时,作者对A、B两组患者分别采用了独立样本的t检验,结果:A组患者服药前后比较t=1.040,P=0.312;B组患者服药前后比较t=1.125,P=0.275。从而得出结论,两种药物均无效。(2)有人认为这种方法不太好,他采用独立样本的t检验,首先比较服药前两组基线水平,结果t=1.533,P=0.160,表明差异没有统计学意义,两组有可比性。进而,比较治疗后两组体重的差异,结果t=0.346,P=0.734,从而得出结论:A、B两种药物的疗效差异无统计学意义。请对以上两种作法发表你的看法。案例辨析误用独立样本的t检验取代配对设计定量资料的t检验。本案例中采用独立样本的t检验单纯比较两组治疗后体重有无差异去推断两种药物的疗效差别是不正确的。因为两组肥胖患者治疗前体重可能不同,缺乏组间可比性。因为未充分发挥两组患者服药前的信息,使结论的可信度降低。正确做法欲评价A、B两种药物对肥胖患者是否有效,应分别对A、B两组患者服药前后体重进行配对t检验,求得t值后与界值t 进行比较,从而得出药物治疗前后体重变化有(0.05,9)无差异的推断。另外,即使在进行配对t检验时获得了一个较小的P值,拒绝了H,下结0论也一定要慎重。差异有统计学意义并不能说明药物就有效,药物是否有效以及疗效的好坏一方面要结合专业知识方可得出结论,另一方面服药前后肥胖患者的饮食习惯、运动情况等因素对体重都会有影响。因此,对同一个体处理前后某项指标进行比较,一定要保证非处理因素在处理前后保持不变,否则难以得出正确的结论。欲评价A、B两种药物的疗效有无差别,应分别计算出各组治疗前后体重的差值,然后作完全随机设计两样本比较的t检验,因为A、B两组样本是从同一总体中随机抽取的,肥胖病没有传染性,两组受试者间是相互独立的,由题中条件可知,定量资料满足正态性和方差齐性的前提条件。总之,如果要分别评价A、B两种药物是否有效,可以首先按照自身对照设计资料,考虑采用配对t检验并结合专业与实际进行推断。另外,可以同时设定一个平行对照帮助推断。如果欲评价A、B两种药物的疗效有无差别,可以采用以下两种方法之一:①分别计算出各组治疗前后体重的差值,然后作完全随机设计两样本比较的t检验;②以治疗前两组体重数据作为协变量的值,采用多重回归扣除治疗前体重的影响(参见本书第11章)。案例6-3为研究长跑运动对增强普通高校学生的心功能的效果,某学校随机抽取15名男生,进行5个月的长跑锻炼,5个月前后测得的晨脉数据如教材表6-11所示,问长跑锻炼前后的平均晨脉次数有无不同?教材表6-11某校15名学生5个月长跑锻炼前后的晨脉次数/(次·min-1)学生号123456789101112131415锻炼前707656636356586067657566565972锻炼后485460644855544550485648624950作者认为该研究属于配对设计的定量资料,通过对差值进行正态性检验,发现差值不是来自正态总体(W检验:P=0.041),所以用配对资料的符号秩和检验,结果为T=10,查T界值表,得双侧P<0.05。因此认为长跑后的平均晨脉次数低于长跑前的平均晨脉次数。你认为上述分析是否合适?请说明理由。案例辨析“同一受试对象处理前后的比较”严格地说不是合格的配对设计,因为处理前的个体接受的是空白处理,而处理后的同一个体接受的是“处理(长跑)+时间(5个月)”,因此,即便长跑前后的晨脉次数有差别,也不能就判断是长跑的作用,因为有5个月的时间效应混杂在其中。正确做法处理此类问题的最好办法是加一个平行对照,使“时间效应”在两组比较时互相抵消,从而可以更真实地揭示“长跑与否”产生的效应之间的差别有无统计学意义。第7章多组定量资料的比较案例辨析及参考答案案例7-1某医院妇产科测定几种卵巢功能异常患者血清中促黄体素的含量(U/L),结果如下:卵巢发育不良42.5038.3135.7633.6031.38丘脑性闭经6.713.324.591.6710.512.9611.823.86•8.262.632.20垂体性闭经4.502.7511.145.981.905.4311.0522.03研究者运用t检验进行两两比较,共比较了3次。结论是卵巢发育不良者血清中促黄体素的含量高于丘脑性闭经和垂体性闭经者。这样做是否妥当?为什么?正确的做法是什么?案例辨析原作者用3次t检验处理此定量资料是不妥当的,因为这样做割裂了原先的整体设计,对资料的利用率较低,对误差的估计不够合理,检验统计量的自由度较小,结论的可信度降低。正确做法这是从三个子总体内完全随机抽取受试对象的单因素3水平设计定量资料的假设检验问题,应选用与此设计对应的统计分析方法。若定量资料满足参数检验的三个前提条件(即独立性、正态性和方差齐性),应选用单因素3水平设计定量资料方差分析;若定量资料不满足参数检验的三个前提条件,可选用Kruskal-Wallis秩和检验。假定3组定量资料满足独立性要求,对3组定量资料用W检验分别进行正态性检验,得:卵巢发育不良组为W=0.979,P=0.930;丘脑性闭经组为W=0.874,P=0.087;垂体性闭经组为W=0.844,P=0.083。因3组正态性检验结果均有P0.05,说明3组定量资料满足正态性要求。再对3组定量资料进行方差齐性检验(采用Levene检验),得:F=1.416,P=0.265。说明3组定量资料满足方差齐性的要求。因该定量资料满足方差分析的前提条件,故建议采用单因素3水平设计定量资料方差分析处理。经方差分析,F=74.64,P<0.001;进而经Bonferroni检验,卵巢发育不良组高于丘脑性闭经组(P<0.001),卵巢发育不良组高于垂体性闭经组(P<0.001),而丘脑性闭经组与垂体性闭经组之间的差异无统计学意义(P=0.234);虽然结论与原作者的相同(巧合),但原作者的处理过程不妥。案例7-2某研究人员将15只小白鼠随机分为3组,比较小白鼠接种3种不同的细菌后存活的天数是否有差别,实验数据如下:A细菌24579B细菌457812C细菌89101723该研究者对数据进行了方差分析(教材表7-10),进而经LSD检验,C细菌与A细菌、C细菌与B细菌之间均有统计学差异,而B细菌与C细菌之间无统计学差异。教材表7-10小白鼠接种3种不同的细菌后存活的天数细菌类别细菌类别例数SXF值P值A细菌55.402.70B细菌57.203.114.530.034C细菌513.406.43请问该研究者所作统计处理是否合理?为什么?正确的做法是什么?案例辨析进行方差分析,首先要进行方差齐性及各样本的正态性检验。从3组生存天数的方差看,A细菌为7.29,B细菌为9.67,C细菌为41.34。大小方差比近5倍之多,可能方差不齐。通过Levene检验,F=4.14,P=0.043,方差不齐,因此,直接进行方差分析不妥当。正确做法通过平方根数据变换使其尽可能接近方差分析的前提条件。通过Levene检验,F=1.15,P=0.348,方差齐;经过正态性检验,A细菌组W=0.989,P=0.976;B细菌组W=0.968,P=0.860;C细菌组W=0.875,P=0.286。即3组正态性检验结果均有P0.10,说明3组定量资料经平方根变换后满足正态性要求。因此,平方根数据变换后满足了方差分析的前提条件,可进行方差分析。经方差分析,F=4.96,P=0.027,即小白鼠接种3种不同的细菌后存活的天数有差别。进一步用LSD法进行多重比较,C细菌与A细菌、C细菌与B细菌之间均有统计学差异,而B细菌与C细菌之间无统计学差异。另外,亦可通过非参数检验(如Kruskal-Wallis秩和检验)进行分析。案例7-3某地用三种药物杀灭钉螺,每次用200只活钉螺,用药后清点每批钉螺的死亡率(%)如下:甲46.539.540.532.549.530.0乙36.029.020.522.516.526.0丙24.08.59.26.5研究者直接对数据进行了方差分析,得F=17.06,P<0.001;进而经Bonferroni检验,这三种药物的效果为两两间均有差别(P<0.05)。请问该研究者所做统计处理是否合理?为什么?正确的做法是什么?案例辨析多组比较,但数据都是0和1之间的百分比,例如,某种细胞或成分的百分比、发病率、感染率等服从二项分布的资料,直接作方差分析是不妥当的,因为此类资料不服从正态分布。正确做法这类情形应当作了反正弦变换后作方差分析。该资料经反正弦变换为甲42.9938.9439.5234.7644.7133.21乙36.8732.5826.9228.3223.9730.66丙29.3316.9517.6614.77经SPSS运算,结果F=17.719,P<0.001;进而经Bonferroni检验,这三种药物的效果两两间差别均有统计学意义(P<0.05),即甲药杀灭钉螺效果好于乙药与丙药,而乙药好于丙药。另外,该案例资料也可直接用非参数检验Kruskal-Wallis检验进行分析。通过Kruskal-Wallis检验,210.99,P=0.004,故可认为三种药物杀灭钉螺时,钉螺的死亡率总体分布不同或不全相同。进一步进行两两比较,检验水准'=0.05/3=0.017,Z 2.12(案例表7-1)。0.017案例表7-1三种药物杀灭汀螺时钉螺死亡率两两比较jijiRRiijzPRRj (1) (2) (3) (4) (5)甲与乙 5.84 2.75 2.12 0.017甲与丙 9.92 3.07 3.23 <0.017乙与丙 4.08 3.07 1.33 >0.017甲药与乙药、甲药与丙药之间差异有统计学意义,而乙药与丙药之间差异无统计学意义。即甲药杀灭钉螺效果好于乙药与丙药,而乙药与丙药之间效果接近。另外,可以看出,参数检验的检验功效高于非参数检验。第8章定性资料的比较案例辨析及参考答案案例8-1某单位调查了4类人员乙型肝炎表面抗体(HBsAb)的阳性率,想比较3种病人与健康人群的阳性率有无差别,数据见教材表8-14。教材表8-144类人员乙型肝炎表面抗体(HBsAb)的阳性率 组别 阳性人数阴性人数合计阳性率/%肝癌病人肝炎病人食管癌病人健康人合计1718531591601421511761781471549.6610.113.401.95436126556.56请大家对本案例讨论如下问题:若看成一个4×2列联表资料进行1次2检验,是否能达到分析目的?若将每一种病人与健康人群HBsAb的检查结果分别组成四格表,进行3次四格表2检验,对否?怎样达到分析目的?案例辨析因为分析目的是“想比较3种病人与健康人群的阳性率有无差别”,进行1次2检验,不能达到分析目的。独立地进行3次四格表2检验是不妥的,因为那样做会增大犯假阳性错误的概率。正确做法就本例而言,对于这个4组二分类资料,当小于5的理论频数的个数少于总格子数的1/5时,适合用一般2检验进行总的分析。其结果是2=14.1489,P=0.0027<0.05,4类人员HBsAb阳性率之间的差别有统计学意义。接着作两两比较,原作者较关注3种病人与健康人的HBsAb比较,其阳性率是否有差异,因此只需比较3次。但每次比较,对应的检验水准应作调整(见后)。为了达到前述的统计分析目的,又使犯假阳性错误的概率不增加,应当对每个四格表资料进行假设检验时降低检验水准,即取0.05/(23)0.0083。于是,肝癌病人和健康人比较2=8.5779,P=0.0034<0.0083;肝炎病人和健康人比较2=9.2883,P=0.0023<0.0083;食管癌病人和健康人比较2校正=0.1807,P=0.6707>0.0083。因此可以认为,肝癌病人、肝炎病人和健康人的HBsAb阳性率有差异,而不能认为食管癌病人和健康人的HBsAb阳性率有差异。(说明:2检验通常为单侧检验,所以,校正的应等于/(2C),这里C为两两比较的总次数)案例8-2在论文《果糖二磷酸钠治疗新生儿缺氧缺血性脑病的疗效观察》中,为了研究果糖二磷酸钠治疗新生儿缺氧缺血性脑病的疗效,将患者随机分为观察组和对照组,观察组用果糖二磷酸钠,对照组用胞磷胆碱。治疗效果分为无效、有效和显效三种结果(教材表8-15)。教材表8-15观察组与对照组的疗效比较组别疗效(例数)显效有效无效合计观察组584418120对照组合计5643351341148753254原作者采用列联表的专用2检验公式,结果是:2=4.74,P<0.05,认为两组疗效之间的差异有统计学意义。请大家对本案例讨论如下问题:原作者的分析目的是什么?选用2检验的问题在哪里?什么情况下可以选用2检验?本问题应选用的统计分析方法是什么?为什么要选择这样的方法?案例辨析分析目的为“比较观察组与对照组治疗新生儿缺氧缺血性脑病的疗效有无差异”;选用2检验不能达到前述的分析目的,因为此检验法与疗效的有序性没有任何联系。正确做法如果仅关心两个实验分组中的患者在三个疗效等级上的人数分布是否相同,此时,可以选用2检验。本例的定性资料属于“结果变量为有序变量的单向有序的23列联表资料”,为了实现前述的统计分析目的,应选用秩和检验。本例采用秩和检验进行统计分析,H2.8107,P=0.0936。尚不能得出两组疗效之间的差异有统计学意义的结论。C案例8-3某研究者欲比较食管癌TNM分期的某种基因蛋白阳性表达率有无差异,收集了食管癌Ⅱa期患者7例、Ⅱb期患者10例、Ⅲ期患者23例,检测了某种基因蛋白的阳性表达例数(X)分别为3、8和21例。研究者考虑食管癌的TNM分期是有序变量,因此运用秩和检验处理资料,结果H=6.1191,P=0.0134(教材表8-16),差异有统计C学意义。教材表8-16食管癌TNM分期的阳性表达情况与秩和检验结果食管癌TNM分期nX/nHCPⅡa73/7Ⅱb108/106.11910.0134Ⅲ2321/23请大家对本案例讨论如下问题:原作者的分析目的是什么?在此目的下应选择的统计分析方法是什么?在什么情况下可以选用秩和检验?案例辨析原作者盲目选择秩和检验处理了该资料。原作者的分析目的是“食管癌TNM分期在某种蛋白的阳性表达率方面有无差异”;为实现此分析目的,首先应弄清这是一个什么样的列联表资料。食管癌TNM分期这个有序变量是“原因变量”,不是“结果变量”,结果变量为“是否阳性”,故此定性资料可以被视为“双向无序的32列联表资料”。正确做法以采用一般2检验或Fisher精确检验(若小于5的理论频数的个数小于总格子数的1/5)处理资料为宜。可将教材表8-16整理成案例表8-1,因为有3个理论频数小于5,故采用Fisher精确概率法进行计算更合适,结果是:P=0.0172,可以认为食管癌TNM不同分期某种蛋白的阳性表达率之间的差异有统计学意义。案例表8-1食管癌TNM分期的某种蛋白阳性表达情况 食管癌TNM分期 阳性例数 阴性例数 合计Ⅱa347Ⅱb8210Ⅲ 21 2 23 合计 32 8 40但当结果变量为多值有序变量,且希望比较各期患者在结果上的差别是否具有统计学意义时,需要选用秩和检验。本例,原作者对原因变量“赋值或打分”,采用秩和检验是没有意义的。第9章关联性分析案例辨析及参考答案案例9-1有研究者以“正常血糖、糖耐量减低及2型糖尿病人群胰岛素抵抗与非酒精性脂肪肝的相关分析”为题,研究了非酒精性脂肪肝的患病率与糖尿病分级(即正常血糖、糖耐量减低和2型糖尿病三级)的关系。以正常血糖者、糖耐量减低者和2型糖尿病患者为研究对象,年龄、性别可比,无大量饮酒史、肝炎史,脂肪肝的诊断以影像学结果为准。指标以均数±标准差表示,统计分析采用两组独立样本比较的t检验。结果发现,三组血糖、胰岛素、血脂水平等和脂肪肝患病率差别有统计学意义(数据及统计结果见教材表9-7),糖耐量减低组与正常血糖组比较P<0.05,2型糖尿病组与糖耐量减低组比较P<0.05。结论,随着正常血糖向糖耐量减低及糖尿病发展,血糖、血脂、胰岛素抵抗指数及脂肪肝患病率等指标值皆升高并逐渐加重,差异有统计学意义,认为脂肪肝患病率与血糖水平、血胰岛素、血脂、胰岛素抵抗、糖耐量减低和2型糖尿病等成正相关。教材表9-7三种血糖水平人群的血生化及脂肪肝患病率血糖 胰岛素 胰胰素 脂肪三酰甘油总胆固醇/mmolL1 /mmolL1 抵抗指数肝患组别 例 / // 病率空腹餐后空腹餐后mmolL1mmolL1mmolL1/%8正常血糖75.0±5.6±7.4±24±80.5 1.0 1.80.9±0.33.0±0.90.6±0.548.36糖耐量减低26.5±8.2±11.4±134±0.5 1.3 2.7 582.1±1.04.6±0.81.2±0.769.462型糖尿病88.3±12.5±16.8±114±2.6 3.4 3.2 442.6±1.55.1±0.81.9±0.783.8经t检验,糖耐量减低组与正常血糖组比较,以及2型糖尿病与正常血糖组比较,各指标比较的P值均<0.01;而2型糖尿病与糖耐量减低组比较,餐后胰岛素两组比较P<0.05,脂肪肝患病率比较P<0.05,其余各指标比较的P值均<0.01。请问:该研究的目的与设计方法吻合吗?该研究设计属于何种类型?有无更好的设计方案?本设计最适合哪种统计分析法?本例的统计分析方法有何不妥?本例的统计分析结果能推出本例的结论吗?若否,则可以推出什么结论?本例的统计表达有何不妥吗?案例辨析这里,题目是“相关分析”,结果也得到了“相关”的结果,但仔细分析其研究内容与统计学方法,发现其测量了三组人群的血糖、血脂和脂肪肝患病率,这样的设计属于多组比较的设计,不能达到相关分析的目的,最多只能认为研究的结局指标与分组因素“有关”。正确做法欲进行相关分析,必须从特定人群(如正常人或糖耐量减低但未患糖尿病的人或2型糖尿病患者)中抽取一组随机样本,直接采用Pearson相关分析研究定量观测指标血糖、胰岛素、血脂水平等之间的相关关系;若希望研究以上三个人群之间血糖、胰岛素、血脂水平等与脂肪肝患病率之间的关系,应采用较复杂的统计分析方法(如多重logistic回归分析)处理,此处从略。案例9-2有研究者欲评价两种量表对某疾病的严重程度得分的一致性,评分者A用量表1,评分者B用量表2,对同一批患者(5人)进行了评分,结果见教材表9-8,研究者在Excel中采用Pearson函数计算了两次评分的相关系数,结果两者相关系数非常之高(r=0.8663),因此认为,两种量表得分是一致的。教材表9-8两种量表评分的结果量表评分人患者1患者2患者3患者4患者51A86907388782B4547394240请问:该研究的目的与设计方法吻合吗?就本例的设计而言,存在任何不妥吗?本例可否采用Pearson相关系数进行计算?计算的结果正确吗?推论正确吗?案例辨析在本例中,突出的问题有两个。第一个问题是样本量太小,只有5人,难以得出有统计学意义的结论。查表得知,当样本量只有5时,自由度为3,此时在0.05的水平要得到有统计学意义的相关系数值的最低界限是0.878,本例系数为0.86,尚未达到有统计学意义的临界值,原研究者必定是对相关系数未作假设检验而妄下断论。第二个问题是以“相关”推断“一致”。实际上,“相关”与“一致”有本质的区别。“相关”可以是不同指标间的相关,可以正相关,可以负相关,只表示变量间的联系,而“一致”则是同指标间同方向且基本同值的概念。令Y2X5,则X,Y间相关系数为1,但它们并不一致,在不考虑截距项的前提下,X增加1倍,Y平均增加2倍。实际研究中也有这样的例子,如仪器未校正时与校正后的数据,两者相差一个系统误差,但相关系数为1。正确做法①增加样本量。②将同一病人的两份量表评分总分视为X、Y两变量的取值,采用后面将要讲到的简单线性回归分析方法处理,进行回归参数假设检验时,应检验总体截距是否等于0、总体斜率是否等于1。③对两份量表的分级的符合性进行Kappa系数分析。案例9-3有研究者欲研究某药口服量与血药浓度关系,把口服药物设定为1,2.5,5,7.5,10,15,20,等档次30 ,每档各取3只动物(共24只)进行试验,于服药后1h抽血检验血药浓度(教材表9-9)。在SPSS中作散点图(教材图9-4),计算得口服药物量与血药浓度的Pearson相关系数=0.979,经假设检验P<0.001,认为口服药物量与血药浓度呈线性正相关。教材表9-9不同口服量与相应血药浓度口服量/mg1112.52.52.55557.57.57.5血药浓度/mmolL10.30.40.30.60.60.71.01.01.11.81.92.0口服量/mg101010151515202020303030血药浓度/mmolL12.83.03.04.54.54.38.38.07.815.214.213.8.专业整理..学习帮手..学习帮手..学习帮手. 平均身高 平均身高 平均身高 年龄 年龄 年龄 男孩 女孩 男孩 女孩 男孩 女孩 4.0102.1101.28.0 126.8 126.3 14.0162.5157.1 4.5105.3104.59.0 132.2 131.8 15.0166.1157.7 5.0108.6107.610.0 136.6 137.9 16.0169.0158.7 5.5111.6110.811.0 142.3 144.1 17.0170.6158.9 6.0116.2115.112.0 147.2 150.0 18.0170.7158.9 7.0122.5121.113.0 156.3 155.1 数据文件:data10-2.sav。采用SPSS对身高与年龄进行回归分析,结果如表教材10-5和教材表10-6所示。教材表10-5男孩身高对年龄的简单线性回归分析结果估计值标准误PConstant83.73631.882444.48390.0000AGE5.27480.167631.47980.0000tF=990.98R2=98.5%教材表10-6女孩身高对年龄的简单线性回归分析结果估计值标准误PConstant88.43263.280026.96110.0000AGE4.53400.292015.52900.0000tF=241.15R2=94.1%经拟合简单线性回归模型,t检验结果提示回归方程具有统计学意义。R2结果提示,拟合效果非常好,故可认为:男孩与女孩的平均身高随年龄线性递增,年龄每增长1岁,男孩与女孩身高分别平均增加5.27cm与4.53cm,男孩生长速度快于女孩的生长速度。依照回归方程预测该地男孩10.5岁、16.5岁、19岁和20岁的平均身高依次为139.1cm、170.8cm、184.0cm和189.2cm;该地女孩10.5岁、16.5岁、19岁和20岁的平均身高依次为136.0cm、163.2cm、174.6cm和179.1cm。针对以上分析结果,请考虑:分析过程是否符合回归分析的基本规范?回归模型能反映数据的变化规律吗?拟合结果和依据回归方程而进行的预测有问题吗?(4)男孩生长速度快于女孩的生长速度的推断是否有依据?案例辨析未绘制散点图,盲目进行简单线性回归分析;若实际资料反映两变量之间.专业整理.专业整理.呈现某种曲线变化趋势,用简单线性回归方程去描述其变化规律就是不妥当的。正确做法分析策略:作散点图,选择曲线类型,合理选择模型,统计预测。(1)作散点图(案例图10-1)。案例图10-1儿童身高对年龄的散点图(a)男孩身高;(b)女孩身高由案例图10-1可见,随着年龄的增加,身高也增加,但呈曲线变化趋势,15~16岁后,增加趋势逐渐趋于平缓。因此适合于拟合曲线回归方程。选择曲线类型,进行统计分析,几种曲线方程拟合结果如下。ModelSummaryandParameterEstimatesDependentVariable:男孩身高EquationEquationModelSummaryParameterEstimatesRSquareFdf1df2Sig.Constantb1b2b3Linear.985990.980115.00083.7365.275Quadratic.9931051.826214.00071.2708.103-.132Cubic.9961023.177313.00089.6091.735.512-.020Growth.973535.145115.0004.514.039Theindependentvariableis年龄。DependentVariable:女孩身高EquationEquationModelSummaryParameterEstimatesRSquareFdf1df2Sig.Constantb1b2b3Linear.941241.151115.00088.4334.534Quadratic.9941206.902214.00060.78810.805-.292Cubic.9982575.942313.00081.8573.490.447-.023Growth.924182.200115.0004.539.034Theindependentvariableis年龄。上述曲线类型依次为线性、二次、三次多项式曲线和生长曲线,由拟合结果可知,曲线拟合效果较好,进一步得到曲线图(案例图10-1):选择合理的模型,列出回归方程。以女孩身高二次曲线为例,方程如下:多项式曲线:YˆabXbX2bX360.7910.81X0.29X2 1 2 3(4)统计预测:预测19岁女孩身高为60.788+10.805×18-0.292×182=160.7,与实际趋势相符。其他预测方法相同。案例10-2贫血患者的血清转铁蛋白研究。第6章例6-1中,为研究某种新药治疗贫血患者的效果,将20名贫血患者随机分成两组,一组用新药,另一组用常规药物治疗,测得血红蛋白增加量(g/L)见表6-1。问新药与常规药治疗贫血患者后的血红蛋白增加量有无.专业整理..专业整理..学习帮手..学习帮手..专业整理..学习帮手.差别?张医生用t检验比较新药与常规药治疗贫血患者后的血红蛋白增加量,计算得:X=27.99,X=20.21,t=4.137。 1 2王医生认为,可以作线性回归分析。在该数据中涉及了两个变量,一是观察效应变量(连续性),即血红蛋白增加量,将之作为回归分析中的因变量Y;另外一个变量为处理因素(二分类变量),即影响因素,将之作为自变量X,其中新药组X=1,常规药组X=0。数据转换为双变量资料形式(教材表10-7),经分析得回归方程Yˆ20.217.78X,t=4.137。教材表10-7两种药物治疗贫血患者结果编号编号YX编号YX编号YX编号YX119.50622.001130.511632.51219.00719.001221.411729.51313.00815.501325.011825.51424.70924.501434.511924.41521.501023.401533.012023.61数据文件:data10-3.sav。请考虑:王医生的分析方法对不对?回归分析能代行两样本均数t检验的任务吗?通过这个案例的实践,你得到哪些启发?案例辨析王医生的分析方法是对的;回归分析能代行两样本均数t检验的任务。其理由如下。正确做法两样本合并后,总例数为nnn=20。进行直线回归分析,结果如1 2下:Yˆ20.217.78X,R2=0.698。经检验,贫血患者治疗后的血红蛋白增加量与治疗有关。正常人均数:YˆabX=20.21+7.78×0=20.211患者均数:YˆabX=20.21+7.78×1=27.991截距与两样本均数的差值相等。分别进行回归方程的方差分析与回归系数的t检验,得F=17.112,t=4.137。回归系数的t检验结果与两样本均数的t检验结果完全一致。以上结果说明,t检验的结果可以转化为直线回归方程分析。当分组因素为k个组(样本)时,可以设置为k-1个指示变量,采用第11章的多重线性回归分析,这在多因素分析中是最常采用的办法。第11章多重线性回归分析案例辨析及参考答案案例11-1预测人体吸入氧气的效率。为了解和预测人体吸入氧气的效率,某人收集了31名中年男性的健康调查资料。一共调查了7个指标,分别是吸氧效率(Y,%)、年龄(X,岁)、体重(X,kg)、跑1.5km所需时间(X,min)、休息时的心跳频 1 2 3率(X,次/min)、跑步时的心跳频率(X,次/min)和最高心跳频率(X,次5 6/min)(教材表11-9)。试用多重线性回归方法建立预测人体吸氧效率的模型。教材表11-9吸氧效率调查数据资料来自:张家放主编.医用多元统计方法.武汉:华中科技大学出版社,2002。该研究员采用后退法对自变量进行筛选,最后得到结果如教材表11-10所示。教材表11-10多重线性回归模型的参数估计Table11-10ParameterestimationofregressionmodelUnstandardizedCoefficientsStandardized Variable t P B Std.ErrorCoefficientsIntercept100.07911.5778.6440.000X1-0.2130.091-0.214-2.3370.027X3-2.7680.331-0.721-8.3540.000X5-0.3390.116-0.653-2.9390.007X0.2550.1320.4391.9360.0646*F34.90,P0.001R20.843对模型进行方差分析的结果认为模型有统计学意义(P<0.05),确定系数的数值(0.843)也说明模型拟合的效果较好。考察各个自变量的偏回归系数,研究者发现,X6的偏回归系数符号为正,认为最高心跳频率越大,人的吸氧效率就越高,这与专业结论相反。出现这种悖论的原因是什么呢?案例辨析我们先分析一下各个自变量之间的简单相关系数,结果发现X和X存在6有较强的相关(r=0.930,P<0.001),对回归模型进行共线性诊断,结果发现自变量X的5容忍度为0.122,方差膨胀因子等于8.188,自变量X的容忍度为0.117,方差膨胀因子等6于8.522,说明自变量之间存在多重共线性,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论