版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第1章 绪论三、思考题1. 生物统计学与其他统计学有什么区别和联系? 答:统计学可细分为数理统计学、经济统计学、生物统计学、卫生统计学、医学统计学等,都是关于数据的学问,是从数据中提取信息、知识的一门科学与艺术。而生物统计学是统计学原理与方法应用于生物学、医学的一门科学,与医学统计学和卫生统计学很相似,其不同之处在于医学统计学侧重于介绍医学研究中的统计学原理与方法,而卫生统计学更侧重于介绍社会、人群健康研究中的统计学原理与方法。2. 某年级甲班、乙班各有男生50人。从两个班各抽取10人测量身高,并求其平均身高。如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高大于乙班?为什么?答:不能
2、。因为,从甲、乙两班分别抽取的10人,测量其身高,得到的分别是甲、乙两班的一个样本。样本的平均身高只是甲、乙两班所有同学平均身高的一个点估计值。即使是按随机化原则进行抽样,由于存在抽样误差,样本均数与总体均数一般很难恰好相等。因此,不能仅凭两个样本均数高低就作出两总体均数熟高熟低的判断,而应通过统计分析,进行统计推断,才能作出判断。3. 某地区有10万个7岁发育正常的男孩,为了研究这些7岁发育正常男孩的身高和体重,在该人群中随机抽取200个7岁发育正常的男孩,测量他们的身高和体重,请回答下列问题。(1)该研究中的总体是什么?答:某地区10万个7岁发育正常的男孩。(2)该研究中的身高总体均数的意
3、义是什么? 答:身高总体均数的意义是: 10万个7岁发育正常的男孩的平均身高。(3)该研究中的体重总体均数的意义是什么? 答:体重总体均数的意义是: 10万个7岁发育正常的男孩的平均体重(4) 该研究中的总体均数与总体是什么关系? 答:总体均数是反映总体的统计学特征的指标。(5)该研究中的样本是什么? 答:该研究中的样本是:随机抽取的200个7岁发育正常的男孩。二、简答题1. 对定量资料进行统计描述时,如何选择适宜的指标? 答:详见教材表2-18。教材表2-18 定量资料统计描述常用的统计指标及其适用场合描述内容指 标意 义适 用 场 合平均水平均 数个体的平均值对称分布几何均数平均倍数取对数
4、后对称分布中 位 数位次居中的观察值非对称分布;半定量资料;末端开口资料;分布不明众 数频数最多的观察值不拘分布形式,概略分析调和均数基于倒数变换的平均值正偏峰分布资料变 异 度全 距观察值取值范围不拘分布形式,概略分析标 准 差(方 差)观察值平均离开均数的程度对称分布,特别是正态分布资料四分位数间距居中半数观察值的全距非对称分布;半定量资料;末端开口资料;分布不明变异系数标准差与均数的相对比不同量纲的变量间比较;量纲相同但数量级相差悬殊的变量间比较2. 举例说明频率和频率分布的区别和联系。 答:2005年某医院为了调查肺癌患者接受姑息手术治疗1年后的情况,被调查者150人,分别有30人病情
5、稳定,66人处于进展状态,54人死亡。当研究兴趣只是了解死亡发生的情况,则只需计算死亡率54/150=36%,属于频率指标。当研究者关心患者所有可能的结局时,则可以算出反映3种结局的频率分别为20%、44%、36%,它们共同构成所有可能结局的频率分布,是若干阳性率的组合。两者均为“阳性率”,都是基于样本信息对总体特征进行估计的指标。不同的是:频率只是一种结局发生的频率,计算公式的分子是某一具体结局的发生数;频率分布则由诸结局发生的频率组合而成,计算公式的分子分别是各种可能结局的发生数,而分母则与频率的计算公式中分母相同,是样本中被观察的单位数之和。3. 应用相对数时应注意哪些问题?答:(1)防
6、止概念混淆 相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。(2)计算相对数时分母不宜过小 样本量较小时以直接报告绝对数为宜。(3)观察单位数不等的几个相对数,不能直接相加求其平均水平。(4)相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。4. 常用统计图有哪些?分别适用于什么分析目的? 答:详见教材表2-20。教材表2-20 常用统计图的适用资料及实施方法图 形适 用 资 料实 施 方 法条 图组间数量对比用直条高度表示数量大小直 方 图定量资料的分布用直条的面积表示各组段的频数或频率百分条图构成比用直条分段的长度表示全体中
7、各部分的构成比饼 图构成比用圆饼的扇形面积表示全体中各部分的构成比线 图定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系散 点 图双变量间的关联点的密集程度和形成的趋势,表示两现象间的相关关系箱 式 图定量资料取值范围用箱体、线条标志四分位数间距及中位数、全距的位置茎 叶 图定量资料的分布用茎表示组段的设置情形,叶片为个体值,叶长为频数三、计算题1. 某内科医生调查得到100名4050岁健康男子总胆固醇(mg/dl),结果如下22719022425922523818019321419521319320917224
8、4199155208203199253181196224210220255257216249235220190203197149175236202209174184174185167235167210171248201266189222199197214199198230246209202186217206200203197161247138186156195163273178190207259186194246172234232189172235207208231234226174199278277181(1)编制频数表,绘制直方图,讨论其分布特征。答:频数表见练习表2-1。根据直方图(练习
9、图2-1),可认为资料为基本对称分布,其包络线见练习图2-2。练习表2-1 某地100名4050岁健康男子总胆因醇/(mgdl-1)FrequencyPercentValid PercentCumulative PercentValid 130145160175190205220235250265280Total1 3 11 12 25 15 13 11 5 4 100 1.0 3.011.012.025.015.013.011.05.04.0100.0 1.0 3.011.012.025.015.013.011.05.04.0100.0 1.04.015.027.052.067.080.09
10、1.096.0100.0 练习图2-1 直方图练习图2-2 包络线图(2)根据(1)的讨论结果,计算恰当的统计指标描述资料的平均水平和变异度。答:利用原始数据,求出算术均数 mg/dl 和标准差mg/dl。(3)计算P25,P75和P95。答:利用原始数据,求出P25=186.8 mg/dl,P75=229.3 mg/dl,P95=259.0 mg/dl。2. 某地对120名微丝蚴血症患者治疗3个疗程后,用IFA间接荧光抗体试验测得抗体滴度如下,求抗体滴度的平均水平。抗体滴度1:51:101:201:401:801:1601:320例 数516273422133利用上述频数表,得平均滴度为1:
11、36.3。3. 某地19751980年出血热发病和死亡资料如教材表2-21,设该地人口数在此6年间基本保持不变。教材表2-21 某地6年间出血热的发病与死亡情况年 份发病数病死数1975324197656519771621219782411319793301019802745试分析:(1)粗略判断发病率的变化情况怎样。答:该地人口数在此6年间基本保持不变,发病人数在1979年前逐年上升,1980年略有下降。可以认为发病率大致呈上升趋势,1980年略有下降。(2)病死率的变化情况怎样? 答: 病死率由各年度病死数除以发病数获得,病死率依次为12.5%、8.9%、7.4%、5.4%、3.0%和1.
12、8%,呈逐年下降趋势。(3)上述分析内容可用什么统计图绘制出来? 答:由于没有给出该地人口数,故不能计算发病率,可用普通线图表示发病数变化情况。病死率的下降情况可以用普通线图表示,下降速度则可以用半对数线图表示。(4)评述该地区出血热防治工作的效果。答:随着时间的推移,预防工作做得不好,治疗水平则逐年提高(体现在病死率下降)。 (张晋昕)第3章 概率分布二、思考题1. 服从二项分布及Poisson分布的条件分别是什么?简答:二项分布成立的条件:每次试验只能是互斥的两个结果之一;每次试验的条件不变;各次试验独立。Poisson分布成立的条件:除二项分布成立的三个条件外,还要求试验次数很大,而所关
13、心的事件发生的概率很小。2. 二项分布、Poisson分布分别在何种条件下近似正态分布?简答: 二项分布的正态近似:当n较大,不接近0也不接近1时,二项分布B(,)近似正态分布N(, )。Poisson分布的正态近似:Poisson分布,当相当大时(20),其分布近似于正态分布。三、计算题1. 已知某种非传染性疾病常规疗法的有效率为80%,现对10名该疾病患者用常规疗法治疗,问至少有9人治愈的概率是多少?解:对10名该疾病患者用常规疗法治疗,各人间对药物的反应具有独立性,且每人服药后治愈的概率均可视为0.80,这相当于作10次独立重复试验,即=0.80,n=10的贝努利试验,因而治愈的人数X服
14、从二项分布。至少有9人治愈的概率为: 至少有9人治愈的概率是37.58%。或者2. 据以往的统计资料,某地新生儿染色体异常率为1%,问100名新生儿中染色体异常不少于2名的概率是多少?解:=3. 调查某市2000年110名20岁男性青年的身高(cm)资料如下:173.1 166.8 172.9 175.9 172.8 170.5 174.1 174.2 175.7 173.5168.2 173.7 184.4 174.8 172.5 174.9 174.9 174.2 173.8 176.2170.9 165.0 176.3 174.2 179.8 174.5 180.5 171.5 178.
15、9 171.5166.7 170.8 168.8 177.5 174.5 183.5 182.0 170.9 173.5 177.5181.2 177.1 172.3 176.5 174.0 174.3 174.6 172.6 171.3 173.1176.9 170.5 174.2 177.5 176.6 182.3 172.1 169.9 179.5 175.8178.6 180.6 175.6 173.3 168.7 174.5 178.5 171.3 172.0 173.2168.8 176.0 182.6 169.5 177.5 180.6 181.5 175.1 165.2 168
16、.0175.4 169.2 170.0 171.9 176.6 178.8 177.2 173.4 168.5 177.6175.8 164.8 175.6 180.0 176.6 176.5 177.7 174.1 180.8 170.6173.8 180.7 176.3 177.5 178.3 176.0 174.8 180.8 176.5 179.2(1)试估计当年该市20岁男性青年中,身高在175.0178.0(cm)内的占多大比例?(2)估计当年该市95%以及99%的20岁男青年身高范围。(3)若当年由该市随机抽查1名20岁男青年,试估计其身高超过180 cm的概率。解:用SPSS计
17、算本题。数据文件:data3-n.sav。数据格式:数据库2列110行,变量n为男性青年序号,x表示身高。操作步骤:操作说明Analyze Descriptive StatisticsDescriptives Options Mean Std. Deviation Continue Variables: x OK调用Descriptives过程计算得均数=174.766,标准差=4.150 9TransformCompute调用“变量计算(Compute Variable)”对话框Target Variable P 定义目标变量“P”Numeric Expression:CDF.NORMAL(
18、178.0,174.766,4.1509)-CDF.NORMAL(175.0,174.766,4.1509) OK当年该市20岁男性青年中,身高在175.0178.0 cm内的比例Target Variable x1 该市95%以及99%的20岁男青年身高范围间的比例Numeric Expression:174.766-1.96*4.1509OKTarget Variable x2 Numeric Expression:174.766+1.96*4.1509OKTarget Variable x3 Numeric Expression:174.766-2.58*4.1509OKTarget V
19、ariable x4 Numeric Expression:174.766+2.58*4.1509OKTarget Variable p1 Numeric Expression:1-CDF.NORMAL(180.0,174.766,4.1509)OK由该市随机抽查1名20岁男青年,其身高超过180 cm的概率计算结果(练习图3-1):Descriptive StatisticsNMeanStd. Deviationx110174.7664.1509Valid N (listwise)110练习图3-1 SPSS输出结果以上是SPSS输出结果,得到均数(Mean)为174.766 cm,标准差(
20、Std. Deviation)为4.150 9 cm。估计当年该市20岁男性青年中,身高在175.0178.0 cm内的比例为25.956%,身高在175.0178.0 cm内的约有29人。 估计当年该市95%的20岁男青年身高范围为166.63182.90 cm,99% 的20岁男青年身高范围为164.06185.48 cm。 由该市随机抽查1名20岁男青年,估计其身高超过180 cm的概率约为10%。 (祁爱琴 高 永 石德文)第4章 参数估计思考与练习参考答案二、思考题1. 简述标准误与标准差的区别。 答: 区别在于:(1)标准差反映个体值散布的程度,即反映个体值彼此之间的差异;标准误反
21、映精确知道总体参数(如总体均数)的程度。(2)标准误小于标准差。(3)样本含量越大,标准误越小,其样本均数更有可能接近于总体均数,但标准差不随样本含量的改变而有明显方向性改变,随着样本含量的增大,标准差有可能增大,也有可能减小。2. 什么叫抽样分布的中心极限定理? 答: 样本含量n越大,样本均数所对应的标准差越小,其分布也逐渐逼近正态分布,这种现象统计学上称为中心极限定理(central limit theorem)。当有足够的样本含量(如)时,从任何总体中抽取随机样本的样本均数近似地服从正态分布。样本含量越大,抽样分布越接近于正态分布。正态分布的近似程度与总体自身的概率分布和样本含量有关。如
22、果总体原本就是正态分布,那么对于所有值,抽样分布均为正态分布。如果总体为非正态分布,仅在n值较大情况下近似服从正态分布。一般说,时的抽样分布近似为正态分布;但是,如果总体分布极度非正态(如双峰分布、极度偏峰分布),即使有足够大的值,抽样分布也将为非正态。3. 简述置信区间与医学参考值范围的区别。 答: 置信区问与医学参考值范围的区别见练习表4-1。练习表4-1 置信区间与医学参考值范围的区别区别置信区间参考值范围含义用途计算公式总体参数的波动范围,即按事先给定的概率100(1)%所确定的包含未知总体参数的一个波动范围估计未知总体均数所在范围未知: 已知或未知但n30,有或个体值的波动范围,即按
23、事先给定的范围100(1)%所确定的“正常人”的解剖、生理、生化指标的波动范围供判断观察个体某项指标是否“正常”时参考(辅助诊断)正态分布: 偏峰分布:PXP100X4. 何谓置信区间准确度与精确度?如何协调两者间的关系。答:置信区间有准确度(accuracy)与精密度(precision)两个要素。准确度由置信度(1) 的大小确定,即由置信区间包含总体参数的可能性大小来反映。从准确度的角度看,置信度愈接近于1愈好,如置信度99比95好。精密度是置信区间宽度的一半(即、),意指置信区间的两端点值离样本统计量(如、p)的距离。从精密度的角度看,置信区间宽度愈窄愈好。在抽样误差确定的情况下,两者是
24、相互矛盾的。为了同时兼顾置信区间的准确度与精密度,可适当增加样本含量。三、计算题1.随机抽取了100名一年级大学生,测得空腹血糖均数为4.5 mmol/L,标准差为0.61 mmol/L。试估计一年级大学生空腹血糖总体均数及方差的95置信区间。答:总体均数95置信区间为(4.379,4.621),方差的95置信区间为(0.286 9, 0.502 1)。2.调查某地蛲虫感染情况,随机抽样调查了260人,感染人数为100。试估计该地蛲虫感染率的95%置信区间。 答:该地蛲虫感染率的95%置信区间为(32.55,44.38)。(宇传华) 第5章 假设检验二、思考题1试述假设检验中与P的联系与区别。
25、答:值是决策者事先确定的一个小的概率值。P值是在成立的条件下,出现当前检验统计量以及更极端状况的概率。P时,拒绝假设。2. 试述假设检验与置信区间的联系与区别。答:区间估计与假设检验是由样本数据对总体参数作出统计学推断的两种主要方法。置信区间用于说明量的大小,即推断总体参数的置信范围;而假设检验用于推断质的不同,即判断两总体参数是否不等。 3. 怎样正确运用单侧检验和双侧检验?答:选用双侧检验还是单侧检验需要根据数据的特征及专业知识进行确定。若比较甲、乙两种方法有无差异,研究者只要求区分两方法有无不同,无需区分何者为优,则应选用双侧检验。若甲法是从乙法基础上改进而得,已知如此改进可能有效,也可
26、能无效,但不可能改进后反不如以前,则应选用单侧检验。在没有特殊专业知识说明的情况下,一般采用双侧检验即可。4. 试述两类错误的意义及其关系。答:类错误(typeerror):如果检验假设实际是正确的,由样本数据计算获得的检验统计量得出拒绝的结论,此时就犯了错误,统计学上将这种拒绝了正确的零假设(弃真)的错误称为类错误。类错误(type error):假设检验的另一类错误称为类错误(type error),即检验假设原本不正确(正确),由样本数据计算获得的检验统计量得出不拒绝(纳伪)的结论,此时就犯了类错误。类错误的概率用 表示。在假设检验时,应兼顾犯类错误的概率()和犯类错误的概率()。犯类错
27、误的概率()和犯类错误的概率()成反比。如果把类错误的概率定得很小,势必增加犯类错误的概率,从而降低检验效能;反之,如果把类错误的概率定得很小,势必增加犯类错误的概率,从而降低了置信度。为了同时减小和,只有通过增加样本含量,减少抽样误差大小来实现。5试述检验功效的概念和主要影响因素。答:拒绝不正确的的概率,在统计学中称为检验功效(power of test),记为。检验功效的意义是:当两个总体参数间存在差异时(如备择假设:成立时),所使用的统计检验能够发现这种差异(拒绝零假设:)的概率,一般情况下要求检验功效应在0.8以上。影响检验功效的四要素为总体参数的差异、总体标准差、检验水准及犯类错误的
28、概率。6简述假设检验的基本思想。答:假设检验是在H0成立的前提下,从样本数据中寻找证据来拒绝、接受的一种“反证”方法。如果从样本数据中得到的证据不足,则只能不拒绝,暂且认为成立(因为拒绝的证据不足),即样本与总体间的差异仅仅是由于抽样误差所引起。拒绝是根据某个界值,即根据小概率事件确定的。所谓小概率事件是指如果比检验统计量更极端(即绝对值更大)的概率较小,比如小于等于0.05(各种科研杂志习惯上采用这一概率值),则认为零假设的事件在某一次抽样研究中不会发生,此时有充分理由拒绝,即有足够证据推断差异具有统计学意义。三、计算题1. 一般正常成年男子血红蛋白的平均值为140 g/L,某研究者随机抽取
29、25名高原地区成年男子进行检查,得到血红蛋白均数为155 g/L,标准差25 g/L。问:高原地区成年男子的血红蛋白是否比一般正常成年男子的高? 解: : (单侧)=3.00 t=3,可认为高原地区居民的血红蛋白比一般正常成年男子的高。2. 一般而言,对某疾病采用常规治疗,其治愈率约为45%。现改用新的治疗方法,并随机抽取180名该疾病患者进行了新疗法的治疗,治愈117人。问新治疗方法与常规疗法的效果是否有差别?解:,:,5.41Z=5.41,可认为新治疗方法与常规疗法的效果不同,新疗法优于常规疗法。 (林爱华 宇传华)第6章 两样本定量资料的比较思考与练习参考答案二、思考题1假设检验中,P值
30、和的含义是什么?两者有什么关系? 答:P是指H0成立时出现目前样本情形的概率最多是多大, 是事先确定的检验水准。但P值的大小和没有必然关系。2. 既然假设检验的结论有可能有错,为什么还要进行假设检验? 答:假设检验中,无论拒绝不拒绝H0,都可能会犯错误,表现为拒绝H0时,会犯类错误,不拒绝H0时,会犯类错误,但这并不能否认假设检验的作用。只要涉及到抽样,就会有抽样误差的存在,因此就需要进行假设检验。只是要注意,假设检验的结论只是个概率性的结论,它的理论基础是“小概率事件不可能原理”。3. 配对设计资料能否用完全随机设计资料的统计检验方法?为什么?答:不能。采用完全随机设计资料的t检验会使检验效
31、能降低,从而可能会使应有的差别检验不出来。4. 对于完全随机设计两样本定量资料的比较,如何选择统计方法? 答:完全随机设计两样本定量资料比较统计方法的选择最关键的是看是否满足正态性(样本量较大时不必进行正态性检验)和方差齐性。如果资料来自正态总体且总体方差齐,采用t 检验;如果满足正态性但总体方差不齐,采用t检验;当两者都不满足时,才考虑选用秩和检验。当然,我们也可采用变量变换的方法使其满足t或t检验的条件。5. 为什么在秩和检验编秩次时不同组间出现相同数据要给予“平均秩次”,而同一组的相同数据不必计算“平均秩次”? 答:秩和检验编秩次时不同组间出现相同数据要给予“平均秩次”,而同一组的相同数
32、据不必计算“平均秩次”,是因为取不取“平均秩次”对该组的总的秩和没有影响。三、计算题 1. 某单位研究饲料中维生素E缺乏对肝中维生素A含量的影响,将同种属、同年龄、同性别、同体重的大白鼠配成8对,并将每对动物随机分配到正常饲料组和缺乏维生素E的饲料组,定期将大白鼠杀死,测定其肝中维生素A的含量(教材表6-12),问饲料中维生素E缺乏对肝中维生素A的平均含量有无影响? 教材表6-12 正常饲料组与维生素E缺乏组大白鼠肝中维生素A含量/(Umg-1) 大白鼠对别12345678正常饲料组3.552.603.003.953.803.753.453.05维生素E缺乏组2.452.401.803.203
33、.252.702.401.75解:此题是个配对设计的资料,差值的正态性检验结果表明:差值来自正态总体(检验:P=0.268),所以采用配对t检验。结果为:t=6.837,=7,P0.001,拒绝H0,可以认为维生素E缺乏对肝中维生素A含量有影响。2. 某实验室观察局部温热治疗小鼠移植性肿瘤的疗效,以生存日数作为观察指标。实验结果如下,请比较两组的平均生存日数有无差别。实验组10121415151718202680对照组2367891012121330解:此题是个完全随机设计的资料。两组资料的正态性检验结果表明,差值来自正态总体(检验:P10.001,P2=0.011),所以采用两样本比较的秩和
34、检验。结果为:T1=150.5, T2=80.5,本例中n110,n2n11,对应双侧0.05的界值为81139,故在0.05的水平上拒绝H0,认为两组小鼠生存日数不同。 (施学忠 杨永利 赵耐青)第7章 多组定量资料的比较二、思考题1. 方差分析的基本思想和应用条件是什么?答:方差分析的基本思想是,对于不同设计的方差分析,其思想都一样,即均将处理间平均变异与误差平均变异比较。不同之处在于变异分解的项目因设计不同而异。具体来讲, 根据试验设计的类型和研究目的,将全部观测值总的离均差平方和及其自由度分解为两个或多个部分,除随机误差作用外,每个部分的变异可由某个因素的作用加以解释,通过比较不同变异
35、来源的均方,借助F分布作出统计推断,从而推论各种研究因素对试验结果有无影响。其应用条件是, 各样本是相互独立的随机样本,均服从正态分布; 各样本的总体方差相等,即方差齐性。2. 多组定量资料比较时,统计处理的基本流程是什么?答:多组定量资料比较时首先应考虑用方差分析,对其应用条件进行检验,即方差齐性及各样本的正态性检验。若方差齐性,且各样本均服从正态分布,选单因素方差分析。若方差不齐,或某样本不服从正态分布,选Kruskal-Wallis秩和检验,或通过某种形式的数据变换使其满足方差分析的条件。若方差分析或秩和检验结果有统计学意义,则需选择合适的方法(如Bonferonni、LSD法等)进行两
36、两比较。三、计算题:1. 根据教材表7-11资料,大白鼠感染脊髓灰质炎病毒后,再作伤寒或百日咳接种是否影响生存日数?若结论为“有影响”,请作多重比较(与对照组比)。教材表7-11 各组大鼠接种后生存日数/天伤寒百日咳对照 56 8 76 9 8710 9810 98101091110912111012111014121116解:本题资料可考虑用完全随机设计的单因素方差分析进行统计处理。(1)建立检验假设,确定检验水准。:大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数相等。:大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗生存日数不等或不全相等,=0.05。(2)方差分析应用前提条
37、件的检验 首先进行正态性及方差齐性检验,三组均服从正态分布(P10.684,P20.591,P30.507),三个总体的方差齐(P0.715),符合单因素方差分析的条件,可行方差分析。(3)各组可分别采用均数和标准差描述其集中趋势和离散趋势,各组的统计描述及总体均数的置信区间如下:表1三组大鼠接种后生存日数的描述性统计量/天N均数标准差95%置信区间下限上限伤寒109.202.107.7010.70百日咳108.401.717.179.63对照1011.22.399.4912.91合计309.602.348.7310.47(4)资料的方差分析见方差分析表 方差分析结果,即大白鼠感染脊髓灰质炎病
38、毒后,再接种伤寒或百日咳菌苗生存日数不等或不全相等。表2三组大鼠接种后生存日数差别有无统计学意义的方差分析表变异来源SSdfMSFP组间41.6220.8004.7760.017组内117.6274.356合计159.229进一步行多重比较(LSD检验),结果两实验组均与对照组有统计学差异。认为大白鼠感染脊髓灰质炎病毒后,再接种伤寒或百日咳菌苗对生存日数有影响,生存日数减少。表3三组大鼠接种后生存日数两两比较的结果对比组P均数差值的95置信区间下限上限伤寒组与对照组2.00.93330.041-3.92-0.09百日咳组与对照组2.80.93330.006-4.72-0.892. 将18名乙脑
39、患者随机分为三组,分别用单克隆抗体、胸腺肽和利巴韦林三种药物治疗,观察指标为治疗后的退热时间,结果见教材表7-12。问三组治疗结果的差异是否具有统计学意义? 教材表7-12 三组乙脑患者的退热时间/天治疗分组退热时间单克隆抗体组020059胸腺肽组321367102利巴韦林组011151131解:从专业上考虑,退热时间一般不服从正态分布,可采用KraskalWallis检验分析三组乙脑患者的退热时间差异有无统计学意义。各组可分别采用四份位数描述其集中趋势和离散趋势,各组的统计描述如下:表1三组乙脑患者退热时间的描述性统计量/天组别NP25P50P75单克隆抗体组60.001.006.00胸腺肽
40、组65.008.5017.75利巴韦林组60.757.0012.00(2)建立检验假设,确定检验水准。:三组乙脑患者的退热时间相等,:三组乙脑患者的退热时间不等或不全相等,=0.05。(3)KraskalWallis检验结果,4.799,2,P=0.0910.05。结论为,在=0.05的水平上尚不能认为三组治疗结果的差异具有统计学意义。 (王 玖 徐天和 高 永 石德文)第8章 定性资料的比较二、思考题1. 简述检验适用的数据类型。答:提示:卡方检验是应用较广的一种定性资料的假设检验方法,常用于检验两个或多个样本率(或构成比)之间有无差别。2. 两组二分类资料的设计类型有几类?其相应的检验方法
41、是什么?答:提示:两组二分类资料的设计类型主要有2类,即完全随机设计和配对设计。完全随机设计和配对设计资料在假设检验方法上均采用卡方检验。完全随机设计资料应用公式(8-1)或(8-4),配对设计资料应用公式(8-7)或(8-8)。3. 什么资料适合用秩和检验进行检验?简述秩和检验步骤。答:提示:进行有序资料的比较时宜采用秩和检验。秩和检验步骤为: 建立假设,并确定检验水准; 根据不同的设计类型对资料进行编秩并计算秩和; 根据计算的秩和直接查表或计算相应的统计量再查表,确定值下结论。进行有序资料的比较时宜采用秩和检验。4. 试证明对于RC式(8-11)与式(8-1)等价。提示:三、计算题1. 某
42、医院观测了28例肝硬化患者和14例再生障碍性贫血患者血清中抗血小板抗体, 结果是:肝硬化患者中有例阳性,再生障碍性贫血患者中有例阳性。问:两类患者血清抗血小板抗体阳性率有无差别? 解:将资料进行整理列表(练习表8-1)。练习表8-1 两类患者血清抗血小板抗体检测结果患者类型阳性 阴性 合计肝硬化患者再生障碍性贫血患者2 26 285 9 14资料属于独立的两组二分类资料比较。理论频数分别为4.67、23.33、2.33、11.67,应选用校正公式计算。假设:两种疾病患者血清抗血小板抗体检测阳性率相同,=0.05。计算统计量校正卡方=3.621 4,自由度=1,=0.057 0, 无统计学意义,
43、尚不能认为两种疾病患者血清抗血小板抗体检测阳性率不同。2. 对100名钩端螺旋体病患者同时用间接免疫抗体试验和显微镜凝集试验进行血清学诊断,结果见教材表8-18。试比较用两种方法检验的阳性率有无差别?教材表8-18 两种方法的检验结果比较(例数)间接免疫 荧光显微镜凝集合计+-+6611 77- 617 23合计7228100解: 答案提示,本资料属于配对的两组二分类资料比较,+=11+6=1740,应选用校正配对卡方公式计算。假设:两种方法检测的阳性率相同,=0.05。计算统计量 0.9412,=1,=0.332,无统计学意义,尚不能认为两种方法检测的阳性率不同。3. 研究两种不同的治疗训练
44、方案对肥胖症患者的减肥效果情况,结果见教材表8-19。问这两种治疗训练方案对肥胖症患者的减肥效果是否相同?教材表8-19 两种治疗训练方案对肥胖症患者的减肥效果(例数)治疗方案效果较好效果一般效果较差合计甲 1622 8 46乙2817 5 50合计443913 96解:该资料属于结果变量为有序变量的定性资料,应选用秩和检验。假设:两种治疗方案对肥胖症患者的减肥效果相同,=0.05。按照治疗效果由差到好编秩,计算秩和 ,统计量=-2.064,=0.039,有统计学意义,可以认为两种治疗方案的减肥效果不同,由两组平均秩和看,甲组为1 97446=42.91,乙组为2 68250=53.64,因为
45、编秩是由差到好,因此可认为乙治疗方案的效果好于甲治疗方案。4. 比较三种中药方剂对骨质疏松症的治疗效果,结果见教材表8-20。三种方剂的治疗效果是否有差异?教材表8-20 三种中药方剂对骨质疏松症的治疗效果(例数)分组有效无效合计A方剂18 624B方剂121426C方剂111526合计413576care professionals to patients and consumers,lems and challenges. ssionals (e.g.availability of timely,up-to-date patient inform解:本题属于独立的多组二分类资料比较。假设:
46、三种方剂对骨质疏松症的治疗效果相同,=0.05。计算统计量6.3350,=2,=0.042,差别有统计学意义,拒绝H0,接受H1,尚不能认为这三种方剂的治疗效果不相同。(郭秀花 罗艳侠)第9章 关联性分析二、思考题1. 1988年某地抽查07岁儿童营养不良患病情况如教材表9-10,某医师要想了解年龄与营养不良患病率是否有关,你认为应选用什么统计方法?为什么?教材表9-10 1988年某地抽查07岁儿童营养不良患病情况年龄/岁01234567患病人数982788629598234患病率/%15.711.712.97.48.97.35.1解:提示,用秩相关分析年龄与患病率的关系,因患病率资料一般不
47、服从正态分布。2. 请查找最近三年主题为相关分析或关联分析的已发表国内医学文献,至少认真阅读其中3篇(建议分别选取Pearson、Spearman相关分析和关联分析各1篇),找出其中不妥之处。3. 在讲散点图时,我们曾提到分层应慎重,有可能出现分层分析与总体情况大相径庭的结果。请举一两个实例说明这种现象。三、计算分析题1. 某学校随机抽取18名学生,测定其智商(IQ)值,连同当年数学和语文两科总成绩如表教材9-11。试计算数学成绩与智商、语文成绩与智商以及数学与语文成绩的相关系数,并检验总体相关系数是否为零。能否认为数学好的原因是语文好,或者语文好的原因是数学好?教材表9-11 18名学生的智
48、商、数学成绩和语文成绩编号 123456789数学成绩X语文成绩Y智商得分Z78846152938998986583767058827889956195100100751059711012076编号 101112131415161718数学成绩X语文成绩Y智商得分Z7348456775958899817553437078979292889261608896125113126102解:提示,数学与智商的相关系数(Pearson)为0.918,语文与智商的相关系数为0.958,数学与语文的相关系数为0.932。各总体相关系数均不为0。 数学好或者语文好与智商有关系。不能认为数学好的原因是语文好,或
49、者语文好的原因是数学好,两者之间不存在因果关系。2. 将10份研究生院的入学申请书让两位老师排序,结果见教材表9-12。请问两人的排序是否相关?教材表9-12 两位老师对10份入学申请书的排序申请书编号12345678910A老师的排序61051728934B老师的排序78546391012解:提示,Spearman相关系数为0.842,总体相关系数不为0(P=0.002),可以认为两人的排序相关。3. 关于丈夫和妻子关节炎的患病率分析中,100对中年夫妇的患病情况见教材表9-13,试分析丈夫和妻子关节炎的患病有无关系。教材表9-13 100对中年夫妇的患病情况 妻子患病情况丈夫患病情况合计有
50、病无病有病1624 40无病2436 60合计4060100解:提示,运用交叉分类22列联表的关联分析,=0.00,3.840.00,在0.05的水平下,不拒绝H0,尚不能认为中年夫妇中丈夫患关节炎和妻子患关节炎有关联。(凌 莉 刘清海) 简单线性回归分析二、思考题1简述简单线性回归分析的基本步骤。答: 绘制散点图,考察是否有线性趋势及可疑的异常点; 估计回归系数; 对总体回归系数或回归方程进行假设检验; 列出回归方程,绘制回归直线; 统计应用。2简述线性回归分析与线性相关的区别与联系。答:区别:(1)资料要求上,进行直线回归分析的两变量,若为可精确测量和严格控制的变量,则对应于每个的值要求服
51、从正态分布;若、都是随机变量,则要求、服从双变量正态分布。直线相关分析只适用于双变量正态分布资料。(2)应用上,说明两变量线性依存的数量关系用回归(定量分析),说明两变量的相关关系用相关(定性分析)。(3)两个系数的意义不同。说明具有直线关系的两变量间相互关系的方向与密切程度,表示每变化一个单位所导致的平均变化量。(4)两个系数的取值范围不同:-11,。(5)两个系数的单位不同:没有单位,有单位。联系:(1)对同一双变量资料,回归系数与相关系数的正负号一致。0时,0,均表示两变量、同向变化;0时,0,均表示两变量、反向变化。(2)回归系数与相关系数的假设检验等价,即对同一双变量资料,。由于相关
52、系数的假设检验较回归系数的假设检验简单,故在实际应用中常以的假设检验代替的假设检验。(3)用回归解释相关:由于决定系数=SS回 /SS总 ,当总平方和固定时,回归平方和的大小决定了相关的密切程度。回归平方和越接近总平方和,则越接近1,说明引入相关的效果越好。例如当r=0.20,n=100时,可按检验水准0.05拒绝H0,接受H1,认为两变量有相关关系。但=(0.20)2=0.04,表示回归平方和在总平方和中仅占4,说明两变量间的相关关系实际意义不大。3. 决定系数与相关系数的意义相同吗?如果不一样,两者关系如何?答:现将相关系数、决定系数与Y的总变异的关系阐释如下:假如在一回归分析中,回归系数
53、的变异数9,而Y的总变异数13,则决定系数 = / =9/14=0.642 9/1,相关系数R=0.801 8即将决定系数表示为一比值关系,当= l时,则= 0.642 9,我们可以采用直角三角形的“勾股定理”图示决定系数与相关系数的关系,如练习图10-1所示。SS残差面积=4边长=2SS回归面积=9边长=3SS回归 SS残差=9 =4SS总=13SS残差SS回归面积=0.642 9边长=0.801 8SS回归 SS残差=0.642 9 =0.357 1SS总=1练习图10-1 相关系数、决定系数与总变异的关系三、计算题1. 以例10-1中空气一氧化氮(NO)为因变量,风速(X4)为自变量,采
54、用统计软件完成如下分析:(1)试用简单线性回归方程来描述空气中NO浓度与风速之间的关系。(2)对回归方程和回归系数分别进行假设检验。(3)绘制回归直线图。(4)根据以上的计算结果,进一步求其总体回归系数的95%置信区间。(5)风速为1.50 m/s时,分别计算个体值的95%容许区间和Y的总体均数的95置信区间,并说明两者的意义。解:运用SPSS进行处理,主要分析结果如下:(1)简单线性回归方程、假设检验结果及总体回归系数的95%置信区间如下:Coefficients(a)Unstandardized CoefficientsStandardized CoefficientstSig.95% C
55、onfidence Interval for BBStd. ErrorBetaLower BoundUpper BoundConstant0.1590.019 8.4220.0000.1200.198风速-0.0530.012-0.680-4.3450.000-0.078-0.028(2)方差分析结果:ANOVA(b) Sum of SquaresdfMean SquareFSig.Regression0.038 10.03818.8780.000(a)Residual0.044220.002Total0.08123(3)回归直线如练习图10-2。练习图10-2 回归直线图2. 教材表10-8
56、为本章例10-1回归分析的部分结果,依次为、的估计值()与残差(),请以相关分析考察四者之间的关系,以回归分析考察与、与、与、与之间的关系,并予以解释。教材表10-8 案例分析中回归分析的部分结果1.300.070.070 7-0.004 71.200.100.054 80.045 21.120.040.041 5-0.002 51.440.080.093 5-0.017 51.480.130.098 60.030 41.660.060.127 1-0.068 10.790.00-0.010 80.011 81.820.140.153 1-0.018 11.540.090.108 1-0.02
57、1 11.650.170.126 50.043 51.440.100.092 20.006 80.960.040.016 80.022 21.760.160.142 90.013 10.950.010.014 9-0.009 91.780.220.147 40.074 61.750.120.142 6-0.022 61.440.010.092 9-0.081 91.500.150.101 70.043 31.200.040.054 8-0.014 81.080.000.036 5-0.033 51.060.030.032 7-0.003 71.500.120.102 40.017 61.840
58、.140.156 9-0.016 91.440.100.092 20.006 8解:主要分析结果:(1)四者之间的相关系数Correlationshathat10.8091.0000.0000.80910.8090.586hat1.0000.80910.000hat0.0000.5860.000 1* Correlation is significant at the 0.01 level (2-tailed).(2)四个变量间的回归系数因变量自变量截距回归系数tP-0.1360.159456.0160.000 1.0050.001 6.4570.000 0.0880.999 3.3940.0
59、030.000 014 70.000 010 5 0.0001.000与呈完全正相关关系,回归系数t 检验结果P =0.000,表明的变异可由 完全解释。与的相关系数与与 的相关系数相同,表明正是由于 的影响引起的变异,与关系即体现了与的变化关系。与体现了扣除的影响后,与残差仍呈正相关关系。与呈零相关关系,表明扣除了的影响,回归方程的残差与不再有相关或回归关系。(张岩波 郝元涛)第11章 多重线性回归分析二、思考题1. 多重线性回归分析的用途有哪些? 答:多重线性回归在生物医学研究中有广泛的应用,归纳起来,可以包括以下几个方面:定量地建立一个反应变量与多个解释变量之间的线性关系,筛选危险因素,
60、通过较易测量的变量估计不易测量的变量,通过解释变量预测反应变量,通过反应变量控制解释变量。2. 多重线性回归模型中偏回归系数的含义是什么? 答:偏回归系数的含义是:在控制其他自变量的水平不变的情况下,该自变量每改变一个单位,反应变量平均改变的单位数。3. 请解释用于多重线性回归参数估计的最小二乘法的含义。 答:最小二乘法的含义是:残差的平方和达到最小。4. 如何判断和处理多重共线性? 答:如果自变量之间存在较强的相关,则存在多重共线性。可以通过分析自变量之间的相关系数、计算方差膨胀因子和容忍度等指标判断是否存在多重共线性。如果自变量间存在多重共线性,最简单的处理办法是删除变量,即在相关性较强的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 淮阴师范学院《通信原理》2023-2024学年第一学期期末试卷
- 淮阴师范学院《朗诵艺术》2022-2023学年第一学期期末试卷
- 淮阴师范学院《教师职业道德与教育政策法规》2022-2023学年第一学期期末试卷
- 淮阴师范学院《综合自然地理学》2021-2022学年第一学期期末试卷
- 淮阴师范学院《中学地理课程标准与教材分析》2021-2022学年第一学期期末试卷
- 淮阴师范学院《微电影创作》2022-2023学年期末试卷
- 淮阴工学院《数学建模与实验3》2021-2022学年第一学期期末试卷
- 淮阴工学院《制药分离工程》2022-2023学年第一学期期末试卷
- DB4117-T+417-2024兽药散剂生产技术要求
- 学前教育的思维能力培养考核试卷
- 喵喵老师制作 电子百拼的黑白电路图
- DB34-T 4010-2021 水利工程外观质量评定规程-高清现行
- 《整改报告》模板
- 送达地址确认书(样本)
- 江苏省历届中学生与社会作文大赛决赛试题及获奖范文(完整版)资料
- 六年级数学上册教案-分数乘法整理与练习 苏教版
- 《民航服务礼仪》项目五 地面服务礼仪
- 营业执照借用免责协议
- 小学道德与法治人教三年级上册第三单元安全护我成长-《遭遇陌生人》教案
- 三年级上册数学教案-数学好玩-2 搭配中的学问(12)-北师大版
- 2022年湖北省武汉市江岸区育才第二小学六上期中数学试卷
评论
0/150
提交评论