版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一章一、名词解释参数:指总体中全部观察单位的观测值所得(su d)的特征值,是一个固定的常数,通常是未知的。统计量:指由样本计算(j sun)得到的反映样本资料特征的统计指标,为随机变量,取值在参数附近波动,可作为参数的估计值。同质:指观察单位(dnwi)通常具有某种共性,即相同的状况或属性等,观察单位之间常常“大同小异”。变异:指同质观察单位之间的差异。概率:是描述随机事件发生可能性大小的一个度量,为一个固定的常数,取值在0到1之间,常用p来表示。频率:在相同的条件下,独立地重复进行n次实验,随机事件A出现了f次,则称f/n为事件A出现的频率。抽样误差:指由抽样引起的样本统计量与总体参数之
2、间的差异,或者不同样本统计量之间的差异。二、单项选择题1.E 2.E 3.B 4.A 5.D 6.D 7.B 8.D 9.C 10.D三、简答题1.卫生管理统计的基本步骤一般分为统计设计、收集资料、整理资料和分析资料四个步骤。这四个步骤紧密联系,前一步是后一步的基础,每一个步骤的工作质量都会影响最终结论的正确性。2.卫生管理统计中通常将资料分为定量资料、定性资料和等级资料三种类型。定量资料是测量每个观察单位某项指标得到定量的测量值,表现为数值大小,且有度量衡单位,如某医院出院患者的住院日。定性资料是将观察单位按某种属性或类别分组计数,分组汇总各组观察单位数后得到的资料,测量值为定性的,表现为互
3、不相容的属性或类别,如某医院住院患者中A型、B型、AB型和O型人数。等级资料是将观察单位按某种属性的不同程度分成等级后分组计数,分类汇总各组观察档位数后得到的资料,具有半定量性质,表现为等级大小,如某病患者治愈、好转、无效、死亡的人数。第二章一、单项选择题1.C 2.B 3. E 4.B二、简单(jindn)题1.利用SPSS直接建立数据库一般分为两步,第一步变量(binling)设置,在变量视图(Variable View)中完成,第二步数据(shj)录入,在数据视图(Data View)中完成。在建立数据库过程中要注意以下问题:建立数据库之前应先确定研究中需要的指标,哪些是重要指标,哪些是
4、次要指标,哪些是标识变量,尽量做到数据库中含有研究所需要的每一个指标,同时尽量避免冗余无用的指标。2.数据录入基本原则一个观测的数据在一行显示,一个指标即一个变量的数据在一列显示,录入完成后产生一个标准数据格式数据集。数据录入过程中要注意尽可能用数值变量代替字符变量,便于数据录入;要有标识变量,便于核查;对于多项选择题的录入要采用多重二分法或者多重分类法,切忌将多个选项录入一个变量。三、上机应用题在变量视图中做以下设置变量名数据类型小数点变量标签值标签资料类型No数值型0编号,标识变量NominalGender数值型0性别1=男,0=女NominalNation数值型0民族0=汉族,1=其它N
5、ominalIDno数值型0身份证号码NominalBirthd日期型0出生年月NominalAddress字符型0居住地NominalTel1数值型0电话(家)NominalTel2数值型0电话(手机)NominalTel3数值型0电话(其他)NominalRelative数值型0亲属关系1=子,2=女,3=其它人NominalA1数值型2身高ScaleA2数值型2体重ScaleA3数值型2腰围ScaleA4数值型2臀围ScaleA51数值型2SBP1ScaleA52数值型2SBP2ScaleA61数值型2DBP1ScaleA62数值型2DBP2ScaleA7数值型0服用降压药0=无,1=有
6、NominalA8数值型0职业1=行政或其它管理,2=医护人员,3=教师,4=军警保安,5=文化艺术,6=理工技术人员,7=金融法律, 8=文员或秘书, 9=工厂工人,10=个体经营者,11=商业或服务人员,12=农民或渔民,13=家庭主妇, 14=其它, 99=不详Nominal注:其余(qy)各项默认即可。第三章一、名词解释.单纯随机抽样:又称简单随机抽样,是按等概率原则直接(zhji)从含有N个观察单位(dnwi)的总体中抽取n个观察单位组成样本。单纯随机抽样是最基本的抽样方法,也是其他抽样方法的基础。优点:均数(或率)及标准误的计算简便。缺点:总体较大时抽得的样本单元很分散,给实施调查
7、带来困难。2.分层抽样:按与研究目的明显有关的因素(或特征),将观察单位分为若干的类型或组别(统计学上称“层”,stratum),然后从每一层中按比例抽取一定数量的观察单位组成样本。优点:抽样误差较小,样本对总体有较好的代表性;便于在不同的层内采用不同的抽样方法,有利于调查组织工作的实施;可以对各层独立进行分析。3.非抽样误差:指除抽样误差以外的,由各种非随机因素引起的误差,主要包括抽样框误差、无应答误差和计量误差。非抽样误差成因复杂,可产生于调查工作的各个阶段、各个环节。非抽样误差难以测度,但可以控制,比如设计科学的调查研究方案、开展预调查、调查人员严格选择与培训、加强调查实施过程的组织管理
8、、监督和检查及资料整理录入加强编码及双录等措施均可减少非抽样误差。 二、简答题1. 调查研究的质量控制应贯穿于调查工作的各个阶段、各个环节,比如设计科学的调查研究方案、开展预调查、调查人员严格选择与培训、加强调查实施过程的组织管理、监督和检查及资料整理录入(l r)加强编码及双录等措施,以减少非抽样误差。2. (1)估计的容许误差。容许误差越大,估计精度越低,需要(xyo)的样本量越小;反之,容许误差越小,估计精度越高,需要的样本量越大。(2)估计(gj)的置信度。置信度要求越高,即的取值越小,则样本含量要求越大。置信水平一般取95%。(3)总体的变异程度。当总体率越接近0.5,变异程度越大,
9、需要样本量越大;值偏离0.5越远,变异程度越小,样本量越小。(4)应答率。在估算样本量时通常需要根据可能的应答率增加样本量。设估算出的样本量为,应答率为,则校正的样本量为。(5)设计效率。在估算样本量时,应考虑复杂抽样设计的设计效率对研究结果的影响,一般先按照单纯随机抽样设计估计出初始样本量,再乘以设计效率Deff得到最终的样本量。3. 抽样调查中的误差有两大类:抽样误差和非抽样误差。 抽样误差是由于抽样使样本统计量与总体参数之间的差异。由于每次抽取样本所包含的观察单位是随机的,所以,不同样本之间以及样本与总体之间会存在偏差,由此产生了抽样误差。非抽样误差产生比较复杂,有以下几类:由于抽样框不
10、完善导致的抽样框误差;由于调查获得的数据与所欲调查项目的真值之间不一致而导致的计量误差;由于无应答导致的无应答误差等。非抽样误差不仅在抽样调查中,在全面调查中也是存在的。三、选择题1. D 2. E 3. B 4. B 5. E 6. D 7. A 8. B四、应用题1. 已知,代入公式(gngsh)(3-11)有因此(ync),需要调查683名6-11岁儿童(r tng)。2. 根据题意可以整理如下:年龄段(岁)18-308002000.2290.0860.000376431-4510004000.2860.1820.000372246-6012004500.3430.3560.000509
11、560以上5003000.1430.4630.0008288根据公式(3-5)(3-6)可计算总体两周患病率的估计值及标准误:=0.229*0.086+0.286*0.182+0.343*0.356+0.143*0.463=0.259=0.008785两周患病率的95%置信区间为(0.259-1.960.008785, 0.259+1.960.008785),即(0.242,0.276)。因此,该居民社区总的两周患病率为25.9%,95%置信区间为(24.2%,27.6%)。第四章一、单项选择题 1.A 2.A 3.D 4.C 5.C 6.E二、简答题1.定量(dngling)资料频数分布表的
12、编制:(1)求出全距(range)。(2)确定(qudng)组段数(k) 根据样本含量(hnling)多少确定组段数,一般设815个组段,不宜过粗或过细。 (3)求组距(class interval): 根据资料的分布类型,组距分为相等与不等两种。 (4)确定组限: 数量分组的组限一定要清楚明确,组间的衔接必须严密,不遗漏,也不重复:即要求第一个组段应包括资料中的最小值,最后一个组段应包括最大值;此外,应遵循“上限不在本组”的规则。规范的表示方法是采用半开半闭区间(右开左闭区间)的形式,即各组段只写明下限值,而不标出上限值,如0,15,30,但是最后一个组段必须采用闭区间。 (5)列频数表 统
13、计各组段频数,在此基础上计算频率、累计频数和累计频率。 2.参见教材表4-4及4- 5对集中趋势及离散趋势统计量的总结。3.中位数和均值都是数据集中趋势的描述统计量,中位数是位置代表值,不考虑极端值,可以适用于不拘分布或分布类型不明的资料;均值考虑全部数据,包括极端值,但是一般适用于对称分布资料,尤其是正态分布资料。4. 这四个指标都是反映计量资料的离散程度。极差和四分位差可用于任何分布,后者比前者稳定,但均不能综合反映各观察值的变异程度;标准差最为常用,要求资料服从对称分布,尤其是正态分布。 5变异系数可用于多组资料间度量衡单位不同或均数相差悬殊时的变异程度比较。 三、计算题 1. 根据原始
14、数据(shj)资料,对数据进行排序、分组后,得到频数分布表如下: 表4-9 某地(mu d)120名正常(zhngchng)成年人血清铜含量(mol/L)组段频数频率() 9.00 3 2.5010.00 4 3.3311.001210.0012.001310.8313.001714.1714.002218.3315.001815.0016.001310.8317.0011 9.1718.00 5 4.17 19.00 2 1.67合计120100.002. 3. 抗体滴度倒数的几何平均数为:故平均抗体滴度为1:70.53第五(d w)章一、名词解释相对数:是指两个有联系的指标之比。它可以(k
15、y)是两个有联系的绝对数之比,也可以是两个统计指标之比。率:是指某种现象在一定(ydng)条件下,实际发生的观察单位数与可能发生该现象的总观察单位数之比,用于说明某种现象发生的频率大小或强度,故又称频率指标。构成比:也称为构成指标,是指一事物内部某一组成部分的观察单位数与该事物各组成部分的观察单位总数之比,用以说明某一事物内部各组成部分所占的比重或分布,常用百分数表示。相对比:是指两个有关联的指标之比,用以描述两者的对比水平,是对比的最简单形式。常以百分数或倍数表示,说明一个指标是另一个指标的百分之几或几倍。二、简答题(略)三、单项选择题1.A 2.C 3.A 4.C 5.D 6.B 7.D四
16、、计算分析题1.(1)表1 某中学各类口腔卫生状况者的患龋情况口腔卫生情况 调查人数 患龋人数患龋人数构成比(%)患龋率(%)良好者 2056 36124.4717.56中等者 2160 63543.0529.40不好者 963 47932.4849.74合计 5179 1475100.0028.48(2)患龋人数(rn sh)百分比是构成(guchng)比,患龋率是率,分别从构成(guchng)比和率的定义上进行解释。 2. 表2 某地20012011年医院床位统计数据年份(1)符号(2)年末床位数(3)绝对增长量发展速度(%)增长速度(%)累计(4)逐年(5)定基比(6)环比(7)定基比(
17、8)环比(9)2001 36107 100.0100.0 200241744 5637 5637 115.6 115.6 15.6 15.620035071514608 8971 140.5 121.5 40.5 21.520045670720600 5992 157.1 111.8 57.1 11.820056083024723 4123 168.5 107.3 68.5 7.320066584129734 5011 182.3 108.2 82.3 8.220077072134614 4880 195.9 107.4 95.9 7.4200875887397805166210.2 107.
18、3 110.27.3200983488473817601231.2 110.0 131.210.0201087633515264145242.7 105.0 142.75.020119271556608 5082 256.8 105.8 156.8 5.83. 表3 某三甲医院与某乡镇卫生院急性心肌梗死标准化治愈率严重程度(1)标准治疗人数(2)某三甲医院某乡镇卫生院原治愈率(%)(3)预期治愈数(4)=(2)(3)原治愈率(%)(5)预期治愈数(6)=(2)(5)轻 100 80.0 80 70.0 70重 100 60.0 60 40.0 40合计 200 140 110某三甲医院心肌梗死
19、治愈率高于某乡镇卫生院。第六章一、名词解释1.统计指标:是反映总体现象综合数量特征的基本概念,用于获取总体现象的实际数量状况(zhungkung)及其发展变化情况,包括三个构成要素,即指标名称、计量单位和计算方法。2.孕产妇死亡率:是指某年中由于怀孕(hui yn)和分娩及并发症造成的孕产妇死亡人数与同年出生的活产数之比。3.续发率:是指在一定(ydng)观察期内某种传染病在易感接触者中二代病例的百分率。4.人口总数:又称总人口数,一般是指一定地域范围内(国家或地区)在某一特定时间的人口数量,是人口统计中最基本的指标。5.患病率:又称为现患率或流行率,是指某特定时间内受检人群中现患某种疾病的频
20、率,可以用于描述病程较长或发病时间不易明确的疾病的患病情况。6.寿命表:又称为生命表,是指根据特定人群的年龄别死亡率计算出来的一种统计表,用于说明在特定人群年龄别死亡率的条件下人的生命过程。二、单项选择题1. A 2. A 3. C 4. D 5. B 6. B 7. E 8.D 9. A 10. C三、简答题1.医院统计主要包括工作效率统计、诊断质量统计、治疗质量统计、医疗管理质量统计、护理质量统计和卫生经济管理统计等内容。2.传染病预防与控制的统计指标主要包括传染病报告质量指标,如传染病漏报率、居民漏报率、医院漏报率、迟报率、漏诊率等;传染病疫情指标,如传染病感染率、发病率、续发率、死亡率
21、、病死率等;预防接种指标,如疫苗接种率、保护率、抗体阳转率等。3.疾病统计的常用指标包括发病率、患病率、累积发病率、治愈率、有效率、死亡率、生存率等。4.寿命表的主要指标包括年龄组尚存人数、年龄组平均(pngjn)存活年数、年龄组生存人年数、年龄组生存总人年数、年龄组平均期望寿命、年龄组死亡率、年龄组死亡概率、年龄组死亡人数等。四、计算(j sun)分析题第七章一、单项选择题1.B 2.A 3.C 4.D 5.B 6.C 7.D 8.D 9.D 10.C二、简答题1. 应根据资料的性质和分析(fnx)目的选择合适的统计图。2.(1)标题,它位于图的下方中间,概括地说明图的内容。一般情况下,标题
22、应包含图的编号,以便在文字说明时使用方便。有时标题也包含资料产生的时间、地点或来源。(2)图域,以纵横轴为坐标绘制的图形,一般取第一象限为作图区,两轴的交点为起点,考虑到图形的美观,长宽之比一般是7:5。(3)标目描述被研究的事物与指标,横标目位于横轴的下方,纵标目置于纵轴的左侧。(4)刻度,指纵横轴上的坐标,刻度数值按从小到大的顺序。(5)图例,在同一图形中比较两种或多种事物时,需用不同的线形、图示或颜色区分不同内容,应附图例加以说明。图例可放在图域的右上角空隙处或图中其它适当的位置。3.普通线图:用线段的升降表示某现象随另一现象变化而变化的趋势,纵横坐标均为算术尺度。半对数线图:一种特殊的
23、线图,其纵坐标变量取对数尺度,横坐标变量为算数尺度,表示某现象随另一现象变化而变化的速度。4. 直条图:用等宽直条的长短表示相互独立的各项指标数量的大小,其横轴表示分类资料的分组,纵轴表示各指标数量的大小,各组之间是间断的,各直条间留有空隙。直方图:用矩形面积表示连续变量的频数(pn sh)(频率)分布,其横轴表示连续变量值的分组,纵轴表示频数或频率,各直条间不留空隙。5. 联系(linx):描述计数资料(zlio)的构成比。区别:比较多个计数资料的构成比时,构成直条图较圆图更适用。第八章一、名词解释1.抽样误差:由随机抽样造成的样本均数与样本均数之间,样本均数与总体均数之间的差异称为均数的抽
24、样误差。2.置信区间:按照给定的概率()所确定的包含总体参数的一个范围,该范围称为总体参数的置信区间,也称作可信区间。3.假设检验:又称作显著性检验,是用于判断样本指标与总体指标之间或样本指标与样本指标之间的差异有无统计学意义的一种统计方法。4.检验水准:进行假设检验时,预先设定的小概率事件发生的概率值。 5.I类错误:又称假阳性错误,即拒绝了原本成立的时犯的错误。二、单项选择1. B 2. D 3. E 4. D 5. A 6. B三、简答题1. 样本均数的抽样分布有如下特点:(1)各样本均数未必等于总体均数;(2)各样本均数之间未必相等;(3)样本均数的分布具有一定的规律,围绕着总体均数,
25、中间多、两边少,左右基本对称,也服从正态分布;(4)样本均数之间的变异比较原变量明显缩小。2. 假设检验的基本思想有:(1)小概率(gil)事件 小概率事件是指在一次随机试验中被认为基本上不会发生的事件,或者发生的概率非常(fichng)小,可以认为不会发生。具体发生概率小于多少才算是小概率事件,是需要在解决实际问题时预先设定的,即检验水准,实际工作(gngzu)当中常取0.01或0.05,无特殊说明,一般为0.05。设定即规定发生概率不超过0.05的事件即是小概率事件。(2)反证法思想 是指首先提出假设,假定某事实成立(即原假设),在此基础上选用适当的统计方法来估计该事件发生的概率。如果,说
26、明该事件不是小概率事件,尚不能认为该事实不成立;如果,说明该事件的发生属于小概率事件,我们就有理由怀疑原假设的正确性,即该事实不成立。3. 分布曲线的特点有:(1)分布是一簇曲线,而不是单条曲线;(2)以0为中心,单峰分布,左右对称;(3)自由度越小,越大,值越分散,曲线的峰越矮,尾部越粗;(4)随着自由度的增大,分布逐渐逼近标准正态分布,当趋近于无穷大时,t分布就完全称为标准正态分布。4. 假设检验的基本步骤有:(1)建立检验假设,确定检验水准;(2)选择检验方法,计算统计量;(3)根据统计量与大小关系确定P值;(4)作出推断结论。四、计算题1. 一般采用均数的标准误来表征抽样误差大小,由于
27、总体标准差未知,以样本标准差代替,计算结果如下:2. 采用正态分布近似法估算总体率的95%置信区间,结果如下:即全体居民(jmn)的超重率总体(zngt)率的置信区间为(28.8%,46.2%)。第九章一、名词解释方差齐性:指被比较的各组数据其总体的方差相等。在统计学上,若各方差之间在给定(i dn)检验水准下没有统计学差异,则称为方差齐性,亦称 HYPERLINK /view/2134001.htm t _blank 等方差性、 HYPERLINK /view/8905958.htm t _blank 同方差性或方差一致性。二、单项选择题1.C 2.C 3.C 4.C 5.D 6.A 7.C
28、 8.B 9.C 10.B三、简答题1. 基本思想:t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否是由抽样误差造成的,从而判断差异是否有统计学意义。应用条件:观测个体间独立,即任一个体的观测值不受其他个体观测值的影响;研究中的分析变量为服从正态分布的定量变量;两独立样本t检验还要求样本所来自的总体方差相等,即总体方差齐性。2. 实际工作中,配对样本常见于三种情况。第一种情况主要在实验研究中,研究者将受试对象按某些特征(如性别、年龄等可能对研究结果有影响的因素,也称混杂因素)配成对子,再随机分配对子中的每个个体至处理因素的两个不同水平。除实验研究外,流行病学中常用的1:1
29、匹配的病例对照研究虽为观察性研究,也可视为配对样本;第二种情况是将每份被测样品一分为二,再分配至不同的方法检测;第三种情况属于自身配对形式,每个受试对象在因素处理前和处理后的比较。第一种情况又称异源性配对,后两种情况又称同源性配对。四、计算分析题1. 本题是单样本与已知总体(zngt)均数比较的t检验(jinyn)。t=3.077,v=35,P0.05,按=0.05水准(shuzhn)拒绝H0,认为该地活动型结核患者与一般活动型结核患者的心率不同,该地患者心率较高。2. 本题属配对设计资料,故应用配对t检验方法计算。t=2.157,v=19,PP0.1,按=0.05水准,不拒绝H0,甲、乙两药
30、疗效相同。第十章一、名词解释1.组间变异:处理因素和随机误差引起的变异。2.组内(误差)变异:个体差异和测量误差引起的变异。3.均方:其实质是方差,由各离均差平方和除以相应自由度获得,反映了变异大小。二、最佳选择题1. C 2. B 3. C 4. D 5. A 6. C 7. C 8. D三、简单题1. 方差分析的基本思想:根据研究设计类型和研究目的将总变异分解为两个或两个以上部分。不同部分的变异可用不同因素的作用或随机误差的作用来解释,通过比较某因素所致变异与随机误差,来判断该因素对研究结果是否有影响。应用条件:1. 各样本来自正态总体。2. 各样本所来自总体的方差相等。2. 在随机(su
31、 j)区组设计的方差分析中,的含义(hny)是什么(shn me)?:总变异,即总离均差平方和;:处理组间的变异;:区组间的变异;:误差的变异。3. 单因素方差分析时总变异分解为两个部分,即组间变异和组内变异,组内变异即随机误差引起的变异,分解过程可以表示为;随机区组设计方差分析总变异分解为三个部分,即处理组间变异、区组间变异和组内变异,此处的组内变同样由随机误差引起,具体分解过程可以表示为。四、计算分析题1. 本题为采用完全随机化设计获得的计量资料,共有4组数据,可以采用单因素方差分析。采用SPSS分析的主要结果为:表10-1 统计描述 (Descriptives)谷酰转肽酶NMeanStd
32、. DeviationStd. Error95% Confidence Interval for MeanMinimumMaximumLower BoundUpper Bound病毒性2033.982520.332684.5465224.466543.49856.5682.05酒精性2034.706028.981476.4804521.142348.26978.60133.57非酒精性2054.008524.660075.5141642.467265.549816.47111.68健康人2023.659011.992162.6815318.046529.27153.5450.85Total80
33、36.589024.577312.7478331.119642.05843.54133.57表10-1为对四个变量进行统计描述的结果,主要给出了四个变量的名称、样本量、均数、标准差、标准误、95%置信区间的下限、上限以及最小值、最大值等。表10-2 方差齐性检验结果 (Test of Homogeneity of Variances)谷酰转肽酶Levene Statisticdf1df2Sig.2.14376.1024表10-2为方差齐性检验的结果(ji gu),其中第一列为Levene统计量,第二列和第三列为两个(lin )自由度,第四列是检验的值(Sig.),本例,因此(ync)不能认为方
34、差不齐,可以直接进行完全随机设计的方差分析。表10-3 完全随机设计资料的方差分析(ANOVA)谷酰转肽酶Sum of SquaresdfMean SquareFSig.Between Groups9619.26833206.4236.40.0006Within Groups38100.20976501.319Total47719.47879表10-3为完全随机设计资料方差分析的主要结果,列出了组间变异、组内(即误差)变异、总变异及各自对应的自由度(df),组间均方、组内(误差)均方,值和值(Sig.)。本例。按判断水准,拒绝,差异有统计学意义,可以看出,四个组的GGT含量不同。表10-4 S
35、NK-检验结果 (Homogeneous Subsets)谷酰转肽酶Student-Newman-Keulsa分组NSubset for alpha = 0.0512健康人2023.6590病毒性2033.9825酒精性2034.7060非酒精性2054.0085Sig.26911.0000Means for groups in homogeneous subsets are displayed.a. Uses Harmonic Mean Sample Size = 20.000.表10-4为两两比较(bjio)SNK-检验(jinyn)的结果。可以(ky)看出,健康人、病毒性脂肪肝患者以及酒
36、精性脂肪肝患者的GGT含量相同,而健康人、病毒性脂肪肝患者、酒精性脂肪肝患者与非酒精性脂肪肝患者的GGT含量均不相同。2. 本题为采用随机化区组设计获得的计量资料,可以采用两因素方差分析。采用SPSS分析的主要结果为:表10-5 随机区组设计资料的方差分析(Tests of Between-Subjects Effects)Dependent Variable:满意度分值SourceType III Sum of SquaresdfMean SquareFSig.Corrected Model169.400a1214.1179.44.0000Intercept3367.22513367.225
37、2251.77.0000block24.52592.7251.82.1100group144.875348.29232.29.0000Error40.375271.495Total3577.00040Corrected Total209.77539a. R Squared = .808 (Adjusted R Squared = .722)表10-5为随机化区组设计方差分析的主要结果,表中列出处理组间group变异、区组间block变异、误差变异、总变异及各自对应的自由度(df),处理组间均方、区组间均方、误差均方,值和值(Sig.)。本例处理组间:;按判断水准,拒绝,差异有统计学意义,说明不
38、同年龄段之间满意度总分分值不同;区组间: ,按判断水准,不拒绝,差异无统计学意义,说明10个自然村之间满意度总分相同。 表10-6 Multiple Comparisons满意度分值Dunnett t (2-sided)a(I) 年龄段(J) 年龄段Mean Difference (I-J)Std. ErrorSig.95% Confidence IntervalLower BoundUpper Bound=20 and =655.3000*.54688.00003.93926.6608=35 and =652.7000*.54688.00011.33924.0608=50 and =651.
39、9000*.54688.0048.53923.2608Based on observed means. The error term is Mean Square(Error) = 1.495.a. Dunnett t-tests treat one group as a control, and compare all other groups against it.*. The mean difference is significant at the .05 level.表10-6为采用(ciyng)Dunnett-检验得到的多个(du )样本均数的多重比较结果,三个不同(b tn)的年
40、龄段的满意度分值均与65岁及以上年龄段的满意度分值比较,表中列出了比较的均数差值(Mean Difference)、均数差值标准误(Std. Error)、P值(Sig.),及均数差值95%置信区间(95% Confidence Interval)。可以看出,三个年龄段与65岁及以上年龄段比较,满意度分值均不相同。第十一章一、简答题(略) 二、单项选择题1. D 2. C 3. C 4. A 5. D 6. A 7. D 8. D 9.D三、计算分析题1. 检验统计量的计算用式11-3,得2=2.77,P0.05。2. 检验统计量的计算用式11-5,得2=0.0008,P=0.9781。3.
41、检验统计量的计算用式11-6,得2=3.945,P=0.0470。4. 检验统计量的计算用式11-7,得2=75.03,P0.0001。5. 检验统计量的计算用式11-9,得2=0.9286,P=0.6286。6. 检验统计量的计算用式11-12,得2=15.55,P0.0001。7. 检验(jinyn)统计量的计算用式11-9,得2=32.56,P0.0001。8. 略。第十二章一、名词解释(略)二、简答题(略)二、最佳(zu ji)选择题1.A 2.B 3.E 4.E 5.E 6.D 7.D 8.A四、计算(j sun)分析题(略)第十三章一、名词解释1.相关系数是表示两变量间的相关程度和
42、方向的 统计指标。2.决定系数是回归平方和与总离均差平方和之比,它反映了回归贡献的相对程度,即在因变量的总变异中回归关系所能解释的比例。是对回归模型拟合程度的综合度量,可决系数越大,模型拟合程度越高。3.回归系数是表示_应变量对自变量在数值上的依存关系_的统计指标。二、填空题1.两变量间无直线相关关系。2.是表示两变量间的相关程度和方向。3.应变量对自变量在数值上的依存关系。4.两变量存在线性相关。三、 单项选择题1 C 2 E 3 D 4 B 5 C 6 B 7 C 8 D 9 A 10 B四、问答题1.因为(yn wi)有两种可能性会造成样本相关系数r或回归系数b不等于零,一种是抽样误差,
43、一种是本质差。因此(ync)得到一个不等于零的r或b时,不能立即(lj)下结论说变量x和变量y存在直线相关关系或直线回归关系,必须先作假设检验后再下结论。2.(1)相关与回归分析要有实际意义。不要将毫无关联的两个事物或现象进行相关或回归分析。(2)对相关分析的作用要正确理解。相关分析只是以相关系数来描述两个变量间相互关系的密切程度和方向,并不能阐明两事物或现象间存在联系的本质。而且相关并不一定就是因果关系。(3)注意相关与回归的区别和联系。(4)作相关与回归分析时,必须关注异常点,异常点即为一些特大特小的离群值。(5)回归方程的适用范围有其限度,直线回归与相关分析一般是在一定取值区间内对两个变
44、量间的关系进行描述,超出这个区间,变量间关系类型可能会发生改变。(6)一个有统计学意义的回归方程并不一定具有实践上的预测意义。3.两者区别:(1)在意义上,相关反映两变量间的相互关系,回归反映两变量间的依存关系。 (2)在应用上,说明两变量间的相互关系用相关,说明两变量间的依存变化的数量关系用回归。(3)资料要求上回归要求因变量Y服从正态分布;X是可以精确测量和严格控制的变量,一般称为一型回归。相关要求两个变量X、Y服从双变量正态分布。这种类型资料若进行回归分析称为二型回归。两者联系 :(1)同一资料计算的r和b,它们的正负号是一致的。r为正号说明两变量的相互关系同向变化的。b为正号,说明X增
45、(减)一个单位,Y平均增(或减)b个单位。(2)对同一资料,r和b的假设检验结果(t值)是一样的 。即对同一样本,二者的t值是相等的(3)可用回归解释(jish)相关,r的平方称为决定系数,r2= SS回/SS总 回归(hugu)平方和的大小取决于决定系数。回归平方和越接近总平方和,则r2越接近(jijn)1,说明引入的相关效果越好。4.直线相关(积差法)要求资料符合双变量正态分布,秩相关的资料无特殊要求。秩相关把计量资料变为等级资料处理,丢失了部分信息。使用时应注意,能用直线相关(积差法)的尽量不使用秩相关;要进行回归分析的资料,更不宜作秩相关。5.相关分析的任务:是分析两个变量间相互关系的
46、密切程度和方向。回归分析的任务:是分析两变量间的依存变化的数量关系。6.回归分析的应用条件?(1)线性(linear)反应变量的总体平均值与自变量呈线性关系,可通过散点图判断。(2)独立性(independent) 指任意两个观察值互相独立,可利用专业知识来判断。(3)正态性(normal) 在一定范围内任意给定值,则对应的随机变量服从正态分布,可通过专业知识、正态性检验、残差散点图来判断。(4)等方差性(equal variance) 在一定范围内对应于不同值,总体变异程度相同,可通过残差分析来判断。五、应用题1.经统计软件分析,双变量正态分布,符合直线相关条件。计算得到相关系数为0.98
47、,P0.0001,拒绝H0,接受H1,认为高中与大学的英语成绩之间有直线正相关关系。2.(1)画图略(2)经SPSS软件,首先进行正态性检验,得知(d zh)双变量为正态分布。计算(j sun)相关系数r=0.8677, P0.01,拒绝(jju)H0,接受H1,认为身长与胸围之间有直线正相关关系。(3)经SPSS软件计算,由身长(x)推算胸围(y)的回归方程式为:=a+bx = 18.75 + 0.3408x3.(1)画出散点图略(2)经正态性检验两变量均为正态分布,故应用简单相关分析:,说明两变量间高度相关 (3)求出回归方程(4)估计出利润率为4.19%4.该资料为等级资料,故应用秩相关
48、分析:,说明两变量间高度相关。第十四章一、单项选择题1B 2D 3D 4E 5C 6E 7C 8B 9E 10B 二、简答题1典型的多重线性回归所使用的自变量类型应该是连续型定量变量,但是如果自变量中含有分类变量,经过适当的处理后仍然适合进行回归分析,二分类变量可以直接使用,名义分类变量可将其转化为若干个二分类变量(哑变量),有序分类变量可以根据不同级别赋予不同数值后按连续变量处理,也可按名义变量的方式处理。2回归方程中引入什么变量,理想的做法是由研究者根据理论和经验决定。在缺乏专业依据的情况下,可采用变量筛选技术。一为全局择优法,二为逐步择优法,理论上讲,全局择优法是对自变量各种不同组合情况
49、进行比较后,从中挑选出一个最优回归方程,但当自变量数目较大时计算量大,此时可以考虑采用逐步择优法,有前进法、后退法和逐步回归法。3偏回归系数的意义是当其他(qt)自变量固定时,某自变量每改变(gibin)一个计量单位所引起的Y的平均变化量。如研究者感兴趣各自变量对反应变量贡献大小的相互比较,由于各自变量的计量单位及变异度可能不同,回归方程中各自变量的偏回归系数不具可比性。为此可将原始观测数据进行标准化,然后用标准化后的数据拟合回归方程,此时所获得的回归系数称为(chn wi)标准化偏回归系数。标准化偏回归系数绝对值越大,所对应的自变量对反应变量Y的影响越大。4多重线性回归具有与简单线性回归相同
50、的前提条件:线性、独立性、正态性和等方差,即LINE。但是上述前提条件在进行回归分析之前难以直接考察,通常是在回归方程确定之后通过残差分析来核查。三、计算分析题 整体回归方程假设检验的方差分析表变异来源df回归33.88348.4716.960.001残差30.417251.217总64.30029 偏回归系数的t检验变量回归系数标准误t值P值标准化偏回归系数常数项1.8801.3981.350.191-年龄0.0670.0252.650.0140.677文化程度0.2100.1611.310.2020.183婚姻1.2210.8671.410.1710.382慢性病1.7910.4573.9
51、20.0010.599列出回归方程: 经假设检验,总体模型有意义,说明整体而言,这四个变量建立的方程解释反应变量有统计学意义。但只有年龄、慢性病的偏回归系数假设检验有统计学意义。原则上应考虑回归方程的实际意义,建立包含有统计学意义自变量的回归方程。第十五章一、单项选择题1.D 2.E 3.D 4.D 5.A二、简答题1. logistic回归(hugu)与多重线性回归的区别:(1)反应变量的类型不同:logistic回归适用(shyng)于反应变量为分类变量的资料,多重线性回归适用于反应变量为连续性定量变量的资料。(2)模型的基本(jbn)形式不同:logistic回归模型的基本形式为,多重线
52、性回归模型的基本形式为,。(3)回归模型的参数估计方法不同:logistic回归模型采用极大似然估计法估计参数;多重线性回归模型采用最小二乘法估计参数。(4)模型和回归系数的的假设检验方法不同:logistic回归采用似然比法对模型整体进行假设检验,采用wald检验对每个回归系数假设检验;多重线性回归采用方差分析对模型整体进行假设检验,采用检验对每个回归系数假设检验。2. logistic回归主要用途是筛选危险因素、调整或校正混杂因素及预测和判别。3. logistic回归系数与优势比的关系为,回归系数的解释为其他自变量不变时,自变量每增加1个单位得到的优势比的自然对数。,自变量(因素)为危险
53、因素;,因素为保护因素;,因素与结局无关联。三、分析题1. (1)列出logistic回归模型为(2)解释各回归系数的含义年龄(ninlng)()的回归系数,解释(jish)为:年龄每增加1岁,老年人患糖尿病的危险性增加,患糖尿病的可能性是不患病的2.2713倍;糖尿病家族史()的回归系数,解释为:有糖尿病家族史相比无家族史者,患糖尿病的危险性增加(zngji),有家族史者患糖尿病的可能性是无家族史者患病可能性的2.6654倍;BMI()的回归系数,解释为:BMI每增加一个等级,患糖尿病的危险性增加,BMI等级高者患糖尿病的可能性是低一个等级者患病可能性的1.5261倍。2. (1)找出有统计
54、学意义的影响因素 按的检验水准,多因素logistic回归分析中对骨质疏松患病有影响的因素为承担家务量、体质指数BMI、绝经年限和身高缩减量。(2)解释各回归系数的含义控制或调整其他自变量(影响因素)作用后,承担家务量对是否患骨质疏松有影响,相比承担家务量少者,承担家务量较少和中等者更不容易患骨质疏松,而承担家务量较多和多者,患骨质疏松的可能性与家务量少者相比,差异无统计学意义。体质指数BMI越大者更不容易患骨质疏松。而绝经年限越长,身高缩减量越大更容易患骨质疏松。第十六章一、单项选择题1.C 2.B 3.A二、简答题1.主成分个数的确定方法一是按照特征值的大小,通常会保留大于特征值1的主成分
55、;另外一个是根据累计贡献率,考虑实际问题的需要确定累计贡献率标准。2.因子(ynz)旋转的目的是使因子(ynz)载荷的绝对值差别尽可能大,理想状况是某些因子载荷接近1,而另外的因子(ynz)载荷接近0,使各指标和因子的关系变得清楚。3.聚类分析是事先不知道研究对象的类别,是根据研究对象的某些特征进行归类的一种统计方法。而判别分析则是事先知道研究对象的类别,然后根据研究对象的观测指标建立判别函数,以用于对新研究对象进行类型识别的一种统计方法。4.结构方程模型一般按以下五个基本步骤进行:(1)模型设定;(2)模型识别;(3)模型估计;(4)模型评价和模型修正;(5)模型解释。三、计算分析题1.采用
56、系统聚类分析方法。从图16-37中可清楚地看出整个聚类过程和聚类效果,可将这80个10岁男孩分成3群。P4、8、9、21-24、26、28、30-34、36、37、39、40、43、45-47、49-52、55、59、63、67、68、80聚为一群,P1-3、5-7、10-20、25、27、29、38、41、42、44、48、53、54、56-58、60、61、65、66、69-79聚在另一群,35、62、64聚为第三群。图16-36 80个10岁男孩(nn hi)的系统聚类图2.图16-38为根据(gnj)这4个指标(zhbio)拟合得到的Bayes判别函数的系数(xsh)矩阵,据此可得到以
57、下判别函数;Y1-214.791+1.961X1+8.807X2+5.094X3-18.179X4Y2-220.353+1.846X1+5.315X2+7.729X3-11.809X4Y3-257.341+1.498X1+3.335X2+8.019X3-5.738X4Classification Function Coefficientsclass123X11.9611.8461.498X28.8075.3153.335X35.0947.7298.019X4-18.179-11.809-5.738(Constant)-214.791-220.353-257.341Fishers linear
58、discriminant functions图16-37 Bayes判别函数的系数矩阵图16-39为自身验证法和刀切法两种考核方法的考核结果,可见两种考核方法的预测正确率都是100%。Classification Resultsa,cclassPredicted Group MembershipTotal123OriginalCount150052050530055%1100.0.0.0100.02.0100.0.0100.03.0.0100.0100.0Cross-validatedbCount150052050530055%1100.0.0.0100.02.0100.0.0100.03.0
59、.0100.0100.0a.100.0% of original grouped cases correctly classified.b. Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case.c. 100.0% of cross-validated grouped cases correctly classif
60、ied.图16-39 判别(pnbi)效果评价结果第十七(sh q)章一、简单(jindn)题1.综合评价的一般步骤包括:(1)明确评价目的、确定评价对象;(2)建立评价指标体系;(3)估计指标权重;(4)选择综合评价模型;(5)完善综合评价模型。2.筛选评价指标主要依据专业知识,分析各评价指标对结果的影响,筛选代表性和确定性好,有一定区别能力又互相独立的指标组成评价指标体系。常用的评价指标筛选方法有系统分析法和文献资料分析优选法。3. 确定指标权重的方法有主观定权法和客观定权法两类。前者主要由相关专家或评价者对评价指标的重视程度来确定,包括专家评分法、成对比较法、Saaty权重法等;后者主要
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 居民健康档案管理培训
- 数控车削加工技术 课件 项目四 数控车削仿真加工
- 四川省成都市西藏中学2024-2025高一(1-5班)10月月考历史试卷 - 副本
- 黑龙江省绥化市海伦市第三中学2023-2024学年九年级上学期期中考试化学试卷(含解析)
- T-ZFDSA 01-2024 当归生姜羊肉汤制作标准
- 江苏省泰州市姜堰区2024-2025学年七年级上学期11月期中考试数学试题(无答案)
- 算法工程师面试真题单选题100道及答案解析
- 人教版PEP(2024)三年级上册《Unit 6 Useful numbers》Part A第2课时-教学课件
- 日常生活活动能力训练版
- 圪柳沟安全生产责任制
- 广东省广州市天河区2023-2024学年高一上学期11月期中考试化学试题
- 2024-2030年中国泳装(泳装)行业市场发展趋势与前景展望战略分析报告
- 广东省动物防疫条件审查场所选址风险评估表
- 国开2024年秋《生产与运作管理》形成性考核1-4答案
- 临床病理诊断报告管理制度
- 小学英语教师专业发展计划6篇
- CATTI汉英词汇手册
- 《无人机法律法规知识》课件-第1章 民用航空法概述
- GB/Z 44306-2024颗粒质量一致性评价指南
- 大健康产业互联网医疗服务创新方案设计
- 幼儿家庭教育(山东联盟)智慧树知到答案2024年青岛滨海学院
评论
0/150
提交评论