卫生统计学（钟崇洲）7-计量资料的统计推断-新.ppt

上传人：x*** IP属地：四川上传时间：2019-06-11 格式：PPT 页数：54 大小：3.70MB 积分：15 举报 版权申诉

已阅读5页，还剩49页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数值变量资料的统计分析,抽样误差 .标准误.可信区间的估计,正态分布有2个参数或特征量均数和标准差其中均数作为总体变量值和代表值最重要的，因此计量资料主要研究的目的就是用样本信息来推断总体特征这叫统计推断。一、均数的抽样误差与标准误 1）抽样和抽样误差,抽样研究方法,必须随机化原则,抽样误差,2）均数的标准误,组段 151- 152- 153- 154- 155- 156- 157- 158- 159-及以上频数 1 6 10 18 29 20 8 6 2,样本 100,由频数表可见，在同一总体中抽取的样本均数虽然有大有小，但可以看出样本均数的分布近似服从正态分布，为了说明其集中趋势，可以计算其样本均数的均数为155.52cm，为了说明均数的离散趋势，可以计算样本均数的标准差（为1.64）统计学中把样本均数的标准差称为均数的标准误，简称标准误。均数的标准误是描述均数的抽样误差大小的统计指标，均数的标准误越大，均数的抽样误差就越大，说明样本均数的离散程度越高，与总体均数的差异程度越大,统计理论表明：如原变量X服从正态分布（总体正态分布）从总体中随机抽取例数的n的样本，样本均数也服从正态分布，即使原变量X服从偏态分布，当n是够大时（n30）样本均数也近似服从正态分布。若原变量X的总体（不管正态或偏态）均数标准差为抽取的例数n的样本，样本均数的总体均为标准差与的关系（公式4-1）：,均数的标准误,样本标准差,样本例数,举例（教材286页）如：14岁健康女生身高的标准差=5.30每个样本例数 n=10代入公式由于实际的抽样研究中, 常属末知,只能用样本标准差S作为正常估计值,所以,计算标准误的公式,举例(28页4-1）, 均数标准误的用途 a）用来衡量样本均数的可靠性：均数标准误越少说明样本均数与总体均数的差异程度越小，因此用样本均数估计总体均数越可靠，反之亦然。 b）结合样本均数和正态分布曲线下的面积分布规律可以用以估计总体均数的置信区间。 c）用于均数的假设检验标准误与标准差的区别均数与S相似都是说明离散程度的指标，但与S有区别的，标准差描述个体间的变异程度，凡同性质资料S大表示个体变异大，S小表示个体变异小。（举例）而标准误是样本均数的标准差，描述样本均数的抽样误差，即样本均数与总体均数接近程度，凡同性质资料，大，说明用样本均数代表总体均数可靠性小，小，则说明用样本均数代表总体均数可靠性大。,二 t分布,，,正态分布 N（）,X 叫正态变量,标准正态分布N（0.1）,U叫作标准正态变量。,正态分布 N（）,抽取例数为n的样本,样本均数服从正态分布 N（）,标准正态分布N（01）,即 u 分布。,在实际工作中往往不知道，多用来估计，这时对正态变量采用的不是u变换而是t变换,即：,不是u分布而是t分布。 (t-distrbution),特点： t-分布与标准正态分布相比有以下特征： a）二者都是单峰分布，以0为中心，左右两侧对称。 b）t分布的峰部较矮而尾部翘得较高，说明远侧的t值个数相对较多即尾部面积（概率）越大，他与自由度=n-1有关，自由度越小，这种情况越明显（样本含量）随着自由度的增大，t分布曲线逐渐逼近标准正态曲线，当自由度无穷大时，则t分布曲线与标准正态曲线完全吻合。同标准正态分布曲线一样，统计应用中，最关心的是t分布曲线下的面积（即概率P或） S,S,面积: t分布曲线下的整个面积为1（100%）t分布曲线下t从a到b （a）的面积为t值分布在此范围内的百分比，即t值落在此范围内的概率. 当n= 时，t分布趋向于标准正态分布，即均数为0，S为 1的正态分布； t值在1.96范围内的面积占95%，在2.58的范围内占99%，把自由度为的t分布曲线两侧外面积5%的界值称而把两侧外面积1%界限值称，和两界限很重要是统计上常用t值的显著性，,举例（教材238页）根据自由度和检验水准，可以从表2查t值当 =9时，超过横轴距离2.262以外的两侧之和为0.05 3.250以外的两侧之和0.01. 可用如下表示：，,三、估计总体均数的置信区间统计推断包括两个重要方面所谓参数估计就是用样本指标（统计量）估计总体指标（参数）参数估计,参数估计,假设检验,点（值）估计,区间估计,区间估计：所估计的区间叫总体均数的可信区间（置信区间）其可信度（概率）预先确定来估计总体参数在哪个范围的估计方法称为区间估计.,根据已知条件选用不同的方法估计总体均数的置信区间,a）已知时，按正态分布原理，公式:,95%,99%,未知，且样本例数较小，一般按t分布的原理.公式:,95%,99%,未知，但样本例数n 足够大时，按正态分布原理.公式:,95%,99%,举例随机抽取某地健康男子20人，测得该样本的收缩压均数=118.4mmhg S=10.8mmhg ，估计该地男子收缩压总体均的95%置信区。解 =20- 1=19 查t值表t0.05（19）=2.093 代入公式：,四、假设检验（t检验） 1）假设检验的基本思想总体均数的假设检验有二个目的的。 a）推断单个总体均数是否等于已知总体均数 . b）推断两个总体均数1和2是否相等. 造成和0或与的差别有二种情况。 a）完全由抽样误差造成，即=0，或1=2这种情况差别相对小，称为无显著性。 b）除了由抽样误差造成外，造成总体均数差别. 即0或，1=2这种情况差别相对大，称为差别有显著性,=136.0g/L S=6.0g/L n=280,抽样,举例: 某地抽样调查了280名健康成年男性的血红蛋白，其均数为136.0g/L ，S=6.0g/L 。已知成年男性的血红蛋白的均数为140.0g/L 试问能否认为该地抽样凋的280名成年男性血红蛋白含量与正常男性的血红蛋白含量的均数不同？,1）建立检验假设，,2.步骤,a）=0 称无效假设，用Ho表示,b）称备择假设，用H1或HA表示，,应当注意：1）检验假设是针对总体而言，而不是针对样本。,2）Ho和H1是相互联系，对立的假设.结论是根据Ho和H1作出的,3）Ho为无效假设，其假定是某两个（或多个）总体参数相等,或某两个总体参数之差等于另或,4）H1的内容反映出检验单双侧，若H1假设为0 ，则检验为单侧检验.,2）确定检验水准，,称为显著性水准，用表示一般取 =0.05。,3）选定方法，计算统计量,根据变量或资料类型，设计方案.检验方法的适用条件等选择检验方法,4）确定P值作出推断结论：,根据计算出的检验统计量，查相应的界值表即可得概率P，,举例: 计算统计量. 确定P值. 推断结论：本例t检验(公式9-20) 结论：若P则结论为按所取的检验水准，拒绝Ho，接受H1有统计学意义（统计结论）可以认为不同或不等，例如t= -11.16，t 0.01 200=2.601，因为11.162.601所以P0.01，则拒绝Ho接受H1有统计学意义，认为该地健康成年男性血红蛋白数低于一般正常成年男性血红蛋白。若P ，则结论为检验水准，不拒绝Ho，无统计学意义，还不能认为不同或不等。,第四节： t检验和u检验假设检验的方法是以选定的检验统计量而命名，如t检验和u检验，分别根据要用特定的公式计算t统计和u统计而命名 T检验（t-test）的应用条件：当样本例数n较小,样本来自正态总体，总体标准差未知。在做两个样本均数比较时还要求两样本相应的总体方差相等。 1）样本均数与总体均数的比较举例，如：已知健康成年男子脉搏均数为72次/分，现某医生在一山区随机抽查了25名健康成年男子，求得脉搏均数为74.2次/分，标准差为6.0次/分，问山区成年男子的脉搏均数高于一般成年男子脉搏均数？,a）建立检验假设，确定检验水准 Ho =o=72 次/分 H1 o =0.05 b）选定检验方法，计算检验统计量t值。 =74.2 次/分 S=60 次/分 =72 次/分代入公式 =n-1=25-1=24 c）确定P值，作出推断结论 =24，查t值表，因t 0.05 24=1.711 1.833 故单尾概率 P0.05 按 =0.05 拒绝Ho 接受H1 有统计意义，可认为该山区健康成年男子脉搏数高于一般成年男子脉搏数。,2）配对t检验配对设计主要有以下情形（有三种情况） a）自身比较是指同一受试对象处理前后的比较，目的是推断这种处理有无作用。 b）同一样品用两种方法检验的结果。 c）成对设计的两个受试对象分别给予两种处理，目的都是推断两种处理的效果有无差别.,例9-16 应用某药治疗8例高血压患者，观察患者治疗前后舒张压变化情况，如表9-10，问该药是否对高血压患者治疗前后舒张压变化有影响表9-10 某药治疗高血压患者前后舒张压变化情况 1 96 88 8 2 112 108 4 3 108 102 6 4 102 98 4 5 98 100 -2 6 100 96 4 7 106 102 4,病人编号,舒张压（mmHg）,治疗前,治疗后,差值d,36,（2）选择检验方法，按公式9-24计算检验统计量t值,（3）确定P值，判断结果自由度 =n-1=8-1=7，查表9-9 t界值表今4.022.365, 故P0.05故按a=0.05水准，拒绝H0，接受H1，可认为该药有降低舒张压的作用。,（1）建立假设，确定检验水准,3）两个样本均数的比较： a）两个大样本均数的比较，当两个样本含量较大（均50）可用检验，目的是推断它们各自代表的总体均数有无差别，按公式(9-25)计算检验统计量u值为两样本均数差值标准误，或叫合并标准误,举例:某地随机抽取正常男性新生儿175名，测得血中甘油三酯浓度的均数为0.425mmol/L,标准差为0.245mmol/L ；随机抽取正常女性新生儿167名，测得血中甘油三酯浓度的均数为0.438mmol/L,标准差为0.292mmol/L，问男、女新生儿甘油三酯浓度有无差别？（1）建立检验假设，确定检验水准,(3) 确定P值，判断结果查u 界值表（即表9-9 t界值表中自由度为一行），得P0.10, 按=0.05水准，不拒绝Ho，尚不能认为正常男，女新生儿甘油三酯浓度均数不同,b）两个小样本均数的比较可用于样本含量较小时，且要求两正态总体方差相等，公式： (2) 选择检验方法，按公式9-25计算检验统计量u值,为两样本均数差值的标准误,为合并方差,例9-18 ：两组雄性大鼠分别饲以高蛋白和低蛋白饲料，观察每只大鼠在实验第28天到84天之间所增加的体重，见表9-11。问用两种不同饲料喂养大鼠后，体重增加有无差别表9-11 用两种不同蛋白质含量饲料喂养大鼠后体重增加的克数高蛋白组低蛋白组 X1 X2 X 2 X2 134 17956 70 4900 146 21316 118 13924 104 10816 101 10201 119 14161 85 7225 124 15376 107 11449 161 25921 132 17424 107 11449 94 8836 83 6889 113 12769 129 16641 97 9409 123 15129 1440 177832 707 73959,1.建立假设，确定检验水准,N1 = 12,n2=7,(3) 确定P值，判断结果表2 t 界值表今1.8910.05,按=0.05水准，不拒绝Ho，尚不能认为两种不同蛋白质含量饲料喂养大鼠后体重增加是不同的。,C）方差不齐时两小样本均数比较 1.）两样本方差的齐性检验用t检验进行完全随机设计两总体均数比较时，要求两总体的方差相等。因此在做两总体样本均数比较的t检验前，首先应对两总体的方差是否相等进行检验。方差相等称为方差齐性，方差检验的适用条件是两样本均来自正态分布的总体为了方便，通常是用较大方差比较较小方差，因此构造了统计量F，,t检验（t检验近似t检验）近似t检验有种方法可供选择，包括ochran&Cox法、atterthwaite法和elch法。其中第，种方法较为常用。现选择ochran&Cox法（1950）该法是对临界值校正，其检验统计量t 为,D）成组设计的两样本几何均数的比较成组设计的两样本几何均数的比较的目的是推断两样本几何均数各自代表的总体几何均数有无差别。适宜于用几何均数表示其平均水平的资料（如等比级数资料和对数正态分布资料）。此种情况下，应先把观察值X进行对数变换（即lgX），用变换后的数据代入式（3.8）计算统计量t值。例3.9 为比较两种狂犬病疫苗的效果，将120名患者随机分为两组，分别注册精制苗和PVRV，测定45天两组的狂犬病毒抗体滴度，结果见表3.4，问两种狂犬病疫苗的效果有无差别？表3.4 2种疫苗狂犬病毒抗体滴度的比较疫苗血清滴度人数类型 50 100 200 400 800 1600 3200 6400 12800 精制苗 60 1 3 3 7 4 6 26 7 3 PVRV 60 1 3 14 10 5 3 15 9 0,（1）建立检验假设，确定检验水准 H o：两种疫苗的总体几何均数对数值相等 H 1 ：两种疫苗的总体几何均数对数值不等（2）计算统计量将两组数据分别取对数，记做X1，X2。用变换后的数据计算，S1，。S2。 =3.2292，S1=0.5714， =2.9482。S2=0.6217 代入式（3.8）,（3）确定P值，作出统计推断查附表2，t 界值表，得0.01P0.02，按=0.05水准拒绝Ho，接受H1，差异有统计学意义，可认为两种疫苗的平均抗体滴度不同，精制苗高于PVRV。,五、假设检验注意事项： 1) 要有严密的抽样设计保证样本是从同质总体中随机抽取的。比较的组间要具有均衡性和可比性，即除了要比较的因素外，其他可能影响结果的因素如年龄、性别、病情轻重、病程等在对比的组间应尽可能相同或相近。 2）选用的检验方法必须符合其适用条件应根据分析目的、资料类型、样本含量大小等选用适当的检验方法，理论上要求样本来自正态分布总体。非正态分布选用非参数检验。,3）单侧检验和双侧检验根据研究目的和专业知识选择适当的方法，单侧检验和双侧检验中计算统计量t的过程是一样的，但确定概率时的临界值是不同的。 4）假设检验的结论不能绝对化因为统计结论是概率性的，不论拒绝Ho，还是不拒绝Ho，都有可能发生推断错误，所以做统计结论时不能绝对化，不宜用“肯定”、“必定”、“一定”等词。,5）正确理解P值与差别有无统计意义假设检验的结果并不表示专业上的实际意义 6）假设检验和可信区间的关系假设检验和区间估计之间既存在密切的关系，又有区别。假设检验用以推断两总体均数是否相同，而可信区间则用于推断总体均数在哪个范围。,第六节:两型错误和检验效能假设检验时，根据样本统计量作出的推断结论（拒绝Ho或不拒绝Ho）并不是百分之百的正确，可能发生两种错误： .拒绝了实际上成立的Ho，这类“弃真”的错误为型错误； .不拒绝实际上不成立的o，这类“存伪”的错误为 II型错误。下面以样本均数与总体均数比较的单侧u检验为例说明之，如图5-2，设o：0, H1: 0,(1).I型错误样本来自=0的总体，即o实际上成立,由于抽样的偶然性得到了较大的u值（uua），按检验水准拒绝了o，接受了H1，即0，此推断当然是错误的. 型错误的概率常用表示，若确定检验水准0.05,则犯型错误的概率为0.05，理论上平均每次抽样有次发生这类错误。,(2) II型错误样本来自0的总体，即o实际上不成立，由于抽样的偶然性得到了较小的u值（uua），按检验水准不拒绝o，此推断当然是错误的. II型错误的概率常用表示，但值的大小很难确切的估计，只有在已知样本含量n、两总体均数差值以及所规定的检验水准的条件下，才能估算出的大小。通常当n固定时，愈小，愈大；反之愈大，愈小。图3.4中的-0.9的含义是，若两总体确有差别，理论上平均次抽样有次能得出有差别的结论。检验效能越大，俺水准拒绝o，推断两总体均数确有差别的把握就越大。,推断正确（）,A,B,C,D,(型错误),推断错误,推断错误 (II型错误）,推断正确（）,拒绝o,拒绝o,拒绝o,不拒绝o,o成立,o不成立,三、假设检验的两类错误,1- ,1-, 错误和错误的关系,图5-2中的 -0.9的含义是，若两总体确有差别，理论上平均次抽样有次能得出有差别的结论。检验效能越大，按水准拒绝o，推断两总体均数确有差别的把握就越大. 检验效能是否足够大，是研究在科技设计阶段必须考虑的重要内容。总结如下：客观实际拒绝o 不拒绝o o成立型错误（）推断正确（） o不成立推断正确（） II型错误（）实际工作中，可根据研究要求适当控制和。若重点在于减少，一般取0.01;若字典在于减小，一般取0.05.同时减小和的唯一方法是增加样本含量,小结一、均数的抽样误差在抽样研究中，由于存在个体差异，在样本均数与总体均数、样本均数与样本均数之间不可避免的存在着差异，这种差异就叫做抽样误差 1 ) 标准误描述样本均数的变异程度的指标，表示抽样误差的大小。可应用于估计总体均数的可信区间和进行均数间差异的假设检验,2).标准差和标准误有何区别和联系 (1)区别标准差与标准误的区别标准差（或s）标准误（）意义上描述一组变量值之间的离散描述样本均数间的离散趋势趋势应用上 s 越小，表示变量值围绕越小，表示样本均数与均值分布越密集，说明均数总体均数越接近，说明样本的代表性越好。均数推断总体均数可靠性越大。可用估计变量值分可用估计总体均数布范围可信区间。与n的关系 n越大，s越趋于稳定 n越大，越小（2）联系二者均是表示变异度大小的统计指标。标准误与标准差大小成正比，与抽样例数n的平方根成反比。当n一定时，同一份资料，标准差越大，标准误也越大。,3) 区间估计: 用样本指标估计的总体指标所在的范围，称总体参数的可信区间。习惯上使用95%和99%区间。 95%的可信区间是指样本指标估计总体指标所在的范围，其包含总体指标的可能性为95%，即估计错误概率为5%。 4) t分布是一个重要的连续性分布，是t 检验的

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

卫生统计学（钟崇洲）7-计量资料的统计推断-新.ppt

文档简介

温馨提示

最新文档

评论

卫生统计学（钟崇洲）7-计量资料的统计推断-新.ppt

文档简介

温馨提示

最新文档

评论

相关文档