中国医科大学研究生医学统计学 第三讲 总体均数的估计与假设检验2_课件_第1页
中国医科大学研究生医学统计学 第三讲 总体均数的估计与假设检验2_课件_第2页
中国医科大学研究生医学统计学 第三讲 总体均数的估计与假设检验2_课件_第3页
中国医科大学研究生医学统计学 第三讲 总体均数的估计与假设检验2_课件_第4页
中国医科大学研究生医学统计学 第三讲 总体均数的估计与假设检验2_课件_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三讲第三讲 总体均数的估计与假设检验总体均数的估计与假设检验(第三章)(第三章)第一节第一节 均数的抽样误差均数的抽样误差 与标准误与标准误 统计推断(statistical inference): 样本 总体 (1)参数估计 (2)假设检验推断 统计推断:由样本信息推断总体特征统计推断:由样本信息推断总体特征;即:以样本统计量推断总体参数。;即:以样本统计量推断总体参数。 抽样误差:由个体变异产生的、随机抽样误差:由个体变异产生的、随机抽样造成的样本统计量与总体参数的抽样造成的样本统计量与总体参数的差别。差别。 造成抽样误差的原因:造成抽样误差的原因:1)抽样)抽样 2)个体差异个体差异

2、性质: (1)原分布正态 新分布正态 原分布偏态 新分布近似正态 (2)原分布 N (,2 ) 新分布新分布 N( , ) 足够大nxn2x x足够大n原分布原分布 2 )总体101 n102 n10100 n1167.41x 2165.56x 100165.69x 10100 nX=X=12100.167.69100 xxx2()1.691xxxSn68. 110/3 . 510/ 新分新分布布 2)x均数的标准误: (1)意义: (2)应用: nSnSSxX 标准差:(1)意义: (2)应用:1)(2 nxxSSx第二节第二节 t 分布分布一、一、t 分布的概念分布的概念 2若若样样本本均

3、均数数X服服从从总总体体均均数数为为、总总体体标标准准差差为为X的的正正态态分分布布2( , )XN ,则则通通过过同同样样方方式式的的 u 变变换换(XX)也也可可将将其其转转换换为为标标准准正正态态分分布布 N(0, 12),即即 u 分分布布。 3实际工作中,由于实际工作中,由于 未知,未知,用用 代替,则代替,则 不再服不再服从标准正态分布,而服从从标准正态分布,而服从t 分布。分布。 XS()/XXSX, 1XXXtnSSn),(2 Nx xu) 1 , 0( Nu),(2nNx xxu ) 1 , 0 ()(Nxx nxxx/u未知nSxt/二、二、t 分布的图形与特征分布的图形与

4、特征 t 分分 布布 是是 一一 簇簇 曲曲 线线 。 当当 自自 由由 度度不不 同同 时时 , 曲曲 线线的的 形形 状状 不不 同同 。 当当 时时 , t 分分 布布 趋趋 近近 于于 标标 准准 正正态态 分分 布布 , 但但 当当 自自 由由 度度较较 小小 时时 , 与与 标标 准准 正正 态态 分分 布布 差差异异 较较 大大 。 其其 图图 形形 如如 下下 : t-5.0-4.0-3.0-2.0-1.00.01.02.03.04.05.0(标准正态曲线)=5=1f(t)图3-3 不同自由度下的t 分布图 单峰分布,以单峰分布,以 0 为中心,左右对称;为中心,左右对称; 自

5、由度自由度越小,则越小,则 t 值越分散,值越分散,t 分布的峰部分布的峰部越矮而尾部翘得越高;越矮而尾部翘得越高; 当当逼近逼近 , XS逼近逼近X, t 分布逼近分布逼近 u分布, 故标分布, 故标准正态分布是准正态分布是 t 分布的特例。分布的特例。 t 分布分布特征:特征: -tt0第三节第三节 总体均数的估计总体均数的估计一、参数估计一、参数估计 用样本统计量推断总体参数。用样本统计量推断总体参数。 总体均数估计:用样本均数(和标准差)总体均数估计:用样本均数(和标准差)推断总体均数。推断总体均数。 1点估计点估计(point estimation):就是用就是用相应样本统计量直接作

6、为其总体参数的相应样本统计量直接作为其总体参数的估计值。估计值。如用如用X估计估计、S 估计估计等。等。其其方法虽简单,但未考虑抽样误差的大小。方法虽简单,但未考虑抽样误差的大小。 2. 区间估计区间估计 按预先给定的概率按预先给定的概率(1 )所确定的包含所确定的包含未知总体参数的一个范围。未知总体参数的一个范围。 总体均数的区间估计总体均数的区间估计:按预先给定的:按预先给定的概率概率(1 )所确定的包含未知总体均数的一所确定的包含未知总体均数的一个范围。个范围。1. 单一总体均数的可信区间单一总体均数的可信区间1)()(2/)(2/tSXtPXXXStXSt)(2/)(2/XStXXXS

7、tXX)(2/)(2/XStXStXX)(2/)(2/XStXStXX)(2/)(2/XXStXStX)(2/)(2/(2) 60n 时时:按按 u 分分布布。 已已知知: /2/2XXuu 即即 22XXXuXu 22(,)XXXuXu 未未知知但但 n 较较大大: /2/2XXuuS 即即 22XXXuSXuS 22(,)XXXuSXuS 常用u值表 参考范围(%)三、可信区间的确切涵义三、可信区间的确切涵义 1. 95%的可信区间的理解:的可信区间的理解: (1)从正态总体中随机抽取)从正态总体中随机抽取100个样本,可算得个样本,可算得100个样本个样本均数和标准差,也可算得均数和标准

8、差,也可算得100个均数的可信区间,平均约个均数的可信区间,平均约有有95个可信区间包含了总体均数个可信区间包含了总体均数 。 (2)但在实际工作中,只能根据一次试验结果估计可信区)但在实际工作中,只能根据一次试验结果估计可信区间,我们就认为该区间包含了总体均数间,我们就认为该区间包含了总体均数 。 (1)准确度准确度:用可信度(:用可信度(1 )表示:表示:即区间包即区间包含总体均数含总体均数 的理论概率大小的理论概率大小 。 当然它愈接近当然它愈接近1愈好,如愈好,如99%的可信区间比的可信区间比95%的的可信区间要好可信区间要好 。 (2)精确度精确度:即区间的宽度:即区间的宽度 区间愈

9、窄愈好,如区间愈窄愈好,如95%的可信区间比的可信区间比99%的可信的可信区间要好区间要好 。 当当n确定时,上述两者互相矛盾。确定时,上述两者互相矛盾。 提高准确度(可信度),则精确度降低提高准确度(可信度),则精确度降低 只提高可信度(可信区间会变宽),势必降低可只提高可信度(可信区间会变宽),势必降低可信区间的实际应用价值,故不能笼统认为信区间的实际应用价值,故不能笼统认为99%可可信区间比信区间比95%可信区间要好。可信区间要好。 相反,在实际应用中,相反,在实际应用中,95%可信区间更为常用。可信区间更为常用。 在可信度确定的情况下,增加样本含量可减小区在可信度确定的情况下,增加样本

10、含量可减小区间宽度间宽度 (减小(减小 ) ,提高精确度,提高精确度。XSt和)(2/四、总体均数可信区间与参考值范围的区别四、总体均数可信区间与参考值范围的区别 区别点 总体均数可信区间 参考值范围 含 义 按预先给定的概率,确定的未知参数 的可能范围。实际上一次抽样算得的可信区间要么包含了总体均数,要么不包含。但可以说:当=0.05 时,95%CI 估计正确的概率为 0.95,估计错误的概率小于或等于 0.05,即有 95%的可能性包含了总体均数。 “正常人”的解剖,生理,生化某项指标的波动范围。 总体均数的可能范围 个体值的波动范围 计算 公式 未知: ,XXtS * 已知或未知但 n6

11、0:XXu或XXu S* 正态分布:Xu S * 偏态分布:PXP100X 用途 总体均数的区间估计 绝大多数(如 95%)观察对象某项指标的分布范围 第四节第四节 假设检验的基本原理和步骤假设检验的基本原理和步骤 假设检验过去称显著性检验。它是利用小假设检验过去称显著性检验。它是利用小概率反证法思想,从问题的对立面概率反证法思想,从问题的对立面(H0)出发出发间接判断要解决的问题间接判断要解决的问题(H1)是否成立。然后是否成立。然后在在H0成立的条件下计算检验统计量,最后成立的条件下计算检验统计量,最后获得获得P值来判断。值来判断。单侧检验和双侧检验单侧检验和双侧检验(根据(根据 研究目的

12、和专业知识选择)研究目的和专业知识选择) 双侧检验双侧检验:如要比较:如要比较A、B两个药两个药物的疗效,无效假设为两药疗效物的疗效,无效假设为两药疗效相同相同(H0:A=B),备择假设是两,备择假设是两药疗效不同药疗效不同(H1:AB),可能是,可能是A药优于药优于B药,也可能药,也可能B药优于药优于A药,这就是双侧检验。药,这就是双侧检验。 单侧检验:若实际情况是A药的疗效不劣(差)于B药,则备择假设为A药优于B药(H1:AB),此时,备择假设成立时只有一种可能(另一种可能已事先被排除了),这就是单侧检验。 备注:单侧检验和双侧检验中计算单侧检验和双侧检验中计算统计量统计量t的过程是一样的

13、,但确定概的过程是一样的,但确定概率时的率时的临界值临界值是不同的是不同的。 (3) 检验水准检验水准 ,过去称显著性水准,是预先,过去称显著性水准,是预先规定的概率值,它确定了小概率事件的标规定的概率值,它确定了小概率事件的标准。在实际工作中常取准。在实际工作中常取 = 。可根据不同研可根据不同研究目的给予不同设置。究目的给予不同设置。2. 计算检验统计量计算检验统计量 根据变量和资料类型、设计方案、统计推根据变量和资料类型、设计方案、统计推断的目的、是否满足特定条件等(如断的目的、是否满足特定条件等(如数据数据的分布类型的分布类型)选择相应的检验统计量。)选择相应的检验统计量。 3. 确定

14、确定P值值 P的含义是指从的含义是指从H0规定的总体随机抽样,抽规定的总体随机抽样,抽得等于及大于得等于及大于(或或/和等于及小于和等于及小于)现有样本现有样本获得的检验统计量获得的检验统计量(如如t、u等等)值的概率。值的概率。P 若若 ,则结论为按照检验水,则结论为按照检验水准,不拒绝准,不拒绝H0,差异无统计学意义,差异无统计学意义(统计结论)。(统计结论)。 例3-5 g/L 0?014036n 130.83 /xg L25.74 /sg L 对一个样本均数与一个已知的或假设的总体均数0作比较,它们之间差别可能有两种原因造成: 由于抽样误差所致, 由工作环境的原因,两个总体均数间有本质

15、差异。 第五节第五节 t 检验检验 t 检验和检验和u 检验的应用条件检验的应用条件: 1. t 检验应用条件检验应用条件: 样本含量样本含量n较小时较小时(如如n60) (1)正态分布正态分布 (2)方差齐性方差齐性 2. u 检验应用条件检验应用条件: 样本含量样本含量n较大,或较大,或n虽小但总体标准差已知虽小但总体标准差已知 (1)正态分布正态分布 (2)方差齐性方差齐性单样本检验 已知:未知但n较大未知但n较小nXu 0 nSXu0 nSXt0一、单样本一、单样本 t 检验检验 即样本均数 (代表未知总体均数 )与已知总体均数 0(一般为理论值、标准值或经过大量观察所得稳定值等)的比

16、较。其检验统计量按下式计算:X0, 1XXXXtnSSnSn 例例3-5 某医生测量了某医生测量了36名从事铅作业男性工人的名从事铅作业男性工人的血红蛋白含量,算得其均数为血红蛋白含量,算得其均数为130.83g/L,标准差,标准差为为25.74g/L。问从事铅作业工人的血红蛋白是否。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值不同于正常成年男性平均值140g/L? (1)建立检验假设,确定检验水准建立检验假设,确定检验水准 H0: = 0 =140g/L,即铅作业男性工人平均血红,即铅作业男性工人平均血红 蛋白含量与正常成年男性平均值相等蛋白含量与正常成年男性平均值相等 H1: 0

17、=140g/L,即铅作业男性工人平均血红,即铅作业男性工人平均血红 蛋白含量与正常成年男性平均值不等蛋白含量与正常成年男性平均值不等 (2)计算检验统计量计算检验统计量 本例 n=36,X=130.83g/L,S=25.74g/L, 0140g/L。按公式(3-15) 130.83 1402.138, 36 13525.7436t (3)确定确定P值,作出推断结论值,作出推断结论 以=35、2.1382.138t 查附表 2 的 t 界值表,因0.05/2,35t 2.138 0.02/2,35t,故双尾概率 0.02P0.05。按 = 0.05 水准,拒绝 H0,接受 H1,有统计学意义。结

18、合本题可认为从事铅作业的男性工人平均血红蛋白含量低于正常成年男性。 二、配对二、配对t 检验检验 配对配对t 检验适用于配对设计的计量资料。检验适用于配对设计的计量资料。 配对设计类型配对设计类型:两同质受试对象分别接:两同质受试对象分别接受两种不同的处理;同一受试对象分别受两种不同的处理;同一受试对象分别接受两种不同处理;同一受试对象接受两种不同处理;同一受试对象(一种一种)处理前后。处理前后。检验统计量计算公式检验统计量计算公式0 , 1dddddddtnSSnSn 式中,式中,d 为每对数据的差值,为每对数据的差值,d为差值的样本均数,为差值的样本均数,dS为差值的标准差,为差值的标准差

19、,dS为差值样本均数的标准误,为差值样本均数的标准误,n 为为对子数。对子数。 例例3-6 为比较两种方法对乳酸饮料中脂肪为比较两种方法对乳酸饮料中脂肪含量测定结果是否不同,某人随机抽取了含量测定结果是否不同,某人随机抽取了10份乳酸饮料制品,分别用脂肪酸水解法份乳酸饮料制品,分别用脂肪酸水解法和哥特里和哥特里-罗紫法测定其结果如表罗紫法测定其结果如表3-3第第(1)(3)栏。问两法测定结果是否不同?栏。问两法测定结果是否不同?表表3-5两种方法对乳酸饮料中脂肪含量的测定结果两种方法对乳酸饮料中脂肪含量的测定结果编 号 (1) 哥特里罗紫法 (2) 脂肪酸水解法 (3) 差值 d (4)=(2

20、)(3) 1 0.840 0.580 0.260 2 0.591 0.509 0.082 3 0.674 0.500 0.174 4 0.632 0.316 0.316 5 0.687 0.337 0.350 6 0.978 0.517 0.461 7 0.750 0.454 0.296 8 0.730 0.512 0.218 9 1.200 0.997 0.203 10 0.870 0.506 0.364 2.724 (1)建立检验假设,确定检验水准建立检验假设,确定检验水准 H0: d0,即两种方法的测定结果相同,即两种方法的测定结果相同 H1: d0,即两种方法的测定结果不同,即两种方法

21、的测定结果不同 (2)计算检验统计量计算检验统计量(3)确定确定P值,作出推断结论值,作出推断结论 查附表查附表2的的t界值表得界值表得P0.50。按=0.05 水准,不拒绝 H0,无统计学意义。还不能认为阿卡波糖胶囊与拜唐苹胶囊对空腹血糖的降糖效果不同。 若两总体方差不等若两总体方差不等 若变量变换后总体方差齐性若变量变换后总体方差齐性可采用可采用t 检验检验(如两样本几何均数的如两样本几何均数的t 检验,就是将原检验,就是将原始数据取对数后进行始数据取对数后进行t 检验检验); 若变量变换后总体方差仍然不齐若变量变换后总体方差仍然不齐 可采用可采用t检验或检验或Wilcoxon秩和检验。秩

22、和检验。第六节第六节 假设检验注意事项假设检验注意事项一、两类错误 和检验功效(一)型错误(typeerror) 1定义:型错误是指拒绝了实际上成立的H0,即“弃真”的错误。(用表示)。 2确定:研究者可根据不同研究目 的 来 确 定 水 平 。 如 规 定=0.05,当拒绝H0时,理论上100次检验中平均有5次发生此类错误。表示检验有意义的水准,故亦称检验水准。 (二)型错误(type error) 1定义:型错误是指接受了实际上不成立的H0,即“存伪”的错误。(用表示)。 2确定:只有与特定的H1结合起来才有意义,但的大小很难确切估计。 仅知n 确定时, 且 的唯一办法是 n小结:小结:

23、I 型错误:型错误:“实际无差别,但下了有差别的结论实际无差别,但下了有差别的结论”,假阳性错误假阳性错误。犯这种错误的概率是。犯这种错误的概率是 (其值等其值等于检验水准于检验水准) II型错误型错误:“实际有差别,但下了不拒绝实际有差别,但下了不拒绝H0的结的结论论”,假阴性错误假阴性错误。犯这种错误的概率是。犯这种错误的概率是 (其值其值未知未知) 。 但但 n 一定时,一定时, 增大,增大, 则减少则减少 。 1- :检验效能检验效能(power):当当两总体确有差别,两总体确有差别,按按检验水准检验水准 所能发现这种差别的能力。所能发现这种差别的能力。二、假设检验应注意的问题二、假设检验应注意的问题 要有严密的研究设计要有严密的研究设计 不同的资料应选用不同检验方法不同的资料应选用不同检验方法 正确理解正确理解“显著性显著性”一词的含义一词的含义 结论不能绝对化结论不能绝对化 统计统计“显著性显著性”与医学与医学/ /临床临床/ /生物学生物学“显著性显著性” 可信区间与假设检验各有不同作用,要结合使用可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论