版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章总体均数的估计与假设检验第三章总体均数的估计与假设检验1几个概念:1、抽样研究2、统计描述3、统计推断几个概念:2统计推断(Statisticalinference):用样本信息推论总体特征的过程。包括:参数估计:
运用统计学原理,用从样本计算出来的统计指标量,对总体指标量进行估计。假设检验:又称显著性检验,是指由样本间存在的差别对样本所代表的总体间是否存在着差别做出判断。统计推断(Statisticalinference):用样3基本内容
统计描述统计推断(1)统计推断(2)计量资料频数分布集中趋势离散趋势统计图表抽样误差标准误
tuF检验秩和检验直线相关与回归偏相关多元线性回归计数资料相对数统计图表u、
2检验秩和检验Logistic回归基本内容统计描述统计推断(1)统4第一节均数的抽样误差与标准误第一节均数的抽样误差与标准误5抽样误差:样本统计量与参数之间的差异,称抽样误差。样本统计量是一个随机变量,在随机的原则下从同一总体抽取不同的样本,即使每个样本的样本含量n相同,它们的结果也会不同。样本统计量与参数之间的差异有何特点呢?抽样误差:样本统计量与参数之间的差异,称抽样误差。6二个特点:A、其值互不相同,有些样本统计量与总体参数之间差异大,有些小;有些为正数,有些为负数。B、这些差异虽然客观存在,但却未知,因为总体参数的具体值我们往往未知。由于以上特点,我们该如何去考虑抽样误差的大小呢?二个特点:7X1S1X2S2
XISiXnSnxσμσ均数的抽样示意图X服从什么分布?xσμσ均数的抽样示意图X服从什么分布?8例3-1若某市1999年18岁男生身高服从均数=167.7cm、标准差=5.3cm的正态分布。从该正态分布N(167.7,5.32)总体中随机抽样100次即共抽取样本g=100个,每次样本含量nj=10人,得到每个样本均数及标准差Sj
如图3-1和表3-1所示。例3-1若某市1999年18岁男生身高服从均数=1679
170.36165.57162.65161.005.393.19166.51163.281920169.65165.652.79167.6518173.30165.115.72169.2017173.80166.784.91170.2916169.55164.353.64166.9515173.06166.184.81169.6214169.47164.193.69166.8313172.92164.445.93168.6812172.31163.126.42167.7111169.87162.385.24166.1310173.08161.278.26167.179173.19165.025.71169.118169.05163.274.04166.167169.58163.144.50166.366168.76161.025.41164.895170.11163.244.81166.674172.03164.375.36168.203170.26160.866.57165.562169.37165.452.74167.41195%CLSjj样本号170.36162.655.39166.5119169.610
171.03168.20162.15163.106.203.56166.59165.653940168.02162.294.01165.1638172.84166.824.20169.8337168.86159.386.63164.1236169.59161.955.34165.7735169.88163.664.34166.7734170.05163.744.41166.9033170.13162.715.19166.4232167.33161.174.30164.2531173.13162.367.53167.7530170.86165.953.43168.4129169.83166.142.58167.9928174.30163.317.68168.8027168.34162.044.41165.1926169.59163.704.12166.6525178.15167.707.74172.6124170.94164.354.61167.6423171.42163.885.27167.6522169.84162.754.95166.292195%CLSjj样本号171.03162.156.20166.5939168.11171.91173.37165.45163.434.526.95168.68168.405960169.97162.914.93166.4458175.98165.027.66170.5057170.47163.944.56167.2056170.10162.115.58166.1055171.00168.052.07169.5354173.00164.745.77168.8753171.27165.673.91168.4751173.35167.424.15170.3950170.45164.993.82167.7249171.89165.394.54168.6448173.15164.366.14168.7647173.10165.035.65169.0646169.92161.465.91165.6945170.99163.505.24167.2544172.09163.336.12167.7143171.54160.907.44166.2242168.71162.744.17165.724195%CLSjj样本号171.91165.454.52168.6859169.9712
171.90168.88164.27162.145.334.71168.08165.517980171.04165.963.55168.5078171.58165.144.50168.3677174.84167.714.99171.2776175.14163.188.36169.1675172.94165.795.00169.3774171.53164.534.89168.0373171.56159.808.22165.6872169.40161.975.19165.6871172.00164.865.05168.4770172.52164.885.48168.6069171.90165.024.81168.4668173.11165.515.31169.3167170.83166.852.78168.8466171.04166.273.33168.6665170.90164.364.58167.6364174.31163.757.38169.0363173.44167.234.34170.3362175.72166.706.30171.216195%CLSjj样本号171.90164.275.33168.0879171.013
173.39169.33165.42162.065.575.09169.40165.4999100173.37166.504.80169.9398171.79163.166.03167.4897172.23163.546.07167.8996173.69164.656.32169.1795173.45165.945.26169.7094169.76162.834.84166.3093169.54163.704.08166.6292169.21163.663.87166.4391171.48162.896.00167.1890173.32161.498.27167.4089171.03164.454.60167.7488171.12163.066.33167.5987172.28163.516.13167.9086171.83163.036.15167.4385171.04164.694.44167.8684169.58162.265.11165.9283174.27167.984.40171.1282170.26164.933.73167.598195%CLSjj样本号173.39165.425.57169.4099173.14样本统计量的标准差(方差),从平均的意义上说明了样本统计量与总体参数的差异状况,故常用它来衡量抽样误差的大小。为区别一般变量的标准差,常把样本统计量的标准差称为标准误(standarderror)
在此,我们只讨论样本均数的分布及其抽样误差的计算。样本统计量的标准差(方差),从平均的意义上说明了样本15医学统计学第三章-总体均数的估计与假设检验-课件16
样本均数的抽样分布特点:1)来自正态总体的样本均数,其分布为正态分布,其均数为原变量的均数,其方差为原变量方差的1/n倍。2)来自偏态总体的样本均数,若n大,则样本均数近似于正态分布。否则,样本均数为偏态分布。医学统计学第三章-总体均数的估计与假设检验-课件17若X~N(μ,)
则~
N(μ,)若X服从偏态分布,n小,服从偏态分布;均数为μ方差为;当n大时,近似服从正态分布。即~
N(μ,)
若X~N(μ,)18问题:已知健康成年男性身高(厘米)X~N(170,62),
现从该总体进行n=36的抽样,求样本均数落在168.04—171.96间的概率?问题:19第二节t分布第二节t分布20哥塞特(W.S.Gosset,1876~1937)1908年,哥塞特首次以“学生”(Student)为笔名,在《生物计量学》杂志上发表了“平均数的概率误差”。由于这篇文章提供了“学生t检验”的基础,为此,许多统计学家把1908年看作是统计推断理论发展史上的里程碑。
医学统计学第三章-总体均数的估计与假设检验-课件21戈塞特:t分布与小样本由于“有些实验不能多次地进行”,从而“必须根据少数的事例(小样本)来判断实验结果的正确性”小样本思想戈塞特:t分布与小样本小样本思想22一、t
分布的概念:小样本的概率分布
与正态分布比较,反应抽样误差分布的规律。(规律来源的公式解释):二、t
分布图形:三、t
分布面积特征(t界值表):一、t分布的概念:小样本的概率分布23
~
N(μ,)故:~
N(0,1)当未知是,如用来代替~
t分布,=n-1~N(μ,)~N(0,1)当未知24医学统计学第三章-总体均数的估计与假设检验-课件25t分布图形:1)t值的分布与自由度有关,t分布是一簇曲线。2)单峰分布,以0为中心,形状类似标准正态分布。3)自由度越小,曲线的峰部越矮,尾部越粗。4)当自由度为无穷大时,t分布即为标准正态分布。t分布图形:26医学统计学第三章-总体均数的估计与假设检验-课件27t0f(t1)F(t1)t1t分布分布函数分布示意图t0f(t1)F(t1)t1t分布分布函数分布示意图28t界值表单侧界值双侧界值t界值表单侧界值双侧界值29t界值表的规律t界值表的规律30第三节总体均数的估计第三节总体均数的估计31参数估计的概念:指用样本指标(统计量)估计总体指标(参数);有点估计和区间估计两种。这种估计通常是在信息不完全、结果不确定的情况下作出的。参数估计提供了一套在满足一定精确度要求下根据部分信息来估计总体参数的真值,并作出同这个估计相适应的误差说明的科学方法。参数估计的概念:指用样本指标(统计量)估计总体指标(参32参数估计问题假设检验问题点估计区间估计统计推断
DE基本问题参数估假设检点估计区间估计统计33什么是参数估计?参数是刻画总体某方面概率特性的数量.当此数量未知时,从总体抽出一个样本,用某种方法对这个未知参数进行估计就是参数估计.例如,X~N(,2),
点估计区间估计若,2未知,通过构造样本的函数,给出它们的估计值或取值范围就是参数估计的内容.什么是参数估计?参数是刻画总体某方面概率特性的数量.当此数量34参数估计的类型点估计——估计未知参数的值区间估计——估计未知参数的取值范围,并使此范围包含未知参数真值的概率为给定的值.参数估计的类型点估计——估计未知参数的值区间估计——35总体均数的估计量:样本平均数
pointestimation:Intervalestimation:考虑抽样误差总体均数的估计量:样本平均数36总体均数可信区间的计算A、单个正态总体均数的可信区间总体均数可信区间的计算37医学统计学第三章-总体均数的估计与假设检验-课件38总体均数可信区间的计算总体均数可信区间的计算39例3-2在例3-1中抽得第15号样本的均数=166.95,标准差S=3.64cm,求其总体均数的95%可信区间。n=10人,S=
=1.1511(cm)
=n-1=10-1=9,t0.05/2,9=2.262。其95%可信区间:(166.95-2.2621.1511,166.95+2.2621.1511)即(164.35,169.55)(cm)。例3-2在例3-1中抽得第15号样本的均数=140例3-3某地抽取正常成年人200名,测得其血清胆固醇的均数为3.64mmol/L,标准差为1.20mmol/L,估计该地正常成年人血清胆固醇均数的双侧95%可信区间。本例n>60,故可采用正态近似法
今n=200,=3.64、S=1.20、S
=0.0849,u0.05/2=1.96。(3.64-1.960.0849,3.64+1.960.0849)即(3.47,3.81)(mmol/L)。
例3-3某地抽取正常成年人200名,测得其血清胆固醇的均41B、两总体均数之差的可信区间从总体标准差相等,但总体均数不等的两个正态总体进行随机抽样。两总体均数之差的双侧可信区间为:
B、两总体均数之差的可信区间42医学统计学第三章-总体均数的估计与假设检验-课件43医学统计学第三章-总体均数的估计与假设检验-课件44例3-4为了解甲氨蝶呤(MTX)对外周血IL-2水平的影响,某医生将61名哮喘患者随机分为两组。其中对照组29(n1),采用安慰剂;试验组32例(n2),采用小剂量甲氨蝶呤(MTX)进行治疗。测得对照组治疗前IL-2的均数为20.10IU/ml(1),标准差为7.02IU/ml(S1);试验组治疗前IL-2的均数为16.89IU/ml(2),标准差为8.46IU/ml(S2)。问两组治疗前基线的IL-2总体均数相差有多大?
==2.0023=n1+n2-2=29+32-2=59,以=60t0.05/2,60=2.000,
1-2的双侧95%可信区间:(20.10-16.89)±2.000×2.0023即(-0.79,7.21)(IU/ml)
例3-4为了解甲氨蝶呤(MTX)对外周血IL-2水平的影45可信区间的特点及其确切涵义:1、随机性:因为样本具有随机性2、确定性:样本实现后,可信区间也就确定
总体参数95%的可信区间的涵义:若进行重复多次抽样,则可构建多个可信区间,在这些可信区间中,理论上有95%的可信区间包含了总体参数,还有5%的可信区间未包含总体参数。可信区间的特点及其确切涵义:46可信区间的两个要素:
准确性:又称可靠性,即区间的可信度,也即其概率保证程度,如95%、99%。精确性:可信区间的长度(CU–CL)/2衡量。
可信区间的两个要素:47第四节t检验第四节t检验48
假设检验
假设检验是统计学的核学内容,具有独特的逻辑,并包括诸多方法。
总的来说是先对总体的某一特征进行假设,然后根据样本统计量的分布规律分析样本数据,判断样本信息是否支持这种假设,最后作出拒绝这种假设的取舍抉择。这种通过对假设作出取舍抉择达到解决问题的方法,称为假设检验。假设检验49总体A1a1a2总体B2b2假设检验所解决的问题:样本统计量的差异是由何种因素造成的?总体Aa1a2总体Bb2假设检验所解决的问题:样本统计量的差50假设检验的推理逻辑:小概率反证法先对总体的某个特征进行假设(H0),即检验假设(零假设)。在H0正确的假定下,看看能由此推出什么结果。如果导致一种不合理的现象出现,则推论事先“H0正确的假定”不正确,即H0不正确。反之,如没有导致一种不合理现象出现,则不能作出拒绝H0的判断结论。假设检验的推理逻辑:小概率反证法先对总体的某个51
不合理现象的判定规则?
小概率事件原理是判定的依据。在H0为真的假定下,看看获得现有样本(X1…Xn)及其更极端情况的概率P,若P>,则认为合理,反之P<=,则认为不合理。为小概率事件的界值,在此称假设检验水准。常取0.05或0.01。
此即所谓小概率反证法的推理逻辑。
不合理现象的判定规则?52
无论哪种检验,也无论假设的形式怎样,进行假设检验的基本思路是一样的,都是概率意义下的反证法。不同类型的检验,只是P(样本/H0正确)的计算方法不同。P(样本/H0正确)的计算要根据样本统计量(与H0和样本均有关)的精确分布或渐近分布确定。寻求这样的统计量及其抽样分布是假设检验的关键。无论哪种检验,也无论假设的形式怎样,进行假53医学统计学第三章-总体均数的估计与假设检验-课件541、假设检验的基本步骤1)建立检验假设,确定检验水准。2)计算检验统计量:根据变量类型、设计方案、统计推断目的、方法的适用条件等选择检验统计量。检验统计量都是在H0成立的前提条件下计算出来的。3)确定P值,做出推断结论。
1、假设检验的基本步骤55假设检验有单侧与双侧检验之分,如拒绝域在一侧者,则其为单侧检验;如拒绝域在两侧者,则其为双侧检验;
我们一般常用双侧检验,除有充分理由才使用单侧检验。单侧检验0.05检验水准相当于双侧检验0.1检验水准。(拒绝域)假设检验有单侧与双侧检验之分,56
一般,把要判断的总体特征(参数或分布)叫“统计假设”或称假设;利用样本提供的信息判断假设是否成立的统计假设检验称假设检验。
一般,把要判断的总体特征(参数或分布)叫57
如已知总体分布类型,对其未知参数的假设检验称参数检验。
如未知总体分布类型,假设是针对总体的分布或总体的数字特征而提出的,这类问题的检验不依赖总体的分布,称非参数假设检验或自由分布检验。如已知总体分布类型,对其未知参数的假设检验称582、均数比较的t检验1)正态总体单样本t检验目的是推断样本所代表的未知总体均数与已知的总体均数有无差别。2、均数比较的t检验59例3-5某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值140g/L?(1)建立检验假设,确定检验水准H0:=0=140g/L,H1:≠0=140g/L,=0.05(2)计算检验统计量本例n=36,=130.83g/L,S=25.74g/L,0=140g/L。
t=
=-2.138,
=36-1=35(3)确定P值,作出推断结论以=35、︱t︱=︱-2.138︱=2.138查附表2,因t0.05/2,35<2.138<t0.02/2,35,故双尾概率0.02<P<0.05。按=0.05水准,拒绝H0,接受H1,有统计学意义。可认为从事铅作业的男性工人平均血红蛋白含量低于正常成年男性。例3-5某医生测量了36名从事铅作业男性工人的血红蛋白含602)配对t检验配对设计:将实验对象按一定条件配成对子,再随机分配每对中的两个对象接受不同的处理方式,此为配对设计。完全随机化设计:将实验对象随机分成两组或多组,每组给予不同的处理。注意以上两种设计资料的特点。2)配对t检验61例3-6为比较两种方法对乳酸饮料中脂肪含量测定结果是否不同,随机抽取了10份乳酸饮料制品,分别用脂肪酸水解法和哥特里-罗紫法测定其结果如表3-5第⑴~⑶栏。问两法测定结果是否不同?2.7240.3640.5060.870100.2030.9971.20090.2180.5120.73080.2960.4540.75070.4610.5170.97860.3500.3370.68750.3160.3160.63240.1740.5000.67430.0820.5090.59120.2600.5800.8401(4)=(2)-(3)(3)(2)(1)差值d脂肪酸水解法哥特里-罗紫法编号例3-6为比较两种方法对乳酸饮料中脂肪含量测定结果是否不62⑴建立检验假设,确定检验水准H0:=0,即两种方法的测定结果相同H1:≠0,即两种方法的测定结果不同=0.05⑵计算检验统计量本例n=10,=2.724,=0.8483,==2.724/10=0.2724Sd===0.1087t==7.925,=10-1=9⑶确定P值,作出推断结论查附表2的t界值表得P<0.001。按=0.05水准,拒绝H0,接受H1,有统计学意义。可认为两种方法对脂肪含量的测定结果不同,哥特里-罗紫法测定结果较高。
⑴建立检验假设,确定检验水准633)两样本比较t检验(成组设计)A、两正态总体方差相等时的t检验
3)两样本比较t检验(成组设计)64例3-7为研究国产四类新药阿卡波糖胶囊的降血糖效果,某医院用40名2型糖尿病病人进行同期随机对照试验。试验者将这些病人随机等分到试验组(用阿卡波糖胶囊)和对照组(用拜糖平胶囊),分别测得试验开始前和8周后的空腹血糖,算得空腹血糖下降值见表3-6,能否认为该国产四类新药阿卡波糖胶囊与拜糖平胶囊对空腹血糖的降糖效果不同?表3-6试验组和对照组空腹血糖下降值(mmol/L)-2.001.703.101.202.202.001.602.003.806.00(n2=20)-1.106.603.400.600.200.805.205.006.503.70对照组X2-1.406.002.504.604.500.403.001.70-1.602.50(n1=20)-0.507.105.804.003.500.702.802.00-5.60-0.70试验组X1例3-7为研究国产四类新药阿卡波糖胶囊的降血糖效果,某医院用65
(1)建立检验假设,确定检验水准H0:=H1:=0.05(2)计算检验统计量=2.0650(mmol/L),S1=3.0601(mmol/L);
=2.6250(mmol/L),S2=2.4205(mmol/L)。
t===
=-0.642=n1+n2-2=2(n-1)=2(20-1)=38(3)确定P值,作出推断结论以=38,|t|=|-0.642|=0.642,查附表2P>0.50。按=0.05水准,不拒绝H0,无统计学意义。还不能认为阿卡波糖胶囊与拜糖平胶囊对空腹血糖的降糖效果不同。≠(1)建立检验假设,确定检验水准≠66医学统计学第三章-总体均数的估计与假设检验-课件67B、两正态总体方差不齐时的近似t检验注意:当样本含量较大时,均数比较的假设检验对资料的正态性和方差齐性要求不高。B、两正态总体方差不齐时的近似t检验68例3-8在上述例3-7国产四类新药阿卡波糖胶囊的降血糖效果研究中,测得用拜糖平胶囊的对照组20例病人和用阿卡波糖胶囊的试验组20例病人,其8周时糖化血红蛋白HbA1c(%)下降值如表3-7.问用两种不同药物的病人其HbA1c下降值是否不同?1.360.701.461.132020对照组试验组Sn分组表3-7对照组和试验组HbA1c下降值(%)对照组方差是试验组方差的3.77倍,两样本方差齐性的F检验认为两组的总体方差不等,故采用近似t检验.(1)建立检验假设,确定检验水准H0:,即对照组和试验组病人HbA1c下降值的总体均数相等H1:,即对照组和试验组病人HbA1c下降值的总体均数不等=0.05(2)计算检验统计量按公式(3-19)例3-8在上述例3-7国产四类新药阿卡波糖胶囊的降血糖效69(3)确定P值,作出推断结论。
查t界值表t0.05/2,19=2.093。
:由0.965<2.093得P>0.05。按=0.05水准,不拒绝H0,无统计学意义.还不能认为用两种不同药物的病人其HbA1c下降值不同.
医学统计学第三章-总体均数的估计与假设检验-课件703、假设检验的两类错误一型错误:拒绝了实际成立的H0。二型错误:不拒绝实际上不成立的H0。3、假设检验的两类错误71/2/2H0
真H0
不真图/2/2H0真H0不真图72正确正确第一类错误
(弃真)第二类错误
(取伪)假设检验的两类错误
表H0
为真H0
为假真实情况所作判断接受H0拒绝H0第一类错误通常称为类错误第二类错误通常称为类错误正确正确第一类错误第二类错误假设检验的两类错误表H0为真73问题:第二类错误的大小和哪些因素有关?问题:744、假设检验应注意的问题1)要有严密的研究设计:组间应均衡2)不同资料应选用不同的检验方法:分析目的;资料类型、特点;设计。3)正确理解“显著性”的含义:现多用“有无统计学意义”4)结论不能绝对化:其结论具有概率性质5)统计“显著性”与临床“显著性”的区别6)可信区间与假设检验的区别和联系4、假设检验应注意的问题1)要有严密的研究设计:组间应均衡75第六节正态性检验和两样本方差比较的F检验第六节正态性检验和两样本方差比较的F检验76正态性检验
1、概率图(p-p图)2、偏度系数与峰度系数法正态性检验77医学统计学第三章-总体均数的估计与假设检验-课件78例3-9试用矩法对表3-1中计算机模拟抽样所得100个样本均数进行正态性检验.(1)建立检验假设,确定检验水准H0:=0且=0H1:≠0或/和≠0,=0.10(欲不拒绝H0,宜稍大以减少Ⅱ型错误)(2)计算检验统计量f=1,X为每次抽样算得的均数。今==16768.64,==2812156.3640,==471655519.5407,==79114166838.6615。)例3-9试用矩法对表3-1中计算机模拟抽样所得100个样79
=0.1104
故有(3)确定P值,作出推断结论查u界值表,得双尾概率:峰度P>0.50,偏度P>0.50。按=0.10水准,不拒绝H0,无统计学意义.还不能认为这些样本均数的总体不服从正态分布。
807、两样本方差齐性检验这里介绍F检验:现多用不依赖总体分布的Levene检验7、两样本方差齐性检验现多用不依赖总体分布的Levene检验81分组例数均数标准差对照201.461.36试验201.130.70对照组与试验组HbA1c下降值(%)F=1.362/0.702=3.775df1=19df2=19分组例数均数标准差对照201.461.36试验201.13082例3-10对例3-7,用F检验判断两总体空腹血糖下降值的方差是否不等。(1)建立检验假设,确定检验水准H0:,H1:,
(2)计算检验统计量(3)确定P值,作出推断结论以(表中无19)、查F界值表,得F0.10/2,(20,19)=2.15,因1.598<F0.10/2,(20,19),故P>0.10。按水准,不拒绝H0,无统计学意义。还不能认为阿卡波糖胶囊组与拜糖平胶囊组空腹血糖下降值的总体方差不等。例3-10对例3-7,用F检验判断两总体空腹血糖下降值的83例3-11对例3-8,用F检验判断对照组和试验组病人HbA1c(%)下降值的总体方差是否不等。(1)建立检验假设,确定检验水准H0:H1:(2)计算检验统计量(3)确定P值,作出推断结论以、、查附表3的F界值表,因3.775>F0.10/2,(20,19),故P<0.10。按水准,拒绝H0,接受H1,有统计学意义。可认为对照组和试验组病人HbA1c(%)
下降值的总体方差不等。例3-11对例3-8,用F检验判断对照组和试验组病人Hb84变量变换当原始资料不满足假设检验的条件时,可通过变量变换的方法加以改善,使资料满足正态性或等方差的要求。1、对数变换2、平方根变换3、平方根反正弦变换4、倒数变换变量变换当原始资料不满足假设检验的条件时,可通过变量变换1、85第三章总体均数的估计与假设检验第三章总体均数的估计与假设检验86几个概念:1、抽样研究2、统计描述3、统计推断几个概念:87统计推断(Statisticalinference):用样本信息推论总体特征的过程。包括:参数估计:
运用统计学原理,用从样本计算出来的统计指标量,对总体指标量进行估计。假设检验:又称显著性检验,是指由样本间存在的差别对样本所代表的总体间是否存在着差别做出判断。统计推断(Statisticalinference):用样88基本内容
统计描述统计推断(1)统计推断(2)计量资料频数分布集中趋势离散趋势统计图表抽样误差标准误
tuF检验秩和检验直线相关与回归偏相关多元线性回归计数资料相对数统计图表u、
2检验秩和检验Logistic回归基本内容统计描述统计推断(1)统89第一节均数的抽样误差与标准误第一节均数的抽样误差与标准误90抽样误差:样本统计量与参数之间的差异,称抽样误差。样本统计量是一个随机变量,在随机的原则下从同一总体抽取不同的样本,即使每个样本的样本含量n相同,它们的结果也会不同。样本统计量与参数之间的差异有何特点呢?抽样误差:样本统计量与参数之间的差异,称抽样误差。91二个特点:A、其值互不相同,有些样本统计量与总体参数之间差异大,有些小;有些为正数,有些为负数。B、这些差异虽然客观存在,但却未知,因为总体参数的具体值我们往往未知。由于以上特点,我们该如何去考虑抽样误差的大小呢?二个特点:92X1S1X2S2
XISiXnSnxσμσ均数的抽样示意图X服从什么分布?xσμσ均数的抽样示意图X服从什么分布?93例3-1若某市1999年18岁男生身高服从均数=167.7cm、标准差=5.3cm的正态分布。从该正态分布N(167.7,5.32)总体中随机抽样100次即共抽取样本g=100个,每次样本含量nj=10人,得到每个样本均数及标准差Sj
如图3-1和表3-1所示。例3-1若某市1999年18岁男生身高服从均数=16794
170.36165.57162.65161.005.393.19166.51163.281920169.65165.652.79167.6518173.30165.115.72169.2017173.80166.784.91170.2916169.55164.353.64166.9515173.06166.184.81169.6214169.47164.193.69166.8313172.92164.445.93168.6812172.31163.126.42167.7111169.87162.385.24166.1310173.08161.278.26167.179173.19165.025.71169.118169.05163.274.04166.167169.58163.144.50166.366168.76161.025.41164.895170.11163.244.81166.674172.03164.375.36168.203170.26160.866.57165.562169.37165.452.74167.41195%CLSjj样本号170.36162.655.39166.5119169.695
171.03168.20162.15163.106.203.56166.59165.653940168.02162.294.01165.1638172.84166.824.20169.8337168.86159.386.63164.1236169.59161.955.34165.7735169.88163.664.34166.7734170.05163.744.41166.9033170.13162.715.19166.4232167.33161.174.30164.2531173.13162.367.53167.7530170.86165.953.43168.4129169.83166.142.58167.9928174.30163.317.68168.8027168.34162.044.41165.1926169.59163.704.12166.6525178.15167.707.74172.6124170.94164.354.61167.6423171.42163.885.27167.6522169.84162.754.95166.292195%CLSjj样本号171.03162.156.20166.5939168.96171.91173.37165.45163.434.526.95168.68168.405960169.97162.914.93166.4458175.98165.027.66170.5057170.47163.944.56167.2056170.10162.115.58166.1055171.00168.052.07169.5354173.00164.745.77168.8753171.27165.673.91168.4751173.35167.424.15170.3950170.45164.993.82167.7249171.89165.394.54168.6448173.15164.366.14168.7647173.10165.035.65169.0646169.92161.465.91165.6945170.99163.505.24167.2544172.09163.336.12167.7143171.54160.907.44166.2242168.71162.744.17165.724195%CLSjj样本号171.91165.454.52168.6859169.9797
171.90168.88164.27162.145.334.71168.08165.517980171.04165.963.55168.5078171.58165.144.50168.3677174.84167.714.99171.2776175.14163.188.36169.1675172.94165.795.00169.3774171.53164.534.89168.0373171.56159.808.22165.6872169.40161.975.19165.6871172.00164.865.05168.4770172.52164.885.48168.6069171.90165.024.81168.4668173.11165.515.31169.3167170.83166.852.78168.8466171.04166.273.33168.6665170.90164.364.58167.6364174.31163.757.38169.0363173.44167.234.34170.3362175.72166.706.30171.216195%CLSjj样本号171.90164.275.33168.0879171.098
173.39169.33165.42162.065.575.09169.40165.4999100173.37166.504.80169.9398171.79163.166.03167.4897172.23163.546.07167.8996173.69164.656.32169.1795173.45165.945.26169.7094169.76162.834.84166.3093169.54163.704.08166.6292169.21163.663.87166.4391171.48162.896.00167.1890173.32161.498.27167.4089171.03164.454.60167.7488171.12163.066.33167.5987172.28163.516.13167.9086171.83163.036.15167.4385171.04164.694.44167.8684169.58162.265.11165.9283174.27167.984.40171.1282170.26164.933.73167.598195%CLSjj样本号173.39165.425.57169.4099173.99样本统计量的标准差(方差),从平均的意义上说明了样本统计量与总体参数的差异状况,故常用它来衡量抽样误差的大小。为区别一般变量的标准差,常把样本统计量的标准差称为标准误(standarderror)
在此,我们只讨论样本均数的分布及其抽样误差的计算。样本统计量的标准差(方差),从平均的意义上说明了样本100医学统计学第三章-总体均数的估计与假设检验-课件101
样本均数的抽样分布特点:1)来自正态总体的样本均数,其分布为正态分布,其均数为原变量的均数,其方差为原变量方差的1/n倍。2)来自偏态总体的样本均数,若n大,则样本均数近似于正态分布。否则,样本均数为偏态分布。医学统计学第三章-总体均数的估计与假设检验-课件102若X~N(μ,)
则~
N(μ,)若X服从偏态分布,n小,服从偏态分布;均数为μ方差为;当n大时,近似服从正态分布。即~
N(μ,)
若X~N(μ,)103问题:已知健康成年男性身高(厘米)X~N(170,62),
现从该总体进行n=36的抽样,求样本均数落在168.04—171.96间的概率?问题:104第二节t分布第二节t分布105哥塞特(W.S.Gosset,1876~1937)1908年,哥塞特首次以“学生”(Student)为笔名,在《生物计量学》杂志上发表了“平均数的概率误差”。由于这篇文章提供了“学生t检验”的基础,为此,许多统计学家把1908年看作是统计推断理论发展史上的里程碑。
医学统计学第三章-总体均数的估计与假设检验-课件106戈塞特:t分布与小样本由于“有些实验不能多次地进行”,从而“必须根据少数的事例(小样本)来判断实验结果的正确性”小样本思想戈塞特:t分布与小样本小样本思想107一、t
分布的概念:小样本的概率分布
与正态分布比较,反应抽样误差分布的规律。(规律来源的公式解释):二、t
分布图形:三、t
分布面积特征(t界值表):一、t分布的概念:小样本的概率分布108
~
N(μ,)故:~
N(0,1)当未知是,如用来代替~
t分布,=n-1~N(μ,)~N(0,1)当未知109医学统计学第三章-总体均数的估计与假设检验-课件110t分布图形:1)t值的分布与自由度有关,t分布是一簇曲线。2)单峰分布,以0为中心,形状类似标准正态分布。3)自由度越小,曲线的峰部越矮,尾部越粗。4)当自由度为无穷大时,t分布即为标准正态分布。t分布图形:111医学统计学第三章-总体均数的估计与假设检验-课件112t0f(t1)F(t1)t1t分布分布函数分布示意图t0f(t1)F(t1)t1t分布分布函数分布示意图113t界值表单侧界值双侧界值t界值表单侧界值双侧界值114t界值表的规律t界值表的规律115第三节总体均数的估计第三节总体均数的估计116参数估计的概念:指用样本指标(统计量)估计总体指标(参数);有点估计和区间估计两种。这种估计通常是在信息不完全、结果不确定的情况下作出的。参数估计提供了一套在满足一定精确度要求下根据部分信息来估计总体参数的真值,并作出同这个估计相适应的误差说明的科学方法。参数估计的概念:指用样本指标(统计量)估计总体指标(参117参数估计问题假设检验问题点估计区间估计统计推断
DE基本问题参数估假设检点估计区间估计统计118什么是参数估计?参数是刻画总体某方面概率特性的数量.当此数量未知时,从总体抽出一个样本,用某种方法对这个未知参数进行估计就是参数估计.例如,X~N(,2),
点估计区间估计若,2未知,通过构造样本的函数,给出它们的估计值或取值范围就是参数估计的内容.什么是参数估计?参数是刻画总体某方面概率特性的数量.当此数量119参数估计的类型点估计——估计未知参数的值区间估计——估计未知参数的取值范围,并使此范围包含未知参数真值的概率为给定的值.参数估计的类型点估计——估计未知参数的值区间估计——120总体均数的估计量:样本平均数
pointestimation:Intervalestimation:考虑抽样误差总体均数的估计量:样本平均数121总体均数可信区间的计算A、单个正态总体均数的可信区间总体均数可信区间的计算122医学统计学第三章-总体均数的估计与假设检验-课件123总体均数可信区间的计算总体均数可信区间的计算124例3-2在例3-1中抽得第15号样本的均数=166.95,标准差S=3.64cm,求其总体均数的95%可信区间。n=10人,S=
=1.1511(cm)
=n-1=10-1=9,t0.05/2,9=2.262。其95%可信区间:(166.95-2.2621.1511,166.95+2.2621.1511)即(164.35,169.55)(cm)。例3-2在例3-1中抽得第15号样本的均数=1125例3-3某地抽取正常成年人200名,测得其血清胆固醇的均数为3.64mmol/L,标准差为1.20mmol/L,估计该地正常成年人血清胆固醇均数的双侧95%可信区间。本例n>60,故可采用正态近似法
今n=200,=3.64、S=1.20、S
=0.0849,u0.05/2=1.96。(3.64-1.960.0849,3.64+1.960.0849)即(3.47,3.81)(mmol/L)。
例3-3某地抽取正常成年人200名,测得其血清胆固醇的均126B、两总体均数之差的可信区间从总体标准差相等,但总体均数不等的两个正态总体进行随机抽样。两总体均数之差的双侧可信区间为:
B、两总体均数之差的可信区间127医学统计学第三章-总体均数的估计与假设检验-课件128医学统计学第三章-总体均数的估计与假设检验-课件129例3-4为了解甲氨蝶呤(MTX)对外周血IL-2水平的影响,某医生将61名哮喘患者随机分为两组。其中对照组29(n1),采用安慰剂;试验组32例(n2),采用小剂量甲氨蝶呤(MTX)进行治疗。测得对照组治疗前IL-2的均数为20.10IU/ml(1),标准差为7.02IU/ml(S1);试验组治疗前IL-2的均数为16.89IU/ml(2),标准差为8.46IU/ml(S2)。问两组治疗前基线的IL-2总体均数相差有多大?
==2.0023=n1+n2-2=29+32-2=59,以=60t0.05/2,60=2.000,
1-2的双侧95%可信区间:(20.10-16.89)±2.000×2.0023即(-0.79,7.21)(IU/ml)
例3-4为了解甲氨蝶呤(MTX)对外周血IL-2水平的影130可信区间的特点及其确切涵义:1、随机性:因为样本具有随机性2、确定性:样本实现后,可信区间也就确定
总体参数95%的可信区间的涵义:若进行重复多次抽样,则可构建多个可信区间,在这些可信区间中,理论上有95%的可信区间包含了总体参数,还有5%的可信区间未包含总体参数。可信区间的特点及其确切涵义:131可信区间的两个要素:
准确性:又称可靠性,即区间的可信度,也即其概率保证程度,如95%、99%。精确性:可信区间的长度(CU–CL)/2衡量。
可信区间的两个要素:132第四节t检验第四节t检验133
假设检验
假设检验是统计学的核学内容,具有独特的逻辑,并包括诸多方法。
总的来说是先对总体的某一特征进行假设,然后根据样本统计量的分布规律分析样本数据,判断样本信息是否支持这种假设,最后作出拒绝这种假设的取舍抉择。这种通过对假设作出取舍抉择达到解决问题的方法,称为假设检验。假设检验134总体A1a1a2总体B2b2假设检验所解决的问题:样本统计量的差异是由何种因素造成的?总体Aa1a2总体Bb2假设检验所解决的问题:样本统计量的差135假设检验的推理逻辑:小概率反证法先对总体的某个特征进行假设(H0),即检验假设(零假设)。在H0正确的假定下,看看能由此推出什么结果。如果导致一种不合理的现象出现,则推论事先“H0正确的假定”不正确,即H0不正确。反之,如没有导致一种不合理现象出现,则不能作出拒绝H0的判断结论。假设检验的推理逻辑:小概率反证法先对总体的某个136
不合理现象的判定规则?
小概率事件原理是判定的依据。在H0为真的假定下,看看获得现有样本(X1…Xn)及其更极端情况的概率P,若P>,则认为合理,反之P<=,则认为不合理。为小概率事件的界值,在此称假设检验水准。常取0.05或0.01。
此即所谓小概率反证法的推理逻辑。
不合理现象的判定规则?137
无论哪种检验,也无论假设的形式怎样,进行假设检验的基本思路是一样的,都是概率意义下的反证法。不同类型的检验,只是P(样本/H0正确)的计算方法不同。P(样本/H0正确)的计算要根据样本统计量(与H0和样本均有关)的精确分布或渐近分布确定。寻求这样的统计量及其抽样分布是假设检验的关键。无论哪种检验,也无论假设的形式怎样,进行假138医学统计学第三章-总体均数的估计与假设检验-课件1391、假设检验的基本步骤1)建立检验假设,确定检验水准。2)计算检验统计量:根据变量类型、设计方案、统计推断目的、方法的适用条件等选择检验统计量。检验统计量都是在H0成立的前提条件下计算出来的。3)确定P值,做出推断结论。
1、假设检验的基本步骤140假设检验有单侧与双侧检验之分,如拒绝域在一侧者,则其为单侧检验;如拒绝域在两侧者,则其为双侧检验;
我们一般常用双侧检验,除有充分理由才使用单侧检验。单侧检验0.05检验水准相当于双侧检验0.1检验水准。(拒绝域)假设检验有单侧与双侧检验之分,141
一般,把要判断的总体特征(参数或分布)叫“统计假设”或称假设;利用样本提供的信息判断假设是否成立的统计假设检验称假设检验。
一般,把要判断的总体特征(参数或分布)叫142
如已知总体分布类型,对其未知参数的假设检验称参数检验。
如未知总体分布类型,假设是针对总体的分布或总体的数字特征而提出的,这类问题的检验不依赖总体的分布,称非参数假设检验或自由分布检验。如已知总体分布类型,对其未知参数的假设检验称1432、均数比较的t检验1)正态总体单样本t检验目的是推断样本所代表的未知总体均数与已知的总体均数有无差别。2、均数比较的t检验144例3-5某医生测量了36名从事铅作业男性工人的血红蛋白含量,算得其均数为130.83g/L,标准差为25.74g/L。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值140g/L?(1)建立检验假设,确定检验水准H0:=0=140g/L,H1:≠0=140g/L,=0.05(2)计算检验统计量本例n=36,=130.83g/L,S=25.74g/L,0=140g/L。
t=
=-2.138,
=36-1=35(3)确定P值,作出推断结论以=35、︱t︱=︱-2.138︱=2.138查附表2,因t0.05/2,35<2.138<t0.02/2,35,故双尾概率0.02<P<0.05。按=0.05水准,拒绝H0,接受H1,有统计学意义。可认为从事铅作业的男性工人平均血红蛋白含量低于正常成年男性。例3-5某医生测量了36名从事铅作业男性工人的血红蛋白含1452)配对t检验配对设计:将实验对象按一定条件配成对子,再随机分配每对中的两个对象接受不同的处理方式,此为配对设计。完全随机化设计:将实验对象随机分成两组或多组,每组给予不同的处理。注意以上两种设计资料的特点。2)配对t检验146例3-6为比较两种方法对乳酸饮料中脂肪含量测定结果是否不同,随机抽取了10份乳酸饮料制品,分别用脂肪酸水解法和哥特里-罗紫法测定其结果如表3-5第⑴~⑶栏。问两法测定结果是否不同?2.7240.3640.5060.870100.2030.9971.20090.2180.5120.73080.2960.4540.75070.4610.5170.97860.3500.3370.68750.3160.3160.63240.1740.5000.67430.0820.5090.59120.2600.5800.8401(4)=(2)-(3)(3)(2)(1)差值d脂肪酸水解法哥特里-罗紫法编号例3-6为比较两种方法对乳酸饮料中脂肪含量测定结果是否不147⑴建立检验假设,确定检验水准H0:=0,即两种方法的测定结果相同H1:≠0,即两种方法的测定结果不同=0.05⑵计算检验统计量本例n=10,=2.724,=0.8483,==2.724/10=0.2724Sd===0.1087t==7.925,=10-1=9⑶确定P值,作出推断结论查附表2的t界值表得P<0.001。按=0.05水准,拒绝H0,接受H1,有统计学意义。可认为两种方法对脂肪含量的测定结果不同,哥特里-罗紫法测定结果较高。
⑴建立检验假设,确定检验水准1483)两样本比较t检验(成组设计)A、两正态总体方差相等时的t检验
3)两样本比较t检验(成组设计)149例3-7为研究国产四类新药阿卡波糖胶囊的降血糖效果,某医院用40名2型糖尿病病人进行同期随机对照试验。试验者将这些病人随机等分到试验组(用阿卡波糖胶囊)和对照组(用拜糖平胶囊),分别测得试验开始前和8周后的空腹血糖,算得空腹血糖下降值见表3-6,能否认为该国产四类新药阿卡波糖胶囊与拜糖平胶囊对空腹血糖的降糖效果不同?表3-6试验组和对照组空腹血糖下降值(mmol/L)-2.001.703.101.202.202.001.602.003.806.00(n2=20)-1.106.603.400.600.200.805.205.006.503.70对照组X2-1.406.002.504.604.500.403.001.70-1.602.50(n1=20)-0.507.105.804.003.500.702.802.00-5.60-0.70试验组X1例3-7为研究国产四类新药阿卡波糖胶囊的降血糖效果,某医院用150
(1)建立检验假设,确定检验水准H0:=H1:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年大数据中心建设分包合同
- 2024消防工程施工合同书
- 2024年公交车身广告租赁服务合同
- 2024汽车分期借款合同协议书
- 2024浙江省监理工程师合同管理:竣工结算考试试题
- 2024年城市短途货物运输协议
- 2024年国际货运代理业务合作协议
- 2024-2025学年高中生物课时作业25第六章综合训练含解析新人教版必修1
- 2024年展览馆场地租赁合同
- 江苏省兴化市2024−2025学年高二上学期10月学情调研测试数学试卷含答案
- 汽车美容装潢技术电子教案 2.2-汽车内部清洗护理
- 2023年中国铁塔招聘笔试真题
- DB11∕T 2103.4-2023 社会单位和重点场所消防安全管理规范 第4部分:大型商业综合体
- 常规弱电系统施工单价表纯劳务
- 中小学学校人防、物防、技防落实方案
- 2024年代持法人报酬协议书模板范本
- 2024年人教版六年级数学上册《第5单元第7课时 扇形的认识》单元整体教学课件
- 2023湖南文艺出版社五年级音乐下册全册教案
- 2024-2025学年苏教版小学四年级上学期期中英语试题及解答参考
- 国开2024秋《形势与政策》专题测验1-5参考答案
- DLT 5707-2014 电力工程电缆防火封堵施工工艺导则
评论
0/150
提交评论