总体均数估计_第1页
总体均数估计_第2页
总体均数估计_第3页
总体均数估计_第4页
总体均数估计_第5页
已阅读5页,还剩79页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1第六章

总体均数的估计

2西南财经大学近日发布《中国家庭金融调查报告》,报告显示截至2011年8月,中国家庭资产平均为121.69万元,城市家庭平均为247.60万元,农村家庭平均为37.70万元。有网民说,看到这个数字第一个反应是自己“被平均了”。(据《现代快报》)3

10%的家庭收入占整个社会总收入的57%,5%家庭收入占整个社会总收入的44%,说明中国家庭收入不均等。

——李宏彬

中国城市家庭平均资产有200多万,但平均资产的中位数只有40.5万。两者差距越大,表明财产分布越不均。

——甘犁

4城镇单位职工平均工资(1952-2007)

567891011@火炮大师

:昨天晚上,老弟说去协和医院给我婶挂号看病。。。结果被工作人员告知,要排队挂号的话,得排3天。。。我就XXX的!!!这年头看病也太恐怖了吧。。。废话少说。。。上图。。。你没有看错。。。这不是收容所。。。这都是排队挂号的。。。。

12主要内容均数的抽样误差与标准误t分布总体均数的估计13一、均数的抽样误差总体样本随机抽样推断14

由于个体变异产生的,随机抽样引起的样本统计量与总体参数之间的差异或各样本统计量之间的差异称为抽样误差。1.抽样误差(samplingerror)15

常把这种由抽样研究造成的样本均数与总体均数间的差异称为均数的抽样误差。

由抽样研究造成的样本率与总体率间的差异称为率的抽样误差。16

抽样误差是不可避免的,但能估计其大小。常用样本均数的标准差作为衡量均数抽样误差大小的尺度。即均数标准误。2.标准误(Standarderror)17σ标准误示意图xμσpopulationx18抽样试验

从正态分布总体N(5.00,0.502)中,每次随机抽取样本含量n=5,并计算其均数与标准差;重复抽取1000次,获得1000份样本;计算1000份样本的均数与标准差,并对1000份样本的均数作直方图。按上述方法再做样本含量n=10、样本含量n=30的抽样实验;比较计算结果。19抽样试验(n=5)2021抽样试验(n=10)2223抽样试验(n=30)24251000份样本抽样计算结果总体的均数总体标准差s均数的均数均数标准差n=55.000.504.990.22120.2236n=105.000.505.000.15800.1581n=305.000.505.000.09200.0913263个抽样实验结果图示:27抽样实验小结1.均数的均数围绕总体均数上下波动。2.均数的标准差即标准误

与总体标准差相差一个常数的倍数,即3.从正态总体N(m,s2)中抽取样本,获得均数的分布仍近似呈正态分布N(m,s2/n)

。281.从正态分布N(

,

2)中,以固定n抽取样本,样本均数的分布仍服从正态分布,样本均数的总体均数仍为

,样本均数的标准差为2.即使是从偏态分布总体抽样,只要n足够大,样本均数的分布也近似正态分布;3.随着样本量的增大,样本均数的变异范围也逐渐变窄。中心极限定理centrallimittheorem29从同一个总体做3次抽样的结果图示:30标准误(standarderror)样本均数的标准差称标准误,是说明均数抽样误差大小的指标,大,抽样误差大;反之,小,抽样误差小。标准误的计算:标准误的估计值:31影响标准误大小的因素

的大小与

成正比与样本含量n的平方根成反比32例6.1随机抽取某地正常成年男性200名,测得其血清胆固醇的均数为3.64mmol/L,标准差为1.20mmol/L,试估计抽样误差:33例子6.2两文献表述有何区别34标准误与标准差的区别:(1)概念不同

标准差是描述样本个体值间的变异,标准差小,说明变量值围绕均数的波动小,均数的代表性好。

标准误是描述样本均数的抽样误差,标准误越小,表示样本均数围绕总体均数的波动越小。35(2)用途不同

标准差表示变量值对均数的波动大小,当资料呈正态分布时,与均数结合估计正常值范围、计算变异系数、标准误等。标准误表示样本统计量对总体参数的波动情况,用于估计参数的可信区间、进行假设检验。361)两者均为变异指标;2)样本含量不变时,均数的标准误与标准差成正比;3)两者均可与均数结合使用(但描述的内容各不相同)。(3)联系37在应用过程中要注意标准差和标准误的区别:383940414243444546t分布

t分布的由来t分布的特征t分布曲线下的面积47总体

样本均数

中心极限定理标准正态分布

标准正态分布

未知t分布

t分布的由来变量变换48如果抽取例数n=5的样本k个,每个样本又都可以按公式(9.20)计算出一个t值,可将k个t值编制成频数表,作出直方图,当k无限增大时,则可得到一条光滑的曲线。

(9.20

)同理,如果抽取例数n=10时,仍能得到一条t分布曲线,因此,当n变化时,就可以得到不同的t分布曲线,如下图49xμpopulation

t1

t2

t3

tkN=5N=5N=5N=550xμpopulation

t1

t2

t3

tkN=10N=10N=10N=10图3.2自由度分别为4、9、∞的t分布

52t分布曲线的特点

①单峰分布,曲线在t=0处最高,并以t=0为中心左右对称②与正态分布相比,曲线最高处较矮,两尾部翘得高(见红线)③其形态变化与自由度

的大小有关。自由度

越小,则t值越分散,曲线越低平;随自由度增大,曲线逐渐接近正态分布。53

它与样本例数n或自由度ν

有关,某个自由度对应于一条t分布曲线。当n或ν不同时,曲线形状不同。当

时,t分布趋近于标准正态分布。自由度:ν=n-1随机变量能够自由取值的个数54t分布曲线下面积规律t分布曲线下总面积仍为1或100%由于t分布是一簇曲线,故t分布曲线下面积固定面积(如95%或99%)的界值不是一个常量,而是随自由度的大小而变化,如附表3。55附表3,t分布表的特点附表3的横标目为自由度

,纵标目为概率P,表中数值为其相应的t界值,记作t

,

;t取值于某个区间的概率P相当与横轴上该区间与曲线所夹面积。附表3给出了t分布曲线下单侧或双侧尾部面积所对应的界值;双侧t0.05/2,9=2.262=单侧t0.025.9单侧t0.05,9=1.833双侧t0.05/2,∞=1.96=单侧t0.025,∞单侧t0.05,∞=1.64t分布曲线下面积57附表3只列出正值,若计算的t值为负值时,可用其绝对值查表。其通式为双侧:P(t≤-t

/2,

)+P(t≥t

/2,

)=

单侧:P(t≤-t

,

)=

或P(t≥t

,

)=

图中非阴影部分面积的概率为,P(-t

/2,

<t<t

/2,

)=1-

-t

,

t

,

2.5%2.5%0以下附图的阴影部分表示t

,

以外尾部面积的概率。59二、总体均数的估计

参数的估计点估计:由样本统计量直接估计总体参数缺点:没有考虑抽样误差。区间估计:在一定可信度下,同时考虑抽样误差。601.点估计11名18岁男大学生身高均数资料得,

=172.25cm,S=3.31cm,试估计该地18岁男大学生身高总体均数?答:该地18岁男大学生身高总体均数为172.25cm612.区间估计

概念:即按一定的概率(1-

)估计总体均数所在的范围。概率(1-

)称为置信度。常取95%和99%,又称置信区间(ConfidenceInterval,CI)。

62

有1-α的把握认为该区间包含了总体参数。而非总体参数落在该范围的可能性为α。

置信区间的含义

63置信区间的确切含义

95%置信区间:从总体中作随机抽样,作100次抽样,每个样本可算得一个置信区间,得100个置信区间,平均有95个可信区间包括μ(估计正确),只有5个可信区间不包括μ(估计错误)。图100个来自N(0,1)的样本所估计的可信区间示意

65一次抽样算得的置信区间,当

=0.05时,95%CI估计正确的概率为0.95,估计错误的概率小于或等于0.05,即有95%的可能性包含了总体均数。

66置信区间的两个要素

准确度:反映在置信度(1-

)的大小上,即置信区间包含总体均数的可能性大小,从准确度的角度看,愈接近1愈好,如置信度99%比95%好。精密度:反映在置信区间的长度上,用区间长度CU-CL衡量。即长度愈小精密度愈好。67

在抽样误差确定的情况下,二者是相互矛盾的,若提高了可信度,可信区间势必增大,精密度下降。一般情况下,常用95%置信区间。

在置信度确定的情况下,增加样本含量可减小区间宽度。68

资料不同,总体均数的估计方法也不同,根据资料的条件,计算方法有三种:总体均数的置信区间估计方法(1)

未知,且n小:按t分布原理计算可信区间。

-t

,

t

,

2.5%2.5%0

由于:则:70所以,总体均数的100(1-α)%可信区间的通式为:

71例6.3:在某地成年男子中随机抽取25人,测得其脉搏均数为72次/min,标准差为8次/min。试估计该地成年男性脉搏总体均数的95%置信区间。

=(68.7,75.3)次/分

根据样本计算,可推断该地成年男性脉搏总体均数的95%置信区间为(68.7,75.3)次/分。72(2)

未知,但n足够大时(n>100),t分布逼近z分布。按z

分布原理计算可信区间。z

-z

由于:则:所以,总体均数的100(1-α)%之置信区间的通式为:

74例

测得某地110名18岁男大学生身高=172.73cm,s=4.09cm,估计该地18岁男大学生身高均数的95%可信区间。

本例n=110,=172.73cm,s=4.09cm,双侧z0.05/2=1.96按式(3.7)计算:即:该地18岁男大学生身高均数的95%可信区间为171.97cm~173.49cm75(3)σ已知:故可按正态分布原理估计总体均数的可信区间,计算公式为:76

未知,且n小

已知:

未知,但n足够大:三种情况两总体均数差值的置信区间(自学)

假设正态总体和,当,均未知,但时,则两总体均数之差()的双侧()置信区间为:其中,,当n1,n2均较大时,差值的置信区间为:78例6.5测定28例结核病患者和34例对照者的脑脊液中镁(mmol/L)的含量,结果见表6.5,试估计结核病人和对照者的脑脊液中镁含量的总体均数之差的95%置信区间。

表6.5两对比组脑脊液中镁含量(mmol)

组别例数均数标准差结核组281.040.17对照组341.280.14解:假定两组方差齐,根据公式6.7,6.8,6.9可得:

故两总体均数之差的95%可信区间为(0.16,0.32)mmol/L80可信区间的注意问题1.可信区间的涵义意思是从总体中作随机抽样,每个样本可以算得一个可信区间。如95%可信区间意味着做100次抽样,算得100个可信区间,平均有95个估计正确,估计错误的只有5次。5%是小概率事件,实际发生的可能性很小,当然这种估计方法会有5%犯错误的风险。812.可信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论