南方医大医学统计学讲义04抽样误差与可信区间_第1页
南方医大医学统计学讲义04抽样误差与可信区间_第2页
南方医大医学统计学讲义04抽样误差与可信区间_第3页
南方医大医学统计学讲义04抽样误差与可信区间_第4页
南方医大医学统计学讲义04抽样误差与可信区间_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章抽样误差与可信区间一、抽样误差与标准误(一)、均数的抽样误差概念由于总体中存在个体变异,所以由抽样得到的样本均数与总体均数之间存在差异,这种差异称均数的抽样误差。在抽样研究中,抽样误差是不可避免的,但可以估计其大小。(二)、中心极限定理

1、在正态总体中,随机抽取例数为n的样本,样本均数X服从正态分布;

2、在偏态总体中随机抽样,当n足够大时(n>50),X也近似正态分布;

3、从均数为μ,标准差为σ的正态或偏态总体中,抽取例数为n的样本,样本均数X的总体均数仍为μ,标准差为σx(三)、标准误意义及其计算方法

1、意义:说明均数抽样误差大小的指标,用σx表示。σx越大,均数抽样误差越大;反之,σx越小,均数抽样误差越小。2、计算公式:

.........(理论值)

...........(估计值)与

成正比,与成反比,可以通过增加n减小。3.均数标准误的用途:(1)说明均数抽样误差大小,反映均数的可靠性。σx

越大,用样本均数推论总体均数越可靠,反之亦然(2)估计总体均数的可信区间(3)用于进行假设检验二、t分布(一)t分布含义:由于呈正态分布N(、),则可以将一般正态变量变换成标准正态变量:

将一般的正态分布变换为标准正态分布N(0、1)。在实际应用中,往往未知,用代替,则只能对做t变换而不是变换:

=每个可以算出一个t值,t值的分布称t分布。(二)

t分布特征:1、以0为中心,左右对称的单峰分布;2、t分布的形态与自由度ν有关:1)

ν越小,t分布曲线峰部越低平而尾部翘得越高;(t分布与u分布相差较大,即相同的曲线下面积,t值>u值)2)

ν逐渐增大,t分布逼近标准正态分布;3)

ν=∞,t分布=标准正态分布。(同样的曲线下面积,t值=u值)4)

自由度不同,t分布曲线形态就不相同,因此t分布是一簇曲线,则就是说,自由度不同,相同的t值所对应的面积不同,或说,出现该t值的概率不同。

(三)

t界值表对应于每一自由度取值,就有一条t分布曲线,每条曲线都有自身曲线下t值的分布规律,相同曲线下面积所对应的t值不同,计算t值较为繁杂。为此,统计学家已制成t值表,通过查表即获得相应的t值。查表须注意:1、\t"/kecheng/2013/_blank"/zhicheng/横标目(左边第一列)为自由度(),纵标目为概率(P或),也就是t界值以外单侧或双侧尾部的面积占总面积的百分比,表中的数字就是对应于和的t界值,用tα,ν表示;2、t值有正负值,由于t分布是以0为中心的对称分布,故表中只列正值,查表时,不管t值正负只用绝对值;3、当ν一定时,t值越大,P越小;4、当P一定时,ν越大,t值越小;ν=∞时,t=u;5、当ν和t值一定时,双侧P=2倍单侧P。即

双侧tα,ν=单侧tα/2,ν。例

ν=10时:单侧

=1.812即

P(t≤-1.812)=0.05

或P(t≥1.812)=0.05

双侧

=2.228即

P(t≤-2.228)+P(t≥2.228)=0.05三、总体均数的估计(一)估计方法:1、点值估计:用样本均数(率)直接作为总体参数的估计值。2、区间估计:(二)总体均数的区间估计

1、定义:按一定的概率(1-α)确定包含未知总体均数的可能范围。所确定的范围称为总体均数的可信区间(或置信区间,CI);1-α称可信度,最常用双侧95%。

2、估计方法:(1)当σ未知,而且样本例数n较小(n<60)时,按t分布原理估计:

±tα,ν.

(2)当σ已知,或σ未知但样本例数足够大(n≥60)时,按标准正态分布原理估计:A.σ已知:

(-uα.

,+uα.)

uα为u界值,

uα.B.σ未知但n足够大(n≥60):(-uα.

,

+uα.

)

uα.按标准正态分布原理估计总体均数可信区间时,熟记下列常用区间:\t"/kecheng/2013/_blank"/yishi/

95%总体均数可信区间:

1.96

1.96

99%总体均数可信区间:

2.58

2.58例

n=20,

=118.4mmHg,

s=10.8mmHg,估计其95%可信区间。

(-tα,ν.

,

+tα,ν.

)

t0.05,19=2.093

==2.41

(118.4-2.093×2.41,118.7+2.093×2.41)

(113.3,123.5)mmHg例

n=200,

=3.64mmol/L,s=1.20mmol/L,估计其95%可信区间。

uα.

(3.64-1.96×

,3.64+1.96×)

(3.47,3.81)mmol/L

3、可信区间的涵义

以95%总体均数可信区间为例:

有95%的可能所计算出的区间包含了总体均数,即估计正确的概率为95%,错误5%。

4、可信区间两个要素:

(1)准确度:反映在可信度(1-α)的大小。1-α越接近1,越准确。

如可信度99%比95%准确。

(2)精确度:反映在区间范围宽窄。范围越摘越好。95%可信区间精度优于99%。

在n确定的情况下,准确度↑,精确度↓;

在兼顾准确度和精确度时,一般取95%可信区间;

在可信度确定的情况下,增加样本例数,可提高精确度。

5、可信区间与正常值范围区别:

(1)意义不同:正常值范围是指绝大多数观察值在某个范围;可信区间是指按一定的可信度估计总体参数(均数)可能所

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论