版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、参数估计基础,抽样分布与抽样误差 t分布 总体均数及总体概率的估计,抽样研究:用样本信息推断总体特征。 常用统计推断方法:参数估计和假设检验 本章: 参数估计的基本概念; 样本统计量的分布规律; 总体均数和总体概率的估计方法。,第一节 抽样分布与抽样误差,从总体中随机抽取一份样本,计算均数。 这个均数不同于总体均数!为什么? 再从该总体中随机抽取一份样本,再计算均数。 前后两个均数不等,为什么? -抽样误差!,抽样误差的概念,定义:由抽样引起的样本统计量与总体参数间、以及样本统计量与样本统计量之间的差别。 原因:个体变异随机抽样 表现: 样本统计量与总体参数间的差别 不同样本统计量间的差别,一
2、、样本均数的抽样分布与抽样误差,实验6-1 假定某年某地所有13岁女学生身高服从总体均数 u=155.4cm,总体标准差=5.3cm的正态分布。在这样一个 总体中随机抽样,每次均抽取30例组成一份样本; 共抽100次; 算出每一份样本的平均身高; 153.6,153.1,154.9,。157.7(见表6-1),表6-2 从正态总体N(155.4,5.32)抽样得到的100个样本均数的频数分布(n=30),1、各样本均数未必等于总体均数; 2、样本均数之间存在差异; 3、样本均数的分布有一定规律,围绕着总体均数 (155.4cm),中间多,两边少,左右基本对称,也服从正 态分布; 4、样本均数的
3、变异较之原变量的变异大大缩小。,若随机变量x服从正态分布X-N(u,2),则 1)样本均数的总体均数仍等于原变量的总体均数u 2)样本均数的标准误 实际中, 表示均数抽样误差的指标:样本均数的标准差, 也称为样本均数的标准误。,标准误的概念,抽样的样本量越大,标准误就越小; 原来总体变异度小,标准误就越小。 标准误反映了样本均数间的离散程度,也反映了样本均数与总体均数之间的差异。当标准误大时,用样本均数对总体均数的估计的可靠程度就小;反之亦然。,标准误用途,衡量样本均数的可靠性:标准误越小,表明样本均数越可靠; 参数估计:估计总体均数的置信区间(区域); 假设检验:用于总体均数的假设检验(比较
4、)。,统计推断,标准差与标准误,意义:标准差用于描述个体值之间的变异,即观察值间的离散度, 标准差小,表明观察值围绕均数的波动小;标准误描述统计量的抽样误差,即样本统计量与总体参数的接近程度。标准误小,表明抽样误差小,则统计量稳定,与参数接近。 用途:标准差表示观察值间波动的大小,用于医学参考值范围;标准误表示抽样误差的大小,用于参数估计。 关系:随着样本含量增加,都减小。 联系:都是表示变异度的指标,当样本量一定时,两者成正比。,从非正态分布重复抽样, 样本均数的分布如何?,当样本量n较小时,样本均数的分布当然并非正 态分布。,实验6-2 图6-2(a)是一个正偏峰的分布,用电脑从中随机抽取
5、样本含量分别为5,10,30和50的样本各1000次,计算样本均数并绘制4个直方图。,(1)样本均数的总体均数仍等于原变量的总体均数u,样本均数的标准误仍满足 (2)当样本量n较小时,样本均数的分布并非正态分布; (3)样本量足够大时(例如,n30),样本均数的分布近似于正态分布 XN(u,2/n),二、样本频率的抽样分布与抽样误差,实验6-3 样本频率抽样分布的实验 在一口袋内装有形状、重量完全相同的黑球和白球,已 知黑球比例为20%(总体概率=20%) 从口袋中每摸一次看清颜色后放回去,摇匀后再摸,重复 摸球50次(n=50),计算摸到黑球的比率(样本频率pi); 这样的实验重复100次,
6、 每次摸到黑球的比例分别为 14%,20%,26%,22%。,根据二项分布原理,若随机变量X-B(n,) 则样本频率P的总体均数为: 总体标准误为: 当总体概率未知时,可用样本频率P近似地代替, 若增加样本含量n可以减少样本频率的抽样误差。,例:某市随机调查了50岁以上的中老年妇女776人,其中患有骨质疏松症者322人,患病率为41.5%,试估计该样本频率的抽样误差。,2,二、t分布,实验:从前述的13岁女学生身高这个正态总体中分别作样本量为3和50的随机抽样,各抽取1000份样本,并分别得到1000个样本均数及其标准误。对它们分别作t变换,并将t值绘制相应的直方图。,n=3 n=50,t 分
7、布是一抽样分布,t 分布不是一条曲线,而是一簇曲线,因为t 值的分布与自由度 有关。其特点:,二、t分布的图形和t分布表,附表2:不同自由度v下的t界值 横标目:自由度v 纵标目:概率P 表中数字:当v和p确定时,对应的t临界值 相同自由度,/t/值越大, 尾部概率越小; 相同t值,双侧尾部概率为 单侧尾部概率的两倍。,t分布曲线下面积(附表2),例 当v=16, 表中查得 单侧0.05的临界值 t0.05,161.746, P(t-t0.05,16 )=0.05 P(tt0.05,16 )=0.05 双侧0.05的临界值 t0.05/2,162.120 P(t-t0.05/2,16 ) P(
8、tt0.05/2,16 ) =0.05,三、总体均数及总体概率的估计,一、参数估计的概念 参数估计:用样本统计量估计总体参数。 点估计;区间估计 (一)点估计 用样本统计量直接作为总体参数的点估计值。 点估计值没有考虑抽样误差,无法评价其可信度。,例1:27例健康成年男子血红蛋白量的样本均数作为总体均 数的点估计值。 -认为2000年该地所有健康成年男子血红蛋白量的总体 均数约为125g/L 例2:776名50岁以上的中老年妇女骨质疏松症的样本患病率 作为总体患病率的点估计值 -认为该市所有50岁以上的中老年妇女骨质疏松症的总体 患病率约为41.5%。,(二)区间估计 总体参数的置信区间(co
9、nfidence interval,CI) 将样本统计量与标准误结合起来,确定一个具有较大置 信度的包含总体参数的范围。 置信度:1-a,其中a由研究者预先规定, 一般为0.1,0.05或0.01。 置信区间:上下两个置信限构成。,CI是随机的,总体参数是固定的,CI包含总体参数的可能 性是1-a,而不是总体参数落在CI的可能性为1-a。,区间估计的理解:,图4-2 模拟抽样成年男子红细胞数100次的95%可信区间示意图,图4-2 模拟抽样成年男子红细胞数100次的95%可信区间示意图,1、t分布方法: 应用条件:总体方差未知,样本量小(n50),正态总体N(,2)的样本均数的t变换 t= t
10、分布 v=n-1 ,注意:有5%的情形,上式不对! 故可信度为95%!(表6-1),二、置信区间的计算 (一)总体均数的置信区间,由表6-1可以看出,多数区间(95个)覆盖了总体均数155.4cm,只有少数(5个)区间未包含总体均数,即作100次同样的估计,有95次包括此值在内。 当我们据一份样本对总体均数只作一次区间估计时,我们宣布“总体均数在此范围内” -这句话未必正确,可信的程度为95%。,若将置信度定为(1-a),则总体均数的(1-a) 置信区间的一般计算公式为 : 或缩写为 Xta/2,vSx,例:已知某地27名健康成年男子的血红蛋白量均为125g/l,标准差15g/l。试问该地健康
11、成年男子血红蛋白平均含量的95%置信区间和99%置信区间各是多少? n=27,v=27-1=26 双侧 t0.05/2,26=2.056, t0.01/2,26=2.779 95%置信区间: Xt0.05/2,vSx=1252.05615/27=(119.06,130.94) 99%置信区间: Xt0.05/2,vSx=1252.77915/27=(116.98,133.02),置信区间的两个要素: 1、准确度:反映置信度1-a的大小,即区间包含总体均数的 概率大小。 2、精度:反映区间长度。在置信度确定的情况下,增加样 本例数可减少区间长度,提高精度。,置信区间的意义: 从总体中进行随机抽样
12、,由样本均数计算置信 区间,有1-a的可能得到包含总体均数的置信区间。,均数的单侧(1-a)置信区间 X-ta,vSx Xta,vSx,2、正态分布近似法: 应用条件:当总体标准差已知时;或总体标准差未知,而样本量较大时(n50),x+Za/2x,x+Za/2 sx,(一)总体均数的置信区间,例:某市2000年随机测量了90名19岁健康男大学生的身高,其均数为172.2cm,标准差为4.5cm。试估计该市2000年19岁健康男大学生平均身高的95%置信区间。 N=9050,x+Za/2sx=X1.96sx =172.21.964.5/90 =(171.3,173.1),(二)总体概率的置信区间
13、,1、查表法 当样本含量n较小(n50),p很接近0或100%时, 可以查表确定百分率总体概率的置信区间。 例:某医院对39名前列腺患者实行开放手术治疗后,术后有合并症者2人,试估计该手术合并症发生概率的95%置信区间。 P=2/39=5.13% 点估计=5.13%,而概率的真值却有可能在1%和17%之间.,例:某医生用某药物治疗31例脑血管梗塞患者,其中25例患 者治疗有效,试求该药物治疗脑血管梗塞有效概率的95%置 信区间。 注意:附表中仅列出Xn/2部分,当Xn/2时,应以n-X值 查表,然后从100中减去查得的数值。 本例 n=31,X=25n/2,所以用n-X=6查附表,得8-38,
14、 再用100减去所查的数值得到95%置信区间为62%-92%。,2、正态近似法 当n足够大,且样本频率p和(1-p)均不太小时 (np与n(1-p)均大于5),总体概率的置信区间: (P-Za/2Sp, PZa/2Sp ) 例:用某种仪器检查已确诊的乳腺癌患者120名,检出乳腺癌患者94例,检出率为78.3%。试估计该仪器乳腺癌总体检出率的95%置信区间。 np=94及n(1-p)=26均大于5,可用近似公式估计 PZa/2Sp=PZ0.05/2p(1-p)/n =0.7831.960.783(1-0.783)/120 =(0.709,0.857),下列说法正确吗?,算得某95%的可信区间,则
15、: 总体参数有95%的可能落在该区间。 有95%的总体参数在该区间内。 该区间包含95%的总体参数。 该区间有95%的可能包含总体参数。 该区间包含总体参数,可信度为95%。, ,小 结,1、从同一总体中反复多次地随机抽取若干份样本,各样本统计量之间以及样本统计量与总体参数之间存在差异,此现象称抽样误差。 2、反映抽样误差大小的指标是标准误。 3、来自正态总体的样本均数,其分布仍服从正态分布。 4、从偏峰分布总体抽样,只要n足够大,样本均数的分布也近似于正态分布。 5、要注意均数的标准误与原变量的标准差之间的区别,不能混淆其意义。,2、当X服从正态分布N(,2)时,统计量 t = 服从自由度为v=n-1的t分布 自由度v不同,t分布的形状不同; 自由度v很大很大时,t分布近似标准正态分布。,3、参数估计有两种方法: 点估计:直接用样本统计量估计总体参数 区间估计:按一定
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高中数学 第一章 集合与函数概念 新人教版必修1
- 土建类施工组织设计
- 2024年度旅游包车服务详细合同
- 2024年度电气设备安装工程设计合同
- 2024中国电力建设集团水电水利规划设计总院招聘3人易考易错模拟试题(共500题)试卷后附参考答案
- 2024中国电信江苏公司春季招聘易考易错模拟试题(共500题)试卷后附参考答案
- 2024中国冶金地质总局在京单位招考应届毕业生易考易错模拟试题(共500题)试卷后附参考答案
- 2024中国一冶集团限公司交通工程公司招聘80人易考易错模拟试题(共500题)试卷后附参考答案
- 2024下半年江苏兴海控股集团限公司招聘17人易考易错模拟试题(共500题)试卷后附参考答案
- 2024上半年福建福州市连江县部分国企业招聘9人易考易错模拟试题(共500题)试卷后附参考答案
- 2024-2030年中国煤炭采煤机行业供需趋势及发展规划研究报告
- 2024年第九届“学宪法、讲宪法”知识竞赛测试考试题库及答案
- 2024年品牌营销全案策划合同
- 河北省石家庄市2024年七年级上学期期中数学试题【附答案】
- 湖南省2024年中考数学试卷(含答案)
- 建筑制图学习通超星期末考试答案章节答案2024年
- 管理心理学(自考)第十章-领导行为与管理
- 《算法设计与分析基础》(Python语言描述) 课件 第8章动态规划1
- 人教版 四年级 语文 上册 第七单元《古诗三首》教案
- 8 安全记心上 第三课时 119的警示(课件)-部编版道德与法治三年级上册
- 新公司法修订要点和解读
评论
0/150
提交评论