




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1参数估计基础-抽样分布 马金香 1021311 2用样本信息推断总体特征,称统计推断用样本信息推断总体特征,称统计推断 (statistical inference)统计推断包括总体参数估计和假设检验统计推断包括总体参数估计和假设检验总体指标和样本的统计指标是有误差的,称总体指标和样本的统计指标是有误差的,称为抽样误差为抽样误差3抽样误差o从总体均数 为155.4cm,标准差 为5.3cm的正态分布总体中随机抽样。样本大小为30,nnxs2, 11,x sn=3033,xs22,xs .4从正态总体 抽样得到的1000个样本均数的频数分布(ni=30)2(155.4,5.3 )n5mean=
2、155.426 std=0.9666抽样误差o结果:n各样本均数不一定等于总体均数n样本均数间存在差异n样本均数的分布规律:围绕总体均数上下波动n样本均数的变异:由样本均数的标准差描述。7抽样误差o抽样误差sampling error n由抽样引起的样本统计量与总体参数间的差异o来源:n个体变异n抽样o表现n样本统计量与总体参数间的差异n样本统计量间的差异8o样本均数的规律性n随机的n在概率意义下是有规律的-抽样分布n通过大量重复抽样,借助频数表描述n样本均数的变异规律(抽样分布)与个体观察值变异规律有关o即使只有一个样本资料,也可由样本资料的个体观察值的变异规律间接得到样本均数的变异规律抽样
3、分布9正态总体样本均数的分布o已知某地高三男生的平均身高为 ,标准差为 ,将其视为一个总体。o从该总体中随机抽样n样本含量为nn每次抽取10000个样本并计算各自的样本均数n以10000个样本均数作为一个新的样本制作频数图168.15cm6.00cm10抽样1fractionmeana1501601701800.05.1样本含量n=4 的平均数 =168.19 的标准差 =2.9670 xx63.0411抽样2样本含量 n=16 的平均数 =168.158 的标准差 =1.4884 xx61.516fractionmeana1601651701750.02.04.06.0812抽样3fract
4、ionmeana1501601701800.05.1样本含量 n=36 的平均数 =168.1493 的标准差 =0.9997 xx61.03613o从正态分布的总体 中随机抽取样本含量为n的样本x1,x2,xn,其样本均数 n服从正态分布,总体均数为 ;n样本均数的总体标准差o若 ,则其中任意一个随机样本xn的均数2( ,)n x2( ,)xn 2( ,)xxn 正态总体样本均数的分布xn资料的总体标准差14o样本均数的标准差 ,称为样本均数的标准误(standard error of mean ,se),简称均数标准误o它反映样本均数之间的离散程度,也反映样本均数抽样误差的大小。o误差大小
5、 ,实质是要估计 的分布特征 x正态总体样本均数的分布xxx15o由于实际 往往未知,需要用样本 来估计 ,样本均数标准误的估计式为o注意区别:o证明:xxssn正态总体样本均数的分布xxxss和和()e xxxnxxs16非正态总体样本均数的分布o从总体均数为1的指数分布中抽样,样本大小分别为4,9,100。每次抽10000个样本制作频数分布图171819抽样1样本含量n=4 的平均数 =1.0133 的标准差 =0.5031 的中位数 =0. 9298xx10.54fractionmeanx.0517593.794670.0675x20抽样2样本含量n=9 的平均数 =0.9959 的标准
6、差 =0. 3332 的中位数 =0.9574xx10.339xfractionmeanx.1912692.731850.068321抽样3样本含量n=100 的平均数 =0.9993 的标准差 =0.1001 的中位数 =0.9958xx10.1100 xfractionmeanx.6546351.498480.070422o从非正态指数分布总体中随机抽样所得样本均数 :n在样本含量较小时呈偏态(非指数型)n样本含量较大时接近正态分布n均数 始终在总体均数 附近n均数 的标准差非正态总体样本均数的分布xx1xxn的总体标准差23中心极限定理及其应用o样本均数 总体标准差是个体资料x的总体标准
7、差的 ;即理论标准误o理论标准误的样本估计值为o样本均数 与 个体资料x的集中位置相同,即样本均数 的总体均数与 个体资料x的总体均数 相同xxn1/nxxssnxx24中心极限定理及其应用o若个体资料x服从正态总体 ,则样本均数 也服从正态分布 ;o个体资料x服从偏态分布,当样本量n较大时,样本均数 近似服从正态分布2( ,)n 2( ,)xxn x/xxxxun(0,1)unx2( ,)xxn 25o例 已知在某地7岁正常发育男孩的身高服从正态分布n(121,52)o正常发育7岁男孩身高的95%范围为 (111.2,130.8)o若在该地正常7岁男孩中随机抽一个样本,样本含量为100,则样
8、本均数的95范围为 =(120.2,121.98), 596. 1121100596. 112126 t分布o , 标准正态分布与t统计量 o实际研究中未知,用样本的标准差s作为的一个近似值(估计值)代替,得到变换后的统计量并记为 (0,1)xunnxtsn2( ,)xn 27o如在正态总体n(168.18,62)中随机抽样,样本量分别取n =5,n =100,均抽10000个样本,分别计算t值和u值并作相应t的频数图 t分布28 t分布样本含量n=5样本含量n=100 t统计量的频数图 29o结果n小样本时,t统计量和u统计量的分布有明显差别n大样本时,t统计量和u统计量的分布非常接近。o频
9、数图n当样本量较大时,统计量t的频数图与标准正态分布曲线非常接近n样本含量较小时,t统计量的峰值比标准正态分布的峰值略小,双侧尾部的值则较标准正态分布略大 t分布30o英国统计学家w. s. gosset(1908)设 并给出了统计量t的分布规律,并称统计量t的分布规律为t分布,自由度为v,记为t(v)分布。 o每个自由度v对应一个分布,因此t分布是一簇分布 ot分布仅与总体均数有关,与总体标准差无关 t分布/xtsn1n2( ,)xn 31o三条t分布密度曲线 t分布v=1v=5v=32t分布的图形特征o分布特征 nt分布曲线是单峰的n关于t = 0对称n自由度越大,t值越小o t分布与正态
10、分布的关系 n自由度v较小时,t分布与标准正态分布相差较大,并且t分布曲线的尾部面积大于标准正态分布曲线的尾部面积n当自由度 时,t分布逼近于标准正态分布。33t分布的界值 o给定自由度v,t分布曲线的双侧尾部面积为时对应的t值,记为并称 为t的双侧界值 o单侧界值 :一侧尾部面积为时对应的t值o对称性得:单侧曲线下面积=2双侧曲线下面积o同样的尾部面积,t分布的界值要大于标准正态分布的界值 vt, 2/vt,34 t分布界值示意图,表示阴影的面积 35样本率的分布 o总体率由样本率估计n例如,设样本的个体数(即样本含量)为n,若x为样本的某指标阳性个体数,则可用样本阳性率 估计研究人群的阳性
11、率 (总体阳性率); o由于个体差异和偶然性的影响,样本率也存在抽样误差-由抽样造成样本率与总体率(研究人群的率)的差异 o样本率是随机的,但在概率意义下也是有规律的-样本率的分布。nxp 36o随机抽样试验,分别在总体率=0.4,0.5,0.01的总体中随机抽样,其总体率和样本含量no每种情况分别随机抽10000个样本,每个样本计算其样本率,把同一种情况的10000个样本率视为一个新的样本资料作频数图 样本率的分布 37抽样138抽样139抽样340抽样441o结果n总体率相同时,样本含量越大,样本率的分布越趋向对称。n样本含量n相同时,越偏离0.5,样本率的分布越偏态分布。n总体率0.5时
12、,任意样本含量的样本率都呈对称分布。n样本率p的样本标准差 。n)(1样本率的分布 42中心极限定理及其推论o若样本中的个体个数(即样本含量)为n,总体率为,样本率为p,则n样本率的总体均数等于总体率n样本率的总体标准差(即率的标准误) n由于总体率通常是未知的,因而用样本率p来估计,故率的标准误的估计值常表示为 pnp)1 (1)pppsn43n对于大量重复随机抽样而言,样本率p围绕着总体率波动n样本含量n越大,这种波动越小。当n的值充分大时,p的分布就近似于均数为 ,标准差为 的正态分布。这里样本含量n “充分大”指 、 且n40。n当总体率0.5时,则样本率p的分布为对称分布 n当样本含
13、量n为定值时,总体率越接近0.5,样本率p近似正态分布的程度就越好 中心极限定理及其推论(1)n5n(1)5n44o概念:用样本指标(称为统计量)估计总概念:用样本指标(称为统计量)估计总体指标(称为参数)体指标(称为参数)o参数估计包括点估计和区间估计参数估计包括点估计和区间估计45o点估计点估计(point estimation) 用样本均数作为总体均数的估计值用样本均数作为总体均数的估计值o区间估计区间估计(interval estimation) 按一定的概率按一定的概率(可信度,可信度,1 -)估计总估计总 体均体均数所在范围,亦称总体均数的可信区间数所在范围,亦称总体均数的可信区间
14、46总体均数区间估计的方法:总体均数区间估计的方法:1)当当n足够大(如足够大(如100)时)时, x的平均数的平均数 接近标准正接近标准正 态分布态分布总体均数总体均数95%可信区间:可信区间: 1.96 s 总体均数总体均数99%可信区间:可信区间: 2.58 s xxxxx47 例:某地抽得正常成人例:某地抽得正常成人200名,测得血清名,测得血清胆固醇的均数为胆固醇的均数为3.64mmol l,标准差,标准差为为1.20mmoll,试估计该地正常成年,试估计该地正常成年人血清胆固醇均数的人血清胆固醇均数的95%可信区间。可信区间。48总体均数区间估计的方法:总体均数区间估计的方法: 2
15、) 当样本含量当样本含量n较小时较小时, x的平均数的平均数 接近接近t-分布分布 总体均数总体均数95%可信区间:可信区间: t0.05, s 总体均数总体均数99%可信区间:可信区间: t0.01, s xxxx49 例:某医师测得例:某医师测得40名老年性慢性支气管炎名老年性慢性支气管炎病人尿中病人尿中17-酮类固醇排出量均数为酮类固醇排出量均数为15.19mold,标准差为,标准差为5.03 mold,试估计该种病人尿试估计该种病人尿17-酮类固醇排出量总酮类固醇排出量总体均数体均数95%可信区间。可信区间。(t 0.05,39=2.023)50 总体率的区间估计总体率的区间估计正态近似法:正态近似法: 当总体率当总体率 未知时,若未知时,若 np 5和和 n (1-p) 5,则,则总体率总体率(1- )可信区间为:可信区间为: p u sp = p - u sp p + u sp即:总体率即:总体率95%可信区间为可信区间为 p 1.96sp 总体率总体率99%可信区间为可信区间为 p 2.58sp查表法:查表法:n50时,时, p 1(见书)(见书)51某研究者欲研究经常在街头小餐点就餐的中某研究者欲研究经常在街头小餐点就餐的中学生是否乙肝病毒的感
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 儿童教育合同范本
- 修乡村路桥合同范本
- 伪造备案租房合同范本
- 创业五人合作合同范本
- 加盟 商铺转让合同范本
- 全国租赁服装合同范本
- 买卖店铺装修合同范本
- 划经营合同范本
- 2025内蒙古新工创业发展集团有限责任公司公开招聘工作人员笔试参考题库附带答案详解
- epc项目建设合同范本
- 2025年湖南高速铁路职业技术学院单招职业倾向性测试题库附答案
- 《高铁乘务安全管理与应急处置(第3版)》全套教学课件
- 学校食品安全长效管理制度
- 2.2 说话要算数 第二课时 课件2024-2025学年四年级下册道德与法治 统编版
- 2024-2025年第二学期学校教导处工作计划(二)
- 2025年苏州卫生职业技术学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 2025年南京机电职业技术学院高职单招数学历年(2016-2024)频考点试题含答案解析
- 2025年春新人教版历史七年级下册全册课件
- 活在课堂里 课件
- 教科版五年级下册科学同步练习全册
- 汶川地震波时程记录(卧龙3向)
评论
0/150
提交评论