ch5.抽样调查及参数估计.ppt_第1页
ch5.抽样调查及参数估计.ppt_第2页
ch5.抽样调查及参数估计.ppt_第3页
ch5.抽样调查及参数估计.ppt_第4页
ch5.抽样调查及参数估计.ppt_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章 抽样调查及参数估计,抽样推断 抽样分布 参数估计,1,本章的学习目标: 理解利用统计量估算参数的基本逻辑与方法 了解抽样的概念与方法 掌握参数估计的方法 本章的重要概念: 抽样,抽样框,随机,抽样分布, 区间估计,置信水平,第一节 抽样推断,一、抽样推断 二、抽样单元与抽样框 三、概率抽样及其组织形式 四、抽样调查设计 五、利用EXCEL抽样,2,按照随机原则, 以一定的概率, 从总体中抽出一定量的单体做样本, 根据样本统计量 对总体参数做出一定程度可靠性的估计推断 这个过程就是抽样调查或抽样推断,抽样推断,参数估计(parameter estimation),假设检验(hypothesis testing),3,一、抽样推断,抽样推断的特点 1) 随机原则抽取样本单位 非主观性 2)推断总体的特征 - 保障一定的可靠性 3) 抽样误差可以计算和控制 标准误差 标准误差:样本统计量与总体参数之差,4,二、 抽样单元与抽样框,抽样单元:将总体划分成若干个互不重叠 且有穷尽的部分,成为抽样单元(若干个体) 最小的抽样单元是调查单元 单元框(sampling frame): 抽样单元的名册, 电话号码本,户口数据库, 抽样框里的抽样单元,要无遗漏,无重复,5,三、抽样方法,1. 概率抽样(随机抽样):根据已知的概率选取样本 放回抽样: 不放回抽样: 简单随机抽样(random sampling):完全随机抽样 - 抽签法 N比较小的时候 - 随机数字表法 N和n都比较大的时候 - 利用EXCEL的随机发生器,6, 分层抽样(stratified sampling) 总体分成不同的层,在每一层随机抽样 二阶段抽样(two stage sampling) 先对初级单元(层)进行抽样,再对次级单元抽样 整群抽样(cluster sampling) 将一层被调查群作为一个抽样单位 系统(等距)抽样(systematic sampling) 在样本框中每隔一定距离抽选被调查者,7,非概率抽样:不是完全按随机原则选取样本 非随机抽样:由调查人员自由选取被调查者 判断抽样:通过某些条件过滤来选择被调查者 配额抽样:选择满足特定条件的被调查者,8,四、抽样调查设计,1. 抽样方案设计 - 选择抽样方法:方便性,代表性,精确性 - 确定样本容量:精度和费用的综合考虑 2. 调查方法确定 3. 估计量的构造 估计量要有较好的概率性质:无偏性,方差小,五、利用EXCEL 抽样,9,10,第二节 抽样分布,一、样本均值的抽样与CLT 二、样本比例的抽样分布 三、抽样推断中常用统计量及分布 四、两个样本均值差的分布 五、两个样本比例差点分布 六、样本方差的分布 七、EXCEL 抽样分布模拟,一、样本均值的抽样与CLT,1. 样本均值的分布,11,从总体(,) 抽取同样大小(n)的样本组合,以此为变量,随机求此变量的平均的分布,即平均的概率,例子:, = E(X)=XP(X) = 2(1/3) +4(1/3)+ 6(1/3)=4 2= E(X2)-E(X)2 =4(1/3) +16(1/3)+ 36(1/3)-16=8/3,3位老师的工龄为2,4,6年,12,n=2时的抽样,样本均值的分布,0 2 3 4 5 6,_,_,E(X)=2(1/9)+3(2/9)+4(3/9) +5(2/9)+6(1/9)=4=E(X) Var(X)=4(1/9)+9(2/9)+16(3/9) +25(2/9)+36(1/0)-16=4/3=var(X)/2,_,_,13,样本分布的期待值与方差,standard error: 样本均值的标准差- X n越大,标准误差就越小 N=n时, 标准误差为 0,_,14,E(X)=(1+2+3)(1/3)=2 Var(X)=(1+4+9)(1/3)-4=2/3 E(X)=(1+3)(1/9)+(1.5+2.5)(2/9)+2(3/9)=2 Var(X)=(1+9)(1/9)+(2.25+6.25)(2/9)+4(3/9)-4=1/3,_,_,_,_,15,2. 中心极限定理(central limited theorem-CLT),任意分布的总体中,当样本容量为n时, XN(,2/n), 的分布随着n的增加,趋近与N (0,1) 一般n 30, 即可认为是标准正态分布,16,二、样本比例(成数)的抽样分布,当n很大( np=5和n(1-P)=5 ),样本比例p的抽样分布近似于,17,三、抽样推断中常用统计量及分布,Z统计量及其分布 X N(,2)中 n 个随机变量X1, X2,Xn为X的简单随机样本, 则有XN(,2/n), 将其标准化得到Z统计量的分布 Normsdist(Z), 与Normsinv(probability)函数,18,标准正态分布,19,2. 2统计量及其分布-样本方差的分布,用于拟合优度检验,独立性检验,总体方差的估计和检验,随机变量X1,X2,Xn 相互独立,XN(,2), zN(0,1), 则样本方差s2服从自由度为n-1的2分布,将2(n 1)称为自由度为(n-1)的卡方分布 性质:E(2) =n, 方差D (2) =2n X1 2(n1),X2 2(n1), 则 X1+X2 2(n1+n2),20,卡方 (c2) 分布,21,3. t 统计量的分布(n30,未知),XN(,2 ), n个随机变量X为一个随机样本,,22,4. F统计量及其分布,两个独立的2分布,各自除以自由度后的比率 为F分布。用于方差,协方差,回归分析。 随机变量X 2(n), Y 2(m) ,则F统计量为,23,两个样本方差比的抽样分布,设X1,X2, ,Xn1是来自正态总体N(1,12 )的一个样本, Y1,Y2, ,Yn2是来自正态总体N(2,22 )的一个样本,且Xi(i=1,2,,n1),Yi(i=1,2, ,n2)相互独立,则,将F(n1-1 , n2-1 )称为第一自由度为(n1-1),第二自由度为(n2-1)的F分布,24,两个样本方差比的抽样分布, 不同样本容量的抽样分布,25,四、两个样本平均差的分布,对两个不同总体的平均差做判断时 X1N(1,12), X2N( 2,22), 则有 当n=30时,可以使用中心极限定理,即 Y(x1-X2)N( 1 - 2, 12 /n1+ 12 /n1 ),26,五、两个样本比例差的分布 六、样本方差的分布(chart 20),27,28,第三节 参数估计,一、参数估计的基本问题 二、一个总体参数的区间估计 三、两个总体参数的区间估计 四、样本量的确定,非参数估计:总体分布未知 参数估计:总体分布类型已知,仅对参数估算,一、参数估计的基本问题,29,X P S2, , 估计量(estimator),1. 估计量与估计值,2. 点估计与区间估计,点估计: 从总体中抽取一个简单 随机样本(x1,x2,xn), 然后利用统计量(估计量) 对总体进行估算。 不准确,不科学,少用,-,区间估计 在点估计的基础上,对参数进行一定范围的估算,30,从总体中构造2个体计量1, 2 P1= = 2)=1-, (0 1) 1, 2是参数的置信区间(confidence interval) 1- 是置信水平(confidence level) 1, 2分别为置信界限(临界点 c-point) : 风险系数-参数不在置信区间的概率,区间估计,1. 根据一个样本的观察值给出总体参数的估计范围 给出总体参数落在这一区间的概率 例如: 总体均值落在5070之间,置信度为 95%,区间与置信水平,均值的抽样分布,(1 - ) % 区间包含了, % 的区间未包含,置信水平,c1,c2,C2-C1: 置信区间 C1,C2:置信界限,落在总体均值某一区间内的样本,3. 估计量的优良性准则,无偏性:估计量的数学期望等于被估计的总体参数 E() = ,估计量的优良性准则,有效性:一个方差较小的无偏估计量称为一个更 有效的估计量。D(1) = D(2), 则1 更有效 如,与其他估计量相比, 样本均值是一个更有效的估计量,估计量的优良性准则,一致性:随着样本容量的增大,估计量越来越接 近被估计的总体参数,37,被估计的总体参数,置信区间估计,1. 总体均值的置信区间 (2 已知),1. 假定条件 总体服从正态分布,且总体方差()已知 如果不是正态分布,可以由正态分布来近似 (n 30) 2. 使用正态分布统计量,总体均值 在1-置信水平下的置信区间为,二、一个总体的区间估计,总体均值的区间估计 (正态总体:实例),解:已知N(,0.152),x2.14, n=9, 1- = 0.95,/2=1.96 总体均值的置信区间为,我们可以95的概率保证该种零件的平均长度在21.30221.498 mm之间,【例】某种零件长度服从正态分布,从该批产品中随机抽取件,测得其平均长度为21.4 mm。已知总体标准差 =0.15mm,试建立该种零件平均长度的置信区间,给定置信水平为0.95。,总体均值的区间估计 (非正态总体:实例),解:已知 x26, =6,n=100, 1- = 0.95,/2=1.96,我们可以95的概率保证平均每天参加锻炼的时间在24.82427.176 分钟之间,【例】某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼的时间为26分钟。试以95的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体方差为36小时)。,2.正态总体均,2 未知,小样本,1. 假定条件 总体方差()未知 总体必须服从正态分布 使用 t 分布统计量,3. 总体均值 在1-置信水平下的置信区间为,总体均值的区间估计总结,43,正态总体方差的区间估计(p137),1. 估计一个总体的方差或标准差 假设总体服从正态分布 总体方差 2 的点估计量为S2,且,4. 总体方差在1-置信水平下的置信区间为,卡方 (c2) 分布,c2,45,21-a/2,2a/2,总体方差的1-置信区间,根据均值区间估计公式可得样本容量n为,四、样本容量的确定,样本容量n与总体方差2、允许误差、可靠性系数Z之间的关系为 与总体方差成正比 与允许误差成反比 与可靠性系数成正比,样本容量的确定,解:已知2=1800000,=0.05, Z/2=1.96,=500,应抽取的样本容量为,【例】一家广告公想估计某类商店

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论