统计学第六章抽样调查课件_第1页
统计学第六章抽样调查课件_第2页
统计学第六章抽样调查课件_第3页
统计学第六章抽样调查课件_第4页
统计学第六章抽样调查课件_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、抽样调查,学习提纲,抽样调查的基本问题 简单随机抽样 抽样推断 抽样数目的确定 其他抽样,统计推断的过程,抽样调查,抽样调查与普查 抽样调查的意义 一般所讲的抽样调查,即指狭义的抽样调查(随机抽样) 按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。,抽样调查,抽样调查的特点 遵守随机原则: 无人为因素、公正、公平 用抽样指标推断总体的指标: 方便、快捷、节约费用 抽样误差可以事先计算并加以控制 准确、能够满足调查目的的要求,抽样调查的适用范围,实际工作不可能进行全面调查观察,而又需要了解其全面资料的事物; 虽可

2、进行全面调查观察,但比较困难或并不必要; 对普查或全面调查统计资料的质量进行检查和修正; 抽样方法适用于对大量现象的观察,即组成事物总体的单位数量较多的情况 利用抽样推断的方法,可以对于某种总体的假设进行检验,判断这种假设的真伪,以决定取舍。,抽样的基本概念,抽样涉及的基本概念有: 总体与样本(见第一章) 总体参数与样本统计量 重复抽样与不重复抽样 这些概念是统计学特有的,体现了统计学的基本思想与方法。,抽样调查的基本概念,总体:由被调查对象的全部单位所构成的集合体 总体单位数用N表示。 抽样总体:抽取出来调查观察的单位。 抽样总体的单位数用n表示。 n 30 大样本 n 30 小样本,抽样估

3、计:在抽样调查的基础上,利用样本的数据资料计算样本指标,以样本特征值对总体特征值做出具有一定可靠程度的估计和判断。,抽样估计的概念和特征,抽样估计的特征,抽样估计是由部分推断总体的一种认识方法。 抽样估计建立在随机取样的基础上。 抽样估计运用的是不确定的概率估计方法 抽样估计的误差可以事先计算并加以控制。,抽样调查的基本概念,总体参数和样本统计量 所谓推断,就是用样本指标来推断总体指标 用抽样平均数 推断总体平均数 用抽样成数p推断总体成数P,总体参数和样本统计量符号,抽样调查的基本概念,概率抽样与非概率抽样 概率抽样:又称随机抽样,是按随机原则抽取样本单位。本章所指的均为概率抽样。 非概率抽

4、样:又称非随机抽样,是指从研究的目的和需要出发,根据调查者的经验或判断,从总体中有意识地抽取部分单位构成样本。 应用举例:重点调查、典型调查应为非概率抽样。,抽样调查的基本概念,重复抽样:又称有放回的抽样,从总体中抽取样本时,每次被抽中的单位都再被放回总体中参与下一次抽样。 不重复抽样:又称无放回的抽样,总体中随机抽选的单位经观察后不放回到总体中,即不再参加下次抽样。,从1、2 、3、4中随机抽取2个的样本数,1、1 1、2 1、3 1、4 2、1 2、2 2、3 2、4 3、1 3、2 3、3 3、4 4、1 4、2 4、3 4、4,重复抽样考虑顺序,16,1、2 1、3 1、4 2、1 2

5、、3 2、4 3、1 3、2 3、4 4、1 4、2 4、3,从1、2 、3、4中随机抽取2个的样本数,不重复抽样考虑顺序,12,从1、2 、3、4中随机抽取2个的样本数,1、1 1、2 1、3 1、4 2、2 2、3 2、4 3、3 3、4 4、4,重复抽样不考虑顺序,10,从1、2 、3、4中随机抽取2个的样本数,1、2 1、3 1、4 2、3 2、4 3、4,不重复抽样不考虑顺序,6,抽样调查的组织形式,简单随机抽样 类型随机抽样 等距抽样 整群抽样,简单随机抽样调查,简单随机抽样 从总体单位中不加任何分组、排队,完全随机地抽取调查单位。 评价: 简单易行,最符合随机原则,是抽样调查的基

6、本形式 适用情况: 当总体单位数不多且分布比较均匀,或总体单位之间数量特征值差异较小,或总体单位有现成的编号时,采用这种方式比较适宜。,简单随机抽样调查,通常有以下四种组织形式: 直接抽选法 总体单位不编号,不编制抽样框 抽签法 对总体所有单位进行编号,且签需外形一致 随机数表法 总体所有单位编号,使用随机数表抽样 计算机模拟法 将随机数字编程,简单随机抽样,总体和样本的平均数 总体和样本的方差和标准差 有偏(n30) 无偏(n30) 数理统计表明: 有偏样本方差和标准差是总体方差和标准差的一致、有效估计量,但不是无偏估计量 无偏样本方差和标准差是总体方差和标准差的一致、有效、无偏估计量,评价

7、估计量的三个评价标准,无偏性 有效性 一致性,估计量的优良性准则无偏性,无偏性:估计量的数学期望等于被估计的总体参数,估计量的优良性准则有效性,有效性:一个方差较小的无偏估计量称为一个更 有效的估计量。如,与其他估计量相比,样本均值是一个更有效的估计量,估计量的优良性准则一致性,一致性:随着样本容量的增大,估计量越来越接近被估计的总体参数,成数,总体成数 每个总体单位标志值设为0或1 1:具有某种属性的总体单位标志值 0:不具有某种属性的总体单位标志值 总体中具有某种特征的单位占全部总体单位数的比例称为总体成数,记作P 成数总体方差:P(1-P),总体成数和样本成数,样本成数 从成数总体中抽取

8、样本容量为n的样本 样本中具有此种特征的单位占全部样本单位数的比例称为样本成数,记作p p=n1/n,样本成数,样本成数的方差 样本成数的无偏方差(n30) 样本成数的标准差,样本成数,样本成数的性质 x1,x2xn的各标志值中有n1个值为1,有n0个值为0,所以: 成数是一种特殊的平均数 总体中具有某个属性的单位占全体单位的比重 样本成数p是总体成数P的无偏、一致、有效估计量 样本成数的无偏方差是成数总体方差的无偏估计量,例题1,某市有140 000户,从中随机抽取40户,每户家庭人口数如P243表9-2,试用这一样本资料估计全市每户平均人口数,3人家庭在全市户数中所占的比例和标准差,抽样误

9、差,抽样误差 抽样误差是指不包括登记性误差和系统性误差在内的随机误差,它衡量了抽样估计的精确度。,登记性误差,代表性误差,系统性误差,随机误差,抽样误差,实际误差,平均误差,误 差,抽样误差,与抽样误差有关的三个概念 抽样实际误差:指在某一次具体抽样中,样本指标值与总体参数真实值之间的偏差。 抽样极限/允许误差:又称置信区间,是指一定概率下抽样误差的可能范围,说明样本估计量在总体参数周围变动的范围,记作。,抽样平均误差,抽样平均误差 所有可能的样本指标与总体指标之间的平均 差异程度,即样本估计值的标准差。 反映抽样平均数的所有可能值对总体平均数的平均离散程度,记作 。 抽样平均误差和抽样极限误

10、差分为在简单随机抽样条件下,重复抽样和不重复抽样两种情况,抽样平均误差,抽样估计效果好坏,关键是抽样平均误差的控制。抽样平均误差小,抽样效果从整体上看就是好的;否则,抽样效果就不理想。 抽样平均误差受以下几方面的因素影响: 总体的变异性,即与总体的标准差大小有关 样本容量 抽样方法 抽样的组织形式,抽样平均误差,实际抽样推断中采用的公式(*) 重复简单随机抽样: 不重复简单随机抽样: 其中, 为总体方差; 为不重复抽样的修正因子。,抽样平均误差,样本成数的抽样平均误差 重复抽样条件下 不重复抽样条件下:,例题2,例题3,某冷库的10万只冻鸡合格率为97%,如果按重复抽样与不重复抽样各抽取100

11、0只和2000只,分别计算抽样平均误差。,抽样极限误差,样本平均数的抽样极限误差:以绝对值形式表示的样本平均数的抽样误差的可能范围,用符号表示为: 即:,抽样极限/允许误差,样本成数的抽样极限误差:以绝对值形式表示的样本比例的抽样误差的可能范围,用符号表示为: 即:,抽样估计,点估计 区间估计,点估计,从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计 例如: 用样本均值作为总体未知均值的估计值就是一个点估计 点估计没有给出估计值接近总体未知参数程度的信息,点估计,常用的点估计量有:,落在总体均值某一区间内的样本,区间估计,根据一个样本的观察值给出总体参数的估计范围

12、给出总体参数落在这一区间的概率 例如: 总体均值落在5070之间,置信度为 95%,区间估计,设总体参数为 ,由样本确定的两个统计量,对于给定的,有 则称 为参数的置信度为 的置信区间,该区间的两个端点 分别称为置信下限和置信上限,统称为置信限。 为显著性水平, 则称为置信度。,总体未知参数落在区间内的概率,表示为 (1 - 为显著性水平,是总体参数未在区间内的概率 常用的置信水平值有 99%, 95%, 90%,相应的 为0.01,0.05,0.10,置信水平,区间与置信水平,均值的抽样分布,(1 - ) % 区间包含了 % 的区间未包含,总体均值的置信区间 ( 已知),假定条件 总体服从正

13、态分布,且总体方差()已知 如果不是正态分布,可以由正态分布来近似 (n 30) 使用正态分布统计量,总体均值 在1-置信水平下的置信区间为,总体均值的区间估计(正态总体:实例),【例】某种零件长度服从正态分布,从该批产品中随机抽取件,测得其平均长度为21.4 mm。已知总体标准差 =0.15mm,试建立该种零件平均长度的置信区间,给定置信水平为0.95。,解:已知x N(,0.152),x2.14, n=9, 1- = 0.95,/2=1.96,总体均值的置信区间为,结论:我们可以95的概率保证该种零件的平均长度在 21.30221.498 mm之间,总体均值的区间估计(非正态总体:实例),

14、【例】某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼的时间为26分钟。试以95的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体方差为36小时)。,解:已知 x26, =6,n=100, 1- = 0.95,/2=1.96 结论:我们可以95的概率保证平均每天参加锻炼的时间在24.82427.176 分钟之间,成数的区间估计,成数的置信区间,假定条件 两类结果 总体服从二项分布 可以由正态分布来近似 使用正态分布统计量,总体比例 的置信区间为,根据均值区间估计公式可得样本容量n为,估计总体均值时样本容量的确定,样本容量n 与总体方差成正比 与允许误差成反比 与可靠性系数成正比,其中:,根据比例区间估计公式可得样本容量n为,估计总体比例时样本容量的确定,其中:,简单随机抽样下最佳样本容量的计算,类型抽样,概念(分层抽样或分类抽样) 将统计分组和抽样调查结合起来的组织方式。先将总体单位按某一标志分成若干组,然后在各组中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论