


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第五章 抽样与抽样估计教学目的与要求:参照教学大纲。 教学重点:抽样误差、区间估计的方法、样本容量的确定、抽样组织形式等 教学难点:抽样平均误差的概念及计算、区间估计的几种方法、各种不同抽样组织形式的特点第一节 抽样调查中的基本概念一、抽样推断的一般概念 抽样推断是在根据随机原则从总体中抽取部分实际数据的基础上,运用数理统计方法,对总体某一现象的 数量性作出具有一定可靠程度的估计判断。抽样推断的特点:它是由部分推算整体的一种认识方法;它是建立在随机取样的基础上。它是运用概率估 计的方法;抽样推断的误差可以事先计算并加以控制。抽样推断的主要内容为:参数估计和假设检验二、抽样的基本概念1、全及总体
2、和样本总体 全及总体是我们所要研究的对象,又称母体,简称总体,它是指所要认识的,具有某种共同性质的许多单 位的集合体。总体单位的总数称为总体容量,一般用 N 表示。样本总体则是我们所要观察的对象,样本总体又称子样,简称样本,是从全及总体中随机抽取出来,代表 全及总体的那部分单位的集合体。样本总体的单位数称为样本容量,通常用小写英文字母n 来表示。对于一次抽样调查,全及总体是唯一确定的。而样本是不确定的,具有随机性,一个全及总体可能抽出很 多个样本总体,样本的个数和样本的容量有关,也和抽样的方法有关。根据总体各个单位的标志值或标志属性计算的,反映总体某种属性或特征的综合指示称为总体指标,也称 总
3、体参数。常用的总体指标有总体平均数(或总体成数)、总体标准差(或总体方差)。由样本总体各单位标志值计算出来反映样本特征,用来估计全及指标的综合指标称为统计量(抽样指标) 。统计量是样本变量的函数,用来估计总体参数,因此与总体参数相对应,统计量有样本平均数(或抽样成 数)、样本标准差(或样本方差)。2、样本容量和样本个数样本容量是指一个样本所包含的单位数。通常将样本单位数不少于3 0个的样本称为大样本,不及3 0个 的称为小样本。社会经济统计的抽样调查多属于大样本调查。样本个数又称样本可能数目。指从一个总体中可能抽取的样本个数。一个总体有多少样本,则样本统计量 就有多少种取值,从而形成该统计量的
4、分布,此分布是抽样推断的基础。3、抽样框 抽样框是包括全部抽样单位的名单框架。编制抽样框是实施抽样的基础。抽样框的好坏通常会直接影响到 抽样调查的随机性和调查的效果。抽样框的形式:(1)名单抽样框, 即列出全部总体单位的名录一览表, 如职工名单, 企业名单。 (2)区域抽样框,按地理位置将总体范围划分为若干小区域,以小区域位抽样单位。 (3)时间表抽样框,将总体全部单位按时间顺序排列, 把总体的时间过程分为若干个小的时间单位, 以此时间单位为抽样单位。 如对流水线上 24 小时内生产的产品行质量检查时, 以 5分钟为一个抽样单位, 可将全部产品分为 288 个抽 样单位并按时间顺序排列。4、抽
5、样误差 在抽样调查中,误差的来源有登记性误差和代表性误差两大类。 登记性误差是指在调查和汇总过程中由于观察、测量、登记、计算等方面的差错或被调查者提供虚假资料 而造成的误差。任何一种统计调查都可能产生登记性误差。代表性误差是只用样本指标推断总体指标时,由于样本结构与总体结构不一致、样本不能完全代表总体而 产生的误差。可分为系统误差和随机性误差两种。系统误差指由于非随机因素引起的样本代表性不足而产 生的误差。随机误差有称偶然性误差,指遵循堆积原则抽样,由于随机因素引起的代表性误差。抽样误差是指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指 标和全及指标之间的绝对
6、离差,又称为随机误差。影响抽样误差的因素有: 总体各单位标志值的差异程度; 样本的单位数; 抽样的方法 ; 抽样调查的组织形式。1、抽样实际误差。 抽样实际误差是指某一具体样本的样本估计指与总体参数的真实指之间的离差。由于总体参数是未知数,因此,每次抽样的实际抽样误差是无法计算的。它是一个随机变量。2、抽样平均误差 。抽样平均误差是反映抽样误差一般水平的指标,它的实质含义是指抽样平均数(或成 数)的标准差。即它反映了抽样指标与总体指标的平均离差程度。其作用首先表现在它能够说明样本指标代表性的大小。 平均误差大, 说明样本指标对总体指标的代表性低; 反之则说明样本指标对总体指标的代表性高。抽样平
7、均误差的计算:重复抽样:不重复抽样:3、抽样极限误差。抽样极限误差是指一定概率下抽样误差的可能范围,也称为允许误差。一般用表示 抽样极限误差。基于理论上的要求,抽样极限误差需要用抽样平均误差或为标准单位来衡量。即把极限误差 x或p相应除以 或 ,得出相对的误差程度 t 倍, t 称为抽样误差的概率度。这个问题将在参数估计方法中详细 说明。于是有:第二节抽样分布下面讨论以简单随机重复抽样为对象,在此条件下所得的样本称为简单随机样本,它满足两个条件:1. 样本单位之间相互独立; 2. 每个样本单位都与总体同分布。样本统计量的概率分布就是抽样分布,因为样本指标是一随机变量,而每个随机变量都有概率分布
8、。例如,总体有N个单位,从总随机抽取 n个单位进行调查,可抽取 个样本,从而可得到 个不尽相同 的样本平均数,经整理,将样本平均数的全部可能取值及其出现的概率依序排列,就得到样本平均数的概 率分布,即平均数的抽样分布。同理,可得样本成数的抽样分布和样本标准差的抽样分布。 抽样分布反映样本指标的分布特征,是抽样推断的重要依据。在抽样推断中,许多场合下统计量服从正态分布或以正态分布为渐近分布,所以正态分布(见第四章)是 最常用的。此外还有几种比较重要的抽样分布形式需稍作了解。一、分布设,是独立同分布的随机变量,且每个随机变量都服从标准正态分布,即,则随机变量 的分布称作自由度为 n 的 分布,记为
9、 。若样本, 来自于正态总体,可以证明,统计量其中,二、t 分布设X与Y随机变量相互独立,而且 ,丫,则随机变量服从自由度为 n的t分布,记为t(n)。若样本, 来自于正态总体,可以证明,统计量其中,当样本容量充分大时, t 分布趋近于标准正态分布。三、F 分布设X与Y分别服从自由度为 ,的分布,且相互独立,则统计量性质:( 1) ,则,;(2)若是 F 的分布函数,有若样本X:,和Y: ,分别来自于正态总体 、,可以证明,统计量 特别地,当两个正态总体的方差相等时,就有第三节抽样估计的基本方法抽样估计就是利用实际调查计算的样本指标值来估计相应的总体指标数值。抽样估计有点估计和区间估计 两种。
10、一、点估计参数点估计的基本特点:根据总体指标的结构形式设计样本指标作为总体参数的估计量,并以样本指标的 实际值直接作为相应总体参数的估计值。点估计的优良标准是无偏性、一致性和有效性。二、区间估计 顾名思义,区间估计就是用一个区间去估计未知参数。它要根据样本估计量以一定的可靠程度推断总体参 数所在的区间范围。设总体参数为,为由样本确定的两个统计量,对于给定的(0 V V 1 =,有则称 ( , ) 为参数 的置信度为 的置信区间。该区间的两个端点 , 分别称为置信下限和置信上限,通称为 置信限。 为显著性水平, 则称为置信度。置信度 表示区间估计的可靠程度或把握程度, 也即所估计的区间包含总体真
11、值的可能性。 置信度为的置信 区间也就表示以 的可能性(概率)包含了未知总体参数的区间。(一)总体均值的区间估计1. 总体方差已知时,正态总体均值的区间估计如果总体服从正态分布 ,那么 的抽样分布仍是正态分布,变量 则服从标准正态分布。 根据前面区间估计的定义,可以构造均值的置信区间,对于给定的显著性水平, =即在给定的显著性水平 下,总体均值 在的置信水平下的置信区间为:(, + ) 同时,由前定义可知,抽样极限误差 可按如下公式来确定: 称为概率度, 是重复抽样条件下样本平均数的抽样平均误差。 若采用不重复抽样方法, 则应该以下式计算: 例5.1 某企业从长期实践得知,某产品直径 是一随机
12、变量,服从标准差为 0.05 的正态分布。从某日产 品中采取重复的方法随机抽取 6个,测得其直径分别为 14.8, 15.3, 15.1, 15, 14.7, 1 5.1 (单位:厘米) 。 在 0.95 的置信度下,试求该产品直径的均值的置信区间。解:已知 =6 , =0.95, 查正态分布表得 = =1.96 当 =0.95 时, =1.96 是一个常用的值,希望读者记住。样本均值抽样平均误差抽样极限误差=1.96 X 0.02=0.04所求 的置信区间为:15 - 0.04 < < 15+0.04 即(14.96 , 15.04 ) emo我们有95%的概率保证该种产品的直径
13、的平均长度在14.9615.04cm之间。2. 总体方差未知时,总体均值的区间估计(小样本)上述构造总体均值置信区间的方法,只有在总体方差已知时才能应用。但是总体平均数未知而总体方差已知的情况是不多见的,一般情况是两者均未知。根据抽样分布定理小样本条件下,如果总体是正态分布(或 近似服从正态分布)的,总体标准差未知而需要用样本标准S来代替,则随机变量。给定置信度,构造总体均值的置信度为 的置信区间给定概率 ,抽样极限误差为:例5.2 某商场从一批袋装食品中随机抽取 10袋,测得每袋重量(单位:克)分别为789、780、794、762、802、813、770、785、810、806,要求以 95
14、%的把握程度,估计这批食品的平均每袋重量的区间范围 及其允许误差。解:已知 =10样本平均数 样本标准差 已知 =0.95 ,查 分布表得, = ,故允许误差为:总体平均重量的置信区间为:791.1 ± 12.26克即778.84803.36克。当样本容量相当大时,即是总体分布形式未知或总体为非正态分布,此时样本均值近似服从正态分布,估 计总体均值的方法与上述第一种方法相同。例 5.3 某大学从该校学生中随机抽取 100人,调查到他们平均每天参加体育锻炼的时间为 26 分钟,样 本方差为 36。试以 95%的置信水平估计该大学全体学生平均每天参加体育锻炼的时间。解:已知 =100 ,
15、 =26 , =36 , =95%, =1.96 ,总体均值的 95%置信区间为:( , + )=(26 1.96 ,26+1.96 )=( 26 1.176 ,26+1.176 )即为( 24.824 , 27.176 )分。故全校学生平均每天参加体育锻炼的时间在24.8427.16分钟之间。(二)总体成数的区间估计 在许多实际问题中,常常需要估计总体中具有某种特征的单位占总体全部单位的比例。例如,全部产品中 合格品的比例;一批种子的发芽率;职工收入中工资收入所占比例等。我们称总体中具有某种特征的单位 占总体全部单位的比例为总体比例, 记为 ;称样本具有该种特征的单位占样本全部单位的比例为样
16、本比例, 记为。在第五章中曾讨论了样本比例的抽样分布,并指出在大样本条件下,若和都大于 5,则 的抽样分布近似服从平均值为 、方差为 的正态分布。因而可以用 Z 统计量来构造总体比例 的置信区间,即 但是,在实际工作中往往时未知的,我们所要估计的也正是这个总体比例,所以,就需要用样本比例来代替 。这样,在 的置信水平下,总体比例 的置信区间为:()例 5.4 某厂对一产品的质量进行抽样检验,采用重复抽样抽取样品 200只,样本优质品率为 85%,试计 算当把握程度为 90%时优质品率的区间范围。解:已知 =200 , =0.85 , =0.90 , =1.645 总体优质品率的置信度为 90%
17、的置信区间为:85% 4.15%< < 85% 4.15%即优质品率的置信区间为( 80.85%,89.15%)。(三)总体方差的区间估计(略)三、样本容量的确定 在前面的讨论中,我们都是假设样本容量是已知的。但是在实际设计抽样方案时一个重要的问题就是在特 定的情况下,应该抽取多大数目的样本?抽样数目的多少,与抽样误差及调查费用都有直接的关系。(一)影响样本容量的因素1. 总体方差 的大小。总体方差大,抽样误差大,则应该多抽一些样本单位进行调查,反之,则可以少抽一 些。 O2. 可靠性程度的高低。若要求可靠性越高,所必需的样本容量就越大。3. 允许误差范围的大小。4. 不同的抽样组
18、织形式。(二)样本容量的确定1. 总体平均数估计时的样本容量确定在重复抽样的条件下, 我们用 表示允许误差, 用表示总体标准差, 用 表示可靠性, 用 表示相应的概率度, 那么,允许误差的公式可表达如下:对上式两端平方: 移项整理可得:这就是在重复抽样条件下确定样本容量的计算公式。当我们采用不重复抽样时,就要采用有限总体修正系 数。这时例 5.5 某食品厂要检验本月生产的 10000袋产品的重量,根据上月资料,这种产品每袋重量的标准差为 25 克。要求在 95.45%的概率保证程度下,平均每袋重量的误差范围不超过5 克,应抽查多少袋产品?解:已知 =10000 , =25 克, =5 克=95
19、.45%, =2 在重复抽样条件下:= =100 (袋) 在不重复抽样条件下:=99 (袋)2. 总体比例估计时样本容量的确定 在重复抽样时 在不重复抽样时上面的计算公式都需要知道总体比例 ,但一般情况下是未知的。因此必须先寻找一个 的估计值,一般有 以下几种方法:( 1)用以往的资料估计 。( 2)在正式抽样之前,先抽一个实验样本,用此样本比例来代替 。( 3)当研究者对某一总体比例由很大的把握时,则可用它作为的估计值。( 4)如果什么资料也没有,那么可以令 =0.5 ,因为当 =0.5 时, 这一乘积达到最大,从而所需的样本也比较多,推断就比较 可靠。例 5.6 一家市场调查公司想估计某地区有彩色电视机的家庭所占的比例。该公司希望对的估计误差不超过 0.05 ,要求的可靠程度为 95%,但没有可利用的的估计值,应抽取多大容量的样本进行调查? 解:已知 =0.05 , =0.95 , =1.96 由于没有较好的估计值可以利用,因此只能取 =0.5 。计算必要的样本容量:= =385 (户)故为了以 95%的可靠度保证估计误差不超过 0.05 ,应抽取 385 户进行调查。第四节 抽样组织形式 常用的抽样组织形式有:简单随机抽样、类型
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 化妆品与时尚彩妆系
- 油漆玻璃投资借贷合同3篇
- (NEW)2025年个人借款抵押担保合同4篇
- 肝脏疾病病理班
- 窒息患儿的急救流程与管理
- T/ZHCA 603-2021化妆品生产企业消毒技术规范
- 游戏机课程设计
- 院外急救基础与操作规范
- 2025西昌学院辅导员考试试题及答案
- 2025西安电力高等专科学校辅导员考试试题及答案
- 矿井火灾防治课件
- 中考物理复习杠杆和滑轮课件
- 办公室拟办意见范文(优选十八篇)
- 最新安全生产管理教材电子版
- (完整版)马克思主义基本原理概论知识点
- 地表水水质自动监测站运行维护技术规范
- 健康证申请证明(通用)
- GB∕T 10054.1-2021 货用施工升降机 第1部分:运载装置可进人的升降机
- 生物安全委员会及组织架构
- 设计学概论设计批评课件
- 员工领用劳保用品表格
评论
0/150
提交评论