第五章 抽样估计.ppt_第1页
第五章 抽样估计.ppt_第2页
第五章 抽样估计.ppt_第3页
第五章 抽样估计.ppt_第4页
第五章 抽样估计.ppt_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第五章 抽样估计,第一节 抽样估计的基本知识,一、抽样推断的意义 1. 概念:抽样推断是在抽样调查的基础上,利用样本的实际资料计算样本指标,并据以推算总体相应数量特征的一种统计分析方法。 2. 抽样推断的特点(注意此章有大小写之分,大写代表总体,小写代表样本) 抽样推断是由部分推算总体的一种认识方法。 抽样调查是一种非全面调查: 样本有多个,计算样本特征值,第一节 抽样估计的基本知识, 抽样推断建立在随机抽样的基础上 样本的选取根据随机原则, (用样本估计总体)一定有误差 抽样推断运用概率估计的方法, 总体不是100%相信,在大概率区间相信, 90% 、 95% 、 99%相信。 样本特征值叫

2、统计量,总体特征值叫参数。 抽样误差可以事先计算并加以控制,二、抽样估计的内容 (一)参数估计 1.概念:所谓参数估计就是用样本统计量去估计总体的参数 。 2.包括的内容:点估计和区间估计 (二)假设检验 概念: 假设 的情况,再 证明假设是否对。 三、有关抽样的基本概念 (一)抽样法的理论基础:大数法则 、 中心极限定理,(二)抽样的基本概念 1.总体和样本 (1)总体 概念: 全及总体,所要研究对象的全体。 特点:a.同质性 b.大量性 c.数量性 d.变异性 e.唯一性 表示方法: N全及总体、母体,也表示总体包含多少单位数 总体的分类: 变量总体(数量标志) a. 按总体各单位标志的性

3、质不同分 属性总体(品质标志) 有限总体 b. 按总体单位数多少分 无限总体 总体指标:用来反映总体特征的统计指标叫参数。,(2)样本 概念 :总体中随机抽取的一部分单位叫样本。样本总体是 抽出许多个样本的集合体,样本不是唯一的,有多个。 特点:不是唯一的,有许多样本。 表示方法:用小 n表示,也表示样本中包含多少个单位数 大样本 n30 样本的分类 小样本 n30 样本指标:用来反映样本特征的统计指标,叫统计量,不是 唯一的,因为有多个值所以需要统计。,(三)参数和统计量 1. 参数 (1)概念:总体的数量特征值,也叫全及指标、总体指标。 (2)特点: 全及指标是总体变量的函数,其数值是由总

4、体各单位标志 值或标志属性决定的。 参数是确定的,唯一的。 未知的,需要用样本指标估计的。,(3)种类: 变量总体的参数 a.总体均值 b.总体方差 c.标准差 属性总体的参数:变成交替标志 “是” “不是”,成数问题、比重、比率问题 a.总体均值 b.总体方差 c.标准差,2.统计量 (1)概念:样本的数量特征值(多个样本组成样本总体) 叫样本总体指标。 (2)特点: 样本指标叫统计量,是样本变量的函数。 统计量是有多个,不是唯一的,是已知的,可以计算。 是随机变量,用它来估计参数,有的误差大些,有的误 差小些,有些有正误差,有些有负误差。,(3)种类:与总体参数相对应。 对变量样本总体的统

5、计量 a.样本均值 b.样本方差 c.样本标准差 属性样本总体的统计量 a.样本均值 b.样本方差 c.样本标准差,(四)样本容量和样本个数 1. 样本容量: (1)概念:是指一个样本所包含的单位数,必要样本单位数 (2)样本容量的重要性:一个样本包含多少个单位合适,是 抽样设计必须认真考虑的问题,样本容量大小关系到抽 样调查的效果和抽样方法的应用,抽取的样本能不能代 表总体很重要,现在许多人在研究。 大样本n30 (3)样本容量大小 小样本n30 2. 样本个数,又称样本可能数目 (1)概念:是指从总体中可能抽取的样本个数,如n=3的样本 重置抽样:重复、回置 (2)抽样方法 不重置抽样:不

6、重复、不回置,第二节 对一个变量总体的参数均值和比例 进行区间估计,抽样估计就是根据样本信息,对总体的某些特征进行估 计或推断。样本特征值叫统计量,不是唯一的,多个,已知 的,估计总体。总体特征值叫参数,是唯一的,确定的,未 知的,需要样本估计。 用样本特征值估计总体特征值叫参数估计。可分成点估 计和区间估计。,一、点估计 1.概念:也叫定值估计,是直接以样本特征值估计总体参数。 2.优点:简单易行 , 缺点:可信度值得怀疑,不能说明总体。 3.种类:矩估计法、极大似然估计法,4.最好估计量的标准 (1)无偏性:是指样本估计量的均值应等于总体参数。 (2)有效性:是指作为优良的估计量,除满足于

7、无偏性外, 其方差应最小,最有效。 (3)一致性:随样本单位数充分大, 样本估计量以总体参数 为极限。 有了以上三条,我们才可以用,二、区间估计:双侧 1.概念:是根据样本估计量以一定的可靠程度推断总体参数 所在的区间范围 。 置信区间 置信度概率 2.区间估计三要素:(1)样本估计值 (2)抽样平均误差 (3)概率(正态分布表给出应记住),3.区间估计的种类 正态总体:小样本 已知 用Z统计量 非正态总体:大样本 总体均值的区间估计 正态总体:小样本用t 统计量 未知 非正态总体:大样本用Z统计量 总体成数的区间估计:都是大样本,用Z统计量,(一)总体均值的区间估计 总体服从正态分布,小样本

8、也服从正态分布 1.总体方差 已知时 总体不知什么分布,但大样本,样本也服从正态分布 (1)定理:设总体 , 是其中一个简单随机样 本, 则样本平均数 也符合正态分布, (2)定理:若总体平均数 和方差 有限,当样本容量n充分 大时,无论总体分布形式如何,样本平均数,(3)统计量: 置信区间: 变形:,置信区间 步骤:(1)总体方差已知 (2)统计量 (3)置信区间概率 (4)置信区间上限下限,总体服从正态分布,小样本时,服从t分布 2.总体方差 未知时 大样本时,服从正态分布 Z 定理:设总体 , 是其中一个简 单随机样本,样本均值为 ,样本标准差为s,则统计量 大样本时, 故常用,统计量:

9、 置信区间: 变形:,置信区间 步骤:(1)总体方差未知 (2)统计量 (3)置信区间概率 (4)置信区间上限下限,(二) 总体比例的区间估计 1.定理: N1 N 比例问题 N0 当总体服从二项分布 ,从总体中抽取容量为n的 样本,样本也服从二项分布 , 当 时,样本比例近似服从正态分布 。,统计量: 置信区间: 变形: 置信区间 步骤:(1)总体比例未知 (2)统计量 (3)置信区间概率 (4)置信区间上限下限,第三节 抽样组织设计,一、抽样组织设计的基本原则 1.确保随机原则的实现 (1)考虑合适的抽样框 (2)随机抽样的实施问题 2.考虑样本的容量和结构问题 3.抽样的组织形式,不同形

10、式有不同的抽样误差,效果就不同 4.调查费的问题, 抽样误差越小,调查费用就多,二、抽样的组织形式 简单随机抽样、 类型抽样、 等距抽样 、 整群抽样 (一)简单随机抽样 1.概念:随机原则体现在总体中,大家都有同等机会 2.适用范围:适用于均匀总体,即具有某种特征的单位均匀 地分布于总体的各个部份,使总体各部分都同分布。前面 讲的都以简单抽样为例,是最基本、最简单的抽样组织形 式。,3.必要样本单位数的计算:必要样本容量 (1)估计总体平均数需要抽取的样本单位数 重置抽样: 不重置抽样,(2)估计总体成数需要抽取的样本容量 重置抽样 不重置抽样 4. 抽样误差与样本单位数的关系 抽样误差指抽

11、样允许误差,抽样平均误差。 , 与样 本单位数(样本容量)有关系。 结论:抽样允许误差大,样本单位数少些;抽样允许误 差小,样本单位数要多些。,(二)类型抽样 1.概念:又称分层抽样,先对总体各单位按主要标志分组, 然后再从各组中按随机原则按比例抽取。 2.随机原则体现在每一类中,每类中的各单位机会均等。 3.优点 (1)把分组与随机原则结合起来。 (2)标志值比较接近的分为一组,减少组内的差异程度, 组内均匀。 (3)哪里体现随机原则,哪里就有抽样误差,所以抽样误 差最小。 (4)按比例抽取,每个组(类)都有代表,所以代表性强。,4.适用范围:适用总体单位标志值大小悬殊情况下,比简单随机抽样

12、更准确,而且抽样误差又小,是所有随机抽样方法中最好的。 5.总方差=组内方差+组间方差 随机原则:抽样平均误差 类型抽样分组时尽量扩大组间方差,减少组内方差, 提高抽样效果。,(三)等距抽样 1.概念: 又叫机械抽样或系统抽样,它先按某一标志排 队,然后按一定顺序和间隔来抽取样本单位。 2.随机原则体现在第一个抽取谁。 3.特点: (1)随机原则体现在第一个单位抽取谁,第一个单位定 了,以后各单位都决定了,没有选择的余地。 (2)等距离。使样本单位均匀的分配在总体中,提高样本 的代表性。 (3)抽样误差比类型抽样大,与简单随机抽样差不多 (4)等距离的选择,不要与事物本身的节奏性、周期性相 重

13、合,这样会产生系统性误差。,4.排队 (1)无关标志排队:如工资表与姓名无关 (2)有关标志排队:如:全国GDP按高低 5.抽取样本的方法 (1)半距中点取样: = (2)对称等距取样:两头取,(四)整群抽样 1.概念:又叫集团抽样,将总体各单位划分为许群,然后随机原则抽取若干群。 2.整群抽样的随机原则:体现在选哪一群。 3.群的划分: (1)按地域:如省、街道 (2)按隶属关系:如机械局 4.特点: (1)随机原则体现在选哪一群 (2)在群内做全面调查,小范围的全面调查 (3)样本单位集中、节约、方便,(4)由于样本集中在某一部份,限制了样本在总体分配的 均匀性,所以代表性低,抽样误差在所

14、有方法中最大。 (5)在应用中要多抽一些样本单位,多抽几个群,以提高 抽样的准确性 (6)抽时要注意,扩大群内差异,缩小群间差异。,第四节 对两个变量总体参数:均值之差和比例之差 进行区间估计 对于两个总体,我们所关心的参数: ()两个总体均值之差 ()两个总体比率之差,一 两个总体均值之差的估计:独立样本,(一)独立样本的概念:如果两个样本是从两个总体中独立地抽取的,即一个样本中的元素与另一个样本中的元素相互独立,则称独立样本. (二)两个变量总体方差已知 已知,总体符合正态分布,抽取小样本, 用Z统计量,查正态分布表 已知, 总体不知符合什么分布, 但抽取大样本,用Z统计量,查正态分布表,

15、1、总体方差 和 已知时,两总体都符合正态分布,抽取小样本: 例1、 某零件长度服从正态分布 ,从中抽取 测得样本均值为22mm。进行工艺改革,零件长度仍服从正态分布 抽取 ,测得样本 ,求两 个总体均值之差95%的置信区间? 解:(1)已知两个总体方差 = mm = mm,(2)统计量 (3)置信区间概率,4)置信区间下限 上限 所以两个总体均值之差95%的置信区间是0.97,1.13,2. 总体方差 已知, 总体不知符合什么分布, 但抽取大样本; 例, 某地区教育委员会想估计两所中学的学生高考英语平均分数之差,为此两所中学独立抽取两个随机样本,有关数据如下: 中学1 中学2 确定两所中学高

16、考英语平均分数之差的95%的置信区间?,解:(1)已知 ,已知大样本 (2)统计量,(3)置信区间概率,(4)置信区间下限 上限 所以 两所中学高考英语平均分数之差在95%的置信区间5.03,10.97 即5分,11分,(三)总体方差未知,内容复杂一些 总体符合正态分布,抽取小样本,用t统计量,查t分布表 总体不知符合什么分布,但抽取大样本,用Z统计量,查正态分布表 1、总体方差未知,符合正态分布,抽取小样本,两个总体方差都相等,做以下假设:两个总体都服从正态分布 两个总体方差都相等 两个随机样本独立分别抽自两个总体 例1 为估计两种方法组装产品所需时间差异,分别对两种不同的组装方法各随机安排

17、12个工人,每个工人组装一件产品所需时间如下表: 方法1 28.3 30.1 29 37.6 32.1 28.8 36 37.2 38.5 34.4 28 30 方法2 27.6 22.2 31 33.8 20 30.2 31.7 26 32 31.2 33.4 26.5,假定两种组装产品的时间服从正态分布,且方差相等,试以95%的置信水平确定两种方法组装产品所需平均时间差值的置信区间? 解 总体方差未知,总体服从正态分布,小样本 (两个总体的方差未知但相等,则需要用两个样本方差 来估计,这是将两个样本的数据组合在一起以给出总体方差的估计量,用 来表示),方差合并估计量 统计量,置信区间概率,

18、置信区间下限 上限 所以两种方法组装产品所需平均时间差值的95%置信区间为0.14分,7.26分,2、总体方差未知,抽取小样本,总体方差不等时 例:接上例,假定第一种方法随机安排12个工人,第二种方法随机安排8个工人,所得数据如下; 方法1 28.3 30.1 29 37.6 32.1 28.8 36 37.2 38.5 34.4 28 30 方法2 27.6 22.2 31 33.8 20 30.2 31.7 26.5 同时假设两个总体方差不等,试以95%的置信水平确定两种方法组装产品所需平均时间差值的置信区间? 解 总体方差未知, 两个样本均值之差经标准化后近似服从自由度为u的t分布。,

19、统计量,置信区间的概率,置信区间下限 上限 所以两种方法组装产品所需平均时间差值的95%置信区间为0.192分,9.058分,3、两个总体均值之差的匹配样本 作用:指派两组工人可能会出现方法1的工人都是工作好的工人,方法2的工人都是工作不好的工人,这样指派是不公平的,可能会掩盖两种方法组装产品所需时间的真正差异。为解决这一问题,可以使用匹配样本。 匹配样本概念:一个样本中的数据与另一个样本的数据相对应。 如先指定12个工人用第一种方法组装产品,再用这12个工人用第二种方法组装产品,这样得到的两组组装产品的数据就是匹配数据。匹配样本可以消除由于样本指定不公平造成的两种方法组装时间上的差异。 在大

20、样本情况下, 在 置信水平下,置信区间上下限 d 表示两个匹配样本对应数值的差值 表示各差值的均值 表示各差值的标准差,当总体 未知时,可以用样本差值的标准差 来代替,在小样本情况下,假定两个总体各观测值的配对差服从正态分布。两个总体均值之差 在 的置信水平下的置信区间为: 置信区间下限 置信区间上限 例:由10个学生组成一个随机样本,让他们分别用A、B两套高考模拟试题测试,取得成绩如下表:,试建立两种试卷平均分数之差的95%的置信区间? 解: 置信区间下限 置信区间上限 所以两种试卷平均分数之差的95%的置信区间6.33分,15.67分,二 两个总体比率之差的区间估计,两个总体比率之差的区间估计都是大样本,用Z统计量,查正态分布表。 例 ,在某个电视节目的收视率调查中,农村 人,有32%的人收看该节

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论