第三章抽样与抽样分布(第二部分)ppt课件_第1页
第三章抽样与抽样分布(第二部分)ppt课件_第2页
第三章抽样与抽样分布(第二部分)ppt课件_第3页
第三章抽样与抽样分布(第二部分)ppt课件_第4页
第三章抽样与抽样分布(第二部分)ppt课件_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、3.3 常用的抽样方法 3.4 抽样分布一一个总体参数推断时样本统计量的抽样分布3.5 抽样分布二两个总体参数推断时样本统计量的抽样分布3.6 大数定理和中心极限定理第三章第二部分 抽样与抽样分布.学习目的了解抽样的概率抽样方法了解抽样分布的意义了解抽样分布的构成过程了解中心极限定理了解抽样分布的性质.3.3 常用的抽样方法一、简单随机抽样二、分层抽样三、系统抽样四、整群抽样.抽样方法.一、简单随机抽样(simple random sampling)从总体N个单位中随机地抽取n个单位作为样本,使得总体中每一个元素都有一样的时机 (概率)被抽中 抽取元素的详细方法有反复抽样和不反复抽样特点简单、

2、直观,在抽样框完好时,可直接从中抽取样本用样本统计量对目的量进展估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查添加了困难没有利用其他辅助信息以提高估计的效率.二、分层抽样(stratified sampling)将总体单位按某种特征或某种规那么划分为不同的层,然后从不同的层中独立、随机地抽取样本优点保证样本的构造与总体的构造比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进展估计,也可以对各层的目的量进展估计.三、系统抽样(systematic sampling)将总体中的各单位按一定顺序陈列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好

3、的规那么确定其他样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位优点:操作简便,可提高估计的精度.四、整群抽样(cluster sampling)先将总体划分为假设干个群,然后再以群作为调查单位从中抽取部分群,然后对中选群中的一切单位全部实施调查。特点抽样时只需群的抽样框,可简化任务量调查的地点相对集中,节省调查费用,方便调查的实施当群为总体的一个缩影时,抽样估计误差小,否那么误差较大。.1. 多阶段抽样Multistage sampling:是指将抽样过程分阶段进展,每个阶段运用的抽样方法往往不同,即将各种抽样方法结合运用,其在大型流行病学调查中常用

4、。其实施过程为,先从总体中抽取范围较大的单元,称为一级抽样单元,再从每个抽得的一级单元中抽取范围更小的二级单元,依此类推,最后抽取其中范围更小的单元作为调查单位。2.非概率抽样:又称为不等概率抽样或非随机抽样,就是调查者根据本人的方便或客观判别抽取样本的方法。它不是严厉按随机抽样原那么来抽取样本,所以失去了大数定律的存在根底,也就无法确定抽样误差,无法正确地阐明样本的统计值在多大程度上适宜于总体。虽然根据其它抽样方法引见. 样本调查的结果也可在一定程度上阐明总体的性质、特征,但不能从数量上推断总体.非概率抽样按抽样特点可分为:方便抽样、判别抽样、空间抽样、滚雪球抽样、配额抽样等类型。3.方便抽

5、样:样本限于总体中易于抽到的一部分。最常见的方便抽样是偶遇抽样,即研讨者将在某一时间和环境中所遇到的每一总体单位均作为样本成员。“街头拦人法就是一种偶遇抽样。4. 判别抽样又称立意抽样,研讨人员从总体中选择那些被判别为最能代表总体的单位作样本的抽样方法。当研讨者对本人的研讨领域非常熟习,对研讨总体比较了解时采用这种抽样方法,可获代表性较高的样本。5.空间抽样:对非静止的、暂时性的空间相邻的群体的抽样方法。例如,游行与集会没有确定. 的总体,参与者从一地到另一地,一些人离去又有一些人进来,但这些事件是在一定范围内进展的。对这样的总体在同一时间内抽样非常 重要,以便样本组成不会阅历时间上的太大变化

6、。6.滚雪球抽样:以假设干个具有所需特征的人为最初的调查对象,然后依托他们提招认识的合格的调查对象,再由这些人提供第三批调查对象,依次类推,样本好像滚雪球般由小变大。滚雪球抽样多用于总体单位的信息缺乏或察看性研讨的情况。7.配额抽样也称定额抽样,是将总体依某种规范分层群;然后按照各层样本数与该层总体数成比例的原那么客观抽取样本。定额抽样与分层概率抽样很接近,最大的不同是分层概率抽样的各层样本是随机抽取的,而定额抽样的各层样本是非随机的。.3.4 抽样分布一一个总体参数推断时样本统计量的抽样分布一、抽样分布的概念二、样本均值的抽样分布三、样本比率的抽样分布四、样本方差的抽样分布.样本统计量的概率

7、分布,是一种实际分布在反复选取容量为n的样本时,由该统计量的一切能够取值构成的相对频数分布。 随机变量是 样本统计量样本均值, 样本比例,样本方差等结果来自容量一样的一切能够样本 一、抽样分布的概念 (sampling distribution).抽样分布的构成过程 (sampling distribution)总体计算样本统计量如:样本均值、比例、方差样本.在反复选取容量为n的样本时,由样本均值的一切能够取值构成的相对频数分布一种实际概率分布推断总体均值的实际根底二、样本均值的抽样分布.1、样本均值的抽样分布(例题分析)【例】设一个总体,含有4个元素(个体) ,即总体单位数N=4。4 个个体

8、分别为x1=1,x2=2,x3=3,x4=4 。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差.样本均值的抽样分布 (例题分析) 现从总体中抽取n2的简单随机样本,在反复抽样条件下,共有42=16个样本。一切样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个察看值第一个察看值一切能够的n = 2 的样本共16个.样本均值的抽样分布 (例题分析) 计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211

9、.51.01第二个察看值第一个察看值16个样本的均值xx样本均值的抽样分布1.000.10.20.3P ( x )1.53.04.03.52.02.5.样本均值的分布与总体分布的比较 (例题分析) = 2.5 2 =1.25总体分布14230.1.2.3抽样分布P ( x )1.00.1.2.31.53.04.03.52.02.5x.2、样本均值的抽样分布 与中心极限定理 = 50 =10X总体分布n = 4抽样分布xn =16当总体服从正态分布N(,2)时,来自该总体的一切容量为n的样本的均值x也服从正态分布,x 的数学期望为,方差为2/n。即xN(,2/n).中心极限定理(central

10、limit theorem)当样本容量足够大时(n 30) ,样本均值的抽样分布逐渐趋于正态分布中心极限定理:设从均值为,方差为 2的一个恣意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为、方差为2/n的正态分布一个恣意分布的总体x.中心极限定理 (central limit theorem)x 的分布趋于正态分布的过程.样本均值的数学期望样本均值的方差反复抽样不反复抽样3、样本均值抽样分布的数学特征(数学期望与方差).样本均值的抽样分布(数学期望与方差)比较及结论:1. 样本均值的均值(数学期望) 等于总体均值 2. 样本均值的方差等于总体方差的1/n.抽样分布与总

11、体分布的关系总体分布正态分布非正态分布大样本小样本正态分布正态分布非正态分布.4、规范误 (standard error) 样本统计量的抽样分布的规范差,称为统计量的规范误,也称为规范误差,也称抽样规范差。规范误衡量的是统计量的离散程度,它测度了用样本统计量估计总体参数的准确程度以样本均值的抽样分布为例,在反复抽样条件下,样本均值的规范误为 4、 规范差的英文为:standard deviation.估计的规范误 (standard error of estimation)当计算规范误时涉及的总体参数未知时,用样本统计量替代计算的规范误,称为估计的规范误以样本均值的抽样分布为例,当总体规范差未

12、知时,可用样本规范差s替代,那么在反复抽样条件下,样本均值的估计规范误为.三、样本比率的抽样分布比率是指总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品) 与全部产品总数之比总体比例可表示为样本比例可表示为.在反复选取容量为n的样本时,由样本比例的一切能够取值构成的相对频数分布一种实际概率分布当样本容量很大时,样本比例的抽样分布可用正态分布近似 推断总体比例的实际根底样本比例的抽样分布.样本比例的数学期望样本比例的方差反复抽样不反复抽样样本比例的抽样分布(数学期望与方差).四、样本方差的抽样分布在反复选取容量为n的样本时,由样本方差的一切能够取值

13、构成的相对频数分布对于来自正态总体的简单随机样本,那么比值 的抽样分布服从自在度为 (n -1) 的2分布,即.由阿贝(Abbe) 于1863年首先给出,后来由海尔墨特(Hermert)和卡皮尔逊(KPearson) 分别于1875年和1900年推导出来设 ,那么令 ,那么 Y 服从自在度为1的2分布,即 当总体 ,从中抽取容量为n的样本,那么2分布(2 distribution).分布的变量值一直为正 分布的外形取决于其自在度n的大小,通常为不对称的正偏分布,但随着自在度的增大逐渐趋于对称 期望为E(2)=n,方差为D(2)=2n(n为自在度) 可加性:假设U和V为两个独立的服从2分布的随机

14、变量,U2(n1),V2(n2),那么U+V这一随机变量服从自在度为n1+n2的2分布 2分布(性质和特点).c2分布(图示) 选择容量为n 的简单随机样本计算样本方差s2计算卡方值2 = (n-1)s2/2计算出一切的 2值不同容量样本的抽样分布c 2n=1n=4n=10n=20 ms总体. 3.5 抽样分布二 两个总体参数推断时样本统计量的抽样分布一、两个样本均值之差的抽样分布二、两个样本比例之差的抽样分布三、两个样本方差比的抽样分布.两个总体都为正态分布,即 , 两个样本均值之差 的抽样分布服从正态分布,其分布的数学期望为两个总体均值之差方差为各自的方差之和 一、两个样本均值之差的抽样分

15、布.两个总体都服从二项分布分别从两个总体中抽取容量为n1和n2的独立样本,当两个样本都为大样本时,两个样本比例之差的抽样分布可用正态分布来近似分布的数学期望为方差为各自的方差之和 二、两个样本比例之差的抽样分布.三、两个样本方差比的抽样分布 两个总体都为正态分布,即X1N(1 ,12),X2N(2 ,22 )从两个总体中分别抽取容量为n1和n2的独立样本两个样本方差比的抽样分布,服从分子自在度为(n1-1),分母自在度为(n2-1) 的F分布,即 .由统计学家费希尔(R.A.Fisher) 提出的,以其姓氏的第一个字母来命名设假设U为服从自在度为n1的2分布,即U2(n1),V为服从自在度为n

16、2的2分布,即V2(n2),且U和V相互独立,那么 称F为服从自在度n1和n2的F分布,记为F分布(F distribution).F分布(图示) 不同自在度的F分布F1,10)(5,10)(10,10).一、大数定律3.6 大数定律与中心极限定理 大数定律是论述大量同类随机景象的平均结果的稳定性的一系列定理的总称。.1. 独立同分布大数定律 设X1, X2, 是独立同分布的随机变量序列,且存在有限的数学期望E(Xi)和方差D(Xi ) 2i=1,2,,那么对恣意小的正数, 有: 该定理给出了平均值具有稳定性的科学描画,从而为运用样本均值去估计总体均值数学期望提供了实际根据。.2. 伯努力大数

17、定律设m是n次独立反复实验中事件A发生的次数,p是每次实验中事件A发生的概率,那么对恣意的 0,有:它阐明,当反复实验次数n充分大时,事件A发生的频率m/n依概率收敛于事件A发生的概率阐明了频率具有稳定性,提供了用频率估计概率的实际根据。 .二、中心极限定理独立同分布的中心极限定理也称列维一林德伯格定理设X1, X2, 是独立同分布的随机变量序列,且存在有限的和方差2i=1,2,,当n 时,或.上述定理阐明独立同分布的随机变量序列不论服从什么分布,其n项总和的分布趋近于正态分布。可得出如下结论:不论总体服从何种分布,只需其数学期望和方差存在,对这一总体进展反复抽样时,当样本量n充分大,就趋于正态分布。该定理为均值的抽样推断奠定了实际根底。 .棣莫佛拉普拉斯中心极限定理设随机变量X服从二项分布B(n,p)的,那么当n 时,X服从均值为np、方差为 np(1-p) 的正态分布,即: 或:上述定理阐明: n很大,np 和 np(1p)也都不太小时,二项分布可以用正态分布去近似。.例8:假设有一批种子的发芽率为0.7。现有这种种子1000颗,试求其中有720颗以上发芽的概率。解:设X发芽种子颗数,XB(1000,0.7)。近似地 XN (700,210)。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论