第五抽样分布_第1页
第五抽样分布_第2页
第五抽样分布_第3页
第五抽样分布_第4页
第五抽样分布_第5页
已阅读5页,还剩55页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五抽样分布第1页,共60页,2023年,2月20日,星期一本章要求:

明确抽样推断的含义、特点和作用。了解有关的基本概念,重点掌握抽样误差的含义、影响因素及其计算。

了解抽样估计的基本方法和步骤;抽样方案设计的基本原则。

第2页,共60页,2023年,2月20日,星期一第一节抽样推断的基本概念一、全及总体和样本二、总体指标和抽样指标

三、样本容量与样本的可能数目第3页,共60页,2023年,2月20日,星期一一、全及总体和样本

㈠总体⒈概念:总体又称母体或全及总体,即研究对象的全体。

⒉总体的分类总体按各单位标志性质不同,可分为变量总体:各单位可用数量标志计量无限总体:变量值无限,有限总体:变量值有限属性总体:各单位用品质标志描述

⒊总体单位数:N

第4页,共60页,2023年,2月20日,星期一㈡样本⒈概念:样本又称子样或总体样本,即从总体中抽取的部分单位称为样本。⒉样本的大小:大样本超过30,小样本小于30第5页,共60页,2023年,2月20日,星期一二、总体指标和抽样指标

1.总体指标与样本指标根据总体各单位的标志值或标志属性计算的,反映总体数量特征的综合指标称为全及指标。全及指标是总体变量的函数,其数值是确定的、唯一的,因此称为参数。常用的总体参数有总体平均数、成数、方差。

根据样本各单位标志值或标志属性计算的,反映样本数量特征的综合指标称为样本指标。样本指标样本变量的函数,用来估计总体参数,因此也称统计量,其值随着样本的不同而不同,因此统计量是个随机变量。常用的样本指标有样本平均数、成数、方差。第6页,共60页,2023年,2月20日,星期一变量总体的统计指标主要有:总体平均数(总体均值)总体方差总体标准差第7页,共60页,2023年,2月20日,星期一

变量样本的指标:根据样本各单位标志值计算。主要有:样本平均数

样本方差样本标准差第8页,共60页,2023年,2月20日,星期一一个样本所包含的单位数。样本单位数大于30个的样本称为大样本,小于30个的样本称为小样本。对社会经济现象的调查常采用大样本。抽样数目的多少,与抽样误差及调查费用有关。

样本容量又称样本可能数目。是指从一个总体中可能抽取的样本个数。样本数目与抽样方法有关。样本个数三、样本容量和样本个数第9页,共60页,2023年,2月20日,星期一

注意:

对于一次抽样调查,总体是唯一确定的,而样本却是不确定的,一个全及总体可能抽出很多个样本。第10页,共60页,2023年,2月20日,星期一一、抽样方法1、重复抽样又被称作重置抽样、有放回抽样抽出个体登记特征放回总体继续抽取特点同一总体单位有可能被重复抽中,而且每次抽取都是独立进行第二节抽样方法和方式第11页,共60页,2023年,2月20日,星期一

例:从A、B、C、D、E五个字母中随机抽取两个作为样本。N=5,n=2

样本个数=Nn=52=25

第12页,共60页,2023年,2月20日,星期一2、不重复抽样又被称作不重置抽样、不放回抽样抽出个体登记特征继续抽取特点同一总体中每个单位被抽中的机会并不均等,在连续抽取时,每次抽取都不是独立进行是最常用的抽样方法,用于无限总体和许多有限总体样本单位的抽样。第13页,共60页,2023年,2月20日,星期一1、简单随机抽样(纯随机抽样)——对总体单位不做任何分类排队,完全按照随机原则直接从总体中随机抽取一部分单位组成样本的抽样组织方式。应用仅适用于规模不大、内部各单位标志值差异较小的总体是最简单、最基本、最符合随机原则,但同时也是抽样误差最大的抽样组织形式二、抽样的方式第14页,共60页,2023年,2月20日,星期一方法给总体各单位编号后,把号码写在结构均匀的字签上,将字签混合均匀后即可从中抽取。先编制随机数字表,然后将总体所有单位编号,根据编号的位数,确定使用随机数字表中若干位数字,接着从表中任一行、列、方向开始数,遇到属于编号范围内的数字就作为样本单位,直到抽够样本量为止。先将总体各单位进行编码,然后按照随机原则,用抽签法或随机数字法抽取若干数码,所有中选的数码对应的单位即构成样本。第15页,共60页,2023年,2月20日,星期一2、系统抽样方法:抽样框中的N个单位被分成k个系统,k等于抽样框的容量N除以所需的样本容量n,在抽样框中前面的k个个体或单位中随机抽出第一个样本单位,然后,可在其后的每隔k个单位抽取样本中其余的部分。亦可称为等距抽样编号有两种方法:············一种是利用原有的顺序或编号。如学生的注册名单,或者是从生产流水线上下来的、有编号的产品等。对所研究的总体已有所了解,则可用已知的相关变量对抽样框中的单位进行编号。第16页,共60页,2023年,2月20日,星期一3、分层抽样亦可称为类型抽样方法:将总体全部单位分类,形成若干个类型组,后从各类型中分别抽取样本单位,合成样本。总体N样本n等额等比例最优······第17页,共60页,2023年,2月20日,星期一4整群抽样(集团抽样)——将总体全部单位分为若干“群”,然后随机抽取一部分“群”,被抽中群体的所有单位进行全面调查的抽样组织方式。例:总体群数R=16样本群数r=4ABCDEFGHIJKLMNOPLHPD样本容量简单、方便,易于组织,能节省人力、物力、财力和时间,但其限制了样本在总体中分配的均匀性。第18页,共60页,2023年,2月20日,星期一5.多阶段抽样指分两个或两个以上的阶段来完成抽取样本单位的过程例:在某省100多万农户抽取1000户调查农户生产性投资情况。

第一阶段:从该省所有县中抽取5个县第二阶段:从被抽中的5个县中各抽4个乡第三阶段:从被抽中的20个乡中各抽5个村第四阶段:从被抽中的100个村中各抽10户样本n=100×10=1000(户)第19页,共60页,2023年,2月20日,星期一第三节抽样分布一、抽样分布的概念

抽样分布,是样本统计量的概率分布,由样本统计量的所有可能取值和与之相应的概率组成。

假设从容量为N的总体中抽取容量为n的样本最多可抽取m套不同的样本,则m个样本统计值的频率分布,即为抽样分布。第20页,共60页,2023年,2月20日,星期一设从容量为N的有限总体中抽取容量为n的样本,最多可抽取m套不同样本,计算得m个样本统计值设m个样本统计值经单项式分组可分为k组,则抽样分布的表现形式为:样本均值的抽样分布形式二、抽样分布特征第21页,共60页,2023年,2月20日,星期一1、用重复抽样方法(考虑顺序)从5个工人(日工资为34,38,42,46,50元)中随机抽取2人构成样本,共52=25个样本所有可能样本及其平均数:

样本变量3438424650343842465034363840423638404244384042444640424446484244464850第一单位第二单位样本均值第22页,共60页,2023年,2月20日,星期一整理出样本平均数的频率分布如下:频率343638404244464850合计4%8%12%16%20%16%12%8%4%100%样本均值的抽样分布样本均值的抽样分布图第23页,共60页,2023年,2月20日,星期一2、用不重复抽样方法

从5个工人(日工资为34,38,42,46,50元)中随机抽取2人构成样本(考虑顺序),共5×4=20个样本。所有可能样本及其平均数:样本变量3438424650343842465034363840423638404244384042444640424446484244464850第一单位第二单位样本均值第24页,共60页,2023年,2月20日,星期一整理出样本平均数的频率分布如下:频率36384042444648合计10%10%20%20%20%10%10%100%样本均值的抽样分布图样本均值的抽样分布第25页,共60页,2023年,2月20日,星期一3、抽样分布特征

指样本统计量的数学期望和方差。

样本统计量的数学期望:即所有样本统计值的平均数

样本统计量的方差:即所有样本统计值关于数学期望的方差

第26页,共60页,2023年,2月20日,星期一在前面的例题中,重复抽样的抽样分布如下:频率343638404244464850合计4%8%12%16%20%16%12%8%4%100%样本平均数的期望与方差:第27页,共60页,2023年,2月20日,星期一不重复抽样的抽样分布如下:频率36384042444648合计10%10%20%20%20%10%10%100%样本平均数的均值与方差:

第28页,共60页,2023年,2月20日,星期一

结论:(1)样本均值抽样分布的期望值(均值):

在重复或不重复抽样下都等于总体均值

(2)样本均值抽样分布的方差:

重复抽样方差大于不重复抽样,显然不重复抽样的抽样分布较为集中。

第29页,共60页,2023年,2月20日,星期一三、抽样分布定理(一)样本均值的抽样分布定理1、正态分布的再生定理若总体服从正态分布则样本均值

也服从正态分布

第30页,共60页,2023年,2月20日,星期一n=4n=16抽样分布(重复抽样)第31页,共60页,2023年,2月20日,星期一

任一总体(不要求正态),期望值

,方差

,当n足够大(当n>30,大样本),

趋于正态分布2、中心极限定理第32页,共60页,2023年,2月20日,星期一当样本容量足够大时(大样本)

,抽样分布趋于正态分布小样本从任意分布的总体中抽样大样本第33页,共60页,2023年,2月20日,星期一若正态总体方差未知且n较小,则

服从于自由度为n-1的t分布任一总体但n较小,

服从于自由度为n-1的t分布

3、t分布定理第34页,共60页,2023年,2月20日,星期一(二)样本成数的抽样分布定理1、二项分布定理从一个数学期望为p、方差为的是非变量(0-1分布)总体中随机重复地抽取容量为n的样本,那么样本中含有个某类变量值的概率为:

第35页,共60页,2023年,2月20日,星期一2.超几何分布定理

从一个数学期望为p、方差为的是非变量(0-1分布)总体中随机不重复地抽取容量为n的样本,那么当同时时,样本中含有个某类变量值的概率为:第36页,共60页,2023年,2月20日,星期一从一个数学期望为p、方差为的是非变量(0-1分布)总体中随机抽取容量为n的样本,当n足够大

nP>5,

n(1-P)>5

),样本成数p趋于正态分布

或E(p)=P3.中心极限定理第37页,共60页,2023年,2月20日,星期一第四节

参数估计矩估计法最小二乘法最大似然法顺序统计量法估计方法点估计区间估计第38页,共60页,2023年,2月20日,星期一一、点估计指直接以样本指标来估计总体指标,也叫定值估计简单,具体明确优点缺点无法控制误差,仅适用于对推断的准确程度与可靠程度要求不高的情况点估计方法:如矩估计法,极大似然估计,贝叶斯估计,最小二乘估计等.第39页,共60页,2023年,2月20日,星期一点估计评价准则的数学期望等于总体参数,即该估计量称为无偏估计。无偏性有效性当为的无偏估计时,方差越小,无偏估计越有效。一致性对于无限总体,如果对任意满足条件则称的一致估计。是充分性一个估计量如能完全地包含未知参数信息,即为充分量估计量第40页,共60页,2023年,2月20日,星期一为、s2n-1为S2、p为P的无偏、有效、一致、充分估计量。数理统计证明:同时满足上述四个标准,则为优良估计量第41页,共60页,2023年,2月20日,星期一二、区间估计定义:在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的特点:根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量比如,某班级平均分数在75~85之间,置信水平是95%

样本统计量

(点估计)置信区间置信下限置信上限第42页,共60页,2023年,2月20日,星期一区间估计的图示x95%的样本-1.96x+1.96x99%的样本-2.58x+2.58x90%的样本-1.65x+1.65x第43页,共60页,2023年,2月20日,星期一区间估计评价准则随机区间置信度精确度随机区间包含(即可靠程度)越大越好。的概率的平均长度(误差范围)越小越好一般形式或总体参数估计值误差范围△:一定倍数的抽样误差例如:抽样误差一定时,越大,概率(可靠性)大;随之增大,精确度就差。第44页,共60页,2023年,2月20日,星期一

区间估计的步骤如下:⒈计算抽样平均误差⒉给定概率保证程度,查表得概率度t⒊计算抽样极限误差

⒋估计总体指标区间3、区间估计的步骤第45页,共60页,2023年,2月20日,星期一4、总体均值的区间估计

(1)正态总体且2已知或非正态总体、2未知、大样本假定条件总体服从正态分布,且方差(2)

已知如果不是正态分布,可由正态分布来近似(n

30)使用正态分布统计量z总体均值在1-置信水平下的置信区间为第46页,共60页,2023年,2月20日,星期一【例】保险公司从投保人中随机抽取36人,计算得36人的平均年龄岁,已知投保人平均年龄近似服从正态分布,标准差为7.2岁,试求全体投保人平均年龄的置信水平为99%的置信区间

解:已知n=36,1-=99%,z/2=2.575。根据样本数据计算得:总体均值在1-置信水平下的置信区间为故全体投保人平均年龄的置信水平为99%的置信区间为[36.41,52.59]第47页,共60页,2023年,2月20日,星期一(2)、正态总体、方差未知、小样本假定条件总体服从正态分布,且方差(2)

未知小样本(n<30)使用t

分布统计量总体均值在1-置信水平下的置信区间为第48页,共60页,2023年,2月20日,星期一t分布

t分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布xt

分布与标准正态分布的比较t分布标准正态分布t不同自由度的t分布标准正态分布t(df=13)t(df=5)z第49页,共60页,2023年,2月20日,星期一【例】已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(小时)如下。建立该批灯泡平均使用寿命95%的置信区间16灯泡使用寿命的数据1510152014801500145014801510152014801490153015101460146014701470第50页,共60页,2023年,2月20日,星期一解:已知X~N(,2),n=16,1-=95%,t/2=2.131根据样本数据计算得:,

总体均值在1-置信水平下的置信区间为该种灯泡平均使用寿命的置信区间为1476.8小时~1503.2小时第51页,共60页,2023年,2月20日,星期一

从三皇五帝时的黄帝算起,直到1911年清王朝灭亡,中国经历了数千年的漫长历史时期,在这漫长的历史长河之中,先后出现了558位帝王,包括396位皇帝,162位国王。在封建皇朝,臣下叩见皇帝时,先要三呼"万岁",这"万岁"二字,等于是皇帝的尊称,其实真是莫大的讽刺。有史以来,皇帝总是要比普通人短命得多,而且大都是开国的皇帝比较长寿,越到后来,就越是短命。

为了估计我国历史上的这412位皇帝的平均寿命,随机不重复选取了以下二十位皇帝,他们的寿命如下:春秋晋文公30岁、战国秦孝公56岁、秦朝秦始皇49岁、新朝王莽23岁、魏文帝曹丕40岁、昭烈帝刘备61岁、吴大帝孙权71岁、西晋武帝司马炎55岁、东晋成帝司马衍22岁、南朝顺帝李淮12岁、北朝孝庄帝元子攸24岁、隋炀帝李光50岁、唐太宗李世民51岁、南唐后主李煜42岁、北宋赵匡胤49岁、南宋宁宗赵扩57岁、辽太祖耶律阿保机55岁、元太祖铁木真65岁、明熹宗朱由校23岁、清圣祖玄烨68岁。根据以上数据以95%的概率对我国558位皇帝的平均寿命作出估计.第52页,共60页,2023年,2月20日,星期一

上述20位皇帝的平均寿命为:(30+56+49+23+…68)/20=45.15(岁)样本的方差为:

299.98岁2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论