统计学第六章抽样调查_第1页
统计学第六章抽样调查_第2页
统计学第六章抽样调查_第3页
统计学第六章抽样调查_第4页
统计学第六章抽样调查_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

容量为n的所有可能样本抽取总体,容量为N计算每个样本统计量例如:样本均值、成数、方差对频数分布数据进行总体数字特征分析将被来自不同样本的不同统计量观测值分组排列,将对应每个观测值的相对出现频数排成另一列,形成样本统计量的所有可能取值的相对频数分布表什么是抽样调查?思考问题在对统计推断中,需要使用样本推断总体:(1)采用什么样的方式组织抽样?(2)采用什么样的方法进行抽样?(3)总体、样本和抽样分布的特征如何?(4)运用什么统计量对抽样误差进行检验?(5)如何对样本、总体特征的进行估计?

第六章抽样调查★第一节抽样调查的意义第二节抽样调查的基本概念及理论依据第三节抽样平均误差第四节全及指标的推断第五节抽样方案设计第六节必要抽样单位数的确定第七节假设检验一、抽样调查的概念从研究总体中按一定的原则抽取部分单位作为样本进行观察研究,以认识总体的一种统计调查方法,分为随机和非随机抽样。这里主要指随机抽样

。指样本单位的抽取不受主观因素及其他系统性因素的影响,每个总体单位都有均等的被抽中机会按照随机原则

从调查对象中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体做出数量上的推断分析抽样调查的目的是由部分推断整体抽选部分单位时遵循随机原则抽样调查会产生抽样误差,抽样误差可以计算,并可以加以控制二、抽样调查的特点三、抽样调查的适用范围有些事物在测量或试验时有破坏性,不可以进行全面调查可以进行全面调查,但实际上不可行和全面调查相比,抽样调查能节省人力、费用和时间,而且比较灵活有些情况下,抽样调查结果比全面调查准确用抽样调查的资料修正和补充全面调查资料利用抽样推断方法,可以对某种总体的假设进行检验,判断这种假设的真伪,决定取舍。第二节抽样调查的基本概念及理论依据几组基本概念全及总体(总体)抽样总体(样本)重复抽样不重复抽样大数定律中心极限定理研究对象抽取方法研究原理总体分布样本分布抽样分布重复考虑顺序不重复不考虑顺序一、全及总体和抽样总体全及总体:也称总体。指所要认识对象的全体。用N表示有限总体的单位数,称总体容量。全及总体变量总体属性总体(品质标志)无限总体有限总体全及总体类型(数量标志)抽样总体:也称样本。从全及总体中随机抽取出来,代表全及总体部分单位的集合体用n表示抽样总体的单位数n≥30,为大样本;n<30,为小样本对同一问题,总体是唯一的,样本不唯一

n1总体n2二、全及指标和抽样指标全及指标:根据全及总体各个单位的标志值或标志特征计算的、反映总体某种属性的综合指标。是唯一的。全及指标研究总体中的数量标志总体平均数总体方差研究总体中的属性标志总体成数成数方差X=∑XNX=∑XF∑FΣ(X-X)

N2σ=2Σ(X-X)FΣF2σ=2σ2=P(1-P)P=N1N研究数量标志样本平均数样本标准差研究属性标质成数标准差样本成数抽样指标抽样指标:由抽样总体各个标志值或标志特征计算的综合指标,不是唯一的。样本量一个样本包含的单位数,也称样本容量。用n表示。样本量越大,抽样误差越小,一般n≥30为大样本,小于30为小样本样本可能数目按不同方式和方法从总体中可能抽取的样本个数,也称样本可能个数。一般与抽样方式和抽取要求密切相关三、抽样方法和样本可能数目重复抽样又被称作重置抽样、有放回抽样抽出个体登记特征放回总体继续抽取特点同一总体单位有可能被重复抽中,而且每次抽取都是独立进行⒈可能样本数目(考虑顺序):共n个2.可能样本数目(不考虑顺序):重复抽样和不重复抽样标号为A、B、C、D的四个圆球从中随机抽取两个,分析样本个数。考虑顺序AA、AB、AC、ADBA、BB、BC、BDCA、CB、CC、CDDA、DB、DC、DD可能样本个数不考虑顺序AA、AC、BA、BB、BDCB、CC、DA、DC、DD重复抽样不重复抽样又称作不重置抽样、不放回抽样抽出个体登记特征继续抽取特点同一总体中每个单位被抽中的机会并不均等,在连续抽取时,每次抽取都不是独立进行是最为常用的抽样方法。1、

可能样本数目(考虑顺序):2、

可能样本数目(不考虑顺序):标号为A、B、C、D的四个圆球从中随机抽取两个,分析样本个数。可能样本个数考虑顺序AB、AC、ADBA、BC、BDCA、CB、CDDA、DB、DC不考虑顺序AB、AC、ADBD、CB、DC不重复抽样四、抽样调查的理论依据独立同分布大数定律对于抽样调查的意义:

从理论上解释了样本与总体之间的内在联系,即随着抽样单位数n的增加,抽样平均数有接近于总体平均数的趋势。(1)独立同分布定律:独立的随机变量x1,x2,…,具有相同分布,且存在有限的数学期望E(xi)=X和方差D(xi)=σ2,则对任意小的正数ε,有

1、大数定律贝努大数定律对于抽样调查的意义:

从理论上解释了用频率代替概率的理论依据,即随着抽样单位数n的增加,事件A发生的频率接近于事件A发生的概率。(2)贝努大数定律:设m是n次独立随机试验中事件A发生(成功)的次数,p是事件A在每次试验中发生的概率,则对于任意小的正数ε,有:

大数定律论证了抽样平均数趋近于总体平均数的趋势,这为抽样推断提供了重要依据。但是:抽样平均数和总体平均数的离差究竟有多大?离差不超过一定范围的概率究竟有多少?离差的分布状况怎样?大数定律和正态分布没有给出任何这方面的信息。大数定律特点2、中心极限定理

(1)独立同分布中心极限定理:独立的随机变量x1,x2,…,具有相同分布,且存在有限的数学期望E(xi)=X和方差D(xi)=σ2,当n->∞时,随机变量的总和∑xi趋于均值为nx,方差为nσ2的正态分布,即

独立同分布中心极限定理对于抽样调查的意义:

从理论上解释了样本与总体之间的分布特征关系,即随着抽样单位数n的增加,

趋于正态分布。总体分布142300.10.2【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为X1=1、X2=2、X3=3、X4=4。总体分布、样本分布和抽样分布关系:现从总体中抽取一个容量为n=3的样本X1=1,X2=2,X2=2样本分布142300.30.64个数的相对频数分别都为0.251和2的相对频数分别为0.33和0.67

现从总体中抽取n=2的简单随机样本,考虑顺数重复抽样,共有42=16个样本。所有样本的结果如下:3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能n=2的样本(16个)3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值样本均值的抽样分布1.000.10.20.3P(x)1.53.04.03.52.02.5x统计量为均值相对频数(2)德莫佛-拉普拉斯中心极限定理:设X是n次独立随机试验中事件A发生(成功)的次数,p是事件A在每次试验中发生的概率,则X服从二项分布B(n,p),当n->∞时,X趋于均值为np,方差为npq的正态分布,即

独立同分布中心极限定理对于抽样调查的意义:

为概率估计提供了极为有效的条件中心极限定理研究的是变量和的分布和变量平均数的分布。它论证了以下几点:第一,如果总体很大,而且服从正态分布,则样本均值的分布也服从正态分布;第二,如果总体很大,但不服从正态分布,只要样本单位数足够大(n≥30

),样本均值的分布也趋近于正态分布。第三,样本均值分布的平均数,等于总体均值第四,样本均值方差等于总体方差的1/n中心极限定理的重要意义抽样误差样本均值样本成数重复抽样第三节抽样平均误差不重复抽样重复抽样不重复抽样一、抽样误差的概念样本指标与总体指标之间的差别统计误差登记误差代表性误差随机误差偏差(不遵守随机性)抽样平均误差实际误差根据随机性原则,用部分推断总体而引起的误差,可控制,不可避免。(一)抽样平均数的抽样平均误差抽样平均误差一系列抽样指标的标准差(μ)全及平均指标全部可能样本个数抽样平均指标说明:实际应用中,该公式中全部可能样本个数与全及平均数都是不可能已知的,故该公式无法用于计算二、抽样误差的计算均值抽样误差重复抽样不重复抽样(1)总体单位之间的变异程度(即标准差的大小)。标准差越大,抽样误差越大;(2)样本量大小。样本量越大,抽样误差越小;(3)抽样抽取方式。不重复抽样的抽样误差比重复抽样的抽样误差小;(4)抽样组织形式。对相同的n,类型抽样和等距抽样小于简单随机抽样,单个抽样小于整群抽样。影响因素实例分析:设有四个工人月产量分别为40、50、70、80元,现在随机从其中抽取2人,并求平均加工零件数,用以代表4人总体的平均产量水平,采用考虑顺序重复抽样,所有可能样本以及平均产量如下表:序号样本变量

样本平均数离差离差平方123440,4040,5040,7040,8040455560-20-15-50400225250567850,4050,5050,7050,8045506065-15-1005225100025910111270,4070,5070,7070,8055607075-5010152501002251314151680,4080,5080,7080,8060657580051520025225400合计---96002000序号产量(X)产量离差离差平方123440507080-20-101020400100100400合计240-1000产量总体的全及指标方差计算表结论:①抽样平均数的平均数等于全及平均数,②抽样平均误差,即抽样平均数的标准差等于总体标准差的③可通过调整样本单位数来控制抽样平均误差。实例分析:设有四个工人月产量分别为40、50、70、80元,随机从其中抽取2人,求平均加工零件数,以代表4人总体的平均产量水平,采用考虑顺序的不重复抽样,则所有可能样本以及平均产量如下表:序号样本变量

样本平均数离差离差平方12340,5040,7040,80455560-15-5022525045650,4050,7050,80456065-150522502578970,4070,5070,80556075-501525022510111280,4080,5080,706065750515025225合计---720-1000序号产量(X)产量离差离差平方123440507080-20-101020400100100400合计240-1000产量总体的全及指标方差计算表结论:不重复抽样的抽样平均误差(9.13件)小于重复抽样的抽样平均误差(11.18件)

现从总体中抽取n=2的简单随机样本,考虑顺数重复抽样,共有42=16个样本。所有样本的结果如下:3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能n=2的样本(16个)3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值样本均值的抽样分布1.000.10.20.3P(x)1.53.04.03.52.02.5x统计量为均值相对频数中心极限定理研究的是变量和的分布和变量平均数的分布。它论证了以下几点:第一,如果总体很大,而且服从正态分布,则样本均值的分布也服从正态分布;第二,如果总体很大,但不服从正态分布,只要样本单位数足够大(n≥30

),样本均值的分布也趋近于正态分布。第三,样本均值分布的平均数,等于总体均值第四,样本均值方差等于总体均值的1/n中心极限定理的重要意义(二)抽样成数的抽样平均误差分组单位数变量值具有某一属性不具有某一属性N1N010合计N—为研究是非标志总体的数量特征,令总体中全部单位只具有“是”或“否”、“有”或“无”两种表现形式的标志,又叫是非标志。交替标志1、数量化标志值具有某种属性的单位数所占比重不具有某种属性的单位数所占比重是非标志总体中具有某种表现或不具有某种表现的单位数占全部总体单位总数的比重比重(权数)2、计算指标比重【例】某厂去年生产的产品中,合格率为p,计算该厂产品的平均合格率。交替标志xi单位数(成数)(%)变量x成数xf离差离差平方离差平方乘权数合格品不合格品10Pq合计-P+q=1pP01-P0-p(1-P)2(0-p)2(1-P)2p(0-p)2qq2p+p2q=pq权值为比重P的加权算术平均数(二)抽样成数的抽样平均误差说明:实际应用中,平均数和成数的标准差一般是未知的,通常采用如下方式解决(1)用过去调查的资料(2)样本方差的资料代替总体方差(3)用小规模调查资料(4)用估计材料重复抽样:不重复抽样:【例】某灯泡厂对10000个产品进行寿命检测,随机抽取2%样本进行测试,资料如下。按质量规定,灯泡使用寿命在1000小时以上者为合格品,计算这批灯泡的时间抽样平均误差和合格率的平均抽样误差。使用时间(小时)灯泡数fi组中值xixifi900以下900~950950~10001000~10501050~11001100~11501150~12001200以上241171841873合计200--875925975102510751125117512251750370010725727759030020250822536756624869696739647270427216832329746884672211400575200-182-132-82-321868118168结论:不重复抽样的抽样平均误差小于重复抽样的抽样平均误差.【例】某灯泡厂对10000个产品进行寿命检测,随机抽取2%样本进行测试,资料如下。按质量规定,灯泡使用寿命在1000小时以上者为合格品,计算这批灯泡的时间抽样平均误差和合格率的平均抽样误差。使用时间(小时)灯泡数fi组中值xixifi900以下900~950950~10001000~10501050~11001100~11501150~12001200以上241171841873合计200--875925975102510751125117512251750370010725727759030020250822536756624869696739647270427216832329746884672211400575200-182-132-82-321868118168抽样误差样本平均值抽样平均误差计算过程样本标准差样本标准差代替总体标准差样本均值样本成数重复抽样不重复抽样重复抽样不重复抽样抽样误差样本平均值区间估计计算过程样本标准差样本标准差代替总体标准差样本均值样本成数重复抽样不重复抽样重复抽样不重复抽样极限误差总体均值区间估计第四节全及指标的推断抽样推断按已经抽定的样本指标(样本平均数或样本成数)来估计总体指标(总体平均数或总体成数),或其所在的范围估计量的优良性准则无偏性有效性一致性一、抽样推断的要求一、抽样推断的方法点估计把样本平均数或样本成数直接作为总体平均数或总体成数的估计值简单,具体明确优点缺点无法控制误差,仅适用于对推断的准确程度与可靠程度要求不高的情况1、直接换算法【例】某大学在校的6000名大学生,对其实际月消费支出调查,结果表明,该6000名大学生的平均消费支出为489元,我们推断说,该校全体大学生月消费支出为489元。2、修正分数法用抽样所得的调查结果同有关资料的对比分数来正全面统计资料时采用的一种方法【例】某市集团公司2005年年报工资总额数为3218.1万元,现抽查该集团公司14个单位,年报415.03万元,多报0.44万元,少报1.47万元。

的抽样分布点估计的最大好处:给出确定的值点估计的最大问题:无法控制误差抽样极限误差:以一定的可靠程度保证抽样误差不超过某一给定的范围.说明:抽样极限误差反映了抽样估计的精确度,抽样极限误差越小,抽样估计的精确度越高,反之越低。区间估计把在一定概率保证下,用样本指标去推断总体指标,在考虑抽样误差的前提下,是通体指标落在某一范围之内,即根据抽样指标定出置信区间和置信度.置信区间:在一定概率保证程度下,某总体参数所在的区间范围。置信度:总体参数落在某一区间内的概率保证程度。也称为置信水平或可靠性。0.68270.95450.9973Z置信度概率度常用的置信度和概率度之间的关系

概率度与信任程度(置信度)成正比,但和准确性的要求成反比。

概率度t误差范围△概率F(t)0.51.001.501.962.003.000.5μ1.00μ1.50μ1.96μ2.00μ3.00μ0.38290.68270.86640.95000.95450.9973【例】某灯泡厂对10000个产品进行寿命检测,随机抽取2%样本进行测试,资料如下。按质量规定,灯泡使用寿命在1000小时以上者为合格品,在95.45%的概率保证程度下,计算其平均数和成数的估计区间。使用时间(小时)灯泡数fi组中值xixifi900以下900~950950~10001000~10501050~11001100~11501150~12001200以上241171841873合计200--875925975102510751125117512251750370010725727759030020250822536756624869696739647270427216832329746884672211400575200-182-132-82-321868118168【例】某灯泡厂对10000个产品进行寿命检测,随机抽取2%样本进行测试,资料如下。按质量规定,灯泡使用寿命在1000小时以上者为合格品,在95.45%的概率保证程度下,计算其平均数和成数的估计区间。使用时间(小时)灯泡数fi组中值xixifi900以下900~950950~10001000~10501050~11001100~11501150~12001200以上241171841873合计200--875925975102510751125117512251750370010725727759030020250822536756624869696739647270427216832329746884672211400575200-182-132-82-321868118168抽样误差样本平均值区间估计计算过程样本标准差样本标准差代替总体标准差样本均值样本成数重复抽样不重复抽样重复抽样不重复抽样极限误差总体均值区间估计第五节抽样方案设计抽样组织形式简单随机抽样类型抽样机械抽样整群抽样多阶段抽样抽样误差遵从原则样本量随机性原则代表性原则最大效果原则一、简单随机抽样——按随机原则直接从总体中抽出若干单位构成样本。是最简单、最基本、最符合随机原则,但同时也是抽样误差最大的抽样组织形式又称完全随机抽样或纯随机抽样,适用于均匀总体。

*直接抽选法*抽签法*随机数码表法抽样误差样本均值样本成数重复抽样不重复抽样重复抽样不重复抽样二、类型抽样(分类(层)抽样)

先对总体各单位按一定标志加以分类(层),然后再从各类(层)中按随机原则抽取样本,由各类(层)内的样本组成一个总的样本。总体N样本n类型比例抽样类型适宜抽样······抽取方式各组应抽取的样本单位数:1、类型比例抽样方法单位数的确定:【例】全及总体单位数N=8000,共要抽取样本单位数n=120,总体分三个类型:N1=4000,N2=2400,N3=1600,按类型比例抽样计算各组需要抽取的样本单位数。标志变动度大的组,抽取样本单位数的比例相应要大些;反之,则小些。2、类型适宜抽样方法单位数的确定:【例】全及总体单位数N=8000,共要抽取样本单位数n=120,总体分三个类型:N1=4000,N2=2400,N3=1600,标准差分别为σ1=10,σ2=15,σ3=30,按类型适宜抽样计算各组需要抽取的样本单位数。抽样误差的计算

1.先求出各层(组)的方差(或)

2.层内方差加权平均(或

重复抽样不重复抽样Ni为各层单位数,【例】某乡共有农户4000户,分粮食作物区与技术作物区。现在用类型比例抽样方法分别抽10%农户,调查农户收入情况,计算平均每户收入及其标准差,推断全乡抽样平均每户收入和抽样平均误差。农户总数样本户数抽样平均每户收入(元)抽样标准差(元)Ninixσi粮食作物区技术作物区250015002501503600540052724000400--分层抽样的抽样平均误差与组间方差无关,取决于组内方差的平均水平。注意

应扩大组间方差,缩小组内方差∵总方差=组内方差+组间方差∴分层抽样误差小于简单抽样误差四、机械抽样(等距抽样或系统抽样)

研究的总体按一定的顺序排列,然后按固定顺序和间隔来抽选样本单位的组织抽样形式。总体单位排列顺序时所依据的标志与调查的标志无关等距抽样按无关标志排列按有关标志排列总体单位排列顺序时所依据的标志与调查的标志有关随机起点(总体单位按某一标志排序)等距抽样抽取样本单位的具体方法:抽样距离:起点nR等距抽样随机等距中点等距对称等距1、随机等距······2、中点等距优点:样本有充分的代表性局限性:随机性不明显,不能进行样本轮换,样本利用率太低3、对称等距优点:保留了半距起点等距抽样的优点,避免了他的缺点,具有明显的优点。抽样误差的计算

1、无关标志等距抽样按简单随机抽样计算2、有关标志等距抽样按类型抽样计算

类型抽样的重复抽样的抽样误差【例】为了推行15块地小麦平均亩产,按去年亩产排队123地块序号123451234512345去年亩产(千克)340350355360375385395400410420430440460465480平均亩产(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论