华农统计学原理第四章课件_第1页
华农统计学原理第四章课件_第2页
华农统计学原理第四章课件_第3页
华农统计学原理第四章课件_第4页
华农统计学原理第四章课件_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 第四章 抽样调查第一节 抽样调查的基本问题第二节 抽样误差第三节 参数估计第四节 抽样调查的组织形式 第一节 抽样调查的基本问题一)抽样调查的意义二)抽样调查的应用三)抽样调查的几个基本概念四)抽样推断的理论基础统计推断的过程样本总体样本统计量例如:样本均值、比例、方差总体均值、比例、方差一) 抽样调查的意义(一)抽样调查的概念: 抽样调查是按随机原则从全部研究对象中抽取部分单位进行观察,并根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断。 抽样调查可分为两种:非随机抽样和随机抽样. 主要讨论随机抽样调查. (二) 抽样调查的特点 1.和全面调查相比较,抽样调查能节省人力,

2、费用和时间面且比较灵活. 3.抽样调查要建立在随机取样的基础上。 2.有些情况下,抽样调查的结果比全面调查要准确. 4.抽样推断的误差可以事先计算并加以控制。(2)应用抽样法可对全面调查的结果加以检验和修正 A:许多社会经济现象虽然可以全面调查,但同时开展抽样调查,把两者结合起来应用也具有重要的意义。B:全面调查不论是一次性普查,还是经常性统计报表制度,由于范围广、工作量大,参加人员多,就较多地存在发生登记性和计算性误差的可能。在全面调查后,随即抽取一部分单位重新再调查一次,将这些单位两次调查的资料进行对照、比较,计算其差错比率,并以此为依据对全面调查的资料加以修正,这样就可以进一步提高全面调

3、查资料的准确性。C:另外,由于抽样调查范围小,可以根据需要增加一些调查项目,以便进行某项更深入的研究,以补充全面调查的不足。 (3)应用抽样法可对总体进行假设检验.(4)应用抽样法可对生产过程中产品质量进行检查和控制.抽样调查不但广泛用于生产结果的核算和估计,而且也有效地应用于对成批或大量连续生产的工业产品在生产过程中进行质量控制,观察生产工艺过程是否正常,是否存在某些系统性的偏误,及时提供有关信息,分析可能的原因,便于采取措施,防止损失。 2)参数和统计量 (一)参数 又称总体指标,或全及指标.根据全及总体各个单位的标志值或标志属性计算的,反映总体某种属性或特征的综合指标。常用的全及指标有总

4、体平均数(或总体成数)、总体标准差(或总体方差 )。 总体平均数: 总体方差: 总体标准差: 设总体中具有某一标志的单位数为 则总体成数为: 总体成数的方差为: (二)统计量 又称样本指标或抽样指标,由样本各单位标志值计算出来反映样本特征,用来估计全及指标的综合指标(抽样指标)。统计量是样本变量的函数,用来估计总体参数,因此与总体参数相对应,统计量有样本平均数(或抽样成数)、样本标准差(或样本方差)。样本平均数: 样本方差: 样本标准差: 样本成数: 样本成数的方差: 对于一个问题总体是唯一确定的,所以总体指标也是唯一确定的,总体指标也称为参数,它是待估计的数。而统计量则是随机变量,它的取值随

5、样本的不同而发生变化。(三)抽样方法 (1)重置抽样 也称重复抽样、放回抽样。它是指从总体N个单位中随机抽取容量为n的样本时,每次从总体中抽取一个单位,把结果登记下来后,重新返回,再从全及总体中抽取下一个样本单位。在这种抽样方式中,同一单位可能有多次被重复抽取的机会。(2)不重置抽样 也称不重复抽样、不放回抽样。它是指从总体N个单位中随机抽取容量为n的样本时,每次从总体中抽取一个单位,不再放回去,下一次则从剩下的总体单位中继续进行抽取,如此反复构成一个样本,就是说,每个总体单位只能被抽取一次,所以从总体中每抽取一次,总体就少一个单位,因此,先后抽出来的各个单位被抽中机会是不相等的。 (四)抽样

6、框 又称抽样结构,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构. (五)样本可能数目 也称样本的可能数目,是指从总体N个单位中随机抽选取n个单位构成样本,通常有多种抽选方法,每一种抽选方法实际是n个总体单位的一种排列组合,这个组合数即称为样本的可能数目.2)中心极限定理是研究变量和的分布序列的极限原理。论证:如果总体变量存在有限的平均数和方差,那么不论这个总体变量的分布如何,随着抽样单位数的增加,抽样平均数的分布便趋近于正态分布。这个结论对于抽烟推断是十分重要的,因为在经济现象中变量和的分布是普遍存在的。例如,城市用电量是千家万户用电量总和的分布;产品标准规格

7、的偏差是许多独立因素之和的分布等。根据中心极限定理,我们有理由相信,这些分布都趋近于正态。在现实生活中,一个随机变量服从于正态分布未必很多,但多个随机变量和的分布趋近于正态分布则是普遍存在的。抽样平均数也是一种随机变量和的分布,因此,在抽样单位数充分大的条件下,抽样平均数也趋近于正态分布,这为抽样误差的概率估计提供了一个极为有效而方便的条件。正态分布正态分布是统计学中最重要的分布。这一分布是由阿伯拉罕德莫弗于1733年首先发表。其他几位数学家如皮埃尔西蒙、拉普拉斯、高斯等进一步发展,为纪念高斯,正态分布也称为高斯分布或常态分布。作用:正态分布是一种最常见的分布。许多变量的分布是正态的或近似于正

8、态分布的。只要某一随机变量是大量相互独立的偶然因素的和,而且每个因素的个别影响几乎是同样地小,那么就可以断定这个随机变量服从于或近似地服从于正态分布。各种统计量(如平均值)的分布,对于大样本来说,是正态的或近似于正态的,即使它们所取的总体不是正态的也是如此。对于充分大的样本,正态分布也是一些其他分布的极好近似。正态分布的概率密度函数:正态分布曲线是钟型曲线,是一个对于平均值对称的分布, 的任何一侧曲线均为另一侧曲线的镜像,当x时,以x轴为其渐进线。平均数、中位数与众数三者相等;曲线位于x轴上方,即正态密度函数处处为正;曲线与x轴所包围的面积为1,由于正态曲线的对称性,若由平均值处引x轴的垂线,

9、则其左右两侧面积各占总面积的50%; 如在平均值两侧离平均值三个标准差处引x轴的两条垂线,所形成的相应面积约等于总面积的99.73%; 如在平均值两侧离平均值两个标准差处引x轴的两条垂线,则这两条垂线与x轴与正态曲线所围的面积约等于总面积的95.45%;如在平均值两侧离平均值一个标准差处引x轴的两条垂线,则这两条垂线与x轴与正态曲线所围的面积约等于总面积的68.27%;268.27%99.73%95.45%13-1-2-3正态分布的 重要特征标准正态分布正态分布是一个分布族,其中一个成员与另一个成员按不同的值和值来区别。这一分布族中最重要的成员是平均值为0和标准差为1的正态分布,被称为标准正态

10、分布N(0,1).概率密度函数可以通过以下公式将正态分布N(0,1)变换为标准正态分布: 使用此公式把原分布中任意x值变换为标准正态分布中相应的Z值,由Z值利用标准正态分布表,可以求出与原计量值集合有关的概率。 第二节 抽样误差一)抽样误差的概念二)抽样平均误差的意义三)抽样平均误差的计算四)抽样极限误差五)抽样估计的可靠程度一) 抽样误差的概念 由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标之间的绝对离差。抽样误差的概念抽样误差是指样本指标与总体指标之间的离差。具体地讲,就是样本平均数与总体平均数的离差(即 ),或样本成数与总体成数的离差(即 )

11、。 抽样误差,就是按随机原则抽样,所得抽样指标和总体指标的差额,包括:抽样平均数与总体平均数的差额 抽样成数与总体成数的差额1、抽样误差是指由于抽样的随机性而产生的那一部分误差,不包括调查误差,也不包括可能发生的偏差。理解抽样误差有两个要点:2、随机误差有两种:实际误差和平均误差。二)抽样平均误差的意义概念:是指所有可能出现的样本指标的标准差,也就是所有可能出现的样本指标和总体指标的平均离差。意义:由于抽样误差把所有可能的抽样指标与全及指标之间所存在的抽样误差的所有结果都考虑进去,概括地反映了整个抽样过程中一切可能结果的误差,表明抽样平均数(或成数)与总体平均数(或成数)的平均误差程度,因此,

12、它既可以作为衡量抽样指标对于全及指标代表程度的一种尺度,又是计算抽样指标与全及指标之间变异范围的主要依据;同时,在组织抽样调查中,也是确定抽样单位数多少的计算依据之一。 抽样平均误差1、概念:抽样平均误差是抽样平均数或抽样成数的标准差。反映了抽样平均数与总体平均数抽样成数与总体成数的平均误差程度。2、计算方法:(一)抽样平均数的平均误差(二)抽样成数平均误差三)抽样平均误差的计算样本指标有平均指标和成数两种。因此,抽样误差也有两种:(一)平均指标抽样误差的计算:1、重复抽样的计算公式 2、不重复抽样的计算公式例题一:随机抽选某校学生100人,调查他们的体重。得到他们的平均体重为58公斤,标准差

13、为10公斤。问抽样推断的平均误差是多少?例题二:某厂生产一种新型灯泡共2000只,随机抽出400只作耐用时间试验,测试结果平均使用寿命为4800小时,样本标准差为300小时,求抽样推断的平均误差?例题一解:即:当根据样本学生的平均体重估计全部学生的平均体重时,抽样平均误差为1公斤。例题二解:计算结果表明:根据部分产品推断全部产品的平均使用寿命时,采用不重复抽样比重复抽样的平均误差要小。已知:则:已知:则:(二)总体成数的抽样平均误差采用重复抽样:采用不重复抽样:例题三: 某校随机抽选400名学生,发现戴眼镜的学生有80人。根据样本资料推断全部学生中戴眼镜的学生所占比重时,抽样误差为多大?例题四

14、:一批食品罐头共60000桶,随机抽查300桶,发现有6桶不合格,求合格品率的抽样平均误差?例题三解:已知:则:样本成数即:根据样本资料推断全部学生中戴眼镜的学生所占 的比重时,推断的平均误差为2%。例题四解:已知:则:样本合格率计算结果表明:不重复抽样的平均误差小于重复抽样, 但是“N”的数值越大,则两种方法计算 的抽样平均误差就越接近。例 从某厂生产的10000件产品中,随机抽取1000件进行调查,测得有85件为不合格。试求产品合格率的抽样平均误差。解:根据条件可知,合格率P=91.5% 1.在重复抽样条件下 = = 0.88% 2. 在不重复抽样条件下 =四)抽样极限误差含义:抽样极限误

15、差指在进行抽样估计时,根据研究对象的变异程度和分析任务的要求所确定的样本指标与总体指标之间可允许的最大误差范围。计算方法:它等于样本指标可允许变动的上限或下限与总体指标之差的绝对值。= pp - Pp P ppp抽样平均数极限误差:抽样成数极限误差:五)抽样估计的可靠程度含义:抽样误差的概率度是测量抽样估计可靠程度的一个参数。用符号“ t ”表示。公式表示: t = = t (t 是极限误差与抽样平均误差的比值)(极限误差是 t 倍的抽样平均误差)上式可变形为: 抽样估计的概率度是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度。由于抽样指标值随着样本的变动而变动,它本身是一个随机变量

16、,因而抽样指标和总体指标的误差仍然是一个随机变量,并不能保证误差不超过一定范围这个事件是必然事件,而只能给以一定程度的概率保证。因此,就有必要来计算抽样指标和总体指标的误差不超过一定范围的概率大小,即计算抽样指标落在一定区间范围内的概率,这种概率称之为抽样估计的概率度。 根据计算极限误差的基本公式 概率度t的大小根据对推断结果要求的把握程度来确定,即根据概率保证程度的大小来确定。概率论和数理统计证明,概率度t与概率保证程度F(t)之间存在着一定的函数关系,给定不同的t值,就可以计算出F(t)来,相反,给出一定的概率保证程度F(t),则可以根据总体的分布,获得对应的t值。在实际应用中,因为我们所

17、研究的总体大部分为正态总体,对于正态总体而言,为了应用的方便编有“正态分布概率表”供使用时查值。根据“正态分布概率表”,已知概率度t可查得相应的概率保证程度F(t);相反,已知概率保证程度F(t)也可查得相应的概率度t。现将几个常用的对应数值列于下表。常用概率度与概率保证度表 概率度t 概率F(t) (%) 1.002.003.001.641.962.58 68.2795.4599.7390.0095.0099.00 例 对一批某型号的电子元件进行耐用性能检查,按重复随机抽样的资料分组列表如下,要求估计耐用时数的允许误差范围=10.5小时,是估计该批电子元件的平均耐用时数。表耐用时数 组中值

18、抽样检查结果(只) 900以下9009509501000100010501050110011001150115012001200以上 87592597510251075112511751225 1263543931合计 100第一步,计算, s, :第二步,根据给定的 =10.5小时,计算总体平均数的上下限:下限= =1055.510.5=1045(小时)上限= =1055.5+10.5=1066(小时) 第三步,根据 ,查正态分布概率表得概率F(t)=95.66%。 推断的结论是:以95.66%的概率保证程度,估计该批电子元件的耐用时数在10451066小时之间。样本指标的抽样分布 约有68

19、.27%处在平均值 约有95.45%处在平均值 约有99.73%处在平均值 68.27%95.45%99.73%123-1-2-3的全部数值中,即,在的一个标准偏差范围之内;的两个标准偏差范围之内;的三个标准偏差范围之内。 第三节 参数估计一)点估计的优良标准二)总体参数的估计方法三)样本容量的确定 参数估计的一般问题 (一)参数估计(parameter estimation)就是用样本统计量去估计总体的参数。估计量:用于估计总体参数的随机变量如样本均值、样本比率、样本方差等样本均值就是总体均值的一个估计量参数用表示,估计量用 表示估计值:估计参数时计算出来的统计量的具体值如果样本均值 x =

20、5600,则5600就是总体均值 的估计值 参数估计的方法矩估计法最小二乘法最大似然法顺序统计量法估 计 方 法点 估 计区间估计一)点估计的优良标准 1. 无偏性:估计量抽样分布的数学期望等于被估计的总体参数。P( )BA无偏有偏图 有偏和无偏估计量的例子 2.一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数。AB较小的样本容量较大的样本容量P( )图 两个不同容量样本统计量的抽样分布 3.有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效。AB 的抽样分布 的抽样分布P( )图 两个无偏点估计量的抽样分布(一)点估计用样本的估计量直接作为总体参数的估计值例

21、如:用样本均值直接作为总体均值的估计例如:用两个样本均值之差直接作为总体均值之差的估计2.没有给出估计值接近总体参数程度的信息点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等二)总体参数估计的方法 例:某灯泡厂采用新技术生产,需要了解这种灯泡的使用寿命,现随机抽取4只灯泡,测得使用寿命分别是:1502,1455,1342,1673.试估计灯泡的平均寿命和标准差.解:样本的平均数是 样本标准差是 故:灯泡寿命的平均值的标准差分别是: (二)区间估计基本特点:是根据给定的概率保证程度的要求, 利用实际抽样资料,指出总体被估计值的上 限和下限,即指出总体参数可能存在的区间 范围,而不是

22、直接给出总体参数的估计值。 方法:x落在区间 内概率是 , 为总体指标X的置信区间 估计置信度 置信下限 置信上限 具备要素:估计值、抽样误差范围、概率保证程度 方法:根据给定条件而定 根据已给定的置信度,求抽样区间估计。具体步骤是:第一步,抽取样本,计算抽样指标 ,即计算样本平均数和抽样成数p,作为总体指标的估计值,并计算样本标准差s以推算抽样平均误差。第二步,根据给定的置信度F(t)的要求,查正态分布概率表求得概率度t值。第三步,根据概率度t和抽样平均误差 推算抽样极限误差 ,并根据抽样极限误差求出被估计总体指标的上下限。 区间估计的计算方法 1)计算出样本的平均值 样本方差 及成数 2)

23、用公式计算 3)计算出允许误差 4)确定估计区间1) 总体均值的区间估计1.假定条件总体服从正态分布,且方差() 已知如果不是正态分布,可由正态分布来近似 (n 30)使用正态分布统计量总体均值 在1-置信水平下的置信区间为例 对我国某城市进行居民家庭人均旅游消费支出调查,随机抽取400户居民家庭,调查得知居民家庭人均年旅游消费支出为350元,标准差为100元,要求以95%的概率保证程度,估计该市人均年旅游消费支出额。第一步,根据抽样资料已算得:样本每户年人均消费支出 =350(元)样本标准差 = 100(元) (元)第二步,根据给定的概率保证程度F(t)=95%,查得正态分布概率表得t =

24、1.96。第三步,计算 (元)则该市居民家庭年人均旅游消费支出额:下限 = = 3509.80 = 340.20(元)上限= = 350+9.80 = 359.80(元)结论:我们可以95%得概率保证程度,估计该市居民家庭年人均旅游消费支出额在340.20元359.80元之间。【例】一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10克。试估计该批产品平均重量的置信区间,置信水平为95%25袋食品的重量 112.510

25、1.0103.0102.0100.5102.6107.595.0108.8115.6100.0123.5102.0101.6102.2116.695.497.8108.6105.0136.8102.8101.598.493.3解:已知N(,102),n=25, 1- = 95%,z/2=1.96。根据样本数据计算得: 总体均值在1-置信水平下的置信区间为该食品平均重量的置信区间为101.44克109.28克之 2)总体成数区间估计的计算方法 1)计算出样本的成数 2)用公式计算 3)计算出允许误差 4)确定估计区间例 某市电视台为了解观众对某电视栏目的喜爱程度,在该市随机对900名居民进行调查

26、,结果有540名喜欢该电视栏目,要求以90%的概率保证程度,估计该市居民喜欢该电视栏目的比率。第一步,根据抽样资料计算:样本喜欢程度比率第二步,根据给定的置信度F(t)= 90% ,查正态分布概率表得概率度t = 1.64。第三步,计算 ,则总体比率的上下限为:下限 = = 60% 2.67% = 57.33%上限 = = 60% + 2.67% = 62.67%结论:我们可以概率90%的保证程度,估计该市居民对此电视栏目喜爱的比率在57.33%62.67%之间。 三)影响样本容量的因素 (一)样本容量影响因素 总体各单位间的标志变异程度极限抽样误差的大小 调查结果的概率保证程度抽取样本单位的

27、方法 (二)简单随机抽样样本容量的确定 一旦确定了置信水平(1-),Z/2的值就确定了,对于给定的的值和总体标准差,就可以确定任一希望的允许误差所需要的样本容量。令E代表所希望达到的允许误差,即:由此可以推到出确定样本容量的公式如下:简单随机抽样方式的必要抽样数目的公式例:拥有MBA学位的研究生年薪的标准差大约为4000 元,假定想要估计年薪95%的置信区间,希望允许误差为10000 元,应抽取多大的样本容量?解:已知 =4000,E1000,1=95%, Z/21.96,所以,应抽取的样本容量为: 即应抽取62人作为样本。例 对某油田的2000口油井的年产油量进行抽样调查。根据历史资料可知,

28、油井年产油量的标准差为200吨,若要求抽样误差不超过15吨,概率保证程度为95.45%,试求需要调查多少口油井解:F(t)= 95.45% t = 2根据成数区间估计公式可得样本容量n为2)总体成数估计的样本容量确定 其中:根据成数区间估计公式可得样本容量n为(二)估计总体成数时样本容量的确定 其中: 简单随机抽样方式的必要抽样数目的公式例:某社区想通过抽样调查了解居民参加体育活动的比率,如果把误差范围设定在5,问如果以95的置信水平进行参数估计,需要多大的样本?解:由于1-=0.95,=0.05,Z/2 =1.96。 因为P的值不知道,取使P(1P)达到最大值的0.5,即P取0.5,于是: 故需取385人的样本。 第四节 抽样调查的组织形式一)简单随机抽样二)等距抽样三)类型抽样四)整群抽样 一)简单随机抽样 简单随机抽样有两种抽取调查单位的具体方法,即重复抽样和不重复抽样。 简单随机抽样是指从含有N个单位的总体中,随机抽取n个单位作为样本,使得每一个容量为n的样本都有相同的机会(概率)被抽中,这样的抽样方式也称纯随机抽样。简单随机抽样是是最基本的抽样方法。(1)抽签法。 当给总体单位编号后,把号码写在结构无效的签上,将签混合均匀后即可以从中抽取。采用这种方法简便易行,然而对较大的总体来说,编号作签工作量很大,而且混匀有困难,所以,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论