




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第六章第六章 抽样推断抽样推断 一家食品生产企业以生产袋装食品为主,每天的产量约为一家食品生产企业以生产袋装食品为主,每天的产量约为80008000袋左右。袋左右。按规定每袋的重量应不低于按规定每袋的重量应不低于100100克,否则即为不合格。为对产量质量进行检克,否则即为不合格。为对产量质量进行检测,企业设有质量检查科专门负责质量检验,并经常向企业高层领导提交质测,企业设有质量检查科专门负责质量检验,并经常向企业高层领导提交质检报告。质检的内容之一就是每袋重量是否符合要求。检报告。质检的内容之一就是每袋重量是否符合要求。 由于产品的数量大,进行全面的检验是不可能的,可行的办法是抽样,由于产品
2、的数量大,进行全面的检验是不可能的,可行的办法是抽样,然后用样本数据估计平均每袋的重量。质检科从某天生产的一批食品中随机然后用样本数据估计平均每袋的重量。质检科从某天生产的一批食品中随机抽取了抽取了2525袋,下表是对每袋食品重量的检验结果。(假定该种袋装食品重量袋,下表是对每袋食品重量的检验结果。(假定该种袋装食品重量服从正态分布。)服从正态分布。)案例导入案例导入 根据以上数据,质检科估计出该天生产的食品每袋的平均根据以上数据,质检科估计出该天生产的食品每袋的平均重量在重量在101.57101.57109.14109.14克之间,其中,估计的可信程度为克之间,其中,估计的可信程度为95%9
3、5%,估计误差不超过估计误差不超过4 4克。产品的合格率在克。产品的合格率在95.68%95.68%64.32%64.32%之间,其之间,其中,估计的可信程度为中,估计的可信程度为95%95%,估计误差不超过,估计误差不超过15.68%15.68%。112.5112.5102.6102.6100.0100.0116.6116.6136.8136.8101.0101.0107.5107.5123.5123.595.495.4102.8102.8103.0103.095.095.0102.0102.097.897.8101.5101.5102.0102.0108.8108.8101.6101.61
4、08.4108.498.498.4100.5100.5115.6115.6102.2102.2105.0105.093.393.3 质检报告提交后,企业高层领导人提出几点意见:质检报告提交后,企业高层领导人提出几点意见:一是抽取的样本大小是否合适?能不能用一个更大的一是抽取的样本大小是否合适?能不能用一个更大的样本进行估计?二是能否将估计的误差在缩小一点?样本进行估计?二是能否将估计的误差在缩小一点?比如,估计平均重量时估计误差不超过比如,估计平均重量时估计误差不超过3 3克,估计合格克,估计合格率时误差不超过率时误差不超过10%10%。三是总体平均重量的方差是多少?。三是总体平均重量的方差是
5、多少?因为方差的大小说明了生产过程的稳定性,过大或过因为方差的大小说明了生产过程的稳定性,过大或过小的方差都意味着应对生产过程进行调整。小的方差都意味着应对生产过程进行调整。参数估计、假设检验参数估计、假设检验在统计方法中的地位在统计方法中的地位统计方法统计方法描述统计描述统计推断统计推断统计参数估计参数估计假设检验假设检验统计推断的过程统计推断的过程样本统计量样本统计量例如:样本均例如:样本均值、成数、方值、成数、方差差参数参数例如例如: :总体总体均值、成数均值、成数、方差、方差第一节 抽样调查 一、抽样调查的概念与作用 1抽样调查的概念 抽样调查是一种科学的非全面调查,是按照随机原则从总
6、体中抽取一部分单位组成样本进行调查,根据调查的样本数据推断总体的某一数量特征的统计方法。2 2抽样调查的特点抽样调查的特点 抽样调查具有以下特点:抽样调查具有以下特点: (1 1)遵循)遵循随机原则随机原则选择调查单位选择调查单位 (2 2)抽样调查)抽样调查节省人力、费用和时间节省人力、费用和时间,比,比较灵活较灵活 (3 3)抽样误差)抽样误差可以计算并且可以加以控制可以计算并且可以加以控制3 3抽样调查的适用范围抽样调查的适用范围 (1 1)某些)某些不可能不可能进行全面调查又需要了解其进行全面调查又需要了解其全面情况的社会经济现象全面情况的社会经济现象 (2 2)某些)某些不必要不必要
7、进行全面调查又需要了解其进行全面调查又需要了解其全面情况的社会经济现象全面情况的社会经济现象 (3 3)抽样调查可以用来)抽样调查可以用来检验和修正全面调查检验和修正全面调查资料资料 (4 4)抽样调查可以用于工业生产过程中的)抽样调查可以用于工业生产过程中的质质量控制量控制 (5 5)利用抽样调查,可以对于)利用抽样调查,可以对于假设进行检验假设进行检验 二、抽样调查中的几个基本概念二、抽样调查中的几个基本概念 1 1全及总体和抽样总体全及总体和抽样总体 (1 1)全及总体)全及总体 简称总体,是指所要认识对象的全体,全及总简称总体,是指所要认识对象的全体,全及总体的单位数通常用大写的英文字
8、母体的单位数通常用大写的英文字母“N N”来表来表示。示。 (2 2)抽样总体)抽样总体 也称样本,是指从全及总体中随机抽取出来,也称样本,是指从全及总体中随机抽取出来,代表全及总体部分单位的集合体,抽样总体的代表全及总体部分单位的集合体,抽样总体的单位数通常用小写英文字母单位数通常用小写英文字母“n n”表示。一般表示。一般说来,说来, n 30n 30称为大样本,称为大样本, n 30n 30称为小样称为小样本,本,n/Nn/N称为抽样比例,社会经济现象的抽样称为抽样比例,社会经济现象的抽样调查多取大样本。调查多取大样本。 全及总体是全及总体是惟一惟一确定的,抽样总体则是确定的,抽样总体则
9、是随机随机的的 一个全及总体可能抽取很多个样本,全一个全及总体可能抽取很多个样本,全部样本的可能数目和每一样本的容量有部样本的可能数目和每一样本的容量有关,也和随机抽样的方法有关,不同的关,也和随机抽样的方法有关,不同的样本容量和取样方法,样本的可能数目样本容量和取样方法,样本的可能数目也有很大的差别。也有很大的差别。可能样本数目的计算公式可能样本数目的计算公式!()!nNNANnnnNBN!()!nNNCn Nn(1)!(1)!nnNNN nDDn N 2 2全及指标和抽样指标全及指标和抽样指标 (1 1)全及指标)全及指标 反映总体数量特征的综合指标,称为全及指标、反映总体数量特征的综合指
10、标,称为全及指标、参数。参数。 由于全及总体是惟一确定的,所以由于全及总体是惟一确定的,所以全及指标也全及指标也是惟一确定的是惟一确定的。 对于对于变量总体变量总体,由于各单位的标志可以用数值,由于各单位的标志可以用数值来表示,所以可以计算总体平均数,用来表示,所以可以计算总体平均数,用 表表示;示; 对于对于属性总体属性总体,可以计算总体成数,用大写英,可以计算总体成数,用大写英文字母文字母 表示,表示,变量总体也可以计算成数变量总体也可以计算成数。 全及指标还有总体方差全及指标还有总体方差 和总体标准差和总体标准差 。 XP2 参数参数研究总体中研究总体中的数量标志的数量标志总体平均数总体
11、平均数总体方差总体方差X X=X X N NX X=XFXF F F(X-XX-X) N N2=2(X-XX-X) F F F F2=2研究总体中研究总体中的品质标志的品质标志总体成数总体成数成数方差成数方差2= = P(1-P)P(1-P)P =P = N N1 1N N(只有两种表现)(只有两种表现) (2)抽样指标 由抽样总体各个标志值或标志特征计算的综合指标称为抽样指标、统计量。 变量样本的抽样指标有抽样平均数 、样本平均数方差 和样本平均数标准差 ; 属性样本的抽样指标有抽样成数 、样本成数方差 和样本成数标准差 。 抽样指标的数值不是惟一确定的,是随机变量。x2xsxsp2psps
12、统计量统计量研究数量研究数量标志标志 样本平均数样本平均数 x=xnx=xff样本标准差样本标准差nxx212ffxxSx研究品质研究品质标志标志样本成数样本成数 成数标准差成数标准差 np=nppSp112nxxSx3 3重复抽样与不重复抽样重复抽样与不重复抽样 (1 1)重复抽样)重复抽样 重复抽样,又称重复抽样,又称有放回抽样有放回抽样,是指从全及总体,是指从全及总体N N个单位个单位中中随机随机抽取一个容量为抽取一个容量为n n的样本,每次抽中的单位经登的样本,每次抽中的单位经登录其有关标志表现后又录其有关标志表现后又放回放回总体中总体中重新重新参加参加下一次下一次的的抽选。每次抽取均
13、是在抽选。每次抽取均是在相同的条件相同的条件下完全按照随机原下完全按照随机原则进行的。则进行的。 (2 2)不重复抽样)不重复抽样 不重复抽样又称不重复抽样又称无放回抽样无放回抽样,是指从全及总体,是指从全及总体N N个单位个单位中随机抽取一个容量为中随机抽取一个容量为n n的样本,每次抽中的单位登录的样本,每次抽中的单位登录其有关标志表现后其有关标志表现后不再放回不再放回总体中参加下一次的抽选,总体中参加下一次的抽选,上一次的抽取结果会上一次的抽取结果会直接影响直接影响到下一次抽选。到下一次抽选。4 4抽样框抽样框 全及总体也叫目标总体。目标总体规定了全及总体也叫目标总体。目标总体规定了理理
14、论上的抽样范围论上的抽样范围。但。但实际实际进行抽样的总体范进行抽样的总体范围与目标总体有时是不一致的。因而,在抽围与目标总体有时是不一致的。因而,在抽样前还必须样前还必须明确实际进行抽样的总体范围和明确实际进行抽样的总体范围和抽样单位抽样单位。 抽样框又称抽样框又称“抽样框架抽样框架”、“抽样结构抽样结构”,是指对是指对可以选择可以选择作为样本的总体单位列出名作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框后,便可采用构。设计出了抽样框后,便可采用抽签抽签的方的方式或按照式或按照随机数表随机数表来抽选必要的单位数。来抽选必
15、要的单位数。 好的抽样框的标准是:好的抽样框的标准是:完整而不重复完整而不重复。 常见的抽样框如大学学生花名册、工商企常见的抽样框如大学学生花名册、工商企业名录、街道派出所里居民户籍册、意向业名录、街道派出所里居民户籍册、意向购房人信息册等。购房人信息册等。 在没有现成的名单的情况下,可由调查人在没有现成的名单的情况下,可由调查人员自己编制。员自己编制。 在利用现有的名单作为抽样框时,要先对在利用现有的名单作为抽样框时,要先对该名录进行该名录进行检查检查,避免有重复、遗漏的情,避免有重复、遗漏的情况发生。以提高样本对总体的代表性。况发生。以提高样本对总体的代表性。 例如:要从例如:要从1000
16、010000名职工中抽出名职工中抽出200200名组成名组成一个样本,则一个样本,则1000010000名职工的名册,就是名职工的名册,就是抽样框。抽样框。 抽样框也可能存在一些误差,主要有:抽样框也可能存在一些误差,主要有: (1 1)丢失目标总体单位,也被称为)丢失目标总体单位,也被称为“涵盖不足涵盖不足”,或丢失目标单位。或丢失目标单位。 对丢失的总体单位不能发现并纠正会造成调查中对丢失的总体单位不能发现并纠正会造成调查中对总量的对总量的估计偏低估计偏低。 (2 2)包含非目标单位,也被称为)包含非目标单位,也被称为“过涵盖过涵盖”,是,是指抽样框中包含了一些指抽样框中包含了一些不属于不
17、属于研究对象的非目标研究对象的非目标总体单位。总体单位。 由于抽样框中存在非目标总体单位,容易造成估由于抽样框中存在非目标总体单位,容易造成估计量的计量的高估高估。 (3 3)丢失目标单位和包含非目)丢失目标单位和包含非目标单位标单位共存共存,是指在抽样框中既,是指在抽样框中既有丢失目标单位,也有包含非目有丢失目标单位,也有包含非目标单位。标单位。 在实际调查中,在实际调查中,丢失丢失目标单位目标单位不不易被查觉和发现易被查觉和发现,具有较大的,具有较大的隐隐蔽性蔽性,相比之下,包含非目标单,相比之下,包含非目标单位的抽样框误差的威胁性要小些。位的抽样框误差的威胁性要小些。因为在调查过程中,非
18、目标单位因为在调查过程中,非目标单位容易被发现,并予以剔除。容易被发现,并予以剔除。 (4 4)复合连接,是指抽样框单元与目标)复合连接,是指抽样框单元与目标总体单元不完全一一对应,而是存在总体单元不完全一一对应,而是存在一一对多、多对一或是多对多对多、多对一或是多对多模式的现象。模式的现象。 例如:若某银行想了解其客户的情况进例如:若某银行想了解其客户的情况进行一次抽样调查,则该行所有客户构成行一次抽样调查,则该行所有客户构成目的总体。目的总体。 选择的抽样框是银行的来往帐目,这就选择的抽样框是银行的来往帐目,这就构成了多对一模式。若在这个框中进行构成了多对一模式。若在这个框中进行抽样,则来
19、往帐目多的客户被抽中的可抽样,则来往帐目多的客户被抽中的可能性则较大,反之来往帐目少的客户被能性则较大,反之来往帐目少的客户被抽中的可能性很小,而两种客户通常会抽中的可能性很小,而两种客户通常会有较大差异,从而造成样本的偏斜,使有较大差异,从而造成样本的偏斜,使估计量产生偏差。估计量产生偏差。 (5)抽样框老化,是指随着时间的推移,抽样总体与目标总体产生极大的偏差,即原来的抽样框不符合实际情况,必须进行更新。 最典型的例子,就是随着城市建设的大规模展开,许多地区已被改造,地址发生了变化,如果仍按以前的抽样框去抽样,那么精度就会难以控制。三、抽样调查的基本原理 1大数定律 大数定律,又称为大数法
20、则,是指在随机试验中,每次出现的结果可能不同,但是大量重复试验出现的结果的平均值却几乎总是接近于某个确定的值。 在大量的观察试验中,个别的、偶然的因素影响而产生的差异将会相互抵消,从而使现象的必然规律性显示出来。 例如,观察个别或少数家庭的婴儿出生情况,发现有的生男,有的生女,没有一定的规律性,但是通过大量的观察就会发现,男婴和女婴的比例会趋于107:100。切贝雪夫大数定理 设 是一列两两相互独立的随机变量,服从同一分布,且具有相同的数学期望 和方差 ,则对任意小的正数,有:1)1(lim1niinxnP2,21xx 当n很大时,服从同一分布的随机变 量 的算术平均数 将依概率接近于这些随机
21、变量的数学期望。 随着样本容量n的增加,样本平均数将接近于总体平均数,从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。,21xxx (1)现象的某种总体规律性,只有当具有这种现象的足够多的单位综合汇总在一起的时候,才能显现出来; (2)现象的总体性规律或倾向通常以平均数(或比率)的形式表现出来; (3)当所研究的现象总体包含的单位越多,平均数(或比率)也就越能正确反映出这些现象的规律性; (4)各单位的共同倾向决定着平均数(或比率)的水平,而各单位对平均数(或比率)的离差则会由于足够多数单位的综合汇总的结果,而相互抵消,趋于消失。 根据大数定律的内容特点运用抽样调查时,必须注意以下
22、两个问题: (1)抽样必须遵循随机原则,这样样本指标才能成为随机变量,大数定律才能应用; (2)抽样必须遵循大量原则,只有观察到足够多的单位,才能在综合后使个别单位表现出来的偶然性得以消除。2中心极限定理 在一定条件下,大量独立随机变量的平均数以正态分布为极限。设随机变量 相互独立;其数学期望值为 ;其标准差为 ; , , 满足下述条件: 对任一实数 ,有,21xx,21xExE,21niixE1)(nii1220lim133niiinxExEtdttniinetnxP21221limt即:只要在样本容量充分大的条件下,不论全及总体的变量分布是否属于正态分布,其抽样平均数也服从或近似服从正态分
23、布,这就为抽样调查进行估计提供了重要的理论根据。 (1)如果总体服从正态分布,样本平均数也服从正态分布; (2)如果总体很大,但不服从正态分布,只要样本足够大,样本的平均数也趋近于正态分布; (3)样本平均数的数学期望等于总体均值。 意义:当我们的认识对象分布未知时,只要坚持随机抽取足够多的样本单位,就可以使样本统计量服从(或近似服从)正态分布,继而便可运用正态分布理论,根据样本信息来推断认识对象总体的数量特征。第二节 抽样误差 一、抽样误差 1抽样误差的概念 抽样指标与所要估计的全及指标之间的差值称为抽样误差。 抽样误差既是一种随机性误差,也是一种代表性误差。抽样误差中的代表性误差是抽样调查
24、本身所固有的、无法避免的误差,但随机性误差则可利用大数定律精确地计算并能够通过抽样设计程序加以控制。2影响抽样误差的因素 (1)样本容量 (2)总体各单位标志值的差异程度 (3)抽样方法 (4)抽样的组织形式二、抽样平均误差 1样本平均数的抽样平均误差 (1)当抽样方法为重复抽样时,样本标志值 是相互独立的,样本变量 与总体变量 同分布。其计算公式如下: 它说明在重复抽样的条件下,抽样平均误差与总体标准差成正比,与样本容量的平方根成反比。 在计算抽样平均数的抽样平均误差时,通常并不知道总体方差的数值,可用样本方差来代替总体方差。,21xxxXnnx2 (2)不重复抽样: 当总体单位数很大时,这
25、个计算公式可近似表示如下: )(12NnNnx)(Nnnx12 总是小于1,所以不重复抽样的抽样平均误差总是小于重复抽样的抽样平均误差。 当抽样比例很小时,即使是采用不重复抽样的方法来抽取调查单位,也可使用重复抽样的误差公式来计算抽样平均误差。)(Nn12抽样成数的平均误差 总体成数可表现为总体是非标志的平均数,它的标准差为 。 (1)在重复抽样下,其计算公式如下: )(PP1nPPP)( 1 当总体单位数很大时,这个公式可近似表示如下:当总体单位数很大时,这个公式可近似表示如下: 在计算抽样成数平均误差时,通常得不到总体方差的在计算抽样成数平均误差时,通常得不到总体方差的数值,一般可以用样本
26、方差来代替总体方差。数值,一般可以用样本方差来代替总体方差。)1 ()1 (NnnPPP(2 2)在不重复抽样下,其计算公式如下:)在不重复抽样下,其计算公式如下: )1(1NnNnPPP)(三、抽样极限误差 允许的误差范围,即抽样极限误差。 抽样极限误差是指在一定的置信度下抽样指标与总体指标之间的抽样误差不超过某一给定的最大可能范围,记作。 由上述两个绝对值不等式可得: xXxxPpxxXxXppPpP xxxXxpppPp四、抽样估计的概率度、置信度四、抽样估计的概率度、置信度1 1抽样估计的概率度抽样估计的概率度抽样极限误差与抽样平均误差相比,从而使由单一样本抽样极限误差与抽样平均误差相
27、比,从而使由单一样本值得到的抽样极限误差标准化,称为概率度或相对误差值得到的抽样极限误差标准化,称为概率度或相对误差范围。在正态分布下,概率度用范围。在正态分布下,概率度用 表示,其计算公式表示,其计算公式如下:如下:2zxxz2ppz2 抽样极限误差取决于两个因素: 一是抽样平均误差,在其他条件既定时,抽样平均误差越小,抽样极限误差也越小; 二是抽样估计的概率度,在其他条件既定时,抽样估计的概率度越小,抽样极限误差也越小。2抽样估计的置信度 置信度就是总体指标落在某个区间(称为置信区间)的概率把握程度,又称抽样估计可靠程度、概率保证程度。 置信区间是以一定的概率把握程度确定总体指标所在的区间
28、。 为置信度,表示区间估计的可靠程度。例如 =0.95,说明有95%的可能总体参数包括在估计区间内,而不包括在这个区间的概率为=5%, 叫显著性水平。应用标准正态分布概率表,可以得抽样指标落在置信区间内的置信度。 抽样估计的精确度与置信度是一对反方向运动的矛盾,实际调查中应注意协调它们的矛盾。11第三节第三节 参数估计参数估计 包括对总体平均数和总体成数进行估计,有点估计和包括对总体平均数和总体成数进行估计,有点估计和区间估计两种方法。区间估计两种方法。 一、参数估计的基本要求一、参数估计的基本要求 1 1无偏性无偏性 估计中,要求各个抽样指标的平均数应该等于全及指估计中,要求各个抽样指标的平
29、均数应该等于全及指标,即从平均数意义上,抽样指标的估计是没有偏误标,即从平均数意义上,抽样指标的估计是没有偏误的,这一要求称为无偏性。的,这一要求称为无偏性。 如果样本统计量的数学期望值等于所估计的总体参数如果样本统计量的数学期望值等于所估计的总体参数的值,该样本统计量称作总体参数的无偏估计量。样的值,该样本统计量称作总体参数的无偏估计量。样本无偏统计量的所有可能值的期望值或均值等于被估本无偏统计量的所有可能值的期望值或均值等于被估计的总体参数。计的总体参数。 XxE)(PpE)(2 2一致性一致性 当样本的单位数无限增大时,抽样指标当样本的单位数无限增大时,抽样指标就充分靠近全及指标,抽样指
30、标和未知就充分靠近全及指标,抽样指标和未知的全及总体指标之间的绝对离差为任意的全及总体指标之间的绝对离差为任意小的可能性也趋于必然。小的可能性也趋于必然。 符合这一要求的估计量就是一致性估计符合这一要求的估计量就是一致性估计量。例如,样本均值、样本成数、样本量。例如,样本均值、样本成数、样本方差分别是总体均值、总体成数、总体方差分别是总体均值、总体成数、总体方差的一致性估计量。方差的一致性估计量。1limXxPnlim1nPpP3 3有效性有效性 以样本估计总体,要求优良估计量的抽以样本估计总体,要求优良估计量的抽样分布方差小于其他估计量的抽样分布样分布方差小于其他估计量的抽样分布方差,即从平
31、均的角度来看,优良估计方差,即从平均的角度来看,优良估计量的估计误差应小于其他估计量的估计量的估计误差应小于其他估计量的估计误差。误差。 例如,对于正态分布总体来说,样本均例如,对于正态分布总体来说,样本均值和样本中位数都是总体均值的无偏估值和样本中位数都是总体均值的无偏估计量,但两者的方差不同,样本中位数计量,但两者的方差不同,样本中位数的方差比样本均值的方差大,因此,样的方差比样本均值的方差大,因此,样本均值比样本中位数更有效。同样样本本均值比样本中位数更有效。同样样本成数、样本方差分别是总体成数、总体成数、样本方差分别是总体成数、总体方差的有效性估计量。方差的有效性估计量。 不是所有估计
32、量都符合以上标准,可以说完全不是所有估计量都符合以上标准,可以说完全符合以上标准的估计量要比不符合或不完全符符合以上标准的估计量要比不符合或不完全符合以上标准的估计量更为优良。例如在正态分合以上标准的估计量更为优良。例如在正态分布的情况下,总体平均数和中位数是重合在一布的情况下,总体平均数和中位数是重合在一起的,样本平均数是总体中位数的无偏估计量起的,样本平均数是总体中位数的无偏估计量和一致估计量,而且样本平均数比样本中位数和一致估计量,而且样本平均数比样本中位数作为总体中位数的估计量也是更有效的,因为作为总体中位数的估计量也是更有效的,因为样本平均数的方差比样本中位数的方差更小。样本平均数的
33、方差比样本中位数的方差更小。当估计量的选择在无偏性和有效性之间产生矛当估计量的选择在无偏性和有效性之间产生矛盾时,这时的基本原则是如果有偏估计量的偏盾时,这时的基本原则是如果有偏估计量的偏差不是很大,应该优先选择有偏但更有效地估差不是很大,应该优先选择有偏但更有效地估计量。计量。二、点估计二、点估计 点估计又称定值估计,它是以抽样指标点估计又称定值估计,它是以抽样指标作为总体指标的估计量,并以抽样指标作为总体指标的估计量,并以抽样指标的实际观测值直接作为总体未知参数估的实际观测值直接作为总体未知参数估计值的一种推断方法。例如以某一样本计值的一种推断方法。例如以某一样本的均值来估计总体的均值,以
34、某一样本的均值来估计总体的均值,以某一样本的成数来估计总体的成数等。的成数来估计总体的成数等。 点估计的方法有矩估计法、顺序统计量点估计的方法有矩估计法、顺序统计量法、最大自然法、最小二乘法等。法、最大自然法、最小二乘法等。xX pP22s 矩估计法是英国统计学家矩估计法是英国统计学家KPearsonKPearson提出的。提出的。其基本思想是:由于样本来源于总体,样本矩其基本思想是:由于样本来源于总体,样本矩在一定程度上反映了总体矩,而且由大数定律在一定程度上反映了总体矩,而且由大数定律可知,样本矩依概率收敛于总体矩。因此,只可知,样本矩依概率收敛于总体矩。因此,只要总体的要总体的k k阶原
35、点矩存在,就可以用样本矩作阶原点矩存在,就可以用样本矩作为相应总体矩的估计量,用样本矩的函数作为为相应总体矩的估计量,用样本矩的函数作为总体矩的函数的估计量。例如,用样本均值来总体矩的函数的估计量。例如,用样本均值来估计总体均值,用样本方差来估计总体方差。估计总体均值,用样本方差来估计总体方差。矩估计法简单、直观,而且不必知道总体的分矩估计法简单、直观,而且不必知道总体的分布类型,所以矩估计法得到了广泛应用。但矩布类型,所以矩估计法得到了广泛应用。但矩估计法也有局限性,它要求总体以估计法也有局限性,它要求总体以k k阶原点矩阶原点矩存在,否则无法估计,它不考虑总体分布类型,存在,否则无法估计,
36、它不考虑总体分布类型,因此也就没有充分利用总体分布函数提供的信因此也就没有充分利用总体分布函数提供的信息。息。 极大似然估计法是由极大似然估计法是由FisherFisher,提出的一,提出的一种参数估计方法。其基本思想是:设总种参数估计方法。其基本思想是:设总体分布的函数形式已知,但有未知参数,体分布的函数形式已知,但有未知参数,可以取很多值,在的一切可能取值中选可以取很多值,在的一切可能取值中选一个使样本观察值出现的概率为最大的一个使样本观察值出现的概率为最大的值作为的估计值,记作,称为的极大似值作为的估计值,记作,称为的极大似然估计值,这种求估计量的方法称为极然估计值,这种求估计量的方法称
37、为极大似然估计法。大似然估计法。 确定一个好的点估计是很重要的。点估确定一个好的点估计是很重要的。点估计的优点是能给出一个明确的值,缺点计的优点是能给出一个明确的值,缺点是没有指出这种估计的允许波动范围和是没有指出这种估计的允许波动范围和把握程度有多大。因此,在实际中,点把握程度有多大。因此,在实际中,点估计往往是与区间估计同时进行的。估计往往是与区间估计同时进行的。三、区间估计三、区间估计 区间估计就是以一个具有一定可靠程度的区间区间估计就是以一个具有一定可靠程度的区间范围来估计总体参数,即根据抽样指标和抽样范围来估计总体参数,即根据抽样指标和抽样平均误差推断全及指标的可能范围。用抽样指平均
38、误差推断全及指标的可能范围。用抽样指标来估计全及指标,要标来估计全及指标,要达到达到100%100%的准确几乎是的准确几乎是不可能的不可能的,所以在估计全及指标时就必须同时,所以在估计全及指标时就必须同时考虑估计误差的大小。考虑估计误差的大小。 科学地确定允许的误差范围:科学地确定允许的误差范围: 一是这一可能范围的大小,即一是这一可能范围的大小,即置信区间置信区间; 二是总体指标落在这个可能范围内的概率,即二是总体指标落在这个可能范围内的概率,即置信度置信度。 区间估计必须同时具备三个要素,即具备估计值、抽样极限误差和置信度三个基本要素。 抽样极限误差决定抽样估计的精确度,置信度决定抽样估计
39、的可靠性,两者密切联系,但同时又是一对矛盾,所以对估计的精确度和可靠性的要求应慎重考虑。 和 称为置信区间。xxxXxpppPp,xxxx,pppp 科学的区间估计要具备三个基本要素:科学的区间估计要具备三个基本要素: 第一,要有合适的统计量作为估计量;第一,要有合适的统计量作为估计量; 第二,要有合理的允许误差范围;第二,要有合理的允许误差范围; 第三,要有可靠的概率保证程度。第三,要有可靠的概率保证程度。 由于参数的允许范围涉及估计的准确性问题,由于参数的允许范围涉及估计的准确性问题,而相应的置信度涉及估计的可靠性问题。出于而相应的置信度涉及估计的可靠性问题。出于本能,在做估计时常常希望准
40、确性尽可能提高,本能,在做估计时常常希望准确性尽可能提高,而且可靠性也不能小,但是这两个要求是矛盾而且可靠性也不能小,但是这两个要求是矛盾的。在样本单位数不变的条件下,要想缩小估的。在样本单位数不变的条件下,要想缩小估计区间,提高估计的准确性,势必要减小置信计区间,提高估计的准确性,势必要减小置信度,降低估计的可靠性。同样,提高了估计的度,降低估计的可靠性。同样,提高了估计的可靠性,也必然要降低估计的准确性。可靠性,也必然要降低估计的准确性。 因此,在抽样估计的时候,只能对其中的一个要素提因此,在抽样估计的时候,只能对其中的一个要素提出要求,而推断另一个要素的变动情况。如对估计的出要求,而推断
41、另一个要素的变动情况。如对估计的准确性提出要求,即要求误差范围不超过给定的标准,准确性提出要求,即要求误差范围不超过给定的标准,来推算估计的可靠性,即置信度;或对估计的可靠性来推算估计的可靠性,即置信度;或对估计的可靠性提出要求,即要求给定的置信度,来推算抽样的误差提出要求,即要求给定的置信度,来推算抽样的误差范围。若所推算的另一要素(抽样误差范围或概率保范围。若所推算的另一要素(抽样误差范围或概率保证程度)不能满足实际工作的需要,就应该增加样本证程度)不能满足实际工作的需要,就应该增加样本单位改善抽样组织方式,重新进行抽样,直到符合要单位改善抽样组织方式,重新进行抽样,直到符合要求为止。求为
42、止。 根据置信度的要求,估计总体指标出现的可能范围的根据置信度的要求,估计总体指标出现的可能范围的具体步骤是:具体步骤是: (1 1)抽取样本,计算样本指标,如计算样本平均数或)抽取样本,计算样本指标,如计算样本平均数或样本成数,作为总体指标的相应估计值。并计算样本样本成数,作为总体指标的相应估计值。并计算样本标准差用以推算抽样平均误差。标准差用以推算抽样平均误差。 (2 2)根据给定的置信度的要求,查)根据给定的置信度的要求,查正态分布概率正态分布概率表表,求得概率度值。,求得概率度值。 (3 3)根据概率度和抽样平均误差来推算抽样极限误差)根据概率度和抽样平均误差来推算抽样极限误差的可能范
43、围,并据以计算被估计总体指标的上下限,的可能范围,并据以计算被估计总体指标的上下限,对总体参数作区间估计。对总体参数作区间估计。1 1总体平均数的估计总体平均数的估计 某外贸公司出口一种茶叶,规定每包规格不低于150克,现在用不重复抽样的方法抽取其中1%进行检验。测得结果如表所示,要求以95.45%的概率估计这批茶叶平均每包的重量范围,以便确定平均重量是否达到规格要求。每包重量(克)每包重量(克)组中值组中值包包 数数148-149148-149148.5148.51010149-150149-150149.5149.52020150-151150-151150.5150.55050151-1
44、52151-152151.5151.52020合合 计计100100第一步,根据样本资料计算样本平均数和标准差,并推算抽样平均误差。153030150.3100 xfxf克2760.87100 xxfsf克克0867. 0%1110087. 0122Nnnsx第二步,根据给定的置信度95.45%,查表得概率度 =2。2z 第三步,根据概率度和抽样平均误差计算抽样极限误差,并估计总体平均数的上下限,判断其是否达到规格要求。 22 0.0867 0.17xxz 克 :150.3 0.17 150.13xx 下限克:150.3 0.17150.47xx 上限克可以用95.45%的概率保证该批茶叶平均
45、每包重量在150.13-150.47克之间,表明这批茶叶平均每包重量达到了规格要求。 对某型号的电子元件进行耐用性能检查,抽查对某型号的电子元件进行耐用性能检查,抽查的资料分组列表如下,要求耐用时数的允许误的资料分组列表如下,要求耐用时数的允许误差范围差范围 =10.5 =10.5小时,试估计该批电子元件的小时,试估计该批电子元件的平均耐用时数。平均耐用时数。练习练习x1 1、计算抽样平均数和标准差、计算抽样平均数和标准差2 2、根据给定的、根据给定的=10.5=10.5小时,计算总体平均数的上小时,计算总体平均数的上下限,下限,下限下限= = 上限上限= =3 3、根据、根据 =10.5/
46、5.191=2 =10.5/ 5.191=2,查概率表得置信度查概率表得置信度 1- =0.95451- =0.9545我们可以作如下估计,即可以概率我们可以作如下估计,即可以概率95.45%95.45%的保证程的保证程度,估计该批电子元件的耐用时数在度,估计该批电子元件的耐用时数在1045-10661045-1066小小时之间。时之间。1055.5xfxf2()51.91xxfSf51.915.191100 xn1055.5 10.51045xx 1055.5 10.51066xx xuxxx2z2 2总体成数的估计总体成数的估计 仍用前例资料,要求用同样的概率保证这批茶叶包装仍用前例资料,
47、要求用同样的概率保证这批茶叶包装合格率范围。合格率范围。 第一步,根据样本资料计算样本合格率和标准差,并第一步,根据样本资料计算样本合格率和标准差,并推算抽样平均误差。推算抽样平均误差。 第二步,根据给定的置信度第二步,根据给定的置信度95.45%95.45%,查表得概率度,查表得概率度 =2 =2。17070%100npn170% 30% 45.8%pspp2145.8%11 1%4.56%100pppnnN2z 第三步,根据概率度和抽样平均误差计算抽样极限误差,并估计总体合格率的上下限。 可以用95.45%的概率,保证该批茶叶包装的合格率在60.88%-79.12%之间。22 4.56%9
48、.12%ppz :70% 9.12%60.88%pp 下限:70% 9.12%79.12%pp 上限练习:某纱厂某时期内生产了练习:某纱厂某时期内生产了1010万个单位的纱,按纯随万个单位的纱,按纯随机抽样方式抽取机抽样方式抽取20002000个单位检验,检验结果合格率为个单位检验,检验结果合格率为95%95%,废品率为,废品率为5%5%,试以,试以95%95%的把握程度,估计全部的把握程度,估计全部纱合格品率的区间范围及合格品数量的区间范围?纱合格品率的区间范围及合格品数量的区间范围?100000N2000n%95p%51 p95.0196.12zNnnppp11%48.0100000200
49、01200005.095.0%94.0%48.096.12ppz区间下限:区间下限:%06.940094.095.0pp区间上限:区间上限:%94.950094.095.0pp第四节第四节 抽样组织形式抽样组织形式 不同的抽样组织形式,会有不同的抽样误差,因而抽样的效果也是不同的。一种科学的组织形式往往有可能以较少的样本单位数取得更好的抽样效果。因此抽样调查必须选择合适的组织形式,并对所用方法的抽样做出正确的估计,进一步和其他组织形式的抽样误差进行对比分析。 例如粮食产量按地理条件分类,分类取样;或按历史单产资料、当年估产资料,将各单位顺序排队,并等距取样等等。 即使是同一种抽样组织形式,由于
50、采用的分类标准不同,群体的划分不同等等原因,仍然会产生不同的效果。 进行对比分析,从中选择有效和切实可行的抽样方案。 常用的抽样组织方式有简单随机抽样、类型抽样、等距抽样、整群抽样、多阶段抽样等等。一、简单随机抽样一、简单随机抽样 简单随机抽样,是按照简单随机抽样,是按照随机随机原则直接从个总体原则直接从个总体单位中抽取个单位作为样本。单位中抽取个单位作为样本。 不论是不论是重复还是不重复抽样重复还是不重复抽样,都要保证每个单,都要保证每个单位在抽选中都有位在抽选中都有相等的中选机会相等的中选机会。 优点:简单易行优点:简单易行 适用:总体单位数不是太多的均匀总体。适用:总体单位数不是太多的均
51、匀总体。 采用简单随机抽样,在进行抽样调查之前应该采用简单随机抽样,在进行抽样调查之前应该先确定总体范围,并对总体进行编号,然后随先确定总体范围,并对总体进行编号,然后随机抽选必要的单位数,简单随机抽样最符合随机抽选必要的单位数,简单随机抽样最符合随机原则。机原则。抽选样本单位的具体做法抽选样本单位的具体做法 (1 1)抽签法:做标签,充分地拌匀后逐)抽签法:做标签,充分地拌匀后逐个地抽出个标签,根据抽样框找到相应个地抽出个标签,根据抽样框找到相应的抽样单位进行现场调查,从而得到一的抽样单位进行现场调查,从而得到一个简单随机样本。如果总体比较大,抽个简单随机样本。如果总体比较大,抽签法就显得比
52、较笨重,实施起来不太方签法就显得比较笨重,实施起来不太方便,甚至于根本无法实施,此时可利用便,甚至于根本无法实施,此时可利用随机数字表法。随机数字表法。 (2 2)随机数字表法:随机数字表,是供)随机数字表法:随机数字表,是供抽样使用的,由抽样使用的,由0 0到到9 9这十个数码随机排这十个数码随机排列组成的多位数字表。在使用前,先将列组成的多位数字表。在使用前,先将总体的全部单位编号,并根据编号的位总体的全部单位编号,并根据编号的位数确定使用表中数字的列数;然后,从数确定使用表中数字的列数;然后,从任意一行、任意一列、任意方向开始数任意一行、任意一列、任意方向开始数,遇到编号范围内的数字就作
53、为样本单,遇到编号范围内的数字就作为样本单位,超过编号范围内的数字就跳过去,位,超过编号范围内的数字就跳过去,直到抽够样本单位数目为止。直到抽够样本单位数目为止。 (3 3)利用计算机软件中的随机函数产生)利用计算机软件中的随机函数产生随机数的功能随机抽选样本单位数。随机数的功能随机抽选样本单位数。 组织抽样调查的一项重要工作就是确定组织抽样调查的一项重要工作就是确定合适的合适的样本容量样本容量。 因为样本容量越大,抽样误差可能越小,因为样本容量越大,抽样误差可能越小,但花费的时间和费用也越高,也就失去但花费的时间和费用也越高,也就失去了抽样调查的意义;反之,样本容量越了抽样调查的意义;反之,
54、样本容量越小,花费的时间和费用也越少,但在估小,花费的时间和费用也越少,但在估计的精确度上常不能满足要求。计的精确度上常不能满足要求。 所以在设计的时候,通常是先根据研究所以在设计的时候,通常是先根据研究问题的性质确定允许的误差范围和必要问题的性质确定允许的误差范围和必要的概率保证程度或概率度,并根据总体的概率保证程度或概率度,并根据总体的标准差通过抽样平均误差的公式来确的标准差通过抽样平均误差的公式来确定必要的样本单位数。定必要的样本单位数。 根据各种条件下的抽样平均误差以及极根据各种条件下的抽样平均误差以及极限误差很容易推算出必要的抽样数目。限误差很容易推算出必要的抽样数目。在重复抽样下,
55、样本平均数的极限抽样误差公式为:xxz2nz2则必要的样本单位数为:xzn2222在不重复抽样下, 则必要的样本单位数为:2222222zNNznx同样,重复抽样和不重复抽样的成数样本必要单位数分同样,重复抽样和不重复抽样的成数样本必要单位数分别为:别为:pPPzn222)1 ()1 ()1 (22222PPzNPPNznp确定抽样单位数时的注意事项:确定抽样单位数时的注意事项: 1 1样本容量受允许误差范围大小的影响。误样本容量受允许误差范围大小的影响。误差范围要求越小则样本单位数就需要越愈多,差范围要求越小则样本单位数就需要越愈多,所以在抽样设计中确定抽样误差可允许范围要所以在抽样设计中确
56、定抽样误差可允许范围要十分慎重考虑。十分慎重考虑。 2 2样本容量受总体标准差大小的影响。在确样本容量受总体标准差大小的影响。在确定一个样本进行多指标的调查中,为保证所有定一个样本进行多指标的调查中,为保证所有的抽样误差都控制在允许的范围内,应选择样的抽样误差都控制在允许的范围内,应选择样本容量大的。本容量大的。 3 3当总体单位数较大时,不重复抽样的样本当总体单位数较大时,不重复抽样的样本容量的确定,也可以用重复抽样情况下必要单容量的确定,也可以用重复抽样情况下必要单位的计算公式。位的计算公式。 某市进行居民家计调查,根据历史资料该市居民家庭平均每人年收入的标准差为3000元,而家庭消费的恩
57、格尔系数为43%。现在用重复抽样的方法,要求在95%的概率保证下,平均收入的极限误差不超过250元,恩格尔系数的极限误差不超过4%。问必要的抽样单位数应该为多少? 根据重复抽样条件下必要样本单位数的公式计算为: 样本平均数的必要单位数 = =554(人) 样本成数的必要单位数 = =589(人) 两个抽样指标所要求的必要抽样数目不同,应该取其中较大的单位数,即抽取589人作为样本,以满足共同的要求。xzn2222222250300096. 1pPPzn222)1 (22%4%)431 (%4396. 1 简单随机抽样在实践上受到许多限制。例如当总体很大时,要首先对每一个单位加以编号就有很大困难
58、,对于无限总体,对其进行编号甚至是不可能的。但这种抽样方式从理论上说最符合随机原则,它的抽样误差容易得到理论上的论证。因此可以作为发展其他更复杂的抽样设计的基础,同时也是衡量其他抽样方式抽样效果的比较标准。 1:某市进行职工家庭生活费抽样调查,已知职工家庭平均每人每月生活费收入的标准差为110元,允许误差范围10元,概率把握程度95%,试确定应抽选的户数。 解: 2:某企业要调查产品合格率,已知以往的合格率曾有90%、98%、99%。现要求误差不超过1%,把握程度为95%,问需要抽选多少件产品? 解: (户)4651011096.1222222xzn(件)13801.01 .09 .096.1
59、)1 (22222pPPzn 3 3:要调查某校大学生英语四级考试成绩,:要调查某校大学生英语四级考试成绩,假设根据历史资料该校学生平均成绩的标准假设根据历史资料该校学生平均成绩的标准差为差为2020分,及格率为分,及格率为65%65%。现用重复抽样方。现用重复抽样方法,要求在法,要求在95%95%的置信度下,平均分数的误的置信度下,平均分数的误差不超过差不超过2 2分,及格率的误差不超过分,及格率的误差不超过4%4%,求,求必要抽样数目。必要抽样数目。(人)54704. 035. 065. 096. 1)1 (22222pPPzn(人)38522096. 12222222xzn二、类型抽样二
60、、类型抽样 类型抽样又称分层抽样、分类抽样,它是先对总体各类型抽样又称分层抽样、分类抽样,它是先对总体各单位按某一主要标志进行分组,然后再从各组中按随单位按某一主要标志进行分组,然后再从各组中按随机的原则抽选一定单位构成样本。机的原则抽选一定单位构成样本。 类型抽样是将统计分组和简单随机抽样相结合的一种类型抽样是将统计分组和简单随机抽样相结合的一种抽样方式。通过分组,可以把总体分成几个在组内性抽样方式。通过分组,可以把总体分成几个在组内性质比较接近的类型,使得各组内标志差异缩小,各组质比较接近的类型,使得各组内标志差异缩小,各组间有较大差异,保证了样本单位能够均匀地分布在总间有较大差异,保证了
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030年中国橡塑破碎机数据监测研究报告
- 2025至2030年中国多轴钻孔头数据监测研究报告
- 2025至2030年中国六次甲基四胺数据监测研究报告
- 2025年中国锥齿轮市场调查研究报告
- 2025年中国蜂王浆香皂市场调查研究报告
- 2025年中国电磁流量计市场调查研究报告
- 小店区游乐园墙绘施工方案
- 2025年中国数据管理系统软件市场调查研究报告
- 2025年中国塑料离心泵市场调查研究报告
- 2025年中国光白平顶双光镜片市场调查研究报告
- 研学旅行概论教学课件汇总完整版电子教案
- 控股集团公司组织架构图.docx
- DB11_T1713-2020 城市综合管廊工程资料管理规程
- 最常用2000个英语单词_(全部标有注释)字母排序
- 气管套管滑脱急救知识分享
- 特种设备自检自查表
- 省政府审批单独选址项目用地市级审查报告文本格式
- 往复式压缩机安装方案
- 汉字的演变甲骨文PPT课件
- 在银行大零售业务工作会议上的讲话讲解学习
- 古代传说中的艺术形象-
评论
0/150
提交评论