版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章抽样推断
第六章抽样推断
一家食品生产企业以生产袋装食品为主,每天的产量约为8000袋左右。按规定每袋的重量应不低于100克,否则即为不合格。为对产量质量进行检测,企业设有质量检查科专门负责质量检验,并经常向企业高层领导提交质检报告。质检的内容之一就是每袋重量是否符合要求。由于产品的数量大,进行全面的检验是不可能的,可行的办法是抽样,然后用样本数据估计平均每袋的重量。质检科从某天生产的一批食品中随机抽取了25袋,下表是对每袋食品重量的检验结果。(假定该种袋装食品重量服从正态分布。)案例导入一家食品生产企业以生产袋装食品为主,每天的产量约为8
根据以上数据,质检科估计出该天生产的食品每袋的平均重量在101.57~109.14克之间,其中,估计的可信程度为95%,估计误差不超过4克。产品的合格率在95.68%~64.32%之间,其中,估计的可信程度为95%,估计误差不超过15.68%。112.5102.6100.0116.6136.8101.0107.5123.595.4102.8103.095.0102.097.8101.5102.0108.8101.6108.498.4100.5115.6102.2105.093.3112.5101.0103.0102.0100.5
质检报告提交后,企业高层领导人提出几点意见:一是抽取的样本大小是否合适?能不能用一个更大的样本进行估计?二是能否将估计的误差在缩小一点?比如,估计平均重量时估计误差不超过3克,估计合格率时误差不超过10%。三是总体平均重量的方差是多少?因为方差的大小说明了生产过程的稳定性,过大或过小的方差都意味着应对生产过程进行调整。质检报告提交后,企业高层领导人提出几点意见:一是抽取参数估计、假设检验
在统计方法中的地位统计方法描述统计推断统计参数估计假设检验参数估计、假设检验
在统计方法中的地位统计方法描述统计推断统统计推断的过程样本总体样本统计量例如:样本均值、成数、方差参数例如:总体均值、成数、方差统计推断的过程样本总体样本统计量参数第一节抽样调查
一、抽样调查的概念与作用1.抽样调查的概念抽样调查是一种科学的非全面调查,是按照随机原则从总体中抽取一部分单位组成样本进行调查,根据调查的样本数据推断总体的某一数量特征的统计方法。第一节抽样调查
一、抽样调查的概念与作用2.抽样调查的特点抽样调查具有以下特点:(1)遵循随机原则选择调查单位(2)抽样调查节省人力、费用和时间,比较灵活(3)抽样误差可以计算并且可以加以控制2.抽样调查的特点抽样调查具有以下特点:3.抽样调查的适用范围(1)某些不可能进行全面调查又需要了解其全面情况的社会经济现象(2)某些不必要进行全面调查又需要了解其全面情况的社会经济现象(3)抽样调查可以用来检验和修正全面调查资料(4)抽样调查可以用于工业生产过程中的质量控制(5)利用抽样调查,可以对于假设进行检验
3.抽样调查的适用范围(1)某些不可能进行全面调查又需要了解二、抽样调查中的几个基本概念1.全及总体和抽样总体(1)全及总体简称总体,是指所要认识对象的全体,全及总体的单位数通常用大写的英文字母“N”来表示。(2)抽样总体也称样本,是指从全及总体中随机抽取出来,代表全及总体部分单位的集合体,抽样总体的单位数通常用小写英文字母“n”表示。一般说来,n≥30称为大样本,n<30称为小样本,n/N称为抽样比例,社会经济现象的抽样调查多取大样本。
二、抽样调查中的几个基本概念1.全及总体和抽样总体全及总体是惟一确定的,抽样总体则是随机的一个全及总体可能抽取很多个样本,全部样本的可能数目和每一样本的容量有关,也和随机抽样的方法有关,不同的样本容量和取样方法,样本的可能数目也有很大的差别。全及总体是惟一确定的,抽样总体则是随机的可能样本数目的计算公式考虑顺序不考虑顺序不重复抽样重复抽样可能样本数目的计算公式考虑顺序不考虑顺序不重复抽样重复抽样2.全及指标和抽样指标(1)全及指标反映总体数量特征的综合指标,称为全及指标、参数。由于全及总体是惟一确定的,所以全及指标也是惟一确定的。对于变量总体,由于各单位的标志可以用数值来表示,所以可以计算总体平均数,用表示;对于属性总体,可以计算总体成数,用大写英文字母表示,变量总体也可以计算成数。全及指标还有总体方差和总体标准差。
2.全及指标和抽样指标(1)全及指标
参数研究总体中的数量标志总体平均数总体方差X=∑XNX=∑XF∑FΣ(X-X)N2σ=2Σ(X-X)FΣF2σ=2研究总体中的品质标志总体成数成数方差σ2=P(1-P)P=
N1N(只有两种表现)参数研究总体中总体平均数总体方差X=∑XX=∑XFΣ(2)抽样指标
由抽样总体各个标志值或标志特征计算的综合指标称为抽样指标、统计量。变量样本的抽样指标有抽样平均数、样本平均数方差和样本平均数标准差;属性样本的抽样指标有抽样成数、样本成数方差
和样本成数标准差。抽样指标的数值不是惟一确定的,是随机变量。(2)抽样指标统计量研究数量标志样本平均数x=∑xnx=∑xf∑f样本标准差研究品质标志样本成数成数标准差np=n统计量研究数量标志样本平均数x=∑xnx=∑xf∑f样本3.重复抽样与不重复抽样(1)重复抽样重复抽样,又称有放回抽样,是指从全及总体N个单位中随机抽取一个容量为n的样本,每次抽中的单位经登录其有关标志表现后又放回总体中重新参加下一次的抽选。每次抽取均是在相同的条件下完全按照随机原则进行的。(2)不重复抽样不重复抽样又称无放回抽样,是指从全及总体N个单位中随机抽取一个容量为n的样本,每次抽中的单位登录其有关标志表现后不再放回总体中参加下一次的抽选,上一次的抽取结果会直接影响到下一次抽选。3.重复抽样与不重复抽样(1)重复抽样4.抽样框全及总体也叫目标总体。目标总体规定了理论上的抽样范围。但实际进行抽样的总体范围与目标总体有时是不一致的。因而,在抽样前还必须明确实际进行抽样的总体范围和抽样单位。抽样框又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框后,便可采用抽签的方式或按照随机数表来抽选必要的单位数。4.抽样框全及总体也叫目标总体。目标总体规定了理论上的抽样范好的抽样框的标准是:完整而不重复。常见的抽样框如大学学生花名册、工商企业名录、街道派出所里居民户籍册、意向购房人信息册等。在没有现成的名单的情况下,可由调查人员自己编制。在利用现有的名单作为抽样框时,要先对该名录进行检查,避免有重复、遗漏的情况发生。以提高样本对总体的代表性。例如:要从10000名职工中抽出200名组成一个样本,则10000名职工的名册,就是抽样框。好的抽样框的标准是:完整而不重复。抽样框也可能存在一些误差,主要有:(1)丢失目标总体单位,也被称为“涵盖不足”,或丢失目标单位。对丢失的总体单位不能发现并纠正会造成调查中对总量的估计偏低。(2)包含非目标单位,也被称为“过涵盖”,是指抽样框中包含了一些不属于研究对象的非目标总体单位。由于抽样框中存在非目标总体单位,容易造成估计量的高估。抽样框也可能存在一些误差,主要有:(3)丢失目标单位和包含非目标单位共存,是指在抽样框中既有丢失目标单位,也有包含非目标单位。在实际调查中,丢失目标单位不易被查觉和发现,具有较大的隐蔽性,相比之下,包含非目标单位的抽样框误差的威胁性要小些。因为在调查过程中,非目标单位容易被发现,并予以剔除。(3)丢失目标单位和包含非目标单位共存,是指在抽样框中既有丢(4)复合连接,是指抽样框单元与目标总体单元不完全一一对应,而是存在一对多、多对一或是多对多模式的现象。例如:若某银行想了解其客户的情况进行一次抽样调查,则该行所有客户构成目的总体。选择的抽样框是银行的来往帐目,这就构成了多对一模式。若在这个框中进行抽样,则来往帐目多的客户被抽中的可能性则较大,反之来往帐目少的客户被抽中的可能性很小,而两种客户通常会有较大差异,从而造成样本的偏斜,使估计量产生偏差。(4)复合连接,是指抽样框单元与目标总体单元不完全一一对应,(5)抽样框老化,是指随着时间的推移,抽样总体与目标总体产生极大的偏差,即原来的抽样框不符合实际情况,必须进行更新。最典型的例子,就是随着城市建设的大规模展开,许多地区已被改造,地址发生了变化,如果仍按以前的抽样框去抽样,那么精度就会难以控制。(5)抽样框老化,是指随着时间的推移,抽样总体与目标总体产生三、抽样调查的基本原理1.大数定律大数定律,又称为大数法则,是指在随机试验中,每次出现的结果可能不同,但是大量重复试验出现的结果的平均值却几乎总是接近于某个确定的值。在大量的观察试验中,个别的、偶然的因素影响而产生的差异将会相互抵消,从而使现象的必然规律性显示出来。例如,观察个别或少数家庭的婴儿出生情况,发现有的生男,有的生女,没有一定的规律性,但是通过大量的观察就会发现,男婴和女婴的比例会趋于107:100。三、抽样调查的基本原理1.大数定律切贝雪夫大数定理设是一列两两相互独立的随机变量,服从同一分布,且具有相同的数学期望和方差
,则对任意小的正数ε,有:切贝雪夫大数定理设是一列两两相互独立的随机变当n很大时,服从同一分布的随机变量的算术平均数将依概率接近于这些随机变量的数学期望。随着样本容量n的增加,样本平均数将接近于总体平均数,从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。当n很大时,服从同一分布的随机变量(1)现象的某种总体规律性,只有当具有这种现象的足够多的单位综合汇总在一起的时候,才能显现出来;(2)现象的总体性规律或倾向通常以平均数(或比率)的形式表现出来;(3)当所研究的现象总体包含的单位越多,平均数(或比率)也就越能正确反映出这些现象的规律性;(4)各单位的共同倾向决定着平均数(或比率)的水平,而各单位对平均数(或比率)的离差则会由于足够多数单位的综合汇总的结果,而相互抵消,趋于消失。(1)现象的某种总体规律性,只有当具有这种现象的足够多的单位根据大数定律的内容特点运用抽样调查时,必须注意以下两个问题:(1)抽样必须遵循随机原则,这样样本指标才能成为随机变量,大数定律才能应用;(2)抽样必须遵循大量原则,只有观察到足够多的单位,才能在综合后使个别单位表现出来的偶然性得以消除。根据大数定律的内容特点运用抽样调查时,必须注意以下两个问题:2.中心极限定理在一定条件下,大量独立随机变量的平均数以正态分布为极限。设随机变量相互独立;其数学期望值为;其标准差为;,,满足下述条件:
对任一实数,有2.中心极限定理在一定条件下,大量独立随机变量的平均数以正态即:只要在样本容量充分大的条件下,不论全及总体的变量分布是否属于正态分布,其抽样平均数也服从或近似服从正态分布,这就为抽样调查进行估计提供了重要的理论根据。即:(1)如果总体服从正态分布,样本平均数也服从正态分布;(2)如果总体很大,但不服从正态分布,只要样本足够大,样本的平均数也趋近于正态分布;(3)样本平均数的数学期望等于总体均值。意义:当我们的认识对象分布未知时,只要坚持随机抽取足够多的样本单位,就可以使样本统计量服从(或近似服从)正态分布,继而便可运用正态分布理论,根据样本信息来推断认识对象总体的数量特征。(1)如果总体服从正态分布,样本平均数也服从正态分布;第二节抽样误差一、抽样误差1.抽样误差的概念抽样指标与所要估计的全及指标之间的差值称为抽样误差。抽样误差既是一种随机性误差,也是一种代表性误差。抽样误差中的代表性误差是抽样调查本身所固有的、无法避免的误差,但随机性误差则可利用大数定律精确地计算并能够通过抽样设计程序加以控制。第二节抽样误差一、抽样误差2.影响抽样误差的因素(1)样本容量(2)总体各单位标志值的差异程度(3)抽样方法(4)抽样的组织形式2.影响抽样误差的因素(1)样本容量二、抽样平均误差1.样本平均数的抽样平均误差(1)当抽样方法为重复抽样时,样本标志值是相互独立的,样本变量与总体变量同分布。其计算公式如下:
它说明在重复抽样的条件下,抽样平均误差与总体标准差成正比,与样本容量的平方根成反比。在计算抽样平均数的抽样平均误差时,通常并不知道总体方差的数值,可用样本方差来代替总体方差。二、抽样平均误差1.样本平均数的抽样平均误差(2)不重复抽样:
当总体单位数很大时,这个计算公式可近似表示如下:
(2)不重复抽样:总是小于1,所以不重复抽样的抽样平均误差总是小于重复抽样的抽样平均误差。当抽样比例很小时,即使是采用不重复抽样的方法来抽取调查单位,也可使用重复抽样的误差公式来计算抽样平均误差。总是小于1,所以不重复抽样的抽样平均误差总2.抽样成数的平均误差总体成数可表现为总体是非标志的平均数,它的标准差为。(1)在重复抽样下,其计算公式如下:
2.抽样成数的平均误差总体成数可表现为总体是非标志的平均数,当总体单位数很大时,这个公式可近似表示如下:
在计算抽样成数平均误差时,通常得不到总体方差的数值,一般可以用样本方差来代替总体方差。(2)在不重复抽样下,其计算公式如下:
当总体单位数很大时,这个公式可近似表示如下:(2)在不重复抽三、抽样极限误差允许的误差范围,即抽样极限误差。抽样极限误差是指在一定的置信度下抽样指标与总体指标之间的抽样误差不超过某一给定的最大可能范围,记作Δ。三、抽样极限误差允许的误差范围,即抽样极限误差。由上述两个绝对值不等式可得:
由上述两个绝对值不等式可得:四、抽样估计的概率度、置信度
1.抽样估计的概率度
抽样极限误差与抽样平均误差相比,从而使由单一样本值得到的抽样极限误差标准化,称为概率度或相对误差范围。在正态分布下,概率度用
表示,其计算公式如下:
四、抽样估计的概率度、置信度
1.抽样估计的概率度
抽样极限抽样极限误差取决于两个因素:一是抽样平均误差,在其他条件既定时,抽样平均误差越小,抽样极限误差也越小;二是抽样估计的概率度,在其他条件既定时,抽样估计的概率度越小,抽样极限误差也越小。抽样极限误差取决于两个因素:2.抽样估计的置信度置信度就是总体指标落在某个区间(称为置信区间)的概率把握程度,又称抽样估计可靠程度、概率保证程度。置信区间是以一定的概率把握程度确定总体指标所在的区间。2.抽样估计的置信度置信度就是总体指标落在某个区间(称为置信
为置信度,表示区间估计的可靠程度。例如
=0.95,说明有95%的可能总体参数包括在估计区间内,而不包括在这个区间的概率为=5%,
叫显著性水平。应用标准正态分布概率表,可以得抽样指标落在置信区间内的置信度。抽样估计的精确度与置信度是一对反方向运动的矛盾,实际调查中应注意协调它们的矛盾。为置信度,表示区间估计的可靠程度。例如=第六章抽样推断-复件课件第六章抽样推断-复件课件第三节参数估计包括对总体平均数和总体成数进行估计,有点估计和区间估计两种方法。一、参数估计的基本要求1.无偏性估计中,要求各个抽样指标的平均数应该等于全及指标,即从平均数意义上,抽样指标的估计是没有偏误的,这一要求称为无偏性。如果样本统计量的数学期望值等于所估计的总体参数的值,该样本统计量称作总体参数的无偏估计量。样本无偏统计量的所有可能值的期望值或均值等于被估计的总体参数。
第三节参数估计包括对总体平均数和总体成数进行估计,有点估第六章抽样推断-复件课件2.一致性当样本的单位数无限增大时,抽样指标就充分靠近全及指标,抽样指标和未知的全及总体指标之间的绝对离差为任意小的可能性也趋于必然。符合这一要求的估计量就是一致性估计量。例如,样本均值、样本成数、样本方差分别是总体均值、总体成数、总体方差的一致性估计量。2.一致性当样本的单位数无限增大时,抽样指标就充分靠近全及指第六章抽样推断-复件课件3.有效性以样本估计总体,要求优良估计量的抽样分布方差小于其他估计量的抽样分布方差,即从平均的角度来看,优良估计量的估计误差应小于其他估计量的估计误差。例如,对于正态分布总体来说,样本均值和样本中位数都是总体均值的无偏估计量,但两者的方差不同,样本中位数的方差比样本均值的方差大,因此,样本均值比样本中位数更有效。同样样本成数、样本方差分别是总体成数、总体方差的有效性估计量。3.有效性以样本估计总体,要求优良估计量的抽样分布方差小于其第六章抽样推断-复件课件不是所有估计量都符合以上标准,可以说完全符合以上标准的估计量要比不符合或不完全符合以上标准的估计量更为优良。例如在正态分布的情况下,总体平均数和中位数是重合在一起的,样本平均数是总体中位数的无偏估计量和一致估计量,而且样本平均数比样本中位数作为总体中位数的估计量也是更有效的,因为样本平均数的方差比样本中位数的方差更小。当估计量的选择在无偏性和有效性之间产生矛盾时,这时的基本原则是如果有偏估计量的偏差不是很大,应该优先选择有偏但更有效地估计量。不是所有估计量都符合以上标准,可以说完全符合以上标准的估计量二、点估计点估计又称定值估计,它是以抽样指标作为总体指标的估计量,并以抽样指标的实际观测值直接作为总体未知参数估计值的一种推断方法。例如以某一样本的均值来估计总体的均值,以某一样本的成数来估计总体的成数等。点估计的方法有矩估计法、顺序统计量法、最大自然法、最小二乘法等。二、点估计点估计又称定值估计,它是以抽样指标作为总体指标的估矩估计法是英国统计学家K·Pearson提出的。其基本思想是:由于样本来源于总体,样本矩在一定程度上反映了总体矩,而且由大数定律可知,样本矩依概率收敛于总体矩。因此,只要总体的k阶原点矩存在,就可以用样本矩作为相应总体矩的估计量,用样本矩的函数作为总体矩的函数的估计量。例如,用样本均值来估计总体均值,用样本方差来估计总体方差。矩估计法简单、直观,而且不必知道总体的分布类型,所以矩估计法得到了广泛应用。但矩估计法也有局限性,它要求总体以k阶原点矩存在,否则无法估计,它不考虑总体分布类型,因此也就没有充分利用总体分布函数提供的信息。矩估计法是英国统计学家K·Pearson提出的。其基本思想是极大似然估计法是由Fisher,提出的一种参数估计方法。其基本思想是:设总体分布的函数形式已知,但有未知参数,可以取很多值,在的一切可能取值中选一个使样本观察值出现的概率为最大的值作为的估计值,记作,称为的极大似然估计值,这种求估计量的方法称为极大似然估计法。确定一个好的点估计是很重要的。点估计的优点是能给出一个明确的值,缺点是没有指出这种估计的允许波动范围和把握程度有多大。因此,在实际中,点估计往往是与区间估计同时进行的。极大似然估计法是由Fisher,提出的一种参数估计方法。其基三、区间估计区间估计就是以一个具有一定可靠程度的区间范围来估计总体参数,即根据抽样指标和抽样平均误差推断全及指标的可能范围。用抽样指标来估计全及指标,要达到100%的准确几乎是不可能的,所以在估计全及指标时就必须同时考虑估计误差的大小。科学地确定允许的误差范围:一是这一可能范围的大小,即置信区间;二是总体指标落在这个可能范围内的概率,即置信度。三、区间估计区间估计就是以一个具有一定可靠程度的区间范围来估区间估计必须同时具备三个要素,即具备估计值、抽样极限误差和置信度三个基本要素。抽样极限误差决定抽样估计的精确度,置信度决定抽样估计的可靠性,两者密切联系,但同时又是一对矛盾,所以对估计的精确度和可靠性的要求应慎重考虑。
和称为置信区间。区间估计必须同时具备三个要素,即具备估计值、抽样极限误差和置科学的区间估计要具备三个基本要素:第一,要有合适的统计量作为估计量;第二,要有合理的允许误差范围;第三,要有可靠的概率保证程度。由于参数的允许范围涉及估计的准确性问题,而相应的置信度涉及估计的可靠性问题。出于本能,在做估计时常常希望准确性尽可能提高,而且可靠性也不能小,但是这两个要求是矛盾的。在样本单位数不变的条件下,要想缩小估计区间,提高估计的准确性,势必要减小置信度,降低估计的可靠性。同样,提高了估计的可靠性,也必然要降低估计的准确性。科学的区间估计要具备三个基本要素:因此,在抽样估计的时候,只能对其中的一个要素提出要求,而推断另一个要素的变动情况。如对估计的准确性提出要求,即要求误差范围不超过给定的标准,来推算估计的可靠性,即置信度;或对估计的可靠性提出要求,即要求给定的置信度,来推算抽样的误差范围。若所推算的另一要素(抽样误差范围或概率保证程度)不能满足实际工作的需要,就应该增加样本单位改善抽样组织方式,重新进行抽样,直到符合要求为止。根据置信度的要求,估计总体指标出现的可能范围的具体步骤是:(1)抽取样本,计算样本指标,如计算样本平均数或样本成数,作为总体指标的相应估计值。并计算样本标准差用以推算抽样平均误差。(2)根据给定的置信度的要求,查《正态分布概率表》,求得概率度值。(3)根据概率度和抽样平均误差来推算抽样极限误差的可能范围,并据以计算被估计总体指标的上下限,对总体参数作区间估计。因此,在抽样估计的时候,只能对其中的一个要素提出要求,而推断1.总体平均数的估计某外贸公司出口一种茶叶,规定每包规格不低于150克,现在用不重复抽样的方法抽取其中1%进行检验。测得结果如表所示,要求以95.45%的概率估计这批茶叶平均每包的重量范围,以便确定平均重量是否达到规格要求。每包重量(克)组中值包
数148-149148.510149-150149.520150-151150.550151-152151.520合
计—1001.总体平均数的估计某外贸公司出口一种茶叶,规定每包规格不低第一步,根据样本资料计算样本平均数和标准差,并推算抽样平均误差。第二步,根据给定的置信度95.45%,查表得概率度=2。第一步,根据样本资料计算样本平均数和标准差,并推算抽样平均误第三步,根据概率度和抽样平均误差计算抽样极限误差,并估计总体平均数的上下限,判断其是否达到规格要求。可以用95.45%的概率保证该批茶叶平均每包重量在150.13-150.47克之间,表明这批茶叶平均每包重量达到了规格要求。第三步,根据概率度和抽样平均误差计算抽样极限误差,并估计总体对某型号的电子元件进行耐用性能检查,抽查的资料分组列表如下,要求耐用时数的允许误差范围=10.5小时,试估计该批电子元件的平均耐用时数。练习耐用时数组中值元件数900以下900-950950-10001000-10501050-11001100-11501150-12001200以上875925975102510751125117512251263543931合计100—对某型号的电子元件进行耐用性能检查,抽查的资料分组列表如1、计算抽样平均数和标准差2、根据给定的Δχ=10.5小时,计算总体平均数的上下限,下限=上限=3、根据=10.5/5.191=2,查概率表得置信度1-=0.9545我们可以作如下估计,即可以概率95.45%的保证程度,估计该批电子元件的耐用时数在1045-1066小时之间。1、计算抽样平均数和标准差2.总体成数的估计仍用前例资料,要求用同样的概率保证这批茶叶包装合格率范围。第一步,根据样本资料计算样本合格率和标准差,并推算抽样平均误差。第二步,根据给定的置信度95.45%,查表得概率度=2。2.总体成数的估计仍用前例资料,要求用同样的概率保证这批茶叶第三步,根据概率度和抽样平均误差计算抽样极限误差,并估计总体合格率的上下限。可以用95.45%的概率,保证该批茶叶包装的合格率在60.88%-79.12%之间。第三步,根据概率度和抽样平均误差计算抽样极限误差,并估计总体练习:某纱厂某时期内生产了10万个单位的纱,按纯随机抽样方式抽取2000个单位检验,检验结果合格率为95%,废品率为5%,试以95%的把握程度,估计全部纱合格品率的区间范围及合格品数量的区间范围?区间下限:区间上限:练习:某纱厂某时期内生产了10万个单位的纱,按纯随机抽样方式第四节抽样组织形式不同的抽样组织形式,会有不同的抽样误差,因而抽样的效果也是不同的。一种科学的组织形式往往有可能以较少的样本单位数取得更好的抽样效果。因此抽样调查必须选择合适的组织形式,并对所用方法的抽样做出正确的估计,进一步和其他组织形式的抽样误差进行对比分析。例如粮食产量按地理条件分类,分类取样;或按历史单产资料、当年估产资料,将各单位顺序排队,并等距取样等等。即使是同一种抽样组织形式,由于采用的分类标准不同,群体的划分不同等等原因,仍然会产生不同的效果。进行对比分析,从中选择有效和切实可行的抽样方案。常用的抽样组织方式有简单随机抽样、类型抽样、等距抽样、整群抽样、多阶段抽样等等。第四节抽样组织形式不同的抽样组织形式,会有不同的抽样误差一、简单随机抽样简单随机抽样,是按照随机原则直接从个总体单位中抽取个单位作为样本。不论是重复还是不重复抽样,都要保证每个单位在抽选中都有相等的中选机会。优点:简单易行适用:总体单位数不是太多的均匀总体。采用简单随机抽样,在进行抽样调查之前应该先确定总体范围,并对总体进行编号,然后随机抽选必要的单位数,简单随机抽样最符合随机原则。一、简单随机抽样简单随机抽样,是按照随机原则直接从个总体单位抽选样本单位的具体做法(1)抽签法:做标签,充分地拌匀后逐个地抽出个标签,根据抽样框找到相应的抽样单位进行现场调查,从而得到一个简单随机样本。如果总体比较大,抽签法就显得比较笨重,实施起来不太方便,甚至于根本无法实施,此时可利用随机数字表法。抽选样本单位的具体做法(1)抽签法:做标签,充分地拌匀后逐个(2)随机数字表法:随机数字表,是供抽样使用的,由0到9这十个数码随机排列组成的多位数字表。在使用前,先将总体的全部单位编号,并根据编号的位数确定使用表中数字的列数;然后,从任意一行、任意一列、任意方向开始数,遇到编号范围内的数字就作为样本单位,超过编号范围内的数字就跳过去,直到抽够样本单位数目为止。(3)利用计算机软件中的随机函数产生随机数的功能随机抽选样本单位数。(2)随机数字表法:随机数字表,是供抽样使用的,由0到9这十组织抽样调查的一项重要工作就是确定合适的样本容量。因为样本容量越大,抽样误差可能越小,但花费的时间和费用也越高,也就失去了抽样调查的意义;反之,样本容量越小,花费的时间和费用也越少,但在估计的精确度上常不能满足要求。所以在设计的时候,通常是先根据研究问题的性质确定允许的误差范围和必要的概率保证程度或概率度,并根据总体的标准差通过抽样平均误差的公式来确定必要的样本单位数。根据各种条件下的抽样平均误差以及极限误差很容易推算出必要的抽样数目。组织抽样调查的一项重要工作就是确定合适的样本容量。在重复抽样下,样本平均数的极限抽样误差公式为:则必要的样本单位数为:在不重复抽样下,则必要的样本单位数为:在重复抽样下,样本平均数的极限抽样误差公式为:则必要的样本单同样,重复抽样和不重复抽样的成数样本必要单位数分别为:同样,重复抽样和不重复抽样的成数样本必要单位数分别为:确定抽样单位数时的注意事项:1.样本容量受允许误差范围大小的影响。误差范围要求越小则样本单位数就需要越愈多,所以在抽样设计中确定抽样误差可允许范围要十分慎重考虑。2.样本容量受总体标准差大小的影响。在确定一个样本进行多指标的调查中,为保证所有的抽样误差都控制在允许的范围内,应选择样本容量大的。3.当总体单位数较大时,不重复抽样的样本容量的确定,也可以用重复抽样情况下必要单位的计算公式。确定抽样单位数时的注意事项:1.样本容量受允许误差范围大小的某市进行居民家计调查,根据历史资料该市居民家庭平均每人年收入的标准差为3000元,而家庭消费的恩格尔系数为43%。现在用重复抽样的方法,要求在95%的概率保证下,平均收入的极限误差不超过250元,恩格尔系数的极限误差不超过4%。问必要的抽样单位数应该为多少?根据重复抽样条件下必要样本单位数的公式计算为:样本平均数的必要单位数
==554(人)样本成数的必要单位数==589(人)两个抽样指标所要求的必要抽样数目不同,应该取其中较大的单位数,即抽取589人作为样本,以满足共同的要求。某市进行居民家计调查,根据历史资料该市居民家庭平均每人年收入简单随机抽样在实践上受到许多限制。例如当总体很大时,要首先对每一个单位加以编号就有很大困难,对于无限总体,对其进行编号甚至是不可能的。但这种抽样方式从理论上说最符合随机原则,它的抽样误差容易得到理论上的论证。因此可以作为发展其他更复杂的抽样设计的基础,同时也是衡量其他抽样方式抽样效果的比较标准。简单随机抽样在实践上受到许多限制。例如当总体很大时,要首先对1:某市进行职工家庭生活费抽样调查,已知职工家庭平均每人每月生活费收入的标准差为110元,允许误差范围10元,概率把握程度95%,试确定应抽选的户数。
解:
2:某企业要调查产品合格率,已知以往的合格率曾有90%、98%、99%。现要求误差不超过1%,把握程度为95%,问需要抽选多少件产品?
解:
1:某市进行职工家庭生活费抽样调查,已知职工家庭平均每人每月3:要调查某校大学生英语四级考试成绩,假设根据历史资料该校学生平均成绩的标准差为20分,及格率为65%。现用重复抽样方法,要求在95%的置信度下,平均分数的误差不超过2分,及格率的误差不超过4%,求必要抽样数目。3:要调查某校大学生英语四级考试成绩,假设根据历史资料该校学80二、类型抽样类型抽样又称分层抽样、分类抽样,它是先对总体各单位按某一主要标志进行分组,然后再从各组中按随机的原则抽选一定单位构成样本。类型抽样是将统计分组和简单随机抽样相结合的一种抽样方式。通过分组,可以把总体分成几个在组内性质比较接近的类型,使得各组内标志差异缩小,各组间有较大差异,保证了样本单位能够均匀地分布在总体各部分,从而提高了样本的代表性。对于给定的总体,总方差是一定的,根据方差定理,在分组的情况下,总方差=组间方差+组内方差的平均数。所以,划分类别时应尽量增大组(或类)间差异,缩小组(或类)内差异。因为组(或类)内方差越小,类型抽样的抽样平均误差就会随之缩小,抽样估计的效率便会随之升高。二、类型抽样类型抽样又称分层抽样、分类抽样,它是先对总体各单将总体分成若干组后,样本单位数在各组之间的分配主要有两种方法:一是按统一的比例确定各组应抽选的单位数,这种分配方法称为比例分配。二是按各组的标志变异程度来确定各组应抽的单位数。对于标志变异大的组宜多抽一些单位进行调查,而标志变异小的组宜少抽一些单位进行调查。各组的抽选比例与对应的总体中各组单位数所占的比例是不相等的,这种分配方法称为最佳分配。各组的样本单位数确定后,再按简单随机抽样等方式在各组内随机地抽取样本单位。将总体分成若干组后,样本单位数在各组之间的分配主要有两种方法比例分配样本单位数一般是按照各组总体单位数与全部总体单位数之比例来分配样本单位数,以保持各组样本单位数与样本容量之比等于各组总体单位数与全部总体单位数之比,即:
所以各组的样本单位数应为:
比例分配样本单位数一般是按照各组总体单位数与全部总体单位数之类型抽样的样本平均数计算步骤为:第一步,在各组分别取样,可以计算各组抽样平均数。
第二步,将各组样本平均数以各组样本单位数或总体单位数为权数进行加权平均,即为所求的样本平均数。
类型抽样的样本平均数计算步骤为:类型抽样的抽样平均误差的计算步骤为:第一步,计算各组内方差。
第二步,以各组样本单位数为权数,计算各组内方差的平均数
由于类型抽样是对每一组均进行随机抽样,不存在组间误差,所以抽样平均误差取决于各组内方差的平均水平。第三步,计算抽样平均误差。重复抽样:
不重复抽样
类型抽样的抽样平均误差的计算步骤为:对某乡全部4000公顷土地按类型抽样,了解该乡平均每公顷产量和全乡小麦总产量。其中,有平原地3000公顷,丘陵地1000公顷。采用不重复抽样方法,按3‰的比例抽取样本单位,调查结果如表。要求在95%的概率保证下,对全乡小麦平均每公顷产量和总产量进行估计。对某乡全部4000公顷土地按类型抽样,了解该乡平均每公顷产量样本平均数和组内方差的平均数为:抽样平均误差为:全乡平均每公顷产量区间为:即,6187.0<<6650.93(千克)全村总产量区间为:即,<<24748280(千克)<<26603720(千克)有95%的概率保证,该乡小麦平均每公顷产量在6187.07千克与6650.93千克之间;总产量在24748280千克与26603720千克之间。第六章抽样推断-复件课件87从以上计算过程可以看出,类型抽样的抽样平均误差与组间的方差无关,仅取决于组内方差的平均水平。由于简单随机抽样采用的是总方差,它等于组间方差与组内平均方差之和,所以类型抽样的平均误差一般小于简单随机抽样的平均误差。同时由于总体方差是唯一确定的数值,因此在类型抽样分组时应该尽可能扩大组间方差,缩小组内方差,即各组间的差异可以大,而各组内的差异必须小,这样就可以减少抽样误差,提高抽样效果。从以上计算过程可以看出,类型抽样的抽样平均误差与组间的方差无三、等距抽样等距抽样也称系统抽样、机械抽样,它是先将总体各单位按某一标志排队,然后按固定的距离或间隔来抽取样本单位。需要事先对总体结构有一定的了解,有较高的代表性。由于排队所依据的标志不同,有两种等距抽样方法。第一无关标志排队法,即是指排列的标志和所研究的单位标志值大小无关或不起主要的影响作用。第二有关标志排队法,所谓有关标志是指作为排列顺序的标志和所研究的单位标志值大小有密切的关系。排队后,需计算出抽样距离,公式为:
也可采用半距中点取样,也可采用对称等距取样。注意:无论何种取样,都不要把抽样的间隔和现象本身的周期性变化相重合,以免出现系统性偏差。三、等距抽样等距抽样也称系统抽样、机械抽样,它是先将总体各单半距中点取样:即在每部分的中间(抽样距离的一半)抽取一个单位组成样本。如,第一部分取第k/2单位,第二部分取第3k/2单位,…,第n部分取第(2n-1)k/2单位。这种取样方法,使所抽取的各单位最能代表每部分的一般水平,从而提高样本的代表性,其不足之处是只能取一个样本。半距中点取样:即在每部分的中间(抽样距离的一半)抽取一个单位对称等距取样。即第一部分随机抽取一个单位,然后据此在各部分中抽取两两对称的样本单位组成样本。如,第一部分取第i单位,第二部分取第2k-i单位,第三部分取第2k+i单位,第四部分取第4k-i单位,…,第(n-1)部分取第(n-2)k+i单位,第n部分取第nk-i单位。这种取样方法,既遵循随机原则,又能取到较有代表性的样本,并且可以抽取k个样本。样本容量确定的方法与不重复分层抽样相同。对称等距取样。即第一部分随机抽取一个单位,然后据此在各部分中用等距抽样的方式抽取单位组成样本,可直接用简单法计算样本平均数。但等距抽样的平均误差情况比较复杂,它和标志排列的顺序有关。等距抽样一定是不重复抽样,一般地,按无关标志排队等距抽样,由于排队所用标志与研究目的无关,而且是随机起点,其性质近似简单随机抽样,可按不重复条件下简单随机抽样的抽样平均误差公式来近似计算。按有关标志排队的等距抽样,其性质又近似类型抽样,只是分类更细,相当于每一类中抽取一个单位,因此其抽样误差可借助类型抽样平均误差的公式计算。用等距抽样的方式抽取单位组成样本,可直接用简单法计算样本平均四、整群抽样整群抽样也称集团抽样,是将总体各单位划分成若干群,然后以群为单位从中随机抽取一些群,对中选群的所有单位进行全面调查的抽样组织形式。优点:抽取的单位一般比较集中,组织工作简单,搜集资料方便容易,节省人力、物力,调查费用较少。因为以群为单位进行抽选,抽选单位比较集中,显著地影响了在总体中各单位分布的均匀性,与其他抽样方式比较,抽样误差比较大,即使要得到同简单随机抽样相同的精确度,整群抽样都要调查相对较多的样本单位。设将总体的全部单位划分为群,现从总体群中随机抽取群组成样本,并对中选群的所有单位进行全面调查。样本平均数的抽样平均误差可以按这一方法来计算。
其中,为群间方差,用公式表示为:
四、整群抽样整群抽样也称集团抽样,是将总体各单位划分成若干群设某化肥厂日夜连续生产,每分钟产量为100袋。现在采用整群抽样来检验一昼夜生产的化肥每袋的重量和包装的一等品率。以144分钟为一个间隔,每次抽取一分钟的产量,共抽取10分钟的产量进行分批检验,其平均每袋重量为49.5千克,其群间方差为2.65千克。一等品包装的比重为85%,其群间方差为0.5%。要求用95.45%的概率估计该厂24小时化肥产量每袋平均重量和一等品率的范围。第一步,根据已知条件,确定和。第二步,进行抽样平均数的推断。即(48.47-50.53),也就是说,以95.45%的概率保证程度估计,该厂化肥的平均每袋重量在48.47千克到50.53千克之间。设某化肥厂日夜连续生产,每分钟产量为100袋。现在采用整群抽可知:整群抽样和类型抽样虽然都要对总体各单位进行分组,但对分组所起的作用则是完全不同的。类型抽样分组的作用在于尽量扩大组间的差异程度,达到缩小组内方差提高抽样效果的目的。而整群抽样分组的作用在于尽量扩大群内的差异程度,从而达到缩小群间方差提高抽样效果的目的第三步,进行抽样成数的推断。即以95.45%的概率保证程度估计,一等品率在80.49%-89.51%范围内。可知:整群抽样和类型抽样虽然都要对总体各单位进行分组,但对分五、多阶段抽样当总体单位很多、分布广泛,又几乎不可能从总体中直接抽取总体单位时,常采用多阶段抽样。如果将总体进行多层次分组,然后依次在各层中随机抽组,直到抽取总体单位,称为多阶段抽样。如我国农产品产量调查就是采用多阶段抽样调查,第一阶段从省抽县,第二阶段从中选县抽乡,第三阶段从中选乡抽村,再从中选的村中抽地块,最后从中选的地块中抽具体的样本单位,并以样本单位测得的实际资料来推算平均亩产和总产。优点:第一,便于组织抽样,它可以按现有的行政区划或地理区域分各阶段的抽样单元,从而简化抽样框的编制。第二,可以获得各阶段单元的调查资料,根据最初级资料可进行逐级抽样推断,得到各级的调查资料。第三,多阶段抽样的方式比较灵活,各阶段抽样的组织方式应以前述四种为依据进行选择。在多阶段抽样中,每个阶段都存在抽样误差。为提高样本的代表性,还应根据各阶段的不同特点,注意样本单位的均匀分布,采用不同的抽样比。如方差大的阶段,抽样比大一些,方差小的阶段,抽样比小一些。而且多阶段抽样在简化抽样工作的同时,又因抽样单位的分布较广,而具有较强的代表性。五、多阶段抽样当总体单位很多、分布广泛,又几乎不可能从总体中案例导入案例一:时下不少大学生在一边学习的同时也不断寻找一些机会打些零工以赚点钱弥补学习和生活之需,这已经是学生们之间人所共知的事情。这没有丝毫的让人好奇之处,让人好奇的是这些打工的学生究竟一个月平均能赚多少钱?假设有人说:这个数据是500元,你觉得信不信它呢?当然,你首先需要收集证据,没有证据是肯定说明不了任何问题的。又假设有人通过组织调查取得过如下数据(调查到一共30人,单位:元):假设检验案例导入假设检验97350500900100100200240300100320450260650380290400800400250400290870540320140160300400500340
这时你该做何结论?就算是你得到以上数据的平均数等于423元,你是否就可以作出“是”或“不是”的回答?因为你要作出的回答是针对整个总体的,根据却又只是来自部分总体——即样本,所以事实上不论你最终作出的是“是”还是“不是”的回答其实都存在犯错误的可能。35050090010010098
那么,如何以样本数据去对总体参数下结论才最科学最不容易犯错误呢?这就是一个属于单个总体参数假设检验的问题了。案例二:你可能认为每一个美国人都知道像这样一些简单历史问题的答案“在美国国旗上有多少颗星?有多少条条纹?星代表什么?条纹又代表什么?”。非常有意思的是,并非每一个人都知道问题的答案,而且当你知道问题的答案时,你也许会大吃一惊的。
那么,如何以样本数据去对总体参数下结论才最科学最不容991998年美国杂志《Today’sAmerica》就确实做过这么一个调查,所得到的数据肯定多多少少会出乎很多人的意料之外。下面就是按性别和美国地区列出的知道星的数目的成年人的百分比:
男士女士大城市小城镇农村
知道7272575631不知道22342516151998年美国杂志《Today’sAmerica》100
在纽约的伊利县里200个成人被问及在美国国旗上有多少颗星。上面的表现是属于每一类的成人的数目。样本的结果被计算两次,一次按性别算,另一次按回答问题的成人的住所算。正确地回答问题的男士的百分比与女士的百分比之间有显著差别吗?大城市的成年人的百分比与小城镇的成年人的百分比之间有显著差别吗?小城镇的百分比与农村的百分比之间有显著差别吗?这样的问题属于两个总体参数假设检验问题。在纽约的伊利县里200个成人被问及在美国国旗上有多少101假设检验的过程
提出假设→抽取样本→作出决策总体抽取随机样本均值
为78我认为人口的平均年龄是80岁提出假设
拒绝假设!
别无选择.作出决策假设检验的过程
提出假设→抽取样本→作出决策总体第五节假设检验假设检验,就是事先对总体参数或总体分布做出一个假设,然后利用样本信息来判断假设是否成立,即判断样本信息与假设是否有显著差异,从而决定应接受或拒绝原假设。假设检验可分为两类,一是参数假设检验;二是非参数检验或自由分布检验,主要是总体分布形式的假设检验。一、假设检验一般问题1.假设检验的基本思想假设检验是对总体参数先做出假设,然后抽取样本,利用样本提供的信息对假设的正确性进行判断的过程。第五节假设检验假设检验,就是事先对总体参数或总体分布做出假设检验的思想颇为似类于司法程序中的“凭证定罪、疑罪从无”的做法,需要检验的假设往往是那些检验前被默认为正确的、除非具有充分证据否则不希望甚至不允许随便推翻的结论性语言。显著性水平之所以设得比较小,是为了一旦能够推翻就肯定有足够证据;但不能推翻却未必说明原假设(零假设)成立。假设检验的思想颇为似类于司法程序中的“凭证定罪、疑罪从无”的
正因为此,我们说:假设检验有个显著特点,即“信心满怀地拒绝,含含糊糊地接受”。参数估计与假设检验两种方法间虽有一定相似性,但本质性区别是:前者对总体一无所知,是求知一事物;后者则有所了解,是求证一事物。正因为此,我们说:假设检验有个显著特点,即“信1052.假设检验的步骤(1)提出原假设和备择假设每个假设检验问题,一般可同时提出两个完全相反的假设:原假设和备择假设。原假设又称零假设,是待检验的假设,记为;备择假设是拒绝原假设后可供选择的假设,记为。原假设和备择假设是相互对立的,检验结果二者必取其一。原假设和备择假设应根据所检验问题的具体背景而定。常常是采取“不轻易拒绝原假设”的原则,即把没有充分理由不能轻易否定的命题作为原假设,而相应地把没有足够把握就不能轻易肯定的命题作为备择假设。一般地,假设有三种形式::;:,这种形式的假设检验称为双侧检验采用哪种假设,要根据所研究的实际问题而定。如果对所研究问题只需判断有无显著差异或要求同时注意总体参数偏大或偏小的情况,则采用双侧检验;如果所关心的是总体参数是否比某个值偏大(或偏小),则宜采用单侧检验。2.假设检验的步骤(1)提出原假设和备择假设(2)选择适当的统计量,并确定其分布形式在参数的假设检验中,如同在参数估计中一样,要借助于样本统计量进行统计推断。用于假设检验问题的统计量称为检验统计量。在具体问题里,选择什么统计量作为检验统计量,需要考虑的因素与参数估计相同。例如,用于进行检验的样本是大样本还是小样本,总体方差已知还是未知等,在不同的条件下应选择不同的检验统计量。(2)选择适当的统计量,并确定其分布形式(3)选择显著性水平,确定临界值显著性水平表示为真时拒绝的概率。把否定真实的原假设的行动称为第Ⅰ类错误或弃真错误;把接受不真实的原假设的行动称为第Ⅱ类错误或纳伪错误(或取伪错误)。在假设检验中,把犯第Ⅰ类错误的概率记为α,把犯第Ⅱ类错误的概率记为β。α越大,就越有可能犯第Ⅰ类错误,即越有可能否定真实的原假设。β越大,就越有可能犯第Ⅱ类错误,即越有可能接受不真实的原假设。两类错误不可避免,是此销彼长的关系,要同时减少犯两类错误的概率,只能增加样本容量。(3)选择显著性水平,确定临界值和的关系你不能同时减少两类错误!和的关系就像翘翘板,小就大,大就小和的关系你不能同时减少两类错误!和的关系就H0:无罪假设检验中的两类错误(决策结果)陪审团审判裁决实际情况无罪有罪无罪正确错误有罪错误正确H0检验决策实际情况H0为真H0为假接受H01-a第二类错误(b)拒绝H0第一类错误(a)功效(1-b)假设检验就好像一场审判过程假设检验过程H0:无罪假设检验中的两类错误陪审团审判裁决实际情况无罪有显著性水平,也就是决策中所面临的风险。显著性水平是指当原假设为正确时人们却把它拒绝了的概率或风险。这个概率是由人们确定的,通常取=0.05或=0.01,这表明当做出接受原假设的决定时,其正确的可能性(概率)为95%或99%。假设检验应用小概率事件实际极少发生的原理,这里的小概率就是指显著性水平。给定了显著性水平,就可由有关的概率分布表查得临界值,从而确定的接受区域和拒绝区域,临界值就是接受区域和拒绝区域的分界点。对于不同形式的假设,的接受区域和拒绝区域也有所不同。双侧检验的拒绝区域位于统计量分布曲线的两侧。显著性水平,也就是决策中所面临的风险。显著性水平是指当原假设111(4)做出结论根据样本资料计算出检验统计量的具体值,并用以与临界值比较,做出接受或拒绝原假设的结论。如果检验统计量的值落在拒绝区域内,说明样本所描述的情况与原假设有显著性差异,应拒绝原假设;反之,则接受原假设。(4)做出结论假设检验中的小概率原理什么是小概率?1.在一次试验中,一个几乎不可能发生的事件发生的概率2.在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设3.小概率由研究者事先确定假设检验中的小概率原理什么是小概率?双侧检验与单侧检验
(假设的形式)假设研究的问题双侧检验左侧检验右侧检验H0m=m0m
m0m
m0H1m≠m0m<m0m>m0双侧检验与单侧检验
(假设的形式)假设研究的问题双侧检验左假设检验的流程提出假设确定适当的检验统计量规定显著性水平计算检验统计量的值作出统计决策假设检验的流程115什么是检验统计量?1.用于假设检验决策的统计量2.选择统计量的方法与参数估计相同,需考虑是大样本还是小样本总体方差已知还是未知3.检验统计量的基本形式为确定适当的检验统计量什么是检验统计量?确定适当的检验统计量作出统计决策计算检验的统计量根据给定的显著性水平,查表得出相应的临界值,如:z/2将检验统计量的值与临界值进行比较得出拒绝或不拒绝原假设的结论作出统计决策计算检验的统计量双侧检验
(原假设与备择假设的确定)例如,某种零件的尺寸,要求其平均长度为10cm,大于或小于10cm均属于不合格我们想要证明(检验)大于或小于这两种可能性中的任何一种是否成立建立的原假设与备择假设应为
H0:
=10H1:
10双侧检验
(原假设与备择假设的确定)例如,某种零件的尺寸,要双侧检验
(显著性水平与拒绝域)抽样分布H0值临界值临界值a/2a/2
样本统计量拒绝域拒绝域1-置信度双侧检验
(显著性水平与拒绝域)抽样分布H0值临界值临界值一个总体参数的检验Z检验(单尾和双尾)
t检验(单尾和双尾)Z检验(单尾和双尾)
2检验(单尾和双尾)均值一个总体成数方差一个总体参数的检验Z检验t检验Z检验2检验均值一总体均值的检验
(2
已知或2未知大样本)1. 假定条件总体服从正态分布若不服从正态分布,可用正态分布来近似(n30)使用Z-统计量2
已知:2
未知:总体均值的检验
(2已知或2未知大样本)1. 假定条2
已知均值的检验某机床厂加工一种零件,根据经验知道,该厂加工零件的椭圆度近似服从正态分布,其总体均值为0=0.081mm,总体标准差为=0.025。今换一种新机床进行加工,抽取n=200个零件进行检验,得到的椭圆度为0.076mm。试问新机床加工零件的椭圆度的均值与以前有无显著差异?(=0.05)双侧检验2已知均值的检验某机床厂加工一种零件,根据经验知道,该厂2
已知均值的检验H0:=0.081H1:
0.081=0.05n=200临界值(s):检验统计量:Z01.96-1.96.025拒绝H0拒绝H0.025决策:结论:
在
=0.05的水平上拒绝H0有证据表明新机床加工的零件的椭圆度与以前有显著差异2已知均值的检验H0:=0.081检验统计量:Z一个总体成数检验假定条件有两类结果总体服从二项分布可用正态分布来近似成数检验的Z统计量p0为假设的总体成数一个总体成数检验假定条件p0为假设的总体成数一个总体成数的检验一项统计结果声称,某市老年人口(年龄在65岁以上)的比重为14.7%,该市老年人口研究会为了检验该项统计是否可靠,随机抽选了400名居民,发现其中有57人年龄在65岁以上。调查结果是否支持该市老年人口比重为14.7%的看法?(=0.05)双侧检验一个总体成数的检验一项统计结果声称,某市老年人口(年龄在65一个总体成数的检验H0:p=14.7%H1:p
14.7%=0.05n=400临界值(s):检验统计量:在
=0.05的水平上接受H0该市老年人口比重为14.7%决策:结论:Z01.96-1.96.025拒绝H0拒绝H0.025一个总体成数的检验H0:p=14.7%检验统计量:在假设检验中的其他问题用置信区间进行检验利用P-值进行检验假设检验中的其他问题用置信区间进行检验127第六章抽样推断
第六章抽样推断
一家食品生产企业以生产袋装食品为主,每天的产量约为8000袋左右。按规定每袋的重量应不低于100克,否则即为不合格。为对产量质量进行检测,企业设有质量检查科专门负责质量检验,并经常向企业高层领导提交质检报告。质检的内容之一就是每袋重量是否符合要求。由于产品的数量大,进行全面的检验是不可能的,可行的办法是抽样,然后用样本数据估计平均每袋的重量。质检科从某天生产的一批食品中随机抽取了25袋,下表是对每袋食品重量的检验结果。(假定该种袋装食品重量服从正态分布。)案例导入一家食品生产企业以生产袋装食品为主,每天的产量约为8
根据以上数据,质检科估计出该天生产的食品每袋的平均重量在101.57~109.14克之间,其中,估计的可信程度为95%,估计误差不超过4克。产品的合格率在95.68%~64.32%之间,其中,估计的可信程度为95%,估计误差不超过15.68%。112.5102.6100.0116.6136.8101.0107.5123.595.4102.8103.095.0102.097.8101.5102.0108.8101.6108.498.4100.5115.6102.2105.093.3112.5101.0103.0102.0100.5
质检报告提交后,企业高层领导人提出几点意见:一是抽取的样本大小是否合适?能不能用一个更大的样本进行估计?二是能否将估计的误差在缩小一点?比如,估计平均重量时估计误差不超过3克,估计合格率时误差不超过10%。三是总体平均重量的方差是多少?因为方差的大小说明了生产过程的稳定性,过大或过小的方差都意味着应对生产过程进行调整。质检报告提交后,企业高层领导人提出几点意见:一是抽取参数估计、假设检验
在统计方法中的地位统计方法描述统计推断统计参数估计假设检验参数估计、假设检验
在统计方法中的地位统计方法描述统计推断统统计推断的过程样本总体样本统计量例如:样本均值、成数、方差参数例如:总体均值、成数、方差统计推断的过程样本总体样本统计量参数第一节抽样调查
一、抽样调查的概念与作用1.抽样调查的概念抽样调查是一种科学的非全面调查,是按照随机原则从总体中抽取一部分单位组成样本进行调查,根据调查的样本数据推断总体的某一数量特征的统计方法。第一节抽样调查
一、抽样调查的概念与作用2.抽样调查的特点抽样调查具有以下特点:(1)遵循随机原则选择调查单位(2)抽样调查节省人力、费用和时间,比较灵活(3)抽样误差可以计算并且可以加以控制2.抽样调查的特点抽样调查具有以下特点:3.抽样调查的适用范围(1)某些不可能进行全面调查又需要了解其全面情况的社会经济现象(2)某些不必要进行全面调查又需要了解其全面情况的社会经济现象(3)抽样调查可以用来检验和修正全面调查资料(4)抽样调查可以用于工业生产过程中的质量控制(5)利用抽样调查,可以对于假设进行检验
3.抽样调查的适用范围(1)某些不可能进行全面调查又需要了解二、抽样调查中的几个基本概念1.全及总体和抽样总体(1)全及总体简称总体,是指所要认识对象的全体,全及总体的单位数通常用大写的英文字母“N”来表示。(2)抽样总体也称样本,是指从全及总体中随机抽取出来,代表全及总体部分单位的集合体,抽样总体的单位数通常用小写英文字母“n”表示。一般说来,n≥30称为大样本,n<30称为小样本,n/N称为抽样比例,社会经济现象的抽样调查多取大样本。
二、抽样调查中的几个基本概念1.全及总体和抽样总体全及总体是惟一确定的,抽样总体则是随机的一个全及总体可能抽取很多个样本,全部样本的可能数目和每一样本的容量有关,也和随机抽样的方法有关,不同的样本容量和取样方法,样本的可能数目也有很大的差别。全及总体是惟一确定的,抽样总体则是随机的可能样本数目的计算公式考虑顺序不考虑顺序不重复抽样重复抽样可能样本数目的计算公式考虑顺序不考虑顺序不重复抽样重复抽样2.全及指标和抽样指标(1)全及指标反映总体数量特征的综合指标,称为全及指标、参数。由于全及总体是惟一确定的,所以全及指标也是惟一确定的。对于变量总体,由于各单位的标志可以用数值来表示,所以可以计算总体平均数,用表示;对于属性总体,可以计算总体成数,用大写英文字母表示,变量总体也可以计算成数。全及指标还有总体方差和总体标准差。
2.全及指标和抽样指标(1)全及指标
参数研究总体中的数量标志总体平均数总体方差X=∑XNX=∑XF∑FΣ(X-X)N2σ=2Σ(X-X)FΣF2σ=2研究总体中的品质标志总体成数成数方差σ2=P(1-P)P=
N1N(只有两种表现)参数研究总体中总体平均数总体方差X=∑XX=∑XFΣ(2)抽样指标
由抽样总体各个标志值或标志特征计算的综合指标称为抽样指标、统计量。变量样本的抽样指标有抽样平均数、样本平均数方差和样本平均数标准差;属性样本的抽样指标有抽样成数、样本成数方差
和样本成数标准差。抽样指标的数值不是惟一确定的,是随机变量。(2)抽样指标统计量研究数量标志样本平均数x=∑xnx=∑xf∑f样本标准差研究品质标志样本成数成数标准差np=n统计量研究数量标志样本平均数x=∑xnx=∑xf∑f样本3.重复抽样与不重复抽样(1)重复抽样重复抽样,又称有放回抽样,是指从全及总体N个单位中随机抽取一个容量为n的样本,每次抽中的单位经登录其有关标志表现后又放回总体中重新参加下一次的抽选。每次抽取均是在相同的条件下完全按照随机原则进行的。(2)不重复抽样不重复抽样又称无放回抽样,是指从全及总体N个单位中随机抽取一个容量为n的样本,每次抽中的单位登录其有关标志表现后不再放回总体中参加下一次的抽选,上一次的抽取结果会直接影响到下一次抽选。3.重复抽样与不重复抽样(1)重复抽样4.抽样框全及总体也叫目标总体。目标总体规定了理论上的抽样范围。但实际进行抽样的总体范围与目标总体有时是不一致的。因而,在抽样前还必须明确实际进行抽样的总体范围和抽样单位。抽样框又称“抽样框架”、“抽样结构”,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框后,便可采用抽签的方式或按照随机数表来抽选必要的单位数。4.抽样框全及总体也叫目标总体。目标总体规定了理论上的抽样范好的抽样框的标准是:完整而不重复。常见的抽样框如大学学生花名册、工商企业名录、街道派出所里居民户籍册、意向购房人信息册等。在没有现成的名单的情况下,可由调查人员自己编制。在利用现有的名单作为抽样框时,要先对该名录进行检查,避免有重复、遗漏的情况发生。以提高样本对总体的代表性。例如:要从10000名职工中抽出200
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年公司资产转让协议模板
- 2024年度旅游大巴租赁服务协议
- 2024年员工派遣服务协议
- 2024赛季足球场租赁协议范本
- 2024年建设工程委托代理协议
- 2024年科技支持服务协议样本
- 2024隔音设施安装及施工协议样本
- 店铺租赁经营规范协议2024年
- 2024年采购协议模板与协议细则
- 2024年店面房租赁协议样本
- 我的家乡湖北咸宁介绍
- 幼教培训课件:《幼儿园班级区域创设》
- 行政办公室行政办公管理检查开展情况汇报
- 大课间跑操评分表
- 老旧小区改造室外给排水工程施工方案和技术措施
- 食品的感官检验-感官检验的常用方法(食品检测技术课件)
- 传染病护理学高职PPT完整全套教学课件
- 智慧校园创建工作课件
- 心理投射测验案例集(含解析)
- 五年级家长会数学老师发言
- 超市物品盘点表
评论
0/150
提交评论