环境统计第四章课件_第1页
环境统计第四章课件_第2页
环境统计第四章课件_第3页
环境统计第四章课件_第4页
环境统计第四章课件_第5页
已阅读5页,还剩126页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1、抽样推断的概念和特点抽样推断概念:从总体中随机抽样,利用样本的实际资料计算样本指标,并据以推算总体相应数量特征的一种统计方法。 从总体中抽样进行调查叫抽样调查。抽样推断特点:(1)按随机原则从总体中抽样抽样调查的目的是推断总体,抽样时保证每个单位有同等的机会被选取,才能使所选样本和总体有相同分布特征,样本才有代表性。第四章 环境参数的抽样估计(2)通过抽样调查,取得部分单位的实际资料计算样本的综合指标,然后对总体的规模、水平、结构等数量指标做出估计和推断。(3)用样本指标估计总体指标,利用的是不确定的概率估计的方法。(4)抽样误差可以计算和控制。采取一定得组织措施来控制误差的范围,保证抽样

2、推断的结果达到一定的可取程度。有关抽样调查的几个基本概念 (1)总体和样本。总体是指被研究对象的全体,它是由所研究范围内具有某种共同性质的全体单位所组成的集合体。总体的单位数用N表示;样本是从总体中随机抽取出来的那部分单位的集合体。样本的单位数用n来表示。(2)抽样框。划定一个尽可能接近总体的便于操作的框架,作为抽样总体,即抽样框。抽样框实际上是被抽单位的目录。 (3)参数和统计量。根据总体各单位的标志值或标志属性计算的,反映总体数量特征的综合指标称为总体指标,它是总体变量的函数,其数值是由总体各单位的标志值或标志属性决定的,一个总体指标是一个确定的、唯一的数值,也称真值,因此称为参数。根据样

3、本各单位标志值或标志属性计算的综合指标称为统计量,也可称为样本指标。(4)样本容量和样本个数。样本容量又称样本含量,是指一个样本包含的观察单位数。样本容量的大小直接影响着抽样调查的效果。一般将n30的样本称之为小样本,n30的样本称为大样本。样本个数又称样本可能数目,是指从一个总体中可能抽取的样本个数。(5)重复抽样与不重复抽样。重复抽样也称回置抽样,即从总体中每次抽取一个单位之后,再放回总体,保持总体单位数不变,再进行下一个单位的抽取,如此重复抽足一个样本。重复抽样每个单位中选的机会在各次都完全相等。从总体N个单位中,用重复抽样的方法,随机抽取n个单位构成一个样本,则共可抽取Nn个样本。 不

4、重复抽样也称不回置抽样,即从总体中每抽取一个单位,就不再放回参加下次的抽选,这样每抽出一个单位,总体中就少一个单位,因而每个单位只有一次被抽中的机会。从总体N个单位中,用不重复抽样的方法抽取n个单位样本,全部可能抽取的样 本数目为 个。2.2分层抽样 分层抽样也称类型抽样或分类抽样。它是先将总体各单位按主要标志进行分层,然后再按比例从各层中随机抽取一定数目的单位构成样本。 分层抽样需要确定各层的样本数目分配,样本单位在各层中的数目分配,可以是等比例的分层抽样,也可以是不等比例的分层抽样。(1)等比例分层抽样。就是按总体各层单位数的多少来分配每层应抽的样本单位数。(2)不等比例抽样。 2.3等距

5、抽样等距抽样又称机械随机抽样或系统抽样。它是先将总体各单位按某一标志顺序排列,然后按固定的顺序和间隔抽取一定数目的总体单位构成样本。 在按无关标志排队的等距抽样中,可在第一个间隔内随机抽取第一个样本单位作为起点,然后每隔K个单位抽取一个样本单位,直到抽够所需要的样本单位数。 在按有关标志排队的等距抽样中,第一个样本单位通常按以下方法来确定。 (1)中点取样法。 (2)平均取样法。 (3)随机起点,对称等距取样。 2.5阶段抽样 阶段抽样亦称多阶段抽样。阶段抽样是将总体先分成若干大组,大组中再分小组,还可以往下细分。抽样时先随机抽取大组,再从抽中的大组中随机抽取小组,最后根据最终抽取的所有单位组

6、成样本,进行调查。阶段抽样方法多用简单随机抽样方法,也可将几种抽样方法结合使用。 3抽样分布3.1总体分布、样本分布与抽样分布从概率论角度看,总体各单位标志值Xi(i = 1,2,N )可以看作是随机变量X的N种取值。 因此,统 计上 常将随机变量 X 的 全 部 取 值 X1,X2, ,XN 的集合称为变量总体 ( 简称总体,记为X ), X1,X2,XN 被称为总体单位(个体),从总体中随机抽取的 n 个个体 X1,X2,Xn ,称为总体 X 的一个容量为 n 的样本,其中 X1,X2,Xn 被称为“样本单位”。样本单位 X1,X2,Xn 可以看作是 n 个相互独立且与 X 具有相同概率分

7、布的随机变量,从总体 X 中进行一次 具体抽样,所获得的具体数据 x1,x2,xn 是 n 个随机变量(样本) X1,X2,Xn 的具体数值,常称为样本观察值或样本值。 设 X1,X2,Xn 为总体X的一个样本, f(X1,X2,Xn) 为一个连续函数, 若 f(X1,X2,Xn)中不含任何未知参数, 则称 f(X1,X2,Xn)为一个统计量。如果x1,x2,xn为样本X1,X2,Xn的具体样本观察值,则 f(x1,x2,xn)是f(X1,X2,Xn)的一个观察值。例如,样本X1,X2,Xn 的均值 、方差S2都是统计量,对于从总体X中抽出的某一具体样本x1,x2,xn,其均值、s2分别被称为

8、统计量及 S2 的一个观察值。例5.1 设有5台仪器,其使用时间分别为1年,2年,3年,4年,5年。现采用重复抽样方法抽出2台仪器构成样本,试给出其总体分布,样本均数的抽样分布及相应的分布特征。该总体的概率分布如下表:表5.1 5台仪器使用时间的概率分布使用时间Xi 12345台 数fi 11111概 率Pifi /fi 该总体分布的特征: 的抽样分布 =10.04+1.50.08+20.12+2.50.16+30.20+ 3.50.16+40.12+4.50.08+50.043(年) (1-3)20.04+(1.5-3)20.08+(2-3)20.12 +(2.5-3)20.16+(3-3)

9、20.20+(3.5-3)20.16 +(4-3)20.12+(4.5-3)20.08+(5-3)20.04l(年)样本均值11.522.533.544.55次 数 fi 123454321概 率 Pi 0.040.080.120.160.200.160.120.080.04这一结论具有普遍意义。样本均值的抽样分布,并描述了其分布特征。 当总体容量较大时,无法用上述方法描述统计量的抽样分布,必须进一步探讨抽样分布的理论方法。 3.2样本均值 的抽样分布作为随机变量,样本均值的变化规律,可以用 的所有可能取值及其所对应的概率来描述,即为样本均值 的抽样分布。 3.2.1 2已知时样本均值 的抽样

10、分布当总体X服从正态分布时,设x1,x2,xn是从正态总体X N( )中重复抽取的一个简单随机样本,则其样本均值 亦是服从正态分布的随机变量,并且可以证明,即 N( )。 例如,某总体 XN (20,32);现从中随机 抽取一个 n3 的简单随机样本,则 N(20,323),即 N (20,3);如果将n由3增加到9, 则 N (20,1)。总体分布与不同样本容量的抽样分布 由此可以说明:(1) 当总体服从正态分布时,不论样本容量n有多大,样本均值均服从以总体均值为中心的正态分布。(2) 从正态总体中随机抽样,样本均值的数学期望等于总体均值;样本均值的方差为总体方差 的1/n ,这意味着样本均

11、值的各观察值比总体各单位Xi更紧密地集中在总体均值的周围,且样本均值的集中程度与样本容量 n 成正比。(3) 样本均值的方差 ,进而,有样本均值的标准误差 (简称均值的标准误)。(4) 对 作标准正态变量变换,令则 N (0,1)。当总体X不服从正态分布时,样本均值的抽样分布与样本容量n 的大小有关。根据中心极限定理,随着样本容量n 的逐渐增加,样本均值的抽样分布趋近正态分布。因此,当样本容量n 充分大(一般认为n50)时,样本均值的抽样分布一般可按正态分布处理。t分布也是一种对称分布,在样本容量n不大的情况下,t分布与标准正态分布相差较大,但随着样本含量的逐渐增大(严格讲是自由度n - l逐

12、渐增大)t 分布逐渐逼近标准正态分布,尤其是当自由度大于40时,t 分布与标准正态分布相差甚微,当自由度时,t分布就与标准正态分布完全一样了。因此,当自由度较大时的t 分布可以近似地按正态分布处理。 不同自由度下的t分布和正态分布一样,t 分布曲线下的总面积也等于1,即 t 值落入区间(- ,+ )内的概率为1。t 值落入任一区间(t1,t2)内的概率等于该区间曲线和横轴所夹的面积。如t值落于区间(-t0.05,+t0.05)内的概率为0.95,t值落于区间(-t0.01,+t0.01)内的概率为0.99。这里的t0.05、t0.01是概率分别为0.05,0.01时的 t 界值。例如,查自由度

13、9,概率0.05的t双侧分位数,就要查概率为 /20.025时的单侧分位数。从附表3中,可以查出t 0.025,9 2.262,由于曲线的对称性,则另一尾区 t 0.025,9 2.262。就是说, t 2.262 和 t 2.262 (相当于t 2.262 )的两个尾区的曲线下的面积之和为0.05。对于双侧分位数可以表示为:P (t t /2 , ) 以后我们均以“t , ”表示单侧分位数,“t /2 , ”表示双侧分位数。3.2.3 两个样本均值之差的抽样分布当 和 为已知时, 当 和 均 为未知时,且当 和 均 为未知时,且当X1和X2为非正态总体 , 和 均 为未知时,且3.3样本比率

14、(成数)p的抽样分布设容量为N的总体中具有某种性质的总体单位数为M,则总体关于这种性质的总体单位数的比率 。 如果从该总体抽取容量为n的简单随机样本,对样本比率P,则有4抽样误差的估计4.1抽样误差的概念抽样误差是指统计量与相应参数之差。如样本均值与总体均值之差,样本比率 p与总体比率P之差等。由于总体中各单位之间存在着变异,抽样调查中抽取的样本只包含总体一部分的单位,其结构不可能和总体完全一致,因而样本指标不一定恰好等于相应的总体指标。抽样误差越小,用样本估计总体的可靠性就越大,否则,抽样误差越大,用样本估计总体的可靠性就越小。抽样误差虽然不可避免,但它具有一定的规律性,在抽样调查中,掌握和

15、应用这种规律性是非常重要的。4.2影响抽样误差的因素 (1) 样本容量的大小。在其他因素完全相同的条件下,样本容量越大,抽样误差就越小;而样本容量越小,抽样误差就越大。 (2) 总体单位标志变异度的大小。抽样误差与总体标志变异度成正比。即总体标志变异度越大,抽样误差也越大;总体的标志变异度越小,则抽样误差也越小。 (3) 不同的抽样组织形式。对同一总体进行抽样调查。在样本容量一定的条件下,重复抽样的误差比不重复抽样的误差要大些。 4.3均值的抽样误差 从总体X 中随机抽取一个容量n 的样本x1,x2,xn,由于有多种抽选方法,可以抽取多个不同样本,因而就有多个不同的样本均值。 如果把样本均值看

16、作变量,也可以用标准差说明各样本均值间的变异程度,即样本均值的标准误差,简称标准误。均值的抽样误差的大小通常用标准误来表示。 根据抽样分布的原理,容量为n 的样本均值分布的方差 等于总体方差2 的1/n,即 取两端平方根,则为: 在实际应用中,总体标准差 未知,通常是用标准误的估计值来说明均值抽样误差大小的。 均值的标准误估计值在随机抽样方式重复抽样时,其计算公式为: 不重复抽样,其抽样误差总是小于重复抽样误差。从容量为N的总体中不重复抽样,均值的标准误计算公式为:当总体单位数 N 很大时,式中的N -1可近似取N,则 通常称为有限总体修正系数。当nN 不大(一般不大于5% 时,标准误计算公式

17、中的修正系数可以省去。 例5.2 某县利用原有的浅层水井进行地下水污染状况抽样调查。从该县的1000眼水井中随机抽选10眼水井,测定井水中砷的浓度,测定结果,10眼井水中砷的平均浓度为0.58mgL,标准差为mgL。试求其均值的标准误。 本例 0.58mgL,S0.1mgL,N 1000, n =10,由于n/ N 1%5%,因此按式(5.11)计算均值的标准误4.4比率(成数)的标准误比率的标准误计算与均值的标准误计算原理基本相同。重复抽样时,比率的标准误计算公式为: 当 P 未知时,常以样本比率 p 来估计,则不重复抽样时比率标准误的计算公式为:例5.3某市监测大气中SO2浓度,在采集的2

18、00个空气样品中,经测定有8个样品SO2浓度超标。求SO2超标率的标准误。本例SO2浓度超标率 ,由于P未知, 而且是从无限总体中抽样,可按式(5.15)计算: 例5.4 某河段有1000个污水排放口,用不重复抽样方法从中抽检100个污水排放口,结果有85个超标,求该超标率的标准误。排污口超标率 按式(5.16) 计算: 该河段污水排放口超标率的标准误为3.39%。标准误与标准差的区别: 标准差描述个体间的变异程度。凡同性质的资料,标准差大表示个体变异大,标准差小表示个体变异小。 而标准误是样本指标的标准差,反映样本指标的抽样误差,即样本指标与总体指标的接近程度。凡同性质的资料,标准误大,表示

19、样本指标的抽样误差大,用样本指标代表总体指标的可靠性小,而标准误小,表示样本指标的抽样误差小,用样本指标代表总体指标的可靠性大。4.5抽样极限误差抽样极限误差又称抽样允许误差。把样本指标与总体指标之间的抽样误差控制在一个允许的限度范围内,这个可允许的最大抽样误差范围称为抽样极限误差。用绝对值表示 用不等式表示则为: p 5. 参数估计 5.1参数估计的优良标准 评价统计量的优劣一般应遵从以下原则: 5.1.1无偏性 总体参数的估计量是一个随机变量,对随机样本x1,x2,xn的不同观察值,某估计量会取得不同的估计值。估计量的每一个估计值与相应的总体参数的真值之间可能存在着一定的误差,但如果某估计

20、量的所有可能估计值的平均值,即估计量的数学期望等于相应的总体参数值,则该估计量就被称为相应总体参数的无偏估计量。 如果估计量的数学期望值不等于要估计的参数,就称为偏倚估计量,它可正可负,等于零时即为无偏估计量。无偏估计实际上是在平均意义下较好的一个估计量。一个好的估计量是无偏的或至少是近于无偏的。对于样本均值 有所以样本均值是总体均值的无偏估计量。 无偏估计的实际意义: 无系统误差.P( )BA无偏有偏证例1特别的:不论总体 X 服从什么分布,只要它的数学期望存在,对于样本方差s2有样本方差一般指 ,并简记为s2。证例2(这种方法称为无偏化).5.1.2有效性 设1,2为参数的两个无偏估计量,

21、如果对任一容量为n的样本,有 D(1)D(2) 则称1比2的估计值更有效。若固定样本容量n,使取得极小值的无偏估计量就称之为最有效的估计量,又称最优估计量。因此,估计量的方差越小,说明估计量取值越集中,它的有效性越高。 由于方差是随机变量取值与其数学期望的偏离程度, 所以无偏估计以方差小者为好.AB 的抽样分布 的抽样分布P( )证明例4 (续例3)5.1.3 一致性 当样本容量逐渐增加时,如果估计量的某估计值会愈来愈接近于相应的参数值,则称该估计量是参数的一致估计量。5.1.4充分性 如果一个估计量充分地利用了样本中有关总体的所有可能信息,它就称为充分估计量。即如果某估计量是某参数的充分估计

22、量,则不会有别的统计量能够为该参数提供更多的来自样本的信息。5.2点估计 设总体 X 的分布函数形式已知, 但它的一个或多个参数为未知, 借助于总体 X 的一个样本来估计总体未知参数的值的问题称为点估计问题.例1解用样本均值来估计总体的均值 E(X).点估计问题的一般提法1.估计量的求法 由于估计量是样本的函数, 是随机变量, 故对不同的样本值, 得到的参数值往往不同, 如何求估计量是关键问题.常用构造估计量的方法: (两种)矩估计法和最大似然估计法.(1). 矩估计法复习2. 样本 k 阶(原点)矩(X为连续型)(X为离散型)矩估计法的定义 用样本矩来估计总体矩,用样本矩的连续函数来估计总体

23、矩的连续函数,这种估计法称为矩估计法.矩估计法的具体做法:矩估计量的观察值称为矩估计值.例2设总体X的概率密度为其中为待估参数,设是来自X的一个样本,求的矩估计量.解 总体X 的一阶矩为以一阶样本矩代替上式中的一阶总体矩 ,从中解出 , 得到的矩估计量为 例3设总体X的概率密度为其中为待估参数,设是来自X的一个样本,求的矩估计量.解 总体X 的一阶、二阶矩分别为分别以一阶、二阶样本矩代替上两式中的有从中解得即得到的矩估计量为解根据矩估计法,例4解例5解方程组得到a, b的矩估计量分别为解解方程组得到矩估计量分别为例6上例表明: 总体均值与方差的矩估计量的表达式不因不同的总体分布而异.一般地,(

24、2). 最大似然估计法似然函数的定义最大似然估计法似然函数的定义求最大似然估计量的步骤:最大似然估计法是由费舍尔引进的. 最大似然估计法也适用于分布中含有多个未知参数的情况. 此时只需令对数似然方程组对数似然方程解似然函数例7这一估计量与矩估计量是相同的.例8在例2中求参数的最大似然估计值,设是一个样本值.解 似然函数为令 解得注意到故所求 的最大似然估计值为这与的矩估计值不一样.解X 的似然函数为例9它们与相应的矩估计量相同.解例10注:最大似然估计法也适用于分布中含多个未知参数的情形.两种求点估计的方法:矩估计法最大似然估计法 在统计问题中往往先使用最大似然估计法, 在最大似然估计法使用不

25、方便时, 再用矩估计法.5.2点估计和区间估计 点估计就是用某样本指标直接作为相应总体指标的估计值。 点估计方法虽然简单,但由于未考虑到样本指标与总体指标之间客观存在着的抽样误差,也没有给出估计的概率保证程度,无法确定估计的可靠程度。因此,我们常用区间估计,实践中有许多区间估计的例子。 5.2.1置信概率和置信区间 按一定的概率估计总体参数在哪个范围,这个范围称为总体参数的置信区间。 区间内总体参数出现的概率称为置信概率。 对总体参数估计其取值范围,对于给定的小概率,有 (1,2)是参数的置信区间, 为显著性水平,1 - 为区间估计的置信度或置信水平,即置信概率。它表明判断总体参数落在置信区的

26、可信程度。1,2分别为参数的下置信限和上置信限。称为舍弃域。 置信区间与置信概率的关系 对于特定总体,总体参数总是一个确定的值,统计量则是一个随机变量。因此,由1,2所构成的置信区间也是一个随机区间。在所有可能样本指标所构成的所有置信区间中,有的区间可能包括了总体指标,有的可能没有包括。置信度1-的含义是,由全部样本指示所确定的所有置信区间中,有100 (1-)%的估计区间包括了总体参数,另外有100%的区间没有包括总体指标。而对由某一样本指标所确定的具体估计区间(1,2)来说,就是其包含的可能性(概率)为100(1-)%,不包含的可能性为 100%。 置信区间的宽窄与置信概率和样本容量有关,

27、它随着不同的置信度和样本容量而变化。置信区间若取得过大,估计精度就差,价值往往不大。而取得过小,需要大量增加样本容量,费力费时。置信区间取多大才算合适,需要根据所研究对象的性质,结合实践经验与专业知识来决定。实际应用中,一般取0.01或0.05,如无特别指出,一般取0.05。 96 求置信区间的一般步骤(共3步)5.2.2总体均值的区间估计 (1)n30,总体方差已知时,总体均值的区间估计。 对于给定的置信度1-,有 置信度为1-时总体均值的置信区间计算公式为: , 例5.5 根据以往资料,土壤中磷的含量服从正态分布,现对某地土壤进行采样调查,测得9个土壤样品中磷的平均含量为364.3ppm,

28、已知该土壤中磷含量的总体标准差为99.8 ppm,试估计该地土壤中磷中平均含量的95%和99%置信区间。 时,则 的95%置信区间为: , =(303.8,429.5)99%置信区间为: , =(278.5,450.1) 在报告结果时,可将点估计和区间估计同时写出,如本例95%和99%的置信区间可分别写成364.3(303.8,429.5)ppm和364.3(278.5,450.1)ppm。 如果是非正态总体或总体分布形态未知,当总体方差已知且样本容量n充分大时,总体均值的置信区间可按上式近似计算。(2)总体方差未知时总体均值的置信区间 从正态总体中随机抽样,当样本容量较小且总体方差未知时,根

29、据t分布原理,对于给定的置信度1-,有总体均数值的1-置信区间为 对于非正态总体,只要样本容量n足够大,根据中心极限定理,仍可按上式估计总体均数值的置信区间。当样本容量n足够大时, 例5.6 某排污口经100次测试,废水中COD平均为100mg/L,标准差为20 mg/L,试估计该排污口废水中COD值的95%置信区间。 =(96.1,103.9) 即该排污口废水中COD值的95%置信区间为96.1103.9 mg/L。例 5.7 为检查某湖水受汞污染情况,从该湖中随机取9条鱼龄相近的鱼,测得鱼胸肌中汞含量平均为2.01ppm,标准差为0.11ppm,试求该湖鱼胸肌中汞含量的95%及99%置信区

30、间。 =(1.925,2.095) 5.2.3 两个总体均值之差的区间估计1、两总体方差12和22已知时 两个总体均值之差的区间估计来自两个正态总体的样本均值分别为 x1和x2,其样本容量分别为n1和n2 根据抽样分布原理有 N(0,1)对给定的置信度1-则有1-2的置信区间为式中 是x1 x2的抽样分布之标准差,用 表示 称为两均值之差的标准误,表示由x1-x2估计1 2的抽样误差。如果两总体方差未知,当样本n1和n2均足够大时可近似的以样本方差s1 s2代替式中总体方差,计算均值差的置信区间。2、两总体方差12和22未知,但12=22时,两个总体之差的区间估计设从方差均为的两正态总体中随机

31、抽取容量为n1和n2的样本 当未知时,则统计量给定置信概率为1- 则可得置信区间为式中t/2,v 为自由度为n1+n2-2时的t临界值其中是x1-x2的抽样分布之标准差。称为两均值之差的标准误,表示由 x1-x2估计1-2的抽样误差3、两总体方差12和22未知,但1222时,两个总体均值之差的区间估计由于1222 两总体方差不具有齐性,根据抽样分布原理统计量服从自由度为n的t分布。其中对给的的置信概率 1-可得其均值差的置信区间为例 甲乙两地空气中某元素的含量服从正态分布12=0.013,22=0.012,从两地抽样测试结果如下 n甲=30 x甲=0.03 n乙=28 X乙=0.016,求置信

32、概率我0.95时两地均值之差的置信区间 -0.042甲-乙0.072已知某造纸厂废水中悬浮物连续排放服从正态分布,一月份对该厂废水抽样8次,其废水悬浮物含量平均为22.5mg/l,2月份抽样8次测得废水悬浮物平均含量17.8mg/l一月份和2月份测定结果的标准差分别为8.3 和7.6,求两个月废水中悬浮物平均差值的95%置信区间。根据题意 本例属于总体方差1、2未知1=2式中 自由度v=8+8-2=14 =0.05 t0.05/2,14=2.415 -3.81-213.2某县甲、乙两污水渠酚含量属于正态分布甲测定39次其平均含量0.58 标准差s1=0.10 乙 测定43次 平均含量0.18

33、标准差s2=0.08 求置信概率95%情况下两污水渠酚平均含量的置信区间计算得 k=0.633 n=73 t0.05/2,73=1.991 0.361-20.445.2.4 配对数据平均数差的置信区间环境科学中 许多问题来自两总体的数据匹配成对出现的。如不同方法或不同处理装置对同一污染物处理效果的比较,同一生物体对不同污染物浓度的反应等。对具有配对数据的两正态总体平均数差的置信区间的求法可采用下述方法。 设来自两正态总体的配对数据分别为x1k,x2k (k=1,2,3.n)它们的差值为dk=x1k-x2k , 统计量 其中它是自由度为n-1的t分布。置信概率1- 则配对数据差值d 的置信区间为

34、 两种方法处理油污染的实验数据如下 甲 4.0、5.0、6.0、1.0、5.4、4.1 乙 3.3、7.0、4.4、2.2、3.5、0.7求配对数据差的置信区间 (=0.05)计算差值 dk 0.7、-2.0、1.6、-1.2、1.9、3.4 求n=6-1=5 t0.05/2,5=2.571 -1.35 d2.815.2.5总体比率(成数)的区间估计(1)正态近似法。 根据抽样分布原理,当样本容量n足够大时 (一般np5或n(1p) 5),样本比率p近似服从正态分布。 因此可以利用正态分布进行样本比率(成数)p的统计推断。 P , 例 5.10 从某河流随机抽取764份水样,经测定COD超标者

35、162份,超标率为21.2%,试估计该河水COD总体超标率的95%置信区间。 本例n=764,p=21.2%,np5,可用正态近似法估计该河水COD总体超标率的95%置信区间 总体合格率P的95%置信区间:( , ) =(0.183,0.241) (2) 查表法。当样本容量n较小,特别是P接近于0或1时,按二项分布原理确定总体比率的置信区间,其计算过程较繁,附表8列出了二项分布的置信区间临界值,在实际应用中直接由表查出总体比率的置信区间甚为方便。例5.11 在某废水处理厂出水口随机检测20次,其中有8次超标,试确定超标率的置信区间。查附表8,在n=20横行与X=8的纵列交叉处的数值为1964,

36、即该出水口COD超标率的95%置信区间为(19%,64%)。5.3区间估计必要样本单位数目的确定 抽样调查工作中,抽取的样本单位数越多,则得到的样本资料对总体的代表性就越强,抽样估计的精度及可靠程度也就越高;如果抽样单位数越少,所得到的样本资料对总体的代表性就越差,抽样估计的精度及可靠程度就会越低。 对于特定总体,在确定其必要抽样数目时,主要应考虑允许误差(精度要求),置信水平(可靠程度),人、财、物及时间等因素。 确定必要抽样单位数目应遵循的原则是:在保证抽样推断能达到所要求精度和可靠程度的情况下,抽取适当的样本单位数。 5.3.1估计总体均值时,样本容量的确定当总体服从正态分布,总体标准差已知时,在简单重复抽样的情况下, 有限总体,在不重复抽样情况下 当总体服从正态分布,而总体标准差未知的情况下,区间估计常用样本标准差s代替总体标准差,按t分布原理进行。在简单随机重复抽样情况下 有限总体,在不重复抽样情况下 由于各种抽样组织形式下抽样误差的计算表示方法有所不同,故必要抽样单位数目的计算公式也相应有所不同。等比例分层抽样时 整群抽样(各群容量相等)等距抽样视同为简单随机不重复抽样,故其必要抽样单位数目按右

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论