稀疏总体抽样方法讲课_第1页
稀疏总体抽样方法讲课_第2页
稀疏总体抽样方法讲课_第3页
稀疏总体抽样方法讲课_第4页
稀疏总体抽样方法讲课_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

稀疏总体抽样方法讲课第一页,共七十五页,2022年,8月28日森林资源抽样技术性质:抽样调查是获取统计资料的重要手段,在社会、经济、科研等领域有着广泛的应用。抽样技术是统计学研究中的一个重要分支。主要介绍抽样技术的基本理论,是统计学专业的一门专业必修课。内容:介绍一些基本的概率抽样方法,包括简单随机抽样、分层抽样、整群抽样、多阶抽样、等距抽样及不等概率抽样等,着重讨论其中统计推断、抽样设计的理论。对非抽样误差、调查实务(例如问卷设计、调查报告撰写等)作简要介绍。要求:了解抽样技术的统计理论;掌握六种基本抽样方法的原理、统计推断方法及抽样设计技术,并能举一反三,灵活应用;对抽样调查的实际应用、调查实务有所了解。第二页,共七十五页,2022年,8月28日稀疏总体调查稀疏总体调查包括:生物多样性的调查、森林中病虫害发生分布的调查、林下非木质资源(non-timber)调查、森林中的倒木和珍贵濒危树种分布的调查、林外的群立木、簇立木或林外的散生木的调查等等空间分布特点:稀疏(rare)、群团状(cluster)、散生状(spread)和条状(strip)等自然分布

第三页,共七十五页,2022年,8月28日抽样方法比较传统抽样方法(如简单随机抽样、分层抽样和系统抽样等等):调查总体观察值总和均值前要确定样地单元总数

不依赖于抽样总体分布,即选择概率函数是非零的或者是常数,与总体单元内观察值的大小无关以郁闭的森林资源的林地为主要调查目标对稀疏总体的估计是有偏估计传统抽样方法没有考虑稀疏总体明显存在的空间分布差异,缺乏针对性,将必然导致调查成本大幅攀升和/或估计结果出现显著偏差

第四页,共七十五页,2022年,8月28日抽样方法比较针对稀疏、簇生和聚集分布总体的抽样方法(如线截法、带抽样、样线法、适应性群团抽样等)较传统的抽样方法有更多的优点:在相同抽样工作量情况下估计量方差将会更小,获得更多的信息量,抽样估计是无偏的抽样设计灵活能够提高具有稀少且群聚特征总体的抽样效率,弥补了传统抽样方法失效、最终样本中观测目标信息几乎为零的缺点在森林资源调查目标由传统的林木资源调查向森林多资源调查方向转变和发展的形势下,研究针对稀疏总体的抽样方法是很有意义的,这里主要介绍近年来研究应用较多的三种方法:线截法(Lineintersectsampling)带抽样(stripsampling)样线法(Linetransectsampling)适应性群团方法(Adaptiveclustersampling)第五页,共七十五页,2022年,8月28日一、线截法线截抽样(Lineintersectsampling,简称LIS),由Canfield提出并在1960s得到发展应用适用于稀疏总体,抽样调查

伐倒木和薪才总量估计公路长度关于生物多样性的调查(如倒木数量的估计)第六页,共七十五页,2022年,8月28日线截法估计方法

设某区域内一条线,则与该线相交的所有目标入样,每棵树的概率取决于入样线长度L和树的有效长度,如果将树看成一条线,则可直接根据其与抽样线所成的夹角计算,样线调查目标第七页,共七十五页,2022年,8月28日线截法估计方法树i的有效长度的平均值为

每单元面积A的目标变量总数,依据Horwitz-Thompsonestimator估计为:(1)

式中:

(数量/面积A)第八页,共七十五页,2022年,8月28日线截法估计方法则每平方米总量的估计值为:(2)

式中:L为线(m个)的总长度(米)、li为树i的长度(米)、yi是第i单元目标变(如蓄积、质量、长度)、m为观测单元数量。

(数量/平方米)第九页,共七十五页,2022年,8月28日线截法估计方法若森林蓄积用Huber’s公式定义为,式中di是第i棵树的直径(cm),则前面公式(2)可改为;若要估计倒木长度,利用(2)即可,若估计其它值如每公顷倒木数量,则还需测得树的长度。LIS估计量的方差可由线间方差算得:

式中n为线数、为线j的每公顷总蓄积、为研究区域的每公顷蓄积、Lj为线j长度。()2/

(立方米/公顷)第十页,共七十五页,2022年,8月28日二、带抽样带抽样(stripsampling)可以看成样地面积很大的样地抽样调查,根据计算,最简单情况是将研究区域分成N个非交叠样带,从中随机抽选n个样带。样带可以间隔一定距离抽选,也可以重叠(部分)抽选。特点及适用情况:带抽样经常用于稀疏总体调查相对于点抽样,既然该法相对于普通样地调查典型地覆盖了大面积区域,则意味着用于活立木调查时工作量很大由于某方位两带状样地自相关性很大,该法对于活立木调查效果很低。虽然稀少总体的观测值分离很远,但自相关性并不成问题,当包含稀少总体时可用带抽样方法。第十一页,共七十五页,2022年,8月28日样带布设将调查总体面积分成N条非重叠的样带,用简单随机方法随机抽取n条样带。也可以用一定的宽度确定样带,这样可能有重叠。测量带内的目标第十二页,共七十五页,2022年,8月28日带抽样估计总体蓄积(或其他目标变量):式中Vi为第i条样带的总蓄积、Ai是第i条样带的面积、AT为总面积,如果目标为平均每公顷蓄积,那么可估计比率尽可为:

平均值

(m3/hm2)第十三页,共七十五页,2022年,8月28日带抽样估计比率的方差为:式中:为样带平均面积、N为调查区域样带总数、n为抽取的样带。总蓄积估计值方差:

()/(),第十四页,共七十五页,2022年,8月28日三、样线法

样线法(Linetransectsampling,简称LTS)是以观测目标所在的样线为基础的,样线可以是在地面设桩,或者是在图像上和其他方式。调查人员可以徒步或乘车和空中飞行。这种方法主要用于估计野生动植物总体密度。设目标随机分布在区域内,设观察目标i的概率取决于距线的距离,如距离越长观测概率越小。样线调查方法的内容一般都要包括样线布设、数量调查和密度计算样线抽样图解第十五页,共七十五页,2022年,8月28日样线法-样线布设样地布设随机布设系统布设估计方法窄带法目视修正法参数法非参数法核函数估计富利叶级数法L00B随机抽样L00B系统抽样第十六页,共七十五页,2022年,8月28日样线抽样估计方法窄带法(Narrow-Stripmethod):密度为单位面积的个体数目,即条带内动物数量除以条带面积

(1)式中,D为野生动物种群密度;y0为条带内探测到的野生动物数量;L为样线总长度;w0为单侧样线宽度(米)。窄带法是最为常用的传统方法,简单易行,但是单侧样线w0宽度需要根据生境和野生动物的特点以及调查人员的实际观察能力进行经验估计。

(数量/m2)第十七页,共七十五页,2022年,8月28日(一)窄带法例:样线长L=100米,有18个目标(如鸟和病虫害树木等)分别在距离样线0,0,1,3,7,11,11,12,15,15,18,19,21,23,28,33,34,44米。如何使用(1)式估计目标值密度(株/每公顷)。首先画以10米间隔的目标探测直方图;找到以直方图显著变化的距离所对应的目标探测数量,就为带宽w0的值。密度值为:图1样线距离10864201020304050探测目标数目即30个/公顷第十八页,共七十五页,2022年,8月28日(一)窄带法特点:计算简单,但并不完全满意因为所有观察目标没有被用到估计;带宽w的确定有点强制性;探测目标率是随着样带宽度逐渐减少。第十九页,共七十五页,2022年,8月28日目视修正法(Smooth-by-eyemethod):为了使窄带法的直方图接近概率密度函数f,首先选择间隔宽度,然后用下面表达式确定一定距离x的直方图高

特点:引入探测密度函数概念;因为间隔宽和目视探测密度的选择带有主观,所以不同人估计的结果不同。建立在相同概念,后面的参数方法能够克服这些不足。(二)目视修正法第二十页,共七十五页,2022年,8月28日(二)目视修正法根据上面图1柱状图,第一个10米间段探测到5个目标,即5/(18×10)=0.028;第二个10米间段探测到7个目标,值为7/(18×10)=0.039;同样地后三个间段值分别为0.017、0.011和0.006,据此画出直方图,如图2由概率密度表达式,种群密度可以表达为图20.080.060.040.020.001020304050样线距离探测密度

(数量/m2)第二十一页,共七十五页,2022年,8月28日(三)参数法由上面两种方法,得知关键是对f(0)和带宽w的估计,假设它们之间的关系为:,由上式知道其中之一,则可估计f(0)或w。假如n个被观察到的调查对象的垂直距离x1,x2,…,xn满足相互独立性。这些从样线到调查对象的垂直距离x被给出时,我们把调查对象被观测到的条件概率定义为探测函数g(x),g(x)是x的单调减少函数,当调查对象在样线上时,概率是1(g(0)=1)。被发现的调查对象的距离x的概率密度函数f(x)可以通过探测函数g(x)和带宽w来表示:f(x)=g(x)/w为了估计f(x),使用最大似然估计方法估计探测函数的未知参数,就可得到f(0)或w的估计值为或。第二十二页,共七十五页,2022年,8月28日(三)参数法广泛应用的探测函数为指数函数形式,即g(x)=exp(-x/w)。最大似然估计为,即探测目标距离的平均值。拟合的指数曲线为图2曲线依据上面的例子可以计算探测函数为指数形式的密度估计为:

=18/[2(16.39)(100)]=0.0055=55(数量/公顷)0.080.060.040.020.001020304050样线距离探测密度g(x)第二十三页,共七十五页,2022年,8月28日(三)参数法探测函数为指数曲线的估计特点:

1、简单容易估计

2、对种群总体估计不理想(曲线可看出)所以人们一般选择“肩形”探测曲线加以修正。如果假设探测函数为半正态函数g(x)=exp(-3.14x2/4w2),参数w的最大似然估计为:以上面为例计算结果为:=25.61,则

拟合的半正态函数曲线见图3。

图3=18/[2(25.61)(100)]=0.0035=35(数量/公顷)0.080.060.040.020.001020304050样线距离探测密度g(x)第二十四页,共七十五页,2022年,8月28日(四)非参数法为了避免参数函数未知的探测函数的曲线形状,可以使用非参数函数估计方法,也就是直接估计概率密度函数f(0)。有两种方法估计f(0):1、核函数方法估计(Kernelmethod)2、富利叶级数方法(Fourierseriesmethod)

第二十五页,共七十五页,2022年,8月28日1核函数方法

式中:h是带宽,xj是第j个观察目标值,K是核函数(这里假设为对称核函数)从式中可以知道关键是估计h,Silverman(1986)给出了h的计算公式:

式中a=min(s,Q/1.34),s为x抽样样本目标观察值距样线的距离的标准差,Q是所有调查目标距离沿样线距离的中位值。依据上面案例,中位值为15,计算的s=12.56,得到a=min(12.56,15/1.34=11.19)则窗宽h=0.9(11.19)(18)(-1/5)=5.65,核函数f(0)的估计为:

调查目标的密度:

第二十六页,共七十五页,2022年,8月28日2富利叶级数法富利叶级数方法估计f(0)

式中:Ak是参数,f(0)为当垂直距离为0时发现目标个体的概率的密度函数;k依次取1、2、3、4、5等自然数;M为k的上限临界值,一般<7;w*为单侧样线宽度或最大垂直距离,本例计算时考虑最大值为异常点,所以取次之为w*,y为探测到的个体数目。

第二十七页,共七十五页,2022年,8月28日2富利叶级数法富利叶级数法的基本思想是根据个体距样线的垂直距离的观测值,以Fourier级数模拟发现概率的密度函数或发现函数,通过后者来计算种群密度。而且,富利叶级数法具有严格的函数拟合有效性的检验()。在计算过程中,k依次取1、2、3、4等自然数,计算f(0)直至。富利叶级数法对很多实际观测值均有很好的拟合,已被广泛运用的方法之一。第二十八页,共七十五页,2022年,8月28日三、样线法样线法总体密度:方差:

式中li是第i样线的长度、R是样线数、L是样线总长度。

(

()2)/第二十九页,共七十五页,2022年,8月28日样线法该法常常用于估计野生动物总体密度数量和病虫害林木密度数量。该法在调查的实际运用中需要满足下列的前提条件:在线概率为一,即线上的目标无遗漏;观测前后目标无移动,即每个动植物都观测到了,并且只观测一次;正确地观测距离和角度;观测是独立进行的。测量距离是到线的垂直距离,如果不能直接测量,可根据目标到观察点的距离和视角(横断线和观察线之间的角度)计算。应该承认,在野外调查时,完全符合上述几个条件是比较困难的。但经验丰富的调查人员可以通过预查、复查等各种有效方法尽可能地减少调查结果的误差。第三十页,共七十五页,2022年,8月28日样线法各种估计法比较

如果能够得到条带内调查目标个体数量,窄带法是最为常用的传统方法,它简单易行,但是样线宽度需要根据生境和调查目标的特点以及调查人员的实际观察能力进行经验估计目视修正法与窄带法相比,它引入了探测密度函数,克服了观察目标没有完全被用来估计的缺点参数方法克服了目视修正法由于间隔宽和目视探测密度的选择带有主观所引起的不同人估计的结果不同的不足非参数法避免了参数法未知的探测函数的曲线形状,非参数法可直接估计概率密度函数选用参数法和非参数法的条件:1)能够得到条带内调查目标个体数量;2)还能够获得目标个体距样线的垂直距离第三十一页,共七十五页,2022年,8月28日四、适应性群团抽样方法(adaptiveclustersampling) 美国学者Thompson(1990)第一次提出了适应性群团抽样理论和技术,目前在美国、德国少数国家开始研究和应用。但还有许多理论和技术问题有待研究。第三十二页,共七十五页,2022年,8月28日

建立试验样地的方法黑龙江省系统适应群团样地设计带状适应群团样地设计简单随机适应群团样地设计第三十三页,共七十五页,2022年,8月28日样地形状设计第三十四页,共七十五页,2022年,8月28日1、定义群团取样(Clustersampling):是一种二水平取样,即首先随机选取样点,在每一样点取一些样方(而不是一个样方)。自适应群团取样(Adaptiveclustersampling或ACS):是一种二水平取样,但是在每一样点取满足事先规定条件(或标准)的一些相邻样方。第三十五页,共七十五页,2022年,8月28日第三十六页,共七十五页,2022年,8月28日第三十七页,共七十五页,2022年,8月28日2.自适应群团抽样的几个概念群团(Cluster):包含有满足条件c的样方(单元) 和边缘样方(单元)邻域或邻近(Neighborhood):

一阶邻域(Thefirst-orderneighborhood):包括本单元和四个相邻的单元

二阶邻域(Thesecond-orderneighborhood):包含一阶邻域和东西南北的单元第三十八页,共七十五页,2022年,8月28日网络(Network):群团中满足条件C的样方和不满足条件c的最初样方。注意与群团概念不同。边缘单元(Edgeunit):不满足条件C且在邻域内的单元临界值(Criticalvalue):当样方总体值yi>=C,在最初样点上增加样方;否则,不增加包含概率(Inclusionprobability):理解为网络Ai所包含单元的概率(不能从抽样数据中计算,实际计算中用偏边缘包含概率(PIP)代替)。非常重要的参数,是计算Horvitz-Thompson估计值的主要参数,计算式为:第三十九页,共七十五页,2022年,8月28日N-总的取样单元数,xk-在网络Ak中总的单元数,n1-最初取样点数选择概率(Selectiveprobability):是计算Hansen-Hurwitz估计值的主要参数第四十页,共七十五页,2022年,8月28日案例第四十一页,共七十五页,2022年,8月28日(1)SRS2)ACS?=1/3(2+54+38)=31.3第四十二页,共七十五页,2022年,8月28日ACS方法均值和方差估计方法目前ACS有三种方法计算平均值和方差Hansen-HurwitzEstimator(HH)基于网络内均值wi,不考虑边缘单元第四十三页,共七十五页,2022年,8月28日(2)

Horvitz-ThompsonEstimator(HT)yk*为第k个网络内观察值和k为最初抽样入样第k个网络的包含概率jk表示最初抽样单元在第j个网络和第k个网络同时入样的包含概率

不考虑边缘单元是因为边缘单元不确定第四十四页,共七十五页,2022年,8月28日(3)Rao-BlackwellEsimator(RB)第四十五页,共七十五页,2022年,8月28日TennetworkssampledNetworktotals(yk*)Nine0’sandonenetworkwithan11Intersectionprobabilities(k)Fornetworkwith1unit,k=0.025Fornetworkwith10units,k=0.226Jointintersectionprobabilities(jk)For2smallnetworks,jk=0.00056Forsmallandlargenetworks,jk=0.00515计算案例第四十六页,共七十五页,2022年,8月28日密度估计:方差估计:第四十七页,共七十五页,2022年,8月28日20406080100120Finalsamplesize0.40.81.21.6EfficiencyABCA

B群团多和小CV:1.345%群团少和大CV:1.344%C群团少和小CV:348%效率比较结果第四十八页,共七十五页,2022年,8月28日适应性群团能提高探测稀疏物种的能力第四十九页,共七十五页,2022年,8月28日3、估计方法研究(1)

Thompson(1990)首先提出修正的Hansen-Hurwitz和Horvitz-Thompson两个无偏估计量,并给出了详细的算法。同时,Thompson(1990)提出了Rao-Blackwell理论的Hansen-Hurwitz和Horvitz-Thompson估计量,但是没有给出算法,是因为计算复杂。Salehi(1999)导出了容易计算的Rao-Blackwell理论的Hansen-Hurwitz和Horvitz-Thompson估计量的算法,并用实例说明了两个估计量算法的详细计算过程。第五十页,共七十五页,2022年,8月28日BrownandManley(1998)为了减少ACS抽样的最终样本数量,提出了限制性的ACS抽样,使用Hansen-Hurwitz和Horvitz-Thompson估计量估计,估计是有偏的SalehiandSeber(2002)认为B&M(1998)的估计有偏,基于Murthy(1957)估计方法,他们提出限制性ACS抽样的无偏估计,并用实例说明了两个估计量算法的详细计算过程。●为了避免选择过多且不能提高估计精度的边缘单元,SalehiandSmith(2005)提出二阶段序贯适应性群团抽样及估计方法3、估计方法研究(2)第五十一页,共七十五页,2022年,8月28日4、适应性群团抽样设计

最初抽样设计方法、标准值、邻域形式和估计方法以及样地调查成本等因素的不同组合将会导致大量不同的适应性群团抽样设计(特别是标准值大小)

最终抽样样本量的随机性或不确定性.因为最终抽样样本量的随机性或不确定性使得人们在调查前无法确定最终抽样样本量以及抽样调查的成本

主要几种限制适应性群团抽样最终样本量的抽样设计第五十二页,共七十五页,2022年,8月28日Adjusttheconditionorneighborhood

Woodby(1998)Adjusttheconditionthatdetermineswhentoadaptivelysample.ThatisforCondition={yi

c},maketheconditionmorerestrictive(i.e.,makecabiggernumber)sothatadaptivesamplingistriggeredlessoften.如何控制最终样本量(1)第五十三页,共七十五页,2022年,8月28日00100100032002010014120070310014021006000040036000071001111005010000010010003200201001412007031001402100600004003600007100111100501000A(yi>0)

B(yi>1)第五十四页,共七十五页,2022年,8月28日限制最终抽样样本量方法

叫停规则(如何确定标准值C)

C大,网络包含的单元数(network)减少以致减少边界单元,对于比较稀疏和低密度的总体,ACS的效率减少。

C小,网络包含的单元数(network)增加以致增加边界单元数,对于比较稀疏和低密度的总体,ACS的效率增加,但是可能无限制的继续抽样,抽样成本也将增加。第五十五页,共七十五页,2022年,8月28日O是最初抽样单元邻域为一次4单元S1,S2和S3为1,2和3阶叫停灰色单元为边缘单元叫停规则适应性群团抽样示意图第五十六页,共七十五页,2022年,8月28日一次4单元和一次2单元叫停群团抽样图对于交叉型的样方(crosspattern),S=3的叫停规则有24个自适应群团样方对于线性型的样方(linearpattern),S=4的叫停规则最大有8个自适应群团样方第五十七页,共七十五页,2022年,8月28日叫停规则的特点自适应群团抽样设计的理论基础发生改变,可能导致不完全的网络(例如网络重叠);发生与总体格局不一致的变化。相反,不使用叫停规则能在一定临界值条件下使网络完全分离,从而形成唯一的总体分化。这种分化(partition)是HH和HT无偏估计的理论基础,因此如果使用叫停规则可能导致偏的估计。第五十八页,共七十五页,2022年,8月28日限制性的适应群团抽样(Brown1994)(1)确定最终样本数量n(2)按照序列形式选择最初抽样单元(3)当最初抽样单元和按照标准值所增加的单元等于或大于(1)所确定的样本数量n就停止估计方法采用修正的HH和HT,发现有偏。然后用Bootstrap方法估计有偏量,用于调整HH和HT的有偏估计第五十九页,共七十五页,2022年,8月28日标准条件>0,邻域形式:一阶4单元,最初抽样方法:SRS,n1=10,当样本容量15停止,最后结果:最终样本量15,但只有n1=5限制性群团抽样过程示意图第六十页,共七十五页,2022年,8月28日二阶段适应群团抽样(Salehi1997)总体单元N=200分成m=8个一级单元样方(PSUs)用不放回SRS方法抽取4个PSUs(如图中1,2,3,8)在4个PSUs中的每个中用不放回SRS方法抽取3个二级单元样方(图中O)最后按照一次4单元邻域和标准值(y>0)增加样方单元可以分成重叠(横跨2个二级单元)和不重叠估计,但不重叠效率更高第六十一页,共七十五页,2022年,8月28日调整的二阶段适应性群团抽样(Muttlak2002)总体N=200用不放回SRS抽取12个样方单元(x)在最大的网络中随机抽取3个样方单元,其余11个小网络计数导出了无偏估计公式第六十二页,共七十五页,2022年,8月28日逆的适应群团抽样(InverseACS)(Christman2001)限制性ACS在稀少分布的总体抽样可能不能产生足够量的或大量的样本量(1)抽样前规定最初抽样单元n1中非零观察值的样本数量k=2(2)如果最初抽样单元数量n1中不满足k=2,则增加最初抽样单元数量,直至满足条件k停止导出了总体均值的估计公式,但是方差估计比较复杂第六十三页,共七十五页,2022年,8月28日限制性逆的适应性群团抽样(ConstrainInverseACS)(Rocco2003)与IACS设计基本相似,不同是对2个非零观察值的处理方法(1)保留满足最后一个非零观察值的最终抽样样本量(2)拒绝满足最后一个非零观察值的最终抽样样本量第六十四页,共七十五页,2022年,8月28日次序统计量和叫停规则的联合抽样设计(Su2003)对抽样总体很难预先确定临界值,而临界值的大小直接影响最终抽样数量,因此为了获得抽样

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论