非参数统计论文_第1页
非参数统计论文_第2页
非参数统计论文_第3页
非参数统计论文_第4页
非参数统计论文_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、非参数统计论文题目 非参数统计的运用 姓名 梁增聪 班级 107010202 学号 11 非参数统计的应用摘要:本文主论述了非参数估计的符合检验、秩检验的理解与运用,以及游程检验在人口估计中的运用。关键字:符号检验 游程检验 非参数估计 引言:非参数统计作为数理统计学的分支,是解决很多不知道数据分布的问题的主要方法,通过运用非参数方法可以对事物起建立统计模型和数学描述。 1、非参数估计的理解对计量资料进行统计分析,常对计量资料进行统计分析,常用用方法有两类参数统计和非参数统计。t检验、方差分析和直线相关回归分析都属于参数统计方法。参数统计方法要求的前提条件是,资料应服从或近似服从正态分布, t

2、检验、方差分析还要求方差具有齐性。当前提条件不满足时,就不应选用参数统计方法。符号检验、秩和检验属于非参数统计方法。非参数统计方法对资料不要求必须是正态分布,也不要求方差必须具有齐性。当对资料的分布情况及方差情况不清楚或没把握,或者经过检验不满足正态分布或方差齐性的要求时,就应当选用非参数统计方法对资料进行统计分析。11、非参数估计非参数检验又称分布自由检验主要是不受总体分布的限制,不假定总体分布的具体形式,尽量从数据或样本本身获得所需要的信息,通过估计二而获得分布的结构,并逐步建立对事物的数学描述和统计模型的方法称为非参数估计。1.2非参数估计方法非参数检验不仅对资料分布没有特殊要求,除了用

3、连续数量表示的的资料外,它还可以对样本数据的符号、等级程度、大小顺序等进行比较,加上方法简便,易于掌握,不要求复杂的计算工具,还可查表判断,能处理一些参数法处理不了的问题, 因而应用更广泛,值得学习和推广。常用的非参数统计方法有: 符号检验、秩和检验、秩检验、等级相关检验以及Ridit分析等。符号检验又称优势检验 它既可用于单组,也可用于成对数据, 还可用于两组及多组数据的比较。成对数据检验时, 不得少于6对, 以2O对以上效果较好。符号检验通过一定的规则规定正号和负号的定义,对不能区分上升或下降,即无变化者记作“0”,运用公式来比较各组的优势,得出结论。秩检验(Rank test)用于多组数

4、据的比较,亦有称多组秩和检验与秩和检验一样,也要对原始数据进行统一编秩。求出备组秩和, 再以各组秩和的平方与例教的比值求得的总和来计算H值(或z)'其检验假设是各总体的分布相同完全随机设计资料的比较对单周多组完全随机设计的数据采用的秩检验又称H 检验。当组数K >为3, 每组例散n1 n2 n3均<5时,判断结果需查表7:当K>3,且每组例数均>5时,H分布近似2分布 以=K-1查 2值表判断结果。式中T 为各组秩和n为组号),n 为各组倒数,n为总倒数。报据总n及n1 n2 n3及计算的H 查表, 当H(计算的)<H0.05 ,P>005; H0.

5、05< H< H0.01,p<0.05;H> H0.01,p<0.01.和秩检验相关的秩相关检验系数为通过公式可以求得r的值从而得出R与S之间的相关性。当r>0时表示RS正相关,r<0时负相关(其中-1<r<1)。13非参数估计的优点可以减少模型偏差。传统参数方法依赖于对总体分布的假定,然而现实总体往往并不满足假定的分布形式,这就导致模型与现实相背离,产生模型偏差。而非参数方法完全从数据本身获得所需的信息,无需对总体分布强加假定条件,可以选择与数据最为匹配的模型,从而正了传统参数方法可能导致的模型偏差。具有稳健性。适用范围广。从数据角度看,

6、 非参数方法不仅像参数方法一样可用于处理定距、定比数据, 还可用于定类、定序数据。而定类、定序数据在社会科学领域大量存在, 故其应用范围更广。从模型角度看, 因非参数方法假定条件较少,也无需检验总体的参数,故其模型适应范围更广, 在此具有广泛意义的模型基础上得出的结论也具有普遍意义。简单易操作。非参数统计的基本思想是:在总体分布未知的情况下,根据与原来总体分布无关的秩及其统计量的分布进行统计推断。可见非参数方法的核心是秩, 即数据点从小至大的排列次序, 其含义直观, 易于理解。因此,以之为基础构建的整个非参数统计体系也具有简单易操作的优势。2、非参数统计应用2.1、非参数在人口控制中的应用非参

7、数统计作为数理统计中较为独立的分支,由于具有不受样本分布形式的限制、应用范围广、发生模型错误的可能性较小、有较大的稳定性等特点,尤其是与我国人口量度发展过程特点相适应,提高了对人口政策实施评价的科学性 系统性和准确性。人口自然增长率的置信区间预测和目标拉验(1)人口自然增长率的置信区间预测若随机变量的观察值 x1,x2xn,来自连续分布,且随随机变量观察值y1< y2<.< yn表示该随机样本的次序统计量,又假设每个独立试验成功的概率为P(x<p),则当i<j时,r=P(yi<p< yj) 为至少i次成功但不超过j次成功的概率,以理论上可以表述如下:

8、(1)抽取一个样本,并确定了其次序统计量,(i,yi)就是未知分布的分位数的置信区间,并可计算置信系数r。 我国人口自然增长率人口自然增长率10.8111.2311.5411.6111.8712.0014.0814.2014.3314.3914.4914.55符号y1y2y3y1y5y6y7y8y9y10y11y12当(1)式中,p=05时,分位数则为中位数。中位数y0.5= ( y1+y12)= (10.81+14.55)=12.68(%0)(1)式变为:(2)根据国家统计局公报,1990年末, 全国总人口为114333万人。以此为基数,各种方案的预测结果如表3所示。表3表明,若我国人口控制

9、政策保持1978-1989年水平则:1)到1995年底,我国人口总量将突破J2亿。到本世纪末,人口总量突破1 3亿的可能性存在:2)我国人口自然增长率的中位数为12680。预计到1995年底人口总量将达121768万人,到2000年年初人13总量将达128062万人(2) 目标检验十二大我国制定的人口日标是本世纪末将人口总量控制于12亿以内,尽管我国人口控制政策实施绩效举世瞩目,然由于主客观原因, 发展趋势表明该目标较难宴现 纲要明确指出:我国人口控制的政策目标为今后五年和十年之内,人口自然增长率控制于12 50 以内。本部分将根据19781989年已发生历史绩效, 通过Willcoxon检验

10、技术,对该目标进行检验。Willcoxon检验基于以下两个假设:l)总体的分布是连续的:2)总体对其中位数是对称的。设yi=|xi-0| i=1,2.n其中xi为观察值,0为目标值,yi为绝对偏差量。以yi按递增次序得秩次Ri,再令xi-0>0为正秩次,xi-0<0为负秩次,以正秩次之和ii+1作为检验统计量;然后进行正秩和检验。1978-1989年我国人口自然增长率样本显然符合Willcoxon检验条件:所以W=12+11+6+10+8+9=56.当n=12时,查 WilIcoxon带符号样本秩次和临界值表,得当显著水平为005时:若我国计划生育工作维持现状,则纲要中制定的人口目

11、标将难以实现。(3)我国人口控制政策实施过程游程检验游程检验是一种检验样本观察值随机性的方法,其目的旨在检验过程是否处于随机的控制状态。我们把按中位数划分两部分的长度各为m (本例m=6)的序列aaabbaabbbb中连续出现某一样本观察值的段称为游程,而将每个游程所包含某一样本观察值的个数称为游程长度。式中n=2m从理论上可以证明,当n较大时,总游程数R的分布近似于正态分布NE(R),D(R)其中D(R)= (9)分析表1中人口出生率时序数据,其中位数在19%0-20%0现将其数据按时问次序排列起来。凡小于中位数的以d表示, 大于中位数的以b袁示可得以下序列:aaabbaaabb,根据前述定

12、义以及公式f5(8)f导表5根据以上结果可以检验以下假设:H0:19781989年我国人口生育过程处于统计控制状态;H1 :19781989年我国人口 育过程脱离控制状态, 过程的分布发生 偏移。从以下两个方面来检验H0假设。1) 用最大游程长所必须的最大样本容量来进行检验查“最大游程长k所必须的最大样本容量 值表 可知, 当游程长等于5时,所必须的最大的样本容量为l0 本文的样本容量 12, 且最大游程长度为4, 故在5 的水乎上不显著,不能拒绝H0假设。2) 用整个排列的游程总数来进行检验从表7可知,R=4,E(R)=7, 所以R-E(R)=4-7=3,根据上式因为P|R E(R)|>

13、;2R =O 0445,而|R- E(R)|=3<2×165=3.20,所以在445 的显著水平上不显著,故也不能拒绝 H0假设。综上所述,可以认为19781989年我国人口生育过程处于控制状态。同理可检验得:19491977年我国人口生育过程脱离控制状态,过程分布发生了偏移。以上检验证明:我国采取的一系列人口控制政策的措施是有效的 人口量度发展过程具有能控性2.2、秩和检验的运用在研究不用饲料对雌鼠体重增加是否有差异时有如下表:饲料鼠数高蛋白121341461041191241611078311312997123低蛋白7701181018511213294假设检验位H0:&#

14、181;1=µ2 H: µ1µ2先将两组数据混合从小到大排列,并注明组别与秩如下表:体重7083859497101104107112113组别低高低低低高高高低高秩12345678910体重118119123124129132134146161组别低高高高高低高高高秩111213141516171819令Y为低蛋白组,n=7,X为高蛋白,Ri是低蛋白在混合样本中的秩:WY=50,根据式子可得WXY= WY - =22,当m=12,n=7时正态分布的临界值q0.05为46,因为p=0.1003>0.05没有显著差异,所以可以认为高蛋白和低蛋白没有显著差异。非参数统计方法的基本思

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论