应用数理统计假设检验非参数检验_第1页
应用数理统计假设检验非参数检验_第2页
应用数理统计假设检验非参数检验_第3页
应用数理统计假设检验非参数检验_第4页
应用数理统计假设检验非参数检验_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用数理统计假设检验非参数检验1第一页,共五十五页,2022年,8月28日(b)原假设与备择假设的地位是不对称的,当“小概率事件”未发生时,就不能拒绝原假设但不等于逻辑上证明了成立,只能说没有充分的证据拒绝。即受保护.都成立。例3.11

(P92)设总体X~N(,1),

又设X1,X2,...,Xn为总体X的样本,样本均值=X1=0.5

,样本容量n=1,α=0.05,提出两种假设的方法,分别如下:第二页,共五十五页,2022年,8月28日

实际中,一般提出原假设要慎重,倾向于不轻易否定,而受保护的程度为α。其越小,小概率事件就越难发生,H0就越难被否定。(c)从另一角度看,既然原假设H0受保护,则对其的肯定相对来说是缺乏说服力的,反之对其的否定则是有力的,且α越小,小概率事件就越难发生,一旦发生了,这种否定就越有力。第三页,共五十五页,2022年,8月28日3.4.2检验中的两类错误

所谓犯错误是指检验的结论与实际情况不符。两类错误:(1)H0

成立,而检验结果表明其不成立——“弃真”;(2)H0不成立,而检验结果表明其成立——“取伪”。记:=P{第一类错误}=P{拒绝H0|H0真}

=P{第二类错误}=P{接受H0|H0伪}检验的本质是构造否定域V,在看样本点是否落入V中。

当然,我们希望犯两类错误的概率都尽可能的小,最好都为零.但当样本容量固定时,是不可能的.在实际问题中,通常的做法是:先限制犯第一类错误的概率,即根据实际情况,指定一个较小的数(如0.05,0.01等),有了的值,从而可确定拒绝域.第四页,共五十五页,2022年,8月28日例3.12

(P94)设总体X~N(,02),02已知,又设X1,X2,...,Xn为总体X的样本,x1,x2,…,xn为X的一组样本观测值,试求对问题:的检验的两类错误的概率。拒绝域:单侧检验第五页,共五十五页,2022年,8月28日3.4.3样本容量确定问题从例3.12看出,当样本容量固定时,若要控制第一类错误的概率,就不能使第二类错误的概率任意小。但从(3.10)式看出,固定α,使n增大,可使β任意小。但实际中,样本的采集是有成本的,或根本无法获得大样本。引出问题:能否确定一个最小的n使得两类错误的概率都在控制的范围。第六页,共五十五页,2022年,8月28日(一)正态总体,已知;的u检验。当等式右端不是整数时,取不小于右端的最小的整数第七页,共五十五页,2022年,8月28日(二)正态总体,未知,考虑的检验。隐式解,通过给定的α和β试算确定n.第八页,共五十五页,2022年,8月28日例3.13一门炮需通过发射试验来进行精度验收,假设命中误差是纯随机的,又横向(或纵向)误差容许的标准差为σ0,制造方要求采用的检验方法要求保证:如果产品合格而被拒绝的概率不大于5%;使用方要求保证,若产品不合格且标准差超过√2σ0而被接受的概率小于10%,试问至少应发射多少发炮弹进行试验,才能满足双方的要求。解:设炮弹落点的横向(或纵向)偏差服从正态分布,利用上式,通过给定的α=0.05和β=0.1,查表进行试算,最后确定n=37.第九页,共五十五页,2022年,8月28日SPSS

软件:参数检验之均值检验Means过程对准备比较的各组计算描述指标,进行预分析,也可直接比较。One-SamplesTTest过程进行样本均数与已知总体均数的比较。Independent-SamplesTTest过程进行两样本均数差别的比较,即通常所说的两组资料的t检验。Paired-SamplesTTest过程进行配对资料的显著性检验,即配对t检验。One-WayANOVA过程进行两组及多组样本均数的比较,即成组设计的方差分析,还可进行随后的两两比较。第十页,共五十五页,2022年,8月28日再通过转换:

将u通过转换为y以后,留下x和y的刻度就是正态概率纸,是非均匀刻度。若是一般正态分布总体,则分布函数的图形,在x-u平面上是一条直线。即:x=σu+μ.

σ不同表示斜率不同,μ不同表示在x轴上的截距不同。(二)检验方法

若假设H0为真,则在概率纸上的坐标点(xi’,Fn

(xi’)(i=1,2,…,m)在一条直线上。若在(近似)一条直线上,就接受假设,否则拒绝。一般中间点靠近即可。第十一页,共五十五页,2022年,8月28日§3.5非参数假设检验

总体的分布类型不知道,仅知是连续或离散型(一)正态概率纸的构造

首先建立一直角坐标系,横轴上刻度为x轴,纵轴上刻度为u值,都为均匀刻度。其中:3.5.1正态概率纸检验工程上常用的简单但粗糙方法,用以判断是否正态分布以及相应的均值和方差估计。

非参数检验随机变量之间的独立性检验总体分布函数的拟合检验{第十二页,共五十五页,2022年,8月28日

基本方法是首先将容量为n的样本从小到大排序得到

,则样本的经验分布函数可表示为当

时,实际上取

,相应的

是N(0,1)的

分位点,此时点

应该近似在直线

上。如果由样本计算出的n个点近似在直线上,则可认为它来自正态分布。一般地,中间的点的位置离直线的偏差不能太大,两头的离直线位置的偏差可以大一些.否则拒绝原假设.讲解P99-101(例3.14)第十三页,共五十五页,2022年,8月28日表3.3编号分组区间组中值频数累积频数累积频率(%)1(-∞,198]196.56652(198,201]199.571310.833(201,204]202.5142722.504(204,207]205.5204739.175(207,210]208.5237058.336(210,213]211.5229276.667(213,216]214.51410688.338(216,219]217.58114959(219,+∞)220.56120100以分组区间的中点(组中值)为横坐标,累积频率为纵坐标,在正态概率纸上描出9个点(如图3-6,见书上P101)第十四页,共五十五页,2022年,8月28日由图形检验大致地判断出总体是服从正态分布后,由于由与直线交点的横坐标即为;又由于,则与直线的交点的横坐标为得到。

除此之外,还有对数正态概率纸,威布Weibull概率纸等来研究相应的分布——定性的方法。(三)未知参数μ,σ2的估计以下介绍数值检验方法(定量方法)。第十五页,共五十五页,2022年,8月28日SPSS

软件:非参数检验之正态概率纸输入数据:确定变量,输入样本.若是分组资料,样本值输入组中值,再加权(DATAWeighBy频数)Q-Q图——一种正态概率纸,检验的命令在GRAPHS菜单,由得到的图形是否为一条直线,可以大致地判断总体是否服从正态分布。P99-101(例3.14)第十六页,共五十五页,2022年,8月28日3.5.2皮尔逊拟合检验拟合检验:H0:X的分布函数为F0(X)

为理论分布,用其去拟合样本值。拟合优度:拟合好坏的标准,即拟合的优良程度。设总体X(一维或多维)的分布完全已知或分布中含有未知参数。为样本值。一般原则:构造检验统计量(样本X与总体分布F0的偏差的度量)及界限D0

。若D超过了D0,就否定,否则接受原假设。对于D的不同定义可以得到不同的检验方法。第十七页,共五十五页,2022年,8月28日(一)理论分布完全已知的情况1设总体X是离散型,取有限值理论分布律F0

原假设

记ni为中等于ai的个数,

(ni称为ai的观察频数),Xa1a2…akPp1p2…pk第十八页,共五十五页,2022年,8月28日而npi称作ai的理论频数。当X的分布为F0,,由大数定理,H0成立时,与相差不大。1900年,皮尔逊建立了统计量

用来衡量理论分布{p1,p2,…,pk}与实际数据的偏差.(相对差异的总和)。第十九页,共五十五页,2022年,8月28日得到了:当为真时,当为假时,皮尔逊还证明了,时,统计量的极限分布为第二十页,共五十五页,2022年,8月28日因此,给定检验水平α上述检验问题的否定域为:

(单侧检验问题)此时,时,

——皮尔逊检验法。讲解例3.15(P104)第二十一页,共五十五页,2022年,8月28日Sig.P值>α=0.05,接受H0SPSS输入变量值及频数,给变量加权选ANALYZE菜单非参数检验二项分布检验,输入检验参数值.第二十二页,共五十五页,2022年,8月28日(2)为一般(连续)的完全已知分布

化作离散型处理(设一维的情况)选取常数,将分成k个互不相交的区间,记作。记为X落入区间的概率.第二十三页,共五十五页,2022年,8月28日记为样本落入区间的频数,理论频数为。皮尔逊检验统计量为在为真时,其极限分布为其余方法与前(1)相同。第二十四页,共五十五页,2022年,8月28日

在许多实际问题中,理论分布类型已知,但其中含有若干未知参数.如:

此时,检验先求下,未知参数的点估计(最大似然估计),记作,再计算(二)理论分布带参数的情况第二十五页,共五十五页,2022年,8月28日用此代替前述的,得到统计量为

Fisher证明了满足一定条件下的点估计,其极限分布为于是,否定域为具体过程见P106,例3.16。第二十六页,共五十五页,2022年,8月28日SPSS输入变量值及频数,给变量加权,选ANALYZE菜单非参数检验中卡方检验,输入检验参数值(Pi).第二十七页,共五十五页,2022年,8月28日(三)方法用于检验独立性如“服新药”与“痊愈”,“吸烟”与“患肺癌”等关系问题。模型:设X的可能取值是1,2,…,r

Y的可能取值是1,2,…,s。对随机向量(X,Y)进行了n次观察,发现出现的次数为(频数)。检验假设

H0:X与Y相互独立。第二十八页,共五十五页,2022年,8月28日当假设为真时,研究问题的数据常排列为“列联表”(见P108)。设:于是检验问题为:第二十九页,共五十五页,2022年,8月28日若分布已知,即已知,构造统计量

但此时分布未知,用极大似然估计量代替得到得到否定域第三十页,共五十五页,2022年,8月28日SPSS讲解例3.17(P110)

输入变量值及频数,给变量加权,选ANALYZE菜单描述性统计中列联表,输入行和列,点复选框中卡方检验进行独立性检验.第三十一页,共五十五页,2022年,8月28日若(X,Y)为连续型随机向量时,作离散化处理。小结

皮尔逊方法使用范围广,对于一维、多维、离散、连续、参数已知、未知、全样本、截尾样本等均适用;但分组处理样本值时,虽然假设分布不成立,但可能划分方式不同,特别对于截尾样本,影响统计量的取值,容易导致犯第二类错误(取伪)的概率增加。第三十二页,共五十五页,2022年,8月28日经验分布函数将观察值排序(非降):定义Fn(x)一致地收敛于F(x).3.5.3柯尔莫哥洛夫检验(一)一般情形第三十三页,共五十五页,2022年,8月28日柯氏提出的检验统计量为其精确分布为已知(P112)。柯尔哥莫洛夫检验假设:H0:F(x)=F0

(x)其中F0

(x)为完全已知的连续型分布函数.第三十四页,共五十五页,2022年,8月28日因为分布函数Fn

(x)

与F0(x)均为X的单调非减函数,所以二者偏差的上确界在n个点X(i)处取得。先求偏差则。若Fn

(x)

与F0

(x)

拟合得好,则Dn的值应比较小,反之,Dn的值较大时,拟合得不好。柯氏检验规则:给定显著性水平α,原假设的拒绝域为即(临界值Dn,α可查附表6得到)。第三十五页,共五十五页,2022年,8月28日例3.18(P114)

对一台设备进行寿命试验,记录了10个数据,从小到大排列为420,500,920,…,2350(小时)。问此种设备的寿命X的分布是否服从θ=1500的指数分布?解:由下表计算可得Dn=0.30,取α=0.05,查表得,D10,0.05=0.40925,即使取α=0.20,D10,0.20=0.32都比Dn大,故接受H0,认为寿命X的分布是否服从θ=1500的指数分布.第三十六页,共五十五页,2022年,8月28日计算结果列表如下:第三十七页,共五十五页,2022年,8月28日SPSS讲解例3.18输入变量值,选ANALYZE菜单非参数检验NParTests,进入One-SampleKolmogorov-SmirnovTest,点复选框中指数分布,进行理论分布含有未知参数的检验.第三十八页,共五十五页,2022年,8月28日(二)正态性检验正态分布未知参数值使用它们的无偏估计值柯氏检验规则:给定显著性水平α,原假设的拒绝域为(临界值可查附表8得到)。第三十九页,共五十五页,2022年,8月28日例3.19对8个产品进行强度试验,所得强度取自然对数后为:0.25,0.53,0.88,1.22,1.76,2.44,3.41,4.90问这批强度数据是否来自对数正态分布?由上表得,查临界值,因,故接受原假设,即认为这批强度数据来自对数正态分布。第四十页,共五十五页,2022年,8月28日(三)指数分布的检验指数分布未知参数的极大似然估计检验规则:给定显著性水平α,原假设的拒绝域为,(临界值可查附表8得到)。第四十一页,共五十五页,2022年,8月28日例3.21记录一台计算机的无故障工作时间七次,数据如下:530,450,120,530,600,650,460。问此台计算机的无故障工作时间是否服从指数分布?由上表得,查临界值,因,故拒绝原假设,即不能认为此台计算机的无故障工作时间服从指数分布。第四十二页,共五十五页,2022年,8月28日3.5.4斯米尔诺夫检验设有连续型总体X,分布函数F(x),样本,经验分布函数Fn1(x)

;有连续型总体

Y,分布函数G(x),样本,经验分布函数Gn2(x)。假定两样本相互独立。相应的经验分布函数为。问题背景:柯尔哥莫洛夫检验实际上是对单样本的分布拟合问题的检验。而在实际中,经常需要对两个总体分布函数进行比较,斯米尔诺夫检验借助于经验分布函数给出了与柯尔哥莫洛夫检验相类似的检验统计量。第四十三页,共五十五页,2022年,8月28日提出假设:斯米尔诺夫提出的检验统计量是:并且证明了,当为真时,有。

第四十四页,共五十五页,2022年,8月28日当H0为真时,D应该比较小,因此斯米尔诺夫检验的规则是:

给定显著性水平α,若时,拒绝H0,否则接受H0

。分位点查柯尔哥莫洛夫检验的临界值表(见附表6),n取不超过其表达式的最大整数.当n很大时(如100),由柯尔哥莫洛夫检验统计量的极限分布可得,其中,临界值柯尔哥莫洛夫检验的极限分布表(见附表7)。即:第四十五页,共五十五页,2022年,8月28日解:检验统计量Dn的观测值为,查附表6临界值,因,故拒绝原假设,即认为这两批零件尺寸分布不相同。例3.22某自动车床加工一种零件,一位工人刚接班时,抽取n1=150只零件作为第一个样本.在自动车床工作了4小时后,他又抽取了n2=100只零件作为第二个样本.测定每个零件的尺寸与标准尺寸的偏差(单位:μm)范围如表3-10(P122)所示,试问在显著性水平α=0.01下,能否认为这批零件尺寸的分布相同?第四十六页,共五十五页,2022年,8月28日计算结果列表如下:偏差范围组中值ni1ni2Fn1(x)Gn2(x)|Fn1(x)-Gn2(x)|[-12.5,-7.5]-101000.0000.0000.000[-7.5,-2.5]-52770.0670.0000.067[-2.5,2.5]043170.2470.0700.177[2.5,7.5]538300.5330.2400.293[7.5,12.5]1023290.7870.5400.247[12.5,17.5]158150.9400.8300.110[17.5,22.5]20110.9930.9800.013[22.5,27.5]25011.0000.9900.010第四十七页,共五十五页,2022年,8月28日

SPSS讲解例3.22

输入变量值,选ANALYZE菜单非参数检验NParTests,进入2-IndependentKolmogorov-SmirnovTest,对指标值加权,点复选框中样本类别且定义组别,进行两独立总体是否同分布的检验.第四十八页,共五十五页,2022年,8月28日3.5.5Shapiro-WilkW检验和D’AgostinoD检验

二者均为正态性检验,利用W和D检验可以检验一批观测值或一批随机数是否来自同一正态分布。H0:总体服从正态分布.(一)W检验()检验步骤:(1)将观测值(样本值)按非降序排列:;(2)计算统计量W的值第四十九页,共五十五页,2022年,8月28日

其中查附表10。(3)对给定的显著性水平α和样本容量n,由附表11查得;(4)作出判断:若,则拒绝原假设,认为样本不服从正态分布。(W≤1)检验原理(略)P124W检验优点:小样本判断总体是否服从正态分布.例3.23抽查用克矽平治疗矽肺患者10名,得他们治疗前后血红蛋白的差(g%)如下:2.7,-1.2,-1.0,0,0.7,2.0,3.7,-0.6,0.8,-0.3试检验治疗前后血红蛋白的差是否服从正态分布(α=0.05)第五十页,共五十五页,2022年,8月28日(二)D检验(50<n<1000)将观测值(样本值)按非降序排列:定义检验统计量D在H0成立之下,有第五十一页,共五十五页,2022年,8月28日近似标准化后

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论