SAS备课笔记_非参数检验_第1页
SAS备课笔记_非参数检验_第2页
免费预览已结束,剩余16页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、非参数检验非参数统计分析方法(Non-parametric statistics )是相对参数统计分析方法而言的,又称为不拘分布(distribution-freestatistics) 的统计分析方法或无分布形式假定( assumption free statistics )的统计分析方法。其中包括Wilcox on 秩和检验、Kruskal-Wallis秩和检验、friedma n 秩和检验等,它们分别对应不同设计类型的资料。SAS 中对于非参数分析方法功能的实现主要由npar1way 过程来完成,从过程名字就可以看出,在此过程的处理进程中,只能一次指定一个因素进行分析。下面我们先来了解一

2、下npar1way 过程的语句格式以及各语句和选项的基本功能。一、叩 ar1way 过程语句格式简介npar1way 过程属于 SAS 的 STAT 模块,对于统计学教科书上所涉及的非参数统计方法几乎都可以通过 此过程来完成。Npar1way 过程的基本语句格式如下。PROC NPAR1WAY 选项 ;BY 变量名;CLASS 变量名;EXACT 统计量选项 ;FREQ 变量名;OUTPUT ;VAR 变量名;RUN; QUIT;Proc npar1way 语句标志 npar1way 过程的开始,默认情况下(不列举任何选项):npar1way 过程对最新创建的数据集进行分析,将缺失数据排除在分

3、析过程之外;执行方差分析过程(等同于ANOVA 选项),对样本分布位置的差异进行检验(与选项WILCOXON, MEDIAN, SAVAGE 以及 VW 等效),并进行经验分布函数检验(等同于 EDF 选项)。此语句后可用的选项见下表。Proc npar1way 语句选项及其含义选项名称选项功能或含义AB运用 Ansari-Bradley 评分进行分析DATA 数据集名指定要进行分析的数据集MEDIAN运用中位数评分进行分析,即进行中位数检验NOPRINT禁止所有的输出,用在仅需要创建输出数据集时ST运用 Siegel-Tukey 评分进行分析ANOVA对原始数据进行方差分析EDF要求计算基于

4、经验分布的统计量MISSING指定分组变量的缺失值为一有效的分组水平SAVAGE运用 Savage 评分进行分析VW运用 Van der Waerden 评分进行分析计算CORRECT=NO在两样本时,禁止Wilcox on 和 Siegel-Tuke y 检验的连续性校正过程KLOTZ运用 Klotz 评分进行分析MOOD运用 Mood 评分进行分析SCORES=DATA以原始数据为评分值进行分析WILCOXON对两样本进行 Wilcox on 秩和检验,对多样本进行Kruskal-Wallis 检验1. exact 语句exact 语句要求 SAS 对指定的统计量(选项)进行精确概率的计算

5、。其后的统计量选项可为以下项目, 分别对应相应的统计计算方式(可参见上表) 。AB, KLOTZ KS MEDIAN MOO, SAVAGE SCORES=DATAST, WILCOXQN VW 等。运算选项为精确概率的计算过程指定一些控制项目,如选项“me”要求以 Monte Carlo 方法计算精确概率。2. output 语句output 语句与其它过程中相应的语句大同小异, 不同之处在于语句最后的选项。 此处的选项绝大多数 包括在上表中,指定在输出数据集中包含所指定项目所对应的统计量。3. var 语句var 语句用以指定要进行分析的变量,变量必须为数值型。若省略此语句,SAS 将对除

6、 by 语句、class语句以及 freq 语句中指定的变量之外的所有数值型变量进行分析。二、不同类型资料的非参数检验方法1. 两独立样本差别的秩和检验两独立样本的非参数检验是在对总体分布不了解的情况下,通过分析样本数据,推断样本来自的两个 独立总体的分布是否存在显著差异,一般来说是推断两个独立总体的均值或中位数是否存在显著差异。关 于样本是否为独立的, 主要看在一个总体中抽取样本对在另一个总体中抽取样本有无影响。如果没有影响,则可以认为这两个总体是独立的。零假设H0:样本来自的两独立总体的分布没有显著差异检验方法有多种:( 1)两独立样本的威克逊等级和检验( Wilcoxon 秩和检验) ,

7、也被称为 Mann-Whitney U 检验。曼 -惠 特尼U 检验(Mann-Whitney U ),该检验主要是通过对平均秩的研究来实现推断的。其基本思路是:首先,将两组样本数据(Xi,X2,Xm)和(丫1,丫2,Yn)混合并按升序排序(m 和 n 分别为两组样本的样本容量,求出每个数据各自的秩R;然后,分别对(Xi,X2,Xm)和(Y,Y2,Yn)的秩求平均,得到两个平均秩Wx/m和Wy/ n,如果这两个平均秩相差甚远,则倾向于拒绝零假设。(2)两独立样本的 K-S 检验(Kolmogorov Smirnov Z),该检验首先将两组样本混合并按升序排序; 然后,分别计算两组样本秩的累计频

8、数和每个点上的累计频率;最后,将两个累计频率相减,得到差值序 列数据。( 3)沃尔德沃尔福威茨游程检验( Wlad-Wolfwitz runs ),该检验将两组样本混合并按升序排序,在 数据排序的同时,两组样本的每个观察值对应的样本组标志值序列也随之重新排列;然后,对这个标志值 序列求游程。如果样本所属的两总体的分布形态存在较大差距,那么计算出的游程数会相对比较小。如果 游程数比较大,则应该是由于两样本数据充分混合的结果,那么它们的分布应该不存在显著差异。【例 1】下表为来自两个样本 A、B 的测量数据,经检验知两样本方差不齐,试做非参数检验比较两组 数据的差别。A组7142236404863

9、98B组3561017182039两独立样本 A B 测量数据【程序】对该资料,应选用 Wilcoxon 秩和检验(rank sum test )方法,编制 SAS 程序如下: datasasuser.data10_01;do g=1 to 2;in put x;output;en d;datali nes;7 3 14 5 22 6 36 1040 17 48 18 63 20 98 39proc n par1way wilcoxon; class g;var x;run;程序中因素g”分组因素,“1 ”代表 A 组,“ 2”代表 B 组,“ x”为待分析的变量。Proc npar1way

10、语句后的选项 “ Wilcox on 扌旨定 SAS 进行 Wilcox on 秩和检验。【结果】NSum ofScoresExpected Under HOStd Dev Under HOMeanScore1639.0踱0配辟鬲0511J2E02847.068.08.5213055.8750V Icoxon ScoresSums) for Var iable xCI ass i f i ed by Vari abIe書W i Icoxon Two-Samp Ie T estStatistic.OOQONormas Approximsition7.One-Sided Pr 2Two-Sided

11、 Pr |Z|2.152S0,0t570.0313t Approx I mat ionOne-Sided Pr Two-Sided Pr zz0.024C0.04S0Lincludes a continuity correct ion of 05,Kru$kal-VlIls TestChi-Square4.640DF1Pr Chi-Square0*0274SAS 给出两组数据的基本信息(样本量、秩和等);给出在零假设下各组统计量( Sum of scores 项)的期望值(Expected Under HO 项)及标准差(Std Dev Under HO 项),最后还给出以近似 z 检验以及近

12、 似 t 检验所得的统计量和所对应的单、双侧概率值。另外,默认状态下,SAS 同时给出 Kruskal-Wallis检验的结果。所不同的是,在两样本量相同时,SAS以秩和较大者作为对象统计量进行概率值的计算,而非医学统计学教材上所说的以较小秩和为对象统计 量。在两样本量不同时,SAS 以样本量较小组的秩和为对象统计量,这一点则与教材上的相同。如果去掉wilcoxon”:data sasuser.data1O_O1;do g= 1 to 2;in put x;output ;end ;datali nes;7 3 14 5 22 6 36 1040 17 48 18 63 20 98 39pro

13、c n par1way ;class g; |var x;run ;则 SAS 给出所以方法的执行结果:=Nparlway: SAS系统Class Means詡Wilcoson Scores7 Vilcoscn Tvo-Sajiple Test習Iruskal-Vallis Test3 Ifedian Scores3 Median Tvt)-Sajiple lesto| Median One-Vay Analysis囲Van der Vaerden Scoresm| Van der Vatrden Ivo-Sample lest Vw dei VaerdenOne-Vay Analysis3

14、Save Scores詡5邸哄克Tvo-Sanple fest3 Savage One-Vay AnalysisKolmogoror-Siiirnov leit晋KolffniEorcv-Snirnov ITO-Saaple StatisticsSjCramer-von Ii删TestCrwr-von Hises Statistics勺Diipu Test2 Kuiper TvQ-Sajiple StaUsticsSO!Fwiilhe MIWY Procedurefedian Scores (Ruiber of Points Median) for VariablexClMiified by

15、Variable ciN1 02 8Statistic6,D21.93One-Sided Pr 20.B4WSided Pr 12O-DMedian One-lay AnalysisChi-Square 8J&00 DF 1 PrChi-Square 0.D528产方法生产,每人平均日产量(件)资料如下:旧方法: 20 31 27 18 10 26 39 45 41 24 22 23 14 11 32 37 40 46 49 55 54 19新方法: 36 39 31 25 26 28 20 21 24 21 58 55 56 41 37 49 44 40 12 16 15 24 23 28

16、11问两种方法对日产量影响有无显著差异(:-=0.05) ?【数据摆放】ST1 11 111111 B11 31Nd1N 杳1N31泄科:杆1刃1311321371却1!14 11as16119JL5115511 12122L G21 G2 1【程序】proc n parlway data =sasuser.data10_02 wilcoxom;class g; 1var x; |run ;【运行结果】The NPAR1WAY ProeaduraWi IcoxonScores (Rank SUBS) for VariablexChsslfled b#Vfl.riible (W i Icoxon

17、 Twar-Sample TestStatistic524.5000Morm?L I ApprOx i w I iiz-0.0640flhf Sided Pr izl0-9490t Approx 1 mm七i cnOheSided Pr 0.4746Two-Sided Pr、IZI0.949SZ includes a con tin uitycoir rec tiChi-Square0.9405NScria ofScoresEpecledUnder HQStd b*vUnder HQMeemScore122624.60AB.aaiioi23,84080922500.046.88110124.1

18、40000Average scares were usedfor t i&s 【例 2】为了鉴别新旧两种生产方法对生产效率的影响,随机抽取了 22 人用旧生产方法生产,25 人用新生【例 3】用某药治疗不同病情的老年慢性支气管炎病人,疗效见下表,比较该药对两种病情的疗效。某药对两种不同病情的支气管炎疗效疗效单纯型单纯型合并肺气肿控制6542显效186有效3023近控1311【程序】对于此例,将疗效看成待分析的变量X,从“控制”到“近控”分别对其赋值 1、2、3、4,病情则作为分组因素,同时需引入一个频度因素f,以代表不同取值状态下x 的频数。编制程序如下:data sasuser.data10

19、_03;do x=1 to 4;do g=1 to 2;in put f;output;en d;en d;datali nes;65 42 18 6 30 23 13 11proc n par1way wilcox on; class g;var x;freq f;run;【结果】程序和前例的基本相同,只根据资料特点增加了freq 语句。提交程序,运行结果如下。The NPARIW ProcedureVf ikoxon Scores (Rank Sims) forVriftble xCIif i ed bv Vftriftble竄Sum ofScoresExpectedUnder HOStd

20、 &evWider HOMean Score11託12855.5013167.0389.77R4R?102.92142923780.5095B9.B$37764221Q7M7腔脚Average scares were used for ties.i IcoxoriTwij-S&mple Te?tStat ist itsyeo.EoNormal ApproxinialionZ0.5413Ore-Sided Pr M鸚41Two-Stded Pr ill0.5963t Approxi mit ionOne-Sided Pr ,z,0.2344TvcrSidad Pr |2|2 Ircludes $

21、 writcorrect Ion of 0.S.Krjskal-alI is TestChi-SquareDFPr Chi-Squars2.配对设计资料的秩检验0.2944I0.5874配对设计资料一般采用配对t检验方法进行分析,但若配对数据差数的分布非正态分布,但其总体分布基本对称,则可采用Wilcox on 符号秩检验(sig ned rank tes)作为配对t检验的替代方法。Wilcox on 符号秩检验功效很高,在数据满足配对t检验的要求时,符号秩检验的功效可达配对t检验功效的 95%。SAS 中符号检验(sign test)和符号秩检验的功能不是在n parlway 过程中实现,而

22、是通过uni variate 过程来实现的。可能因为这两项功能涉及的是关于单变量分析的缘故。【例 4】采用配对设计,用某种放射线的A,B 两种方式分别局部照射家兔的两个部位,观察放射性急性皮肤损伤程度,结果见下表。试用符号秩检验比较A,B 的损伤程度是否不同。家兔皮肤损伤程度编号方式 A方式 B139552425435155443475555364563722528484494048104555114032124957【程序】data sasuser.data1O_4; in put x1 x2;d=x1-x2; datali nes;39 5542 5451 5543 4755 5345 6

23、322 5248 4440 4845 5540 3249 57proc uni variate locco unt; var d;run;此例中,我们须对两次测得数据的差值进行单变量分析,所以数据步中用到赋值语句“d=x1-x2 ; ”cUni variate 过程在默认状 态下即给出关于待 分析 变量的符号检验以 及符 号秩检验结果,“ proc uni variate ”语句后的“ loccou nt ”选项指定 SAS 给出样本数据在系统指定位置参数(默认值为0)两侧的分布情况,即相当于对符号检验结果的进一步描述。提交执行以上程序,结果如下。The SAS System17:68 Tue

24、sday, April 27, 20061The UNIVARIATE ProcedureVarlab 1e:dMomentsBasic Stat 1st IcaI MeasuresVar i abiIrtyTests for Local ion:Mu0=0Locat i on Counts:Mu0=0.00CountValueNum Obs MuONUHOBA MUCNum Obs HPr RPr =JMS0.C2250JJ600,0220the smaI of 2 Nodes种测验方法,结果如下表所示。试在0.05 的显者水平下,检验是否可宣称这两种方法无显者差异。序号1234567891

25、0111213方法一989411110210810592881009912511792方法二10510311398112109979510710310410693【数据摆放】112A98105-194L03-91111132102弼I0BH2-A105IQ9-492978895-7100107-799103-412510421117106119293-1【程序】-proc univariate data=sas口set loccount:var d;run;【结果】Q.E5630.0923(J,27BS位宜计数:MuGO.OO计数检验万法简介:1. 符号检验(Sign),该方法利用正、负符号的

26、个数多少来进行检验。首先,将第二组样本的各个观察 值减去第一组样本对应的观察值,如果得到差值是一个正数,则记为正号;差值为负数,则记为负号;然 后计算正号的个数和负号的个数,通过比较正号的个数和负号的个数来判断两组样本的分布。如果正号的 个数和负号的个数大致相当,则可以认为两相关样本数据分布差距较小;正号的个数和负号的个数相差较多,可以分为两相关样本数据分布差距较大。符号检验得名于其资料是用加减号而不是用定量度量。它对 于那些不能或不适宜用定量测量而能将每一对的两个成员分出等级的问题研究特别有用。2. 符号平均秩检验(Wilcoxon),该检验首先按照符号检验的方法,将第二组样本的各个观察值减

27、去第一组样本对应的观察值,如果得到差值是一个正数,则记为正号;差值为负数,则记为负号,同时保存差 值的绝对值数据;然后将绝对差值数据按升序排序,并求出相应秩;最后分别计算正号秩总和、负号秩总 和以及正号平均秩和负【例 5】 有两家公司设计了他们自已的智商测验方法,一位心理学家随机地选取13 个人同时接受这两UOT M M_ Chl-Sre0,0073【例 7】假设有个地区的领导想要比较该地区四个村的各户的人均年收入水平,于是在这四个村中随机抽取样本,计算各户的人均收入,得到下表中的24 个数据。分析这四个村的年收入是否存在显著差异。(a=0.05)四个村六户人家的年收入水平村 17689528

28、709401003500村 29968967858759361200村 3789759752658635800村 4892698651678895925【程序】class g;var in come;run ;【结果】The NPAR1VAY Procedure17i Icoxon Scores tRahk Sums for Variable incomEClassified by Variable cgum of ScoresExpectedUnder HOSidOCTUnder HOMeeinScore187.075.016.014.5000002G106,075.01517.6$6673

29、E44.075.015.Q7.3333334663- 075.015.010.500000Kruskabff&l I Is T&st【结第一部分是 “Wilcoxon Scores (Rank Sums) for Variable x验分析结果,而 P 值的计算这里所依据的是卡方分布。,第二部分是Kruskal-Wallis Test”秩和检proc n par1waydata=sasuswilcoxonChi*Square?.3667DF3Pr Chi-Square0.0611三、几条重要提示1. Nparlway 过程对于缺失值(missing value)的处理如果缺失值出现在反应变量(

30、var 语句指定的变量),nparlway 过程会将该条记录排除在分析之外。默认情况下,nparlway 过程也会将分类变量中出现缺失值的记录排除出分析过程。如果指定选项“missing ” , nparlway 过程则将分类变量中出现的缺失值当作一个单独的水平进行处理。对于 by 语句中指定的变量,缺失值将被默认地当作一个独立水平进行处理。对于 freq 语句中指定的变量,出现缺失值的记录一定会被排除出分析过程。2. nparlway 过程对于同秩(ties)问题的处理方式Nparlway 过程处理同秩问题的方式在任何一种非参数检验方法中均相同,即无论相同秩次的记录出现在同一组或不同的组中,

31、均给它们分配相应的平均秩次,再根据这些平均秩次进行各种计算,跟教科书上 介绍的方法一样。npar1way 过程对于此问题的处理到此为止,不像教科书上介绍的那样对计算所得的统计量再进行某种校正。对于相同秩次出现较少的数据,这一点对分析的结果影响不大,但对于同秩现象较多的数据,分析 结果的偏差就不容忽视,尤其是对于那些近似检验来说更是如此。处理这一问题的理想办法就是计算精确 概率,npar1way 过程提供了实现这一功能的途径,即exact 语句。均值比较的方法与程序检验法独立组配对组独立样本 t 检验配对差值 t 检验对应程序:对应程序:参数检验Proc ttest (data=数据集);Dif

32、=m-fClass 分组变量名;Proc uni variate (data=数据集);Var 因变量名;Var 因变量名(Dif);Run;Ru n;Wilxonxon 秩和检验Wilxonxon 秩和检验对应程序:对应程序:非参数检验Proc n par1way (data 据集)Wilcox on ;Dif=m-fClass 分组变量名;Proc uni variate (data=数据集);Var 因变量名;Var 因变量名(Dif);Run;Ru n;某瓶装纯净水厂商生产的产品标称净含量为600ml,现质量监督管理部门对该产品是否合格进行抽检,得到表 5-1 所示的抽检数据(详见pr

33、oc uni variate var Net; | run ;某调查公司在某项调查中收集到76 个观测值的样本数据(详见KS.sas7bda)。试分析该数据的总体分布是何种分布。proc uni variate data =sasuser.KS n opri nt ; var Observed;histogram / no plotnorn al(mu=est sigma =est)log no rmal(zeta =est sigma =est theta =est)exponential( sigma =est theta =est)weibull (sigma =est c=est th

34、eta =est);run ;data =sasuser.watermu0=600 ;【练习 1】某个厂家在生产过程中需要使用某种原材料,有两个供货商所报价格有差异,但都称其提供的 原材料能够达到生产厂家的技术指标。随机抽取这两个供货商的产品,实验得到其技术参数,数据如下表所示。问这两个供货商提供的产品是否有显著差异(a=0.05)?两个供应商提供原料的技术指标供应商 159697563675871705465供应商 269646573656878755667(两独立样本的非参数检验)【程序】procn parlwaydata =sasuser.data10_08wilcox onclass

35、g;var x; |run ;【结果】The fPARIW ProcedureWi Icoxan Scores (Reink Suns) for Variable xCl ass if Ied by Variable g蛊NSum ofScoresExpected Under HQStd Dev Under HOKeanScoreIia84.50105.013J338888M50210115.50105.013.19389811.560Average scores were used for tlesI i 1 coxon To-Saiiiple Tect94.5000Norma 1 Approx(mat(onZ-0J579One-Sided Pr IZl0.4465t Approx imat ionft

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论