第6章描述性统计总结_第1页
第6章描述性统计总结_第2页
第6章描述性统计总结_第3页
第6章描述性统计总结_第4页
第6章描述性统计总结_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章描述性统计总结第6章描述性统计总结第6章描述性统计总结第6章描述性统计与t、u检验大纲:在SAS系统中,有多个过程能够进行描述性统计量的计算,常用的有:MEANS、SUMMARY、TABULATE和UNIVARIATE等。这些过程用来计算简单的描述统计量,可计算均值、标准差、方差、变异系数、标准误等。TTEST用于进行t、u检验。从科研试验和生产实践中获得的数据经常是纷乱无章的,而实质上变量的散布多拥有必然的规律性,表现出数据的集中趋势和失散特点。反响集中特点的统计量有平均数、众位数和中位数等,反响失散特点的统计量有极差、标准差、变异系数和方差等,对散布形状的胸襟一般采用峰度系数和偏度系数等。对这些统计量的计算是描述数据的较好方法。MEANS供应单个或多个变量的简单描述(单个变量、成对数据平均数显然性检验)。SUMMARY供应单个或多个变量的简单描述,产生输出文件。TABULATE供应单个变量的详细描述。UNIVARIATE供应单个变量的详细描述和对其散布种类的检验。TTEST用于进行t、u检验(不行对数据平均数检验)。在SAS系统中,有多个过程能够进行描述性统计量的计算,表6.1给出了几个常用过程能够解析的各种统计量和一些其他重要特点。这些过程迥然不同样,有些功能能够互相代替。§6.1MEANS过程一、过程格式PROCMEANS[选择项][统计量要点字列表]];VAR变量表;要解析的变量名列BY变量表;按变量名列分组统计,要求数据集已按变量名列排序CLASS变量表;按变量名列分组统计,不要求数据集排序FREQ变量表;表示该变量为解析变量的频数WEIGHT变量表;表示解析变量在统计时要按该变量权重ID变量表;输出时加上该变量作为索引OUTPUTOUT=数据集[统计要点字=变量名];指定统计量的输出数据集名要点字=<新变量名列>...];指定统计量对应的新变量名6-1二、选择项说明DATA=SAS数据集将计算出的统计量输出到一个数据集。全部PROCMEANS语句中可用统计量均可在此指定。NOPRINT说明不输出任何描述性统计值。MAXDEC=n指出MEANS用于输出结果的最大小数位(0~8),缺省值为7。FW=nn为输出统计量时的字段宽度,缺省值为12。VARDEF=N|DF|WGT|WDF指定方差计算所用的分母。N表示观察值的总数DF表示自由度N-1WGT表示权重和WDF表示权重和减1。MISSING指定MEANS过程将缺失值视为一个特别分组办理,否则缺失值将被剔除。统计量用来指定进行计算的描述性统计量(见表6.1)。缺省统计量选择项时,只输出N、MIN、MAX、MEAN、STD。三、MEANS过程中常用的统计量要点字有:基本统计量NMEANSTDCVSUMVARRANGMINMAXUSSCSS与假设检验有关的统计量STDERR(标准误)TPRT(与t对应的p值)LCLM(可信区间下限)UCLM(可信区间上限)四、PROCMEANS过程中的其他语句VAR语句:列入变量表的数据集变量将被MEANS过程解析、若无次句,则计算输入数据集中除BY、ID、CLASS、FREQ、WEIGHT语句中的变量之外的全部变量的统计量。BY语句:指定变量进行分组办理。(早先必定按BY语句指定的变量将输入数据集按升序排序)CLASS语句:将数据集中全体观察值按CLASS语句中变量进行分组、解析办理。BY与CLASS语句的作用都是按指定的变量进行分组解析办理,但二者有不同样:①分组层次不同样:BY语句把全部观察按BY指定的变量分组;CLASS是在BY语句的基础大将BY分组再进一步行划分,进行分组变量的组合,产生多种凡是分组。比方:CLASSABC;则按指定变量A、B、C各种组合,能够有8种方式:不分组、按变量A分组、按变量B分组、按变量C分组、按变量A和B分组、按变量A和C分组、按变量B和C分组、按变量A、B、C分组。②按BY语句只有按变量A、B、C分组,且使用BY语句时,早先将数据集按BY后面的变量排序。而CLASS无此要求。REQ语句:指定某一变量,表示同一观察的出现次数。6-2OUTPUTOUT=数据集:将MEANS过程的结果输出给指定的数据集中。六、结果讲解在默认的情况时,means过程会输出绝大部分统计量,此时的输出结果以下:Variable=变量名变量标签Moments和矩有关的统计量Quantiles(Def=5)分位间距统计量N样本量SumWgts权重总和100%Max最大值Mean均数Sum总和75%Q375%百分位数StdDev标准差Variance方差50%Med50%百分位数Skewness偏度系数Kurtosis峰度系数25%Q125%百分位数USS未校正平方和CSS校正平方和0%Min最小值CV变异系数StdMean标准化均数T:Mean=0变量整体均数为0的t检验Pr>|T|t检验的p值Range全距Num^=0变量值非0的例数Num>0变量值大于0的例数M(Sign)变量整体均数为0的符号检验Pr>=|M|符号检验的p值表6.1SAS系统四种常用的描述性统计过程的比较统计量MEANSSUMMARYTABULATEUNIVARIATE1N无缺失值的观察值个数√√√√2NMISS出缺失值的观察值个数√√√√4MEAN平均数√√√√5SUM总和√√√√6MAX最大值√√√√7MIN最小值√√√√8RANGE全距(=最大值-最小值)√√√√9SUMWGT权重和√√√√10USS未更正的离差平方和√√√√11CSS已更正的离差平方和√√√√12VAR方差√√√√13STD标准差√√√√14CV变异系数√√√√15STDERR平均数的标准误√√√√16T学生氏t值√√√√17PRT大于t值的概率√√√√18SKEWNSS偏度系数√√√19KURTOSIS峰度系数√√√20CLM置信区间的上下限√√21LCLM置信区间的下限√√22UCLM置信区间的上限√√23PCIN频数百分数√24PCTSUM和的百分数√25Q3上四分位数或第75百分√位数26MEDIAN中位数或第50百分位数√6-327Q1下四分位数或第25百分√位数28QRANGE上下四分位数之差,即√Q3-Q229P1第一百分位数√30P5第五百分位数√31P10第十百分位数√32P90第九十百分位数√33P95第九十五百分位数√34P99第九十九百分位数√35MODE众数√36NORMAL正态性检验统计量√37PROBN正态性检验的概率√38SIGNRANK符号秩检验统计量√39PROBS符号秩检验的概率√40MSIGN符号检验统计量√41PROBM符号检验的概率√其他特性产生报表输出√×√√输出到SAS数据集√√×√含CLASS语句√√√×含BY语句√√√√七、应用实例例6.1datanew;inputname$ageheigweighr;cards;张三281.7560李四271.7258王五311.8065赵六301.8162procmeans;procmeansmaxdec=3fw=8meanstdminmaxrangesumvarusscvstderrtprt;run;例6.2检查两个小麦品种的每穗小穗数,每品种计数10个麦穗,A品种小穗数为:13,14,15,17,18,18,19,21,22,23;B品种小穗数为:16,16,17,18,18,18,18,19,20,20。试计算两品种的基本统计量。程序及说明DATA;6-4DOpinzh="A","B";DOi=1TO10;INPUTsuishu@@;OUTPUT;END;END;CARDS;1314151718181921222316161718181818192020PROCMEANSNMEANMAXMINRANGEVARSTDCVMAXDEC=4FW=8;VARsuishu;BYpinzh;RUN;输出结果及说明AnalysisVariable:SUISHUPINZH=ANMeanMaximumMinimumRangeVarianceStdDevCV观察值平均数最大值最小值极差方差标准差变异系数1018.000023.000013.000010.000011.33333.366518.7028PINZH=BNMeanMaximumMinimumRangeVarianceStdDevCV1018.000020.000016.00004.00002.00001.41427.8567若是只对其中的一个品种进行解析,能够采用以下程序:DATAnew;INPUTsuishu@@;CARDS;13141517181819212223PROCMEANSNMEANMAXMINRANGEVARSTDCVMAXDEC=4FW=8;RUN;例6.3:DATANEW;INPUTNA$SEX$PENJ$;CARDS;A1F785A2M873A3M904A4F855A5F754PROCPRINT;PROCMEANS;CLASSSEXNJ;PROCSORT;BYSEX;6-5PROCMEANS;BYSEX;RUN;例6.3已知某水样中含CaCO3的真值为20.70mg/L,现用某法重复测定该水样11次,得其含量(mg/L)分别为:20.9920.4120.1020.0020.9122.6020.9920.0020.4123.0022.00。问用该法测得CaCO3含量所得的整体均数与真值之间的差别可否有显然性。DATAnew;INPUTx@@;y=(x-20.7);cards;20.9920.4120.1020.0020.9122.6020.9920.0020.4123.0022.00;PROCMEANSmeanstderrtprt;vary;run;结果以下:AnalysisVariable:YMeanStdErrorTProb>|T|0.33727270.31707781.06369070.3125八、缺失数据办理1.VAR变量:MEANS过程再开始计算某一变量的描述性统计从前,先将那些在变量上出缺失的数据的观察删除。被删除的观察若在其他变量上没出缺失数据,则会纳入其他变量的计算过程中。2.变量:若观察在BY变量上出缺失数据,则MEANS过程会为这些观察另形成一个分组,同样进行计算解析。3.FREQ变量:若观察在FREQ变量上含出缺失数据,则观察将被删除。4.WEIGHT变量:若观察在WEIGHTQ变量上含出缺失数据,则MEANS以0办理。6.2TABULATE过程TABULATE过程以表格的形式完成描述性统计。表格可达三维:页、行和列,表格形式可由用户自由安排,所以,该过程既是一个统计解析过程又是一个报表过程。6-6一、过程格式PROCTABULATE[选择项];CLASS分类变量表;VAR分类变量表;FREQ变量;WEIGHT变量;FORMAT变量格式;LABEL变量=标记;KEYLABEL要点字="文本";TABLE表达式[,表达式][,表达式][/选择项];二、语句说明PROCTABULATE语句、TABLE语句、VAR语句和CLASS语句是必需的。PROCTABULATE语句选择项DATA=数据集指定所使用的数据集,缺省则使用最新建立的数据集。MISSING要求将分类变量的缺失值作为有效水平,否则,解析中将不包含分类变量出缺失值的观察值。FORMAT=格式名规定表格输出的宽度,缺省值为12.2。ORDER=FREQ|INTERNAL|DATA|FORMATED规定分类变量下各种其他输出次序。FREQ依各种型次数排序,INTERNAL按英文字母先后排序,DATA按在数据集内出现的次序排序,FORMATED按规定的格式排序。FORMCHAR="11个依次排列的画表格的符号"缺省值是:"||+|"。TABLE语句TABLE语句是整个TABULATE过程的核心。一个TABLE语句最多可定义三个表格表达式。这三个表达式分别表达了输出表格的页、行和列的有关规定。当缺省一个表达式时,表示TABLE语句定义了一个二维表格,当缺省两个表达式时,表示TABLE语句定义了一个一维表格。TABLE语句中所使用的表达式中,页行列的定义用到的操作符有:星号“*”表示包含关系;空格“”表示并列关系;圆括号“()”表示分组或说明运算次序。这些操作符的运算次序为圆括号、星号和空格。其他常用的符号还有:逗号“,”表示相邻两个向量的分界;不等号“<>”用于规定分母项;等号“=”用于讲解变量统计值或输出格式。在TABLE语句中可使用的操作数有:①分类变量或ALL。分类变量在CLASS语句中定义,在TABLE语句的表达式中引用,ALL用在表达式中表示在输出表格时给出分类的小计和总计值。②解析变量。解析变量在VAR语句中定义,在TABLE语句表达式中引用,指定用于作统计计算的变量。③统计量。统计量是指在统计学中使用的统计量,如平均值、最小值等,在TABULATE过程中常用的统计量见表6.1。6-7在TABLE语句中可使用的选择项有:①MISSTEXT="20个字符以内的字符串",指定用引号内的字符串注明缺失值;②RTS=n,规定行标题的输出宽度,缺省时为行长的四分之一;③BOX=_PAGE变|量名|"字符串",规定放行家标题上方的框中的文字。CLASS语句CLASS语句用来说明在TABLE语句中引用的分类变量,任何在TABLE语句中出现的分类变量必定早先在CLASS语句中说明。KEYLABEL语句用于注明TABLE语句中各统计参数的标签。它对全部TABLE语句有效。在默认的情况时,means过程会输出绝大部分统计量,此时的输出结果以下:三、应用实例例6.4已知学生两门课score1和score2的考试成绩,若按性别进行分类,统计出各种学生人数、score1成绩、score1的最高分、最低分和平均值,可用以下程序进行计算:DATAnew;INPUTname$sex$score1score2@@;CARDS;zhangsanM8099LiuliuF6775pingguoM8998hongshuM5072liangsiF8889wangdiF4367fangwuF8779mangguoF5656jianshiF7778liulinM7683PROCTABULATEFORMCHAR="|-+-+|||+-+";CLASSsex;VARscore1;TABLEsexscore1*(NMEANSTD);RUN;输出结果为:上例中,分类变量为sex,故输出时sex的两个值各占一列。解析变量score1与统计量N、MEAN和STD是包含关系。6.3UNIVARIATE过程UNIVARIATE过程与MEANS、SUMMARY、TABULATE的功能迥然不同样,他们都能够可对数值变量进行一般性的统计描述,但UNIVARIATE过程还给出变量的峰度、偏度、众数、中位数、四分位数、数据散布的正态性检验、符号秩检验等。一、过程格式PROCUNIVARIATE选择项;VAR变量表;指定要解析的变量名列BY变量表;按变量名列分组统计,要求数据集已按该变量名列排序FREQ变量;表示该变量为解析变量的频数6-8WEIGHT变量;表示解析变量在统计时要按该变量权重ID变量表;输出时加上该变量作为索引OUTPUTOUT=SAS数据集要点字=名称;指定统计量的输出数据集名要点字=<新变量名列>...指定统计量对应的新变量名PCTLPTS=<百分位数,...指定需要的百分位数>PCTLPRE=<新变量名列>];指定所需百分位数对应的输出变量名二、选择项说明DATA=数据集该选择项指定PROCUNIVARIATE使用的SAS数据集。缺省值为最新建立的数据集。NOPRINT指定控制产生报表。PLOT指定给出三幅数据图:茎叶图(或水平棒图)、盒状图和正态概率图。FREQ该选择项给出变量值、频数、百分数、累计百分数组成的频数表。NORMAL指定假设输入数据来自正态散布整体,尔后给出统计检验量,并输出统计检验量的端值。PCDLDEF=1|2|3|4|5指定计算百分位数的方法。缺省此项,则PCDLDEF=4。VARDEF=DF|N|WEIGHT或WGT|WDF指定计算方差时的分母。DF是以自由度N-1做分母;N是以观察值数N做分母;WGT是以权重和做分母;WDF是以权重和减1做分母。缺省值为VARDEF=DF。ROUND=舍入单位。三、过程中常用的统计量要点字SAS中用要点字来指定所需要的统计量,事实上结果输出中用的就是各种要点字,常用的要点字有:基本统计量NMEANSTD(标准误)CVSUMVAR(方差)RANG等(见P57)百分位数描述MINP1P5P10Q1MEDIANQ3P90P95P99MAX与假设检验有关的统计量STDMEAN(标准误)T四、过程中的其他语句OUTPUT语句将UNIVARIATE过程计算的统计量输出到SAS数据集中,并指定其所包含的变量名。在输出数据集中,OUTPUT语句中要点字后第一个变量的内容是VAR语句中第一个变量的统计量,第二个变量对应VAR语句中第二个变量的统计量等等。等号后的变量表可较VAR语句中的变量表短。有效要点字所表示的统计量见表6.1。VAR语句、BY语句、CLASS语句、WEIGHT语句、FREQ语句和ID语句的用法见MEANS过程。6-9五、结果讲解Variable=变量名变量标签Moments和矩有关的统计量Quantiles(Def=5)分位间距统计量N样本量SumWgts权重总和100%Max最大值99%99%百分位数Mean均数Sum总和75%Q375%百分位数95%95%百分位数StdDev标准差Variance方差50%Med50%百分位数90%90%百分位数Skewness偏度系数Kurtosis峰度系数25%Q125%百分位数10%10%百分位数USS未校正平方和CSS校正平方和0%Min最小值5%5%百分位数CV变异系数StdMean标准化均数1%1%百分位数T:Mean=0变量整体均数为0的t检验Pr>|T|t检验的p值Range全距Num^=0变量值非0的例数Num>0变量值大于0的例数Q3-Q1四分位间距M(Sign)变量整体均数为0的符号检验Pr>=|M|符号检验的p值Mode众数SgnRank变量整体均数为0的秩和检验Pr>=|S|秩和检验的p值六、UNIVARIATE过程进行统计检验的计算方法1.正态检验若在过程中指定NORMAL选择项时,过程将数据视作取自正态散布的随机样本并给出一个统计检验。当样本量小于2000时,计算Shapiro-Wilk统计量W,W值在0与1之间,W值越小越拒绝H0假设;当样本容量n大于6时,W的显然水平由Royston近似正态变换获得;当样本量大于2000时,计算Kolomogorov统计量。W值越大越表示数据来自正态散布。Pr<W给出了概率(0≤P≤1)值P,P值越凑近0,则表示越拒绝数据来自正态散布的假设。2.t测试假设整体平均数为0,计算Studentt值(T),PRT是与T值项对应的概率值,给出拒绝H0假设的水平。3.秩检验本过程计算出符号秩检验统计量SIGNRANK,PROBS是与该统计量对应的概率值。七、应用实例例6.5观察106个“岱字棉”原种单株的纤维长度(mm),得结果以下,试制作次数散布表,并作正态性检验(P62)。DATANEW;/*数据本源:莫惠栋,农业试验统计,P7*/INPUTy@@;CARDS;27.2527.6427.8227.9228.0428.2228.2228.3728.4428.4628.5528.5728.6128.6428.6828.696-1028.7328.7928.8228.8928.9128.9428.9629.0629.0629.1529.2129.2429.2429.2629.2929.3229.3329.3329.3829.3929.4129.4329.4529.4729.4829.5329.5829.5929.6629.6729.6729.6929.7229.7429.8629.8629.8829.8929.9129.9429.9729.9729.9929.9930.0030.0830.1230.1430.1630.1930.2230.2530.2730.2730.3330.3830.4130.4530.4730.4730.4830.5230.5230.5730.5830.6130.6230.6630.7430.7530.7530.7830.8530.8930.9230.9630.9731.0331.1531.1631.3231.3631.4431.531.5831.6931.7131.9232.2432.38PROCUNIVARIATEPLOTNORMAL;VARy;RUN;输出结果及说明UnivariateProcedure/*UNIVARIATE过程*/Variable=YMoments/*要素表*/观察数N106权系数之和SumWgts106平均数Mean29.855总和Sum3164.63标准差StdDev1.038006方差值Variance1.077456偏度系数Skewness0.008803峰度系数Kurtosis-0.23376未更正平方和USS94593.16平方和CSS113.1328变异系数CV3.476823平均数标准差StdMean0.10082StudentT值T:Mean=0296.1217概率值Pr>|T|0.0001Num^=0106Num>0106M(Sign)53Pr>=|M|0.0001等级符号检定法SgnRank2835.5Pr>=|S|0.0001W正态分配的检定W:Normal0.987148Pr<W0.8694Quantiles(Def=5)/*分位数*/Extremes/*极端值*/100%Max32.3899%32.24最高者LowestObs最低者HighestObs75%Q330.5795%31.5827.25(1)31.69(102)50%Med29.88590%31.1627.64(2)31.71(103)25%Q129.2110%28.5527.82(3)31.92(104)0%Min27.255%28.2227.92(4)32.24(105)1%27.6428.04(5)32.38(106)极差Range5.136-11Q3-Q11.36众数Mode28.22StemLeaf/*茎叶图*/#Boxplot/*盒状图*/322482|320|31821|316912|3144083|312262|3103563|308592675|30612645587|3041577822789++3022577386||3000824696||298668914779910|*--+--*2966779246|294135783898||292144692338910++2906653|288291465|2861489396|28446574|2822273|28041|278222|27641|2741|2725|++++MultiplyStem.Leafby10**-1NormalProbabilityPlot/*正态概率图*/32.3+*++*|++|+*|**|**31.3+**|**|**|***|***30.3+*****||***|**|***29.3+****|**|+**|***|***28.3+**|*+|*+*|*++|++27.3+*++++++++++++-2-10+1+26-12在要素表(Moments)中除给出了一般统计描述外,还给出了假设整体平均数为0的studentt测试值及概率P值,符号秩(SgnRank)及概率P值。在分位数(Quantiles)中,给出了最大值(第100百分位数)、中位数(第50百分位数)、最小值(第0百分位数)及上四分位数(第75百分位数)、下四分位数(第25百分位数)。同时给出了第99、95、90、10、5及1百分位数。在极端值(Extremes)中给出了最高五个及最低五个数值及相应的观察号。在要素表中最下面一行给出了正态性检验结果。W:Normal后给出了检验统计量W(0<W≤1)的值0.987148。W值越大越表示数据来自正态散布。Pr<W给出了概率P(0≤P≤1)值0.8694。P值越凑近0,则表示越拒绝数据来自正态散布的假设。所以,本例的数据是来自正态散布。茎叶图中,以整数表示茎,按系统自定间隔和尺度划分,本例尺度为×10+1,叶即表示数据,Stem.Leaf值乘以尺度即为数据。对茎叶图中走开了主体的异常点,应仔细观察,以确定这些值可否应剔除,再作解析。盒状图的顶线和底线是由上四分位数(75%)和下四分位数(25%)画出的,中间的横线(两端以“*”表记,中间以“+”表记)表示观察中值的地址,盒中的+号为观察平均值的地址。本例中x4(积雪天数)的中值与平均值重合。盒状图中的竖线称为触须线(whiskers),表示数据散布的范围,其延伸的范围是上、下四分位数间距的1.5倍,高出这个范围的数据用0来标记,若散布大于3倍上述间距时,用“*”标记。本例中y盒子的形状基本对称,说明观察值为近正态散布。正态概率图采用比较法作图,图中“+”号表示参照直线,用“*”号标记实质数据点。若样本数据来自一正态散布的整体,则“*”组成素来线,当“*”与“+”重合时,表示观察数据遵从正态散布。本例中y的观察数据与参照线重合,为正态散布。例6.6用两种饲料饲养8对大鼠后,测得其肝中维生素A的含量(IU/mg),问不同样的饲料组鼠肝中维生素A的含量有无显然性差别(条件近似者配对)?对子编号12345678正常饲料组3.552.003.003.953.803.753.453.05缺乏VitE饲料组2.452.401.803.203.252.702.501.75假设:H0:差值的整体均数为0,H1:差值的整体均数为不0,α=0.05。DATAnew;INPUTx1x2@@;d=x2-x1;cards;3.552.452.002.403.001.803.953.203.803.253.752.703.452.503.051.75PROCprint;PROCUNIVARIATEnormal;vard;run;6-136-146.4RANK过程正态散布在理论和实践上都拥有特别重要的意义。第一,客观世界确有好多现象的数据是遵从正态散布律的,因之它能够用来配合这些现象的样本散布从而发现这些现象的理论散布。其次,在合适的条件下,它能够用来做二项散布及其他中止性变数或连续变数散布的近似散布,这样就能够用正态散布代替其他散布以计算概率和进行假设测试。第三,诚然有些整体其实不呈正态散布,但从整体随机抽出的样本平均数及其他一些统计数的散布,在样本容量合适大时依旧趋近于正态散布,所以能够用它来研究这些统计数的抽样散布。对试验数据进行一些统计解析的前提是这些数据必定依照正态散布或近似于正态散布,如F测试、U测试等等。UNIVARIATE过程和RANK过程是进行正态散布检验最常用的过程。本章分别对它们进行介绍。RANK过程可对SAS数据集中的一个或多个数值型变量的全部观察值计算秩次,进行秩得分变换。经过计算正态得分及指数得分,可用来检查数据可否遵从正态分布或指数散布。若是原始数据为正态散布,则以原数据为Y轴,以正态得分为X轴作图,图形应近似为直线,指数散布亦然。一、过程格式PROCRANK选择项;VAR变量表;RANKS名表;BY变量表;二、PROCRANK语句选择项DATA=数据集指定RANK过程使用的数据集。TIES=MEAN|HIGH|LOW为RANK过程供应了三种取秩的方法,应秩的平均值,HIGH取相应秩的最高值,LOW取相应秩的最低值。

MEAN

取相DESCENDING指定按反向编秩。GROUPS=正整数计算数值的分位数,如GROUPS=100可将原始数据变换成百分位数,GROUPS=10可将原始数据变换成十分位数,GROUPS=4可将原始数据变换成四分位数。FRACTION指定计算小数秩。秩。当TIES省略或指定TIES=HIGH

RANK将给出的秩除以非缺失项数N即为小数时,分数秩可被认为是右连续经验累计散布函数。NORMAL=BLOM|TUKEY|VW要求将原始数据计算秩次后再计算正态分值,即对秩次进行正态变换,结果变量为正态散布。RANK供应BLOM、TUKEY及VW三种正态分值计算方法.这些正态分值凑近正态散布的希望次序统计量称为正态得分。SAVAGE要求PROCRANK用秩次导出指数函数的反函数值,这些值又称为指数值或SAVAGE值。OUT=数据集指定由RANK过程建立的包含结果秩次的SAS数据集。三、过程中其他语句1.VAR语句指定需要排名的变量名称,这些变量必定是数值型的。若缺省,RANK对全部数值变量自动编秩。2.RANKS语句若是希望输出的数据集中除含有原始变量外,还要包含变量的秩次时,可用RANKS语句给出这些秩名。RANKS后的秩名必定与VAR语句中的变量名一一对应。3.BY语句可将原文件分成数个小文件,再对每一个小文件内的数据排序。四、应用实例例6.7观察106个“岱字棉”原种单株的纤维长度(mm),得结果以下,试作正态性检验。/*数据本源:莫惠栋,农业试验统计,P7*/DATANEW;INPUTy@@;CARDS;27.2527.6427.8227.9228.0428.2228.2228.3728.4428.4628.5528.5728.6128.6428.6828.6928.7328.7928.8228.8928.9128.9428.9629.0629.0629.1529.2129.2429.2429.2629.2929.3229.3329.3329.3829.3929.4129.4329.4529.4729.4829.5329.5829.5929.6629.6729.6729.6929.7229.7429.8629.8629.8829.8929.9129.9429.9729.9729.9929.9930.0030.0830.1230.1430.1630.1930.2230.2530.2730.2730.3330.3830.4130.4530.4730.4730.4830.5230.5230.5730.5830.6130.6230.6630.7430.7530.7530.7830.8530.8930.9230.9630.9731.0331.1531.1631.3231.3631.4431.531.5831.6931.7131.9232.2432.38PROCRANKNORMAL=VWOUT=newb;采/*用VW法计算秩次的正态得分*/VARy;RANKSranky;/*希望输出原始变量及排名后的秩次*/RUN;PROCPRINTDATA=newb;/*输出绘图变量y和其秩得分*/RUN;PROCPLOT;/*调用绘图过程*/6-15t测试法。PLOTy*ranky="*"';/*用y作垂直轴,其正态得分作水平轴画散点图*/RUN;输出结果及说明OBSYRANKY127.25-2.35163227.64-2.08155327.82-1.9104510431.921.9104510532.242.0815510632.382.35163PlotofY*RANKY.Symbolusedis'*'.以RANKY为水平坐标,以Y为垂直坐标的散点图标记符号是“*”|**32+*|***|**X|***|***|***30+***|**|****|***|****|***28+**|**|*-+++++++-3-2-10123RANKFORVARIABLEX变量x的的秩得分NOTE:65obshidden.注意:有65个观察值隐蔽从上述PLOT图可见,散点图呈直线,说明“岱字棉”原种单株的纤维长度凑近正态散布。§6.5t测试t测试可用于两组数据平均数间的差别显然性测试。t测试主要用于以下三种类型资料的解析:①单个样本平均数与整体平均数的差别显然性测试:测试所获得一组连续资料可否抽样于平均数已知的整体。SAS中采用MEANS过程,计算出各观察值与整体平均数的差值,再对该差值的平均数进行t测试。②成对数据平均数的差别显然性测试:若试验设计是将性质同样的两个供试单位配成一对,并设有多个配对,尔后对每一配对的两个供试单位分别随机地恩赐不同样的办理,则所得观察值为成对数据。对其差别显然性采用配偶成对的6-16SAS中采用MEANS过程,计算出两样本观察值的差值,再对该差值的平均数进行测试。③不行对数据平均数的差别显然性测试:若试验所得的两组资料组间各供试单位互相独立,没有成对关系,则不论两组样本观察值个数可否相等,均称为不行对数据或称为成组数据。SAS中采用TTEST过程对该类资料进行t测试。SAS的MEANS和TTEST过程假设t测试是一个双尾测试。若是欲进行单尾测验,则需要将MEANS和TTEST过程输出结果中“Prob>|T|”的值除以2。对于上述成对数据平均数的t测试和不行对数据平均数的t测试均涉及该问题。本章进行t测试的详细实例解析,多为双尾问题。读者进行解析时需要依照详细问题详细解析。6.5.1用MEANS过程作tMEANS过程能够推断单个样本的平均数可否抽自平均数为0的整体。对于两个平均数的假设测试,当样本之间拥有可比性时,也可计算可比对的差值,尔后运用MEANS过程进行测试差值平均数与0有无显然差别。一、单个样本的平均数与整体平均数的差别显然性测试例6.8某小麦良种的千粒重0=34g,现自外处引入一高产品种,在8个小区种植,得其千粒重(g)为:35.6、37.6、33.4、35.1、32.7、36.8、35.9、34.6,问新引入品种的千粒重与当地良种有无显然差别?程序及说明/*数据本源:南京农业大学,田间试验和统计方法,P72*/DATAnew;INPUTx@@;/*变量x读取测定值*/y=x-34;/*产生一个差值变量y*/CARDS;35.637.633.435.132.736.835.934.6PROCMEANSMEANSTDSTDERRTPRT;/*计算平均数、标准差、标准误、t值、概率值*/VARy;RUN;输出结果及说明MEANSProcedureAnalysisVariable:yNObsMeanStdDevStdErrorTProb>|T|观察值个数平均数标准差标准误t值概率值1.21250001.64006750.57985142.09105290.0749因t=2.0910529,P=0.0749>0.05,故用此法推断新引入品种千粒重与当地良种千粒重间没有显然差别。二、成对数据平均数的差别显然性测试例6.9选生长远、发育进度、植株大小和其他方面均比较一致的两株番茄组成6-17一组,共7组,每组中一组接A办理病毒,另一株接B办理病毒,以研究不同样的办理病毒方法对纯化的收效,得结果为病毒在番茄上产生的病痕数目,A、B法的试验结果分别为:10,13,8,3,5,20,6;25,12,14,15,12,27,18。试测试两种办理方法的差别显然性。程序及说明/*数据本源:南京农业大学,田间试验和统计方法,P77*/DATAnew;INPUTx1x2@@;/*变量x1,x2读取测定值*/y=x2-x1;/*产生x1,x2的差值变量y*/CARDS;PROCMEANSMEANSTDSTDERRTPRT;/*计算y的平均数、标准差、标准误、t值、概率值*/VARy;RUN;输出结果及说明MEANSProcedureAnalysisVariable:YMeanStdDevStdErrorTProb>|T|平均数标准差标准误t值概率值8.28571435.28249581.99659574.14992080.0060因t=4.15,P=0.0060<0.01,故A、B两种办理方法对纯化病毒的效应有极显然差异。6.5.2用TTEST过程作t测试TTEST过程用于两组不行对数据的平均数间差别显然性测试,该过程同时对两样本方差可否同质作出测试,并给出整体方差相等和不等两种情况下的平均数测试结果。一、TTEST过程过程格式PROCTTEST选择项;CLASS变量;VAR变量表;BY变量表;语句说明PROCTTEST过程中只有PROCTTEST和CLASS语句是必需的。PROCTTEST语句只有两个选择项:DATA=数据集指定用来解析的数据集名,若缺省,则使用最新建立的数据集。6-18COCHRAN当两组数据的方差不相等时,该参数能够正确地计算t测试的近似值的统计显然性。CLASS语句中的变量是分类变量,其水平值只能有两个,并对应两组观察值。VAR语句中的变量是被解析的变量,若是缺省,则对全部的数值型变量进行分析。BY语句指定按其所列变量分别进行t测试。二、不行对数据平均数的差别显然性测试例6.10检查某生产队每亩30万苗和35万苗的稻田各5块,得亩产量(斤)分别为30万苗:800,840,870,920,950;35万苗:900,880,890,890,840。试测试两种亩产量的差别显然性。问题解析诚然本例两个样本观察值数相等,但不属于成对数据,宜用TTEST进行t测试。程序及说明/*数据本源:南京农业大学,田间试验和统计方法,P74*/DATA;DOmidu="x1","x2";/*循环变量midi是分类变量,其水平值为x1和x2*/DOi=1TO5;/*i是观察值的个数*/INPUTy@@;/*y是解析变量,代表稻田亩产量*/OUTPUT;END;END;CARDS;800840870920850900880890890840PROCTTEST;VARy;CLASSmidu;RUN;输出结果及说明TTESTPROCEDURETTEST过程Variable:Y解析变量yMIDUNMeanStdDevStdErrorMinimumMaximum分类变量观察值数平均数标准差标准误最小值最大值x15856.0000000043.9317652719.64688270800.00000000920.00000000x25880.0000000023.4520788010.48808848840.00000000900.00000000/*下面给出的是方差齐性测试(F测试),并分别给出方差相等和不等时的t值和P值*//*若F测试不显然采用方差相等时的t和P,反之采用方差不等时的t和P*/VariancesTDFProb>|T|方差t值自由度概率值P方差不等Unequal-1.07766.10.3220方差相等Equal-1.07768.00.3126ForH0:Variancesareequal,F'=3.51DF=(4,4)Prob>F'=0.2515两整体方差相等的假设测试F'值F'测试的自由度大于F'值的单尾F测试概率6-19值先看方差齐性检验(F测试),尔后依照F测试的结果,选择方差相等(Equal)或不等(Un-eq

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论