版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
医用SAS统计分析二一、单变量的统计描述统计分析内容回顾
统计描述:集中趋势、离散趋势
统计推断:参数估计:总体参数估计(可信区间)假设检验
资料类型计量资料---数值变量
计数资料---分类变量
资料的分布正态分布和偏态分布
1/6/20242一般统计描述---MEANS过程MEANS过程除了能对数值型变量进行一般的统计描述之外,还可以作配对设计资料的t检验。语句格式:Procmeans[操作选项][统计量列表];
[VAR<变量名列>;]/*指定分析的变量名列,缺省为所有数值变量*/
[BY<变量名列>;]/*按变量名列分组统计,要求已按变量名列排序*/
[CLASS<变量名列>;]/*按变量名列分组统计,不要求排序*/
[FREQ<变量名>;]
/*表明该变量为分析变量的频数*/
[OUTPUT<OUT=数据集名>关键字=<新变量名列表>];/*指定统计量的输出数据集名和统计量对应的新变量名*/
Run;
1/6/20243Procmeans
操作选项:
data=
指定要分析的数据集名
maxdec=
指定输出结果最大的小数位数,默认为7位
noprint
禁止统计结果在output窗输出
alpha=
设定计算可信区间的α水平,默认为0.05
注:在proc语句中的选项直接跟在proc名后,以空格分隔,中间不加“/”,其他命令语句的选项需以“/”分隔。
统计量列表选项:(缺省时只输出N、MEAN、STD、MIN、MAX)1/6/20244例1书中例3-1例2某克山病区测得11名克山病患者与13名健康人的血磷值(mmol/L)如下,试求两组的平均血磷值和标准差。data
L12;inputgx@@;cards;10.8411.0511.2011.2011.3911.5311.6711.8011.8712.0712.1120.5420.6420.6420.7520.7620.8121.1621.2021.3421.3521.4821.5821.87;procmeans;varx;byg;run;1/6/20245AnalysisVariable:X-------------------------G=1------------------------------NMeanStdDevMinimumMaximum----------------------------------------------------------111.52090910.42179270.84000002.1100000---------------------------------------------------------------------------------G=2------------------------------NMeanStdDevMinimumMaximum----------------------------------------------------------131.08615380.42405850.54000001.8700000----------------------------------------------------------1/6/20246例3书中例3-3:几何均数的计算,SAS程序没有直接计算几何均数的模块。datalogmean;inputxf@@;y=log10(x);cards;20240380616013201;procmeans;vary;freqf;procprintdata=outmean;datageomean;setoutmean;g=10**logmean;procprintdata=geomean;varg;run;outputout=outmeanmean=logmean;1/6/20247TheSASSystemAnalysisVariable:YNMeanStdDevMinimumMaximum--------------------------------------------------------------------------------------131.81046540.33396281.30103002.5051500--------------------------------------------------------------------------------------
TheSASSystemOBS_TYPE__FREQ_LOGMEAN10131.81047
TheSASSystemOBSG164.63461/6/20248详细统计描述---UNIVARIATE过程Univariate过程可对数值变量进行详细的统计描述。除了提供means过程所有的统计描述外,还可以给出了变量的峰度、偏度、众数、中位数及四分位数等更详尽的统计描述,同时还可进行正态性检验,以及几个描述分布的图。1/6/20249PROCUNIVARIATE[操作选项]
;
[VAR<变量名列>;]
指定分析的变量名列表,缺省为所有数值变量
[BY<变量名列>;]
按变量名列分组统计,要求排序
[FREQ<变量名>;]
表明该变量为分析变量的频数[OUTPUT<OUT=数据集名>关键字=<新变量名列表>];/*指定统计量的输出数据集名和统计量对应的新变量名*/Run;procunivariate语句的[操作选项];
data=
指定要分析的数据集名
noprint
禁止统计结果在output窗输出
freq详细的频数表
normal
进行正态性检验
plot
生成统计图:茎叶图,盒状图,正态概率图
1/6/202410例4程序3-2dataunil;inputx@@;cards;39865573108104;procunivariatenormalplot;run;1/6/202411
Moments
N(样本含量)12SumWgts(总权重)12
Mean(均数)6.5Sum(合计)78
StdDev(标准差)2.54058Variance(方差)6.454545
Skewness(偏度g1)0Kurtosis(峰度g2)-1.39044
USS(平方和)578CSS(离均差平方和)71
CV(变异系数)39.08584StdMean(标准误)0.733402
T:Mean=0(均数是否为0的检验)8.862804Pr>|T|(t值对应的p值)0.0001
Num^=0(不等于0的样本数)12Num>0(大于0的样本数)12
M(Sign)(符号检验)6Pr>=|M|(符号检验的p值)0.0005
SgnRank(符号秩和检验)39Pr>=|S|(符号秩和检验的p值).0005
W:Normal(正态性检验W检验)0.932772Pr<W(正态性检验的p值)0.38431/6/202412Quantiles(Def=5)100%Max1099%1075%Q38.595%1050%Med6.590%1025%Q14.510%30%Min35%31%3Range7Q3-Q14Mode31/6/202413ExtremesLowestObsHighestObs3(8)8(3)3(1)8(10)4(12)9(2)5(6)10(9)5(5)10(11)StemLeaf#Boxplot10002|901|8002+-----+701||601*--+--*5002||401+-----+3002|----+----+----+----+1/6/202414NormalProbabilityPlot10.5+*++*+|*++++|**++++|*++++|*++|*+*+|+*++3.5+*++*++----+----+----+----+----+----+----+----+----+----+-2-10+1+21/6/202415频数分布表数据的输入例5程序3-5datauni2;inputxf@@;cards;6536756987111732575247710797816830851;procunivariate;varx;freqf;run;1/6/202416频数表的编制方法1:语句格式:procunivariatefreq;例6王洁贞主编DATASG;INFILE'd:\sas\sas2\psb.txt';INPUTX@@;PROCMEANSmeanstdMINMAX;RUN;DATAFSH;SETSG;IFX<164THENY=163;IFX<166&X>=164THENY=165;IFX<168&X>=166THENY=167;IFX<170&X>=168THENY=169;IFX<172&X>=170THENY=171;IFX<174&X>=172THENY=173;IFX<176&X>=174THENY=175;IFX<178&X>=176THENY=177;IFX<180&X>=178THENY=179;IFX<182&X>=180THENY=181;IFX>=182THENY=183;PROCUNIVARIATEFREQ;VARY;RUN;1/6/202417AnalysisVariable:XMeanStdDevMinimumMaximum-----------------------------------------------------172.67100004.0756308162.9000000183.5000000------------------------------------------------------
univariate过程略
FrequencyTablePercentsPercentsValueCountCellCumValueCountCellCum16311.01.01751515.081.016544.05.017788.089.016777.012.017977.096.01691212.024.018133.099.01711818.042.018311.0100.01732424.066.01/6/202418方法2:语句格式:procfreq;
tables变量名;
说明:该语句是根据定义的变量产生频数分布表。
例7:上例资料DATApsb1;INFILE'd:\sas\sas2\psb.txt';INPUTX@@;L=162;/*定义第一组的下限值*/i=2;/*定义组距*/z=(x-mod(x-L,i))+(i/2);/*z值就是将原始变量转化成该数据所在组段的组中值*/procfreq;/*根据z值产生频数分布表*/tablesz;procunivariatenormalplot;varz;RUN;mod(x,y)为算术函数,求x/y的余数。如mod(10,3)=1,mod(6,2)=01/6/202419CumulativeCumulativeZFrequencyPercentFrequencyPercent----------------------------------------------16311.011.016544.055.016777.01212.01691212.02424.01711818.04242.01732424.06666.01751515.08181.017788.08989.017977.09696.018133.09999.018311.0100100.0
1/6/202420
UnivariateProcedureVariable=ZMomentsQuantiles(Def=5)N100SumWgts100100%Max18399%182Mean172.7Sum1727075%Q317595%179StdDev4.013865Variance16.1111150%Med17390%179Skewness0.102995Kurtosis-0.1005625%Q117110%167USS2984124CSS15950%Min1635%166CV2.324183StdMean0.4013861%164T:Mean=0430.2586Pr>|T|0.0001Range20Num^=0100Num>0100Q3-Q14M(Sign)50Pr>=|M|0.0001Mode173SgnRank2525Pr>=|S|0.0001W:Normal0.9671Pr<W0.0853ExtremesLowestObsHighestObs163(27)179(96)165(84)181(7)165(70)181(14)165(22)181(19)165(2)183(97)1/6/202421
StemLeaf#Boxplot1830101821810003|180178|177000000008|176|17500000000000000015+-----+174||17300000000000000000000000024*-----*172|+|17100000000000000000018+-----+170|16900000000000012|168|16700000007|166|16500004|164163010----+----+----+----+----1/6/202422Variable=ZNormalProbabilityPlot183.5+*|++181.5+***++|++179.5+******+|++177.5+****+|++175.5+******|++173.5+*******|++171.5+******|++169.5+*****|++167.5+*****|++165.5+****|++163.5+*++++----+----+----+----+----+----+----+----+----+----+-2-10+1+21/6/202423二、t检验统计回顾:t检验是判断两个样本均数或样本均数和总体均数的差别有无统计学意义的假设检验方法。使用条件来自正态总体方差齐
分类:单样本t检验,两样本t检验(配对t检验、成组t检验)
1/6/202424配对t检验原理:检验每对差值d的总体均数是否为0。H0:配对的情况:同一对象治疗(或处理)前后的比较同一样本接受不同处理的比较
配对的两个受试对象分别给予两种处理
SAS程序:
procmeans;加tprt选项procunivariate;1/6/202425例8
程序例4-1datattest1;inputx1x2@@;d=x1-x2;cards;113140150138150140135135128135100120110147120114130138123120;procmeansmeanstderrtprt;vard;run;1/6/202426AnalysisVariable:DMeanStdErrorTProb>|T|---------------------------------------------------6.80000005.2042717-1.30661890.2237--------------------------------------------------
程序中如无vard;
TheSASSystemVariableMeanStdErrorTProb>|T|--------------------------------------------------------------X1125.90000005.162794224.38601930.0001X2132.70000003.415812938.84873200.0001D-6.80000005.2042717-1.30661890.2237--------------------------------------------------------------1/6/202427成组t检验原理:
H0:
SAS程序:
procttest;procttest;
/*过程名*/class<变量名>;/*分组变量名*/var<变量名>;/*分析变量名*/run;1/6/202428
例9:程序4-3datattest3;doc=1to2;/*c循环开始,循环次数为2*/inputn;/*输入n值*/doi=1ton;/*i循环开始,循环次数为n*/inputx@@;/*输入x值,注意@@的合理使用*/output;/*output将x输出,循环语句中必须使用。*/end;/*i循环结束*/end;/*c循环结束*/cards;52793343033381983229274310;procprint;procttest;classc;varx;run;1/6/202429/*循环的结果*/OBSCNIX
11512792152334315330341543385155198623122972322748233310
TTESTPROCEDURE
Variable:XCNMeanStdDevStdError-------------------------------------------------------------------15290.4000000056.9938593225.4884287523271.0000000040.5832477823.43074903
VariancesTDFProb>|T|---------------------------------------------Unequal0.56035.60.5971Equal0.50996.00.6284
ForH0:Variancesareequal,F'=1.97DF=(4,2)Prob>F'=0.7272
1/6/202430两样本含量相等时,可去除inputn;例10:datat;doc=1to2;doi=1to5;inputx@@;output;end;end;cards;279334303338198229274310345344;procprint;procttest;classc;varx;run;1/6/202431OBSCIX1112792123343133034143385151986212297222748233109243451025344TTESTPROCEDURE
Variable:XCNMeanStdDevStdError-------------------------------------------------------------------15290.4000000056.9938593225.4884287525300.4000000049.4398624622.11017865VariancesTDFProb>|T|---------------------------------------------Unequal-0.29647.80.7747
Equal-0.29648.00.7745ForH0:Variancesareequal,F'=1.33DF=(4,4)Prob>F'=0.78961/6/202432两样本几何均数的比较在data语句中进行对数变换:x=log10(x)例11:王洁贞主编dataG;doc=1to2;inputn;doi=1ton;inputx@@;x=log10(x);output;end;end;cards;
11100200400400400400800160016001600320091001001002002002002004001600;procttest;classc;varx;run;1/6/202433TTESTPROCEDUREVariable:XCNMeanStdDevStdError------------------------------------------------112.793624530.452000870.1362833992.334477770.382096020.12736534VariancesTDF
Prob>|T|---------------------------------------Unequal2.461518.00.0242Equal2.418618.00.0264ForH0:Variancesareequal,F'=1.40DF=(10,8)Prob>F'=0.64701/6/202434三、方差分析(一)统计回顾
应用:两个或两个以上均数的比较
条件:
样本来自正态总体;方差齐;相互独立的随机样本基本原理:变异分解SS总=SS组内+SS组间
;自由度分解ν总=ν组间+ν组内组内均方MS组内=SS组内/v组内组间均方MS组间=SS组间/v组间
F=MS组间/MS组内当F≥Fα(ν1,ν2),则P≤α,拒绝H0,接受H1当F<Fα(ν1,ν2),则P>α,接受H0,。1/6/202435方差分析---基本语句Procanova[data=<数据集名>];
Class分组变量;/*指明分组变量,
必须放在model语句前*/Model因变量=分组变量;/*规定按分组变量对因变量作方差分析*/[means分组变量[/多重比较的方法];]
/*计算每个分组变量所对应的因变量均值,对分组变量进行多重比较,其方法可用snk(q检验)、dunnett、LSD法等。该语句可多次使用*/[means分组变量/hovtest=方法;]
/*进行方差齐性检验(homogeneityofvariancetest),常用方法为Bartlett和Levene’s法,默认为Levene’s法*/[freq变量名;]
/*规定频数变量*/
1/6/202436分组变量:把要考察的处理因素做为分组变量。它的取值即为分组变量的水平,可以是数值型,也可是字符型。例5-1中,衣料就是分类变量,其取值有四个水平。因变量:也称响应变量,为连续的数值型变量。例5-1中,因变量为十硼氢的吸附量
效应:方差分析模型中规定的各分组变量组合代表其相应的效应。主效应:由分组变量本身引起,不考虑其他因素的影响,可以用分组变量本身表示。例5-1中,只有一个效应,即衣料的效应。如果对某一因变量,它的研究因素为A、B两个,主效应就是由A、B两个分组变量引起的,不考虑A对B的作用。在model语句中表示为AB。方差分析---几个概念
1/6/202437
交叉效应:即交互作用。用*连接两个变量以表示它们之间的交互作用。在model语句中可用A*B表示。检验在A因素的各个水平B因素的效应是否相同,即一个因素的效应是否依赖于交叉项里其他因素。
相应的模型有主效应模型(完全随机、随机区组、拉丁方等)和含交互作用项的模型(析因设计、正交设计)1/6/202438完全随机设计资料的方差分析例12:程序5-1dataanova1;doc=1to4;doi=1to5;inputx@@;output;end;end;cards;2.332.002.932.732.332.482.342.682.342.223.063.063.002.663.064.005.134.612.803.60;procanova;classc;/*分组变量为c*/modelx=c;/*按变量c分组对因变量X进行方差分析*/meansc/snk;/*对变量c的各水平用snk法作均数的多重比较*/Meansc/hovtest/*进行方差齐性检验*/run;1/6/202439方差分析结果
ClassLevelInformation
Class①Levels②Values③C41234Numberofobservationsindataset=20
①
在class语句中规定的分组变量名②分组变量的水平数③分组变量的取值DependentVariable:XSourceDFSumofSquaresMeanSquareFValuePr>F
变异来源自由度离均差平方和均方F值P值模型Model38.433760002.8112533311.160.0003误差Error164.029160000.25182250总变异CorrectedTotal1912.46292000R-Square④C.V.RootMSE⑤XMean
变异系数因变量的均值0.67670816.907650.501819192.96800000④决定系数R2,反映了在总变异中由模型解释的变异所占的比例,越接近1,表明模型对这批数据拟合越好。⑤误差均方的平方根,剩余标准差SourceDFAnovaSSMeanSquareFValuePr>FC38.433760002.8112533311.160.00031/6/202440SNK法两两比较结果:
Student-Newman-Keulstestforvariable:X
NOTE:ThistestcontrolsthetypeIexperimentwiseerrorrateunderthecompletenullhypothesisbutnotunderpartialnullhypotheses.
Alpha=0.05df=16MSE=0.251823误差的均方NumberofMeans234均数间相隔组数CriticalRange0.6728120.81894120.9080258相差有无意义的临界值Meanswiththesameletterarenotsignificantlydifferent.SNKGrouping⑥MeanNC
SNK分组标志均数样本数分类变量值(水平数)A4.028054
B2.968053B2.464051B2.412052⑥SNK分组标志:相同字母代表组间差别无统计学意义。如c=3和c=1以及c=2组的标志均为B,表明这三组的均数无差别;而c=4组的标志为A,因此它与其它三组的差别均有统计学意义。1/6/202441Levene'sTestforEqualityofXVarianceANOVAofSquaredDeviationsfromGroupMeansSumofMeanSourceDFSquaresSquareFValuePr>FC31.35850.45283.93390.0280Error161.84180.1151AnalysisofVarianceProcedureLevelof--------------X--------------CNMeanSD152.464000000.36712396252.412000000968000000028000000.900705281/6/202442例13:程序5-3样本含量不等时方差分析dataanova3;doc=1to3;inputn;doi=1ton;inputx@@;output;end;end;cards;527933430333819832292743103210285117;procanova;classc;modelx=c;run;1/6/202443随机区组设计资料的方差分析dataanova4;doa=1to4;dob=1to8;inputx@@;output;end;end;cards;5.275.275.885.445.666.225.835.275.275.225.835.385.446.225.725.114.944.885.385.275.385.615.385.004.614.665.005.004.885.224.884.44;procanova;classab;modelx=ab;meansa/snk;run;例14程序5-41/6/202444方差分析结果AnalysisofVarianceProcedureClassLevelInformationClassLevelsValuesA41234B812345678Numberofobservationsindataset=321/6/202445AnalysisofVarianceProcedureDependentVariable:XSourceDFSumofSquaresMeanSquareFValuePr>FModel105.402375000.5402375043.140.0001Error210.262975000.01252262Total315.66535000R-SquareC.V.RootMSEXMean0.9535822.1119040.111904515.29875000SourceDFAnovaSSMeanSquareFValuePr>FA32.904375000.9681250077.310.0001B72.498000000.3568571428.500.00011/6/202446AnalysisofVarianceProcedureStudent-Newman-Keulstestforvariable:XNOTE:ThistestcontrolsthetypeIexperimentwiseerrorrateunderthecompletenullhypothesisbutnotunderpartialnullhypotheses.Alpha=0.05df=21MSE=0.012523NumberofMeans234CriticalRange0.11635920.14103160.1559574Meanswiththesameletterarenotsignificantlydifferent.SNKGroupingMeanNAA5.6050081A5.5237582B5.2300083C4.83625841/6/202447拉丁方设计资料的方差分析
拉丁方设计的方差分析主要适用于:三个处理水平数相同且无交互作用。亦称三因素方差分析。利用拉丁方阵安排试验,拉丁方阵亦称r阶拉丁方,是用r个拉丁字母排成r行r列的方阵,每个字母在每行每列中只出现一次。如5×5拉丁方:ABCDEBCDEACDEAB
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 果园场地使用权转让合同范本
- 正确消毒方法外科护理
- 20叶圣陶批改作文的七大法则【基于智能测评的中小学学科作文教学】PDF版论文集
- 《电路稳态分析》课件
- 16《赤壁赋》《我与地坛》联读逐字稿(教学实录)统编版高中语文必修上册
- 2024年电磁传感器项目资金申请报告代可行性研究报告
- 改善医疗服务
- 健康体检设备项目建设规划投资计划书
- 年产xx及全球角磨机项目可行性研究报告(项目规划)
- 年产xx冲压件封头项目建议书
- 四年级上册英语试题Module 8 练习(含答案)外研版(一起)
- 深圳市环境卫生质量标准
- 消防栓点检记录表(样表)
- (完整ppt)隧道施工方法课件
- 失禁性皮炎的护理--PPT课件
- 2002年挑战杯作品文集 (65)
- 控压钻井技术及实践(装备与实例)课件
- 贵州省农村义务教育阶段学校特设岗位教师聘任合同书说明...~(doc)-下载
- 无陪护病房实施方案计划
- 合作社档案管理制度管理办法
- 合成车间及甲类仓库泄爆墙施工方案RE
评论
0/150
提交评论