数学有关SAS统计检验的模型_第1页
数学有关SAS统计检验的模型_第2页
数学有关SAS统计检验的模型_第3页
数学有关SAS统计检验的模型_第4页
数学有关SAS统计检验的模型_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

#称直线回归,直线回归要求变量Y服从正态分布且方差相等。当变量间不是线性关系时,通常需要进行数据变换,再进行线性回归分析,或直接用原数据进行非线性回归。根据资料类型,SAS可以进行各类回归分析:常用SAS过程回归类型资料类型因变量自变量Reg线性回归数值变量数值变量GLM协方差模型、一般线性模型数值变量数值变量、分类变量LogisticLogistic回归分类变量数值变量、分类变量CatmodLogistic\Poisson回归分类变量数值变量、分类变量Nlin非线性回归数值变量数值变量4.3.1直线回归1背景概述多元线性回归分析简介假定因变量y与k个解释变量X],x2,...,Xk具有线性关系,即总体回归模型:y二b+bx+bx+...+bx+u,卩〜n(0,o2),i=l,2,...,ni011i22ikkii/或E(y)=b+bx+bx+...+bxi011i22ikki样本回归模型:y-b+bx+bx+...+bxi011i22ikki残差:e-y一yiii最小二乘法:min£牛=叮辱叮…Si-1总离差平方和的分解式:总平方和=解释平方和+残差平方和TSS=ESS+RSS即工(y-亍)2-工(y-jy+工(y-y)2TSS=ESS+RSSiiii判定系数:R判定系数:R2-R2-1-(1-R2)n-1n-k-1回归模型的显著性检验(F检验):Ho:匕电=…=bk=012kHl:b1,b2,…,bk至少有一个不为0。12k检验统计量FRSS检验统计量FRSS/kESS/(n-k-1)〜F(k,n-k-1)变量(如x.)显著性检验(t检验):Ho:b=0,H’:b#0i0i1ib-b检验统计量t-ii〜t(n一k一1)Sb2.reg过程格式:Procreg小8上8=数据集名选项;Var可参与建模的变量列表;Model因变量=自变量表/选项;Print输出结果;Plot诊断图形;Run;3•应用举例【例1】对数据集sasuser.class中建立以weight为因变量,height和age为自变量的线性回归模型,并作简要回归分析。思路:先考察weight与height'age间的线性关系,可用散点图和相关分析,确定有线性关系后再作回归分析。

Pearson相关丢数,N=当HO:Rho=0时「Prob>r|AgeWeightHeightWeight1.000000.87779<.00010.740890.0003Height0.87779<.00011.000000.81143<.0001Age0.740890.00030.81143<.00011.00000TheREGProcedure

Model:M0DEL1

DependentVariable:WeightNumberofObservationsRead19NumberofObservationsUsed19AnalysisofVarianceSourceDFSumofSquaresMeanSquareFValuePr>FModel27215.637103607.8185527.23<.0001Error162120.09974132.50623CorrectedTotal189335.73684RootMSE11.51114R-Square0.7729DependentMean100.02632AdjR-Sq0.7445CoeffVar11.50811ParameterEmtimsitegVariableDFParamet亡rEstimgteStandardErrortValuePr>|t|Intercept1-141.2237633.38309-4.230.0006Height13.597030.905463.970.0011Age11.278393.110100.410.6865分析:由散点图和相关分析可知weight和height,age间有较强的线性关系。A(1)回归方程为:weight=-141.22376+3.59708height+1.27839age判定系数:R2=0.7729R2=0.7445,说明因变量Y的变异中由模型能解释的部分占到77.29%,模型拟合效果较好。(2)回归模型的显著性检验检验的零假设Ho:b]=b2=0,由输出结果的方差分析表中F统计量为27.23,检验的p值小于0.0001,在a=0.05的显著性水平下,应拒绝H0,说明模型是显著成立的。(3)变量的显著性检验对变量height而言,检验的零假设Ho:b1=0,由输出结果的参数估计部分的t统计量值为3.97,双边检验p值为0.0011,所以在a=0.05的显著性水平下,应拒绝H0,说明height变量对weight变量有显著性影响。类似可得对变量age,t统计量值为-0.41,双边检验p值为0.6865,在a=0.05的显著性水平下,应接受H0,说明模型是age变量对weight变量影响不显著性。说明:(1)如果要自动挑选最优变量,可在model语句中增加选项'selection=选择方法'选择方法有none(全用,默认)、forward(逐步引入法)、backward(逐步剔除法)、stepwise(逐步筛选法)等。如modelweight=heightage/selection=stepwise;/*逐步回归*/run;(2)要输出其它结果可以print语句,如PrintcliRun;(3)若是一元线性回归,可以在因变量和自变量的散点图上加上回归直线和均值置信界限,程序如下:procregdata=sasuser.class;modelweight=height;plotweight*height/conf95;

run;(4)若是要输出多元线性回归中残差对预测值诊断图,可用如下语句:plotresidual・*predicted・;run;4.3.2非线性回归许多情况下变量间呈曲线关系,求解变量间的曲线关系的方程,可以直接拟合所选择的曲线方程式但有时也可以变量代换成直线方程,再应用直线驾照的方法求解。【例2】某地大气中氰化物测定结果如下:距离污染物距离X(m)50100许多情况下变量间呈曲线关系,求解变量间的曲线关系的方程,可以直接拟合所选择的曲线方程式但有时也可以变量代换成直线方程,再应用直线驾照的方法求解。【例2】某地大气中氰化物测定结果如下:距离污染物距离X(m)50100氰化物浓度Y(mg/m3)0.6870.3981500.22000.1212500.093000.054000.025000.01散点图分析表明Y和散点图分析表明Y和X间呈现指数函数关系y=10a+bx,现求回归方程。方法一:TheREGProcedure

Model:MODEL1

DependentVariable:logyNumberofObservationsReadNumberofObservationsUsedSourceDFSumofSquaresMeanSquareTheREGProcedure

Model:MODEL1

DependentVariable:logyNumberofObservationsReadNumberofObservationsUsedSourceDFSumofSquaresMeanSquareFValuePr>FModel12.709602.70960701.70<.0001Error60.023170.00386CorrectedTotal12.73277AnalysisofVarianceRootMSEDependentMeanCoeffVar0.06214R-Square0.9915-1.02814AdjR-Sq0.9901-6.04403VariableDFParameEstimsit已StandardErrortValuePr>|t|Intercept1-0.031840.04356-0.730.4923X1-0.004090.00015430-26.49<.0001ParameterEmtimates分析:logy与x间的直线回归议程为:logy=—0.03184—0.00409xA代入logy=loglO(y),得指数方程为:y=10-。①⑻-0.00409x方法二:方法二:Nlinj±程直接作非线性回归衬-datab2;inputkycards;500.6871000.3981500.22000.1212500.0903000.054000.025000.01run;-procgplot:plotK*y;run;-procnlindata=b2:parmsa=0b=0;modely=10**(a+b*z);run;

IheNL1NHrocedure

DependentVariabley

Method:Gauss-NewtonIterati^ePhaseIterabSumofSquares0005.54411-0.2147-0.000550.72932-0.2021-0.001740.13363-0.0263-0.003490.017940.0638-0.004630.0016350.0810-0.004890.0010760.0823-0.004910.0010670.0824-0.004910.0010680.0S24-0.004910.00106NOTE:Convergenceeriterionmet.EmtimsiticinSummaryMethodGauss-NewtonIterationg8R2.069E-6PPC(a)7.644E-7RPC(a)0.000022Object3.737E-9Obj已utive0.001063ObservationsRead8ObservationsUsed8ObservationsMissing0NOTE:AninterceptwasnotspecifiedforthismodelSourceDFSourceDFModel2Error6Uncorrect胡Totsil8SumofMeanApproxSquaresSquareFValuePr>F0.69510.34751960.85<.00010.001060.0001770.6961ParameterEwtimsiteStdErrorParameterEwtimsiteStdErrora0.08240.0142b-0.004910.000169ApproxApproximate95XConfidenceLimitw0.04760.1172-0.00533-0.00450Approximat亡Approximat亡CorreiationaMatrixba1.0000000a1.0000000b-0.8731961-0.87319611.0000000A分析:指数方程为A分析:指数方程为y=100.0824-0.00491x4.3.3二分类变量的Logistic回归(Logistic过程)引言:有时候会遇到因变量为分类变量,这时可建立Logistic模型,本节只针对取值只有两种(发生或不发生)的情况。模型简介:设P为某事件发生的概率,取值范围为0~1,1-p为事件不发生的概率,将比数p/(l-p)取自然对数得

ogitP为ln(p/(l-p)),即Logit变换,记为LogitP。则LogitP的取值范围为-g至到+w。以LogitP为因变量,建立线性回归模型为:LogitP二b+bx+bx+...+bxez则模型变形为P=i+eez则模型变形为P=i+e;1l+e-z记z=b+bx+bx+...+bx0lli22ikki数据要求:因变量为二分类变量,自变量可以是分类变量或等间隔测度的变量。如果为分类变量,则应为二分类或重新编码为指示变量。【例8・3】数据集data09-02.sav是乳腺癌患者的数据。变量包括:age(年龄)、time(患病时间)、pathscat(月中瘤扩散等级)、pathsize(肿瘤大小)、histgrad(肿瘤史)、ln-yesno(癌变部位的淋巴结是否含有癌细胞)。建立一个Logistic模型,并预测一个肿瘤大小为1cm,肿瘤史为1年,肿瘤扩散等级v2cm患病时间为1个月的60岁人癌变部位的淋巴结是否含有癌细胞。给定显著性水平o=0.05输出:TheLOGISTICProcedureModelInformationDataSetResponseVariableNumberofResponseLeveIsModelOptimizationTechniqueWORK.NEWIruyesno滞巴结是否含有癌细胞binarylogitFisher?sscoring输出:TheLOGISTICProcedureModelInformationDataSetResponseVariableNumberofResponseLeveIsModelOptimizationTechniqueWORK.NEWIruyesno滞巴结是否含有癌细胞binarylogitFisher?sscoringNumberofObservationsReadNumberofObservationsUsed12071207OrderedValueln_yesnoTotalFrequency1092921278ResponseProfiIeProbabiIitymodeIedisln_yesno=0.ModeIFitStatisticsModelConvergenceStatusConvergencecriterion(GC0NVz1E-8)satisfied.CriterionInterceptOnlyandCovariat曲AIC1304.7551247.668SC1309.8511278.243-2LogL1302.7551235.668InterceptTestingGlobalNullHypothesis:BETA=0DFPr>ChiSqLikelihoodRatio67.0873Score68.0813Wald62.5532TestChi-Square<.0001<.0001<.0001ParameterDFEmtimsiteStandardErrorWaldChi-SquarePr>ChiSqIntercept1-0.24240.4130DFPr>ChiSqLikelihoodRatio67.0873Score68.0813Wald62.5532TestChi-Square<.0001<.0001<.0001ParameterDFEmtimsiteStandardErrorWaldChi-SquarePr>ChiSqIntercept1-0.24240.41300.34460.5572age10.02740.0055624.3272<.0001time10.002400.002420.98520.3209psithscat10.56440.108527.0668<.0001psithsize1-0.56560.109126.8750<.0001histgwd10.04510.08050.31400.5753AnalysisofMaximumLikeIihoodEmtimatesOddsRatioEwtimsitewPoint95第WaldEffectEmtimsiteConfidenceLimitsage1.0281.0171.039time1.0020.9981.007psithscat1.7581.4222.175psithsize0.5680.4590.703histgraid1.0460.8931.225TheLOGISTICProcedureAssociaticinandObservedResponsesPercentConcordant65.8Somers5D0.321PercentDiscordant33.7Gamma0.322PercentTied0.6Tau-a0.114Pairs258262c0.660ofPredictedProbabiIitieg结论:Logistic回归模型拟合结果为:LogitP=一0.2424+0.0274xage+0.00240xtime+0.5644xxpathscat—0.5656xpathsize+0.0451xhistgradz=logitP=—0.2424+0.0274x60+0.00240x12+0.5644x1—0.5656x1+0.0451x1=1.4742则P=—^=1一=0.8137>0.51+e—z1+e-1.4742故该病人癌变部位的淋巴结会含有癌细胞。作业:P15916补充:某调査中收集了350大学生的数据信息,研究恋爱与否(变量V)与年龄(age)、地区(Location),各科平均成绩(score)、性别(sex)及身高(height)等变量的关系。各变量定义如下:恋爱与否(变量V)年龄(age)地区(Location)各科平均成绩(score)性别(sex)身高(height)0:未恋爱单位:岁0:农村单位:分0:女单位:厘米1已恋爱1城市1:男假设收集数据如下:agelocationscoreheightweightsexv21159318315410191467178185112O155O17717O1O2114141751141O1915O216O98OO21O3611751261O21O595166112112OO4O917814O11222145O17O16O1O2314821681O6OO18OO16O1O6OO2O147517O12O112OO6151651O6OO19154916811O1O试建立Logistic模型,并分析22岁农村男生、身高170cm,平均成绩为560时的恋爱概率。4.4属性数据分析变量分为数值型变量(连续型变量)和分类变量(离散型变量),而分类变量又分为名义变量(如性别分为:男、生,种族分为白、黄、黑)和有序变量(年级分为一、二、三、四,成绩等级分为优、良、中、差)。前面所讲到的统计分析是针对数值型变量,本节是针对离散型变量,讨论单个离散变量分布的拟合优度检验方法,检验两个离散变量的独立性残联表检验,有序变量的关联性度量(不作要求)。4.4.1单个离散变量的拟合优度卡方检验1•功能:检验离散变量的取值规律是否符合某种给定的比例。Pearson提出的卡方检验的零假设为:H:Pr(X=a)=p(i=1,2,...,k)0ii统计量为:X2=X2=丈i=1(n—np)2iinpiDX2(k—1)其中:n.为事件A.的观测频数,p.为事件A.的频率。iiii例1:某工厂近5年来发生了63次事故,按事故发生的星期号分类如下:星期-一一二三四五六次数9101181312问事故的发生是否与星期几有关?思路分析:米用拟合优度卡方检验六种情况发生的概率是否相等,HO:Pr(X=i)=1/6(i=1,2,…6)。程序为:

235Illi/*拟合优度卡方检验235Illi/*拟合优度卡方检验-dataaccident;inputdaytimes;cards;1312run;-procfreqdata=accident;tablesday/chisqtestp=(0.1666670.1666670.1666670.1666670.1666670.166667);weighttimes;频数变量*/run;输出为:FREQ过程day频数百分比检验百分比累积频数累积百分比1914.2916.67914.2921015.8716.671930.1631117.4616.673047.624812.7016.673860.3251320.6316.675180.9561219.0516.6763100.00卡方1.6667自由度5"》卡方0.8931样本大小=63结果分析:零假设HO:Pr(X=i)=l/6(i=l,2,...6),由输出拟合优度卡方检验的统计量X=1.667,p=0.8991,对于给定的显著性水平a=0.05,p>a,所以接受H0,说明事故发生与星期几没有关系。注明:检验的是等概率情形时,选项testp语句可以省略。4.4.2两个离散变量的列联表独立性检验1.列联表的输入与制表列联表的概念:根据两个离散变量的交叉分类取值把样本进行分类,得到每一小类的观测个数制成表格的形式称为列联表,如根据学生的性别和来源把学生分为4组,得到如下统计表:学生性别、来源分布表男生女生本地46外地147输入方式一:枚举法—每一行为一个样本观测,即一个学生的信息记录,如:dataclass;inputsnosex$from$;labelsno='编号'sex='性另U'from='来源';cards;1男本地2女外地3男外地/*所有学生的记录*/;run;然后使用freq过程可以制成列联表,使用tables语句指定行变量和列变量,procfreqdata=class;tablesfrom*sex;run;输入方式二:频数表法一一没有具体每行样本观测的信息,只有汇总的频数表,则需要设置一个代表观测频数的变量,如/*输入方式二:频数法*/dataclass2;inputfrom$sex$numcell;labelfrom='来源'sex='性另0'numcell='单元格频数';cards;本地男4本地女6外地男14外地女7;run;然后用freq过程可以制成列联表,使用tables语句指定行变量和列变量,weight语句指定单元格频数变量procfreqdata=class2;tablesfrom*sex;weightnumcell;run;两种方式的输出结果一样,如下图,每一个格子中有4个数:Frequency(频数)、percent(百分比)、RowPct(行百分比)、ColPct(列百分比)。在表的右侧有行总计的频数及百分比,在表的下侧有列总计的频数及百分比。

FREQ过程*sex表频数百分比行百分比列百分比男FREQ过程*sex表频数百分比行百分比列百分比男合计本地12.9040.0022.2219.3560.0046.151032.26外地1445.1666.6777.7822.5833.3353.852167.74合计1858.061341.9431100.00fmm(来源)「性别F)说明:简化形式的列联表,可以在tables语句中加上nofreq>nopercent>norow、nocol等选项。如/*简化形式的列联表:只有单元格频数*/procfreqdata=class2;tablesfrom*sex/nopercentnorownocol;weightnumcell;run;2.列联表独立性检验功能:检验两个离散变量的取值是否独立。检验的零假设为HO:离散变量X与变量y相互独立st(n-nnn)2检验统计量X2=£工耳一X2((r-1)(s-1))i=1j=1nnni=1j=1i++jn=工n,

+n=工n,

+jji=1i+jj=1例2:为了探讨吸烟与慢性支气管炎有无关系,调查了339人,情况如下程序为:输出结果的性检验的程序为:输出结果的性检验的患慢性支气管炎未患慢性支气管炎吸烟43162不吸烟13121

几种方法的统计量与p值,第三部分Fisher精确检验结果。FREQ过程smoke爪bron表smoke(吸咽)bron(慢性支气管炎)频数期望值不患病患病合计不吸烟121111.861322.136134吸烟162171.144333.864205合计28356339smoke爪bron表的统计量统计量自由度值槻率卡方17.46880.0063似然比卡方17.92500.0049连续校正卡方16.67360.0098Mantel-Haenszel卡方17.44670.0064Phi丟数0.1484列联系数0.1468Cramer的V0.1484Fisher精确检验单元格(1,1)频数(F)左侧Pr<=F右侧Pr>=F1210.99850.0041表槻率(P)双侧Pr<=P0.00260.0069样本犬小=339结果分析:零假设H0:吸烟与慢性支气管炎相互独立,由输出结果中peraons卡方独立性检验统计量为X=7.4688,p=0.0063,对于给定的显著性水平a=0.05,p<a,故拒绝H0,即认为吸烟与患慢性支气管炎间不是相互独立的。说明:各种检验方法应根据资料选取:T――最小的单元格期望频数,n――总样本量当T>5且n>40选Person卡方值,它是最常用的检验方法。当1VTV5且n>40选连续校正卡方值;似然比卡方在大样本下与Person卡方近似。Fisher精确检验法适用于2X2的交叉表,n<40或T〈5(有的教材上称样本量小于20)。4.4.3两个离散变量的关联度分析引言:对于区间变量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论