SAS统计分析(第七讲)_第1页
SAS统计分析(第七讲)_第2页
SAS统计分析(第七讲)_第3页
SAS统计分析(第七讲)_第4页
SAS统计分析(第七讲)_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

SAS统计分析

第七讲

景学安2023/2/31

多元线性回归

一、基本概念

多元线性回归简称多元回归,是研究一个应变量与多个自变量间线性依存关系数量变化规律的一种方法。

二、多元线性回归方程

式中:b0为回归方程常数项,亦称为截距;bj(j=1,2,┅,m)为偏回归系数,即在其他自变量固定的条件下,Xj改变一个单位时应变量的改变量。

2023/2/32

三、多元线性回归方程的应用

预测应变量的估计值

探索影响应变量y的主要因素当X为某一定值时,估计应变量的容许区间当X为某一定值时,估计其应变量的总体均数的置信区间2023/2/33

四、分类变量的数量化

在实际研究中,自变量常常会是分类变量,主要包括三种类型的分类变量:①两分类变量,如性别(男、女);②有序分类变量,如病情(轻度、中度、重度);③无序分类变量,如职业(干部、职员、工人、农民)。进行多元回归分析,必须将这样的指标数量化,常用的数量化方法有:

1.两分类变量

可用0和1表示。例如:

0为男,1为女;0为阴性,1为阳性。

2.有序分类变量

由于有序的分类变量的各类之间有一定的数量关系,可以用0,1,2,3,┄表示。如0为轻度,1为中度,2为重度。2023/2/34

3.无序分类变量

由于各类别之间无数量关系,常用多个0,1变量表示,即建立多个哑变量(dummyvariable)。如表无序四分类变量用三个哑变量表示职业分类变量赋值X1X2X3干部职员工人农民100001000010一般来说,m个类别的分类变量需要(m-1)个哑变量表示。2023/2/35五、SAS语句格式

同单变量线性回归基本相同。

procreg[选项];

model应变量=自变量名列/[选项];必选语句,定义回归分析模型

[freq变量名];可选项,定义频数变量。

[outputout=数据集名统计量=变量名…统计量=变量名];

可选项。Output语句创建一个包括对每个观察值计算统计量的新输出的数据集。2023/2/36

(一)procreg语句的[选项]1.data=数据集

指明回归分析所用的数据集。

2.outest=数据集

指定一个输出数据集,用以存储回归分析所得的参数估计。3.simple

输出每个变量的简单统计结果。(二)model语句的/[选项]

1.selection=method

规定变量筛选方法和建立最优模型的准则。method的以下几种主要选项:

⑴forward(或f)前进法,按照sle规定的α值从无到有依次选一个变量进入模型

⑵backward(或b)后退法,按照sls规定的α值从含有全部变量的模型开始,以次剔除一个变量。2023/2/37⑶stepwise

逐步法,按照sle的α值依次选入变量,同时对模型中现有的变量按sls的α值剔除不显著的变量。⑷adjrsq

选择最优模型的决定系数准则(R2)。应选择R2最大的模型。⑸cp

选择最优模型的Cp准则。应选择Cp值与(p+1)最接近的模型。⑹aic

选择最优模型的aic准则。应选择aic值最小的模型。

注:[选项]中selection语句没有筛选变量的方法时,模型中含有全部自变量的回归模型。

2.sle=概率值

入选标准,规定变量入选模型的显著性水平,前进法默认为0.5,逐步法默认为0.15。

3.sls=概率值

剔除标准,指定变量保留在模型的显著性水平,后退法默认为0.1,逐步法默认为0.15。

2023/2/38

4.P

输出实际值Yi、预测值、残差及其标准误。

5.stb

输出各自变量的标准偏回归系数。

6.cli

输出x对应值的95%容许区间上下限

7.clm

输出预测值的均值的95%可信区间上下限。

8.tol

输出各自变量的容许值。0≤tol值≤1,越接近于0,共线性越严重。

9.vif

输出各自变量的方差膨胀因子。当vif≥10时,可认为多元共线性严重存在。2023/2/39

10.collin

要求详细分析自变量之间的共线性,给出信息矩阵的特征根、条件指数和方差比,当条件指数≥10,方差比>0.5时,可认为存在多元共线性。

11.collinoint

与选择项collin作用相同,但不包括回归常数。

12.R

进行预测值的残差分析(即异常值识别与强影响分析),输出学生化残差值和Cook’s距离D值。当学生化残差值>2时,所对应的点可能是异常点,当D值>0.5时,可认为对应的变量值对回归函数是强影响点。

2023/2/310

完全多元线性回归

例11-527名糖尿病人的血清总胆固醇、甘油三酯、空腹胰岛素、糖化血红蛋白、空腹血糖的测定值列于表11-4中,试建立血糖与其他指标的多元线性回归方程。dataex11_5;infile'e:\sasx\sas7\ex11_5.txt';inputx1-x4y@@;procreg;modely=x1-x4/stb;run;2023/2/311

TheREGProcedureModel:MODEL1DependentVariable:y

AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel4133.7106933.427678.280.0003Error2288.841174.03823CorrectedTotal26222.55185RootMSE2.00954R-Square0.6008DependentMean11.92593AdjR-Sq0.5282CoeffVar16.850152023/2/312

ParameterEstimatesParameterStandardStandardizedVariableDFEstimateErrortValuePr>|t|EstimateIntercept15.943272.828592.100.04730x110.142450.365650.390.70060.07758x210.351470.204201.720.09930.30931x31-0.270590.12139-2.230.0363-0.33948x410.638200.243262.620.01550.397742023/2/313

逐步回归

简介

逐步回归是筛选自变量的常用的方法之一。筛选自变量的方法还有前进法,后退法和最优回归子集法。逐步回归法是依据事先给定的两个显著性水平SLE和SLS,将自变量逐个引入方程,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著的变量剔除,这样保证最后所得的变量都有显著性。自变量间的多重共线性(multicollinearity)

多重共线性是指在进行多元回归时,自变量间存在线性相关关系。共线关系存在,可使估计系数方差加大,系数估计不稳定,结果分析困难。出现以下现象提示可能存在自变量之间的共线关系。

2023/2/314整个回归方程的统计检验P<α,而各偏回归系数的检验均出现P>α的矛盾现象。偏回归系数的估计值明显与实际情况不符,或者是偏回归系数的符号与专业知识的情况相反。据专业知识,该自变量与应变量间关系密切,而偏回归系数检验结果P>α。

增加(或删除)一个变量,或者改变(或去除)一个观察值,引起回归系数估计值发生大的变化。多重共线性是引起上述问题的重要原因。解决多重共线性的办法找出存在共线性且不重要的那些自变量,剔除出方程,另行回归分析。

用主成分回归或岭回归等有偏估计替代最小二乘估计。用逐步回归等方法筛选自变量。

2023/2/315

例11-6

dataex11_6;infile'e:\sasx\sas7\ex11_5.txt';inputx1-x4y@@;proc

reg;modely=x1-x4/stbselection=cpaicadjrsq;modely=x1-x4/tolvifcollincollinointR;modely=x1-x4/selection=stepwisesle=0.15sls=0.15stb;run;2023/2/3162023/2/3172023/2/3182023/2/3192023/2/3202023/2/3212023/2/3222023/2/3232023/2/3242023/2/3252023/2/3262023/2/3272023/2/328第八章协方差分析

概念

协方差分析(analysisofcovariance)是把线性回归与方差分析结合起来,检验两个或多个修正均数间有无差别的方法。如研究不同的饲料对动物体重的增长情况,但每只动物的进食量是不同的,对体重的增长是有影响的,进食量即为混杂因素,亦称为协变量。协方差分析检验的意义是:用直线回归的方法找出食量(协变量x)与所增体重(应变量y)的线性关系,求得当食量化为相等时(即扣除食量的影响),各饲料组动物所增体重的修正均数,然后用方差分析检验各修正均数间的差别。2023/2/329

协方差分析的应用条件

1.各处理组资料(x,y)来自正态总体分布,且总体方差相等。

2.各处理组的总体直线回归系数βi

相等(回归线平行),且都不为0。

3.协变量是定量变量,且与处理因素不存在交互作用。

4.各处理组的协变量均数差别不能太大。2023/2/330

协方差分析常用公式

修正均数间比较的F值如修正均数间有差别,必要时再作两两比较。公共回归系数bc各修正均数的计算2023/2/331

SAS常用语句格式

Procglm[data=<数据集名>];

Class

分组变量;/*指明分组变量,

必须放在model语句前*/

Model

应变量=分组变量协变量/[选项];

Lsmeans分组变量/[选项];

/*输出各组变量的最小二乘均数(修正均数)*/

run;

2023/2/332

model语句常用的[选项]

solution/*输出回归方程中各参数的估计值

*/lsmeans语句常用的[选项]

stderr

/*输出修正均数的标准误

*/

pdiff

/*输出修正均数间两两比较的概率值

*/2023/2/333一、完全随机设计资料的协方差分析

例8-1为研究A、B、C三种饲料喂养8头猪一段时间,测得每头猪的初始重量(X)和增重(Y),数据见表8-3。试分析三种饲料对猪的催肥效果是否不同?A饲料B饲料C饲料X1Y1X2Y2X3Y312┆781513┆14178583┆84901716┆19189790┆99942224┆30328991┆105110

表8-3三种饲料喂养猪的进食量与增重(kg)2023/2/334dataex8_1;dofood=1to3;doi=1to8;inputxy@@;output;end;end;cards;1585138311651276128016911484179017971690181001895211032210619991894228924912083239525100271023010532110;procglm;classfood;modely=foodx/solution;lsmeansfood/stderrpdiff;run;2023/2/335SAS计算结果

TheGLMProcedureDependentVariable:y

SumofSourceDFSquares

MeanSquare

FValue

Pr>FModel3

2328.343765

776.114588

68.20

<.0001Error20

227.614568

11.380728CorrectedTotal23

2555.958333R-SquareCoeffVarRootMSEyMean0.9109473.6585993.37353492.20833

(以上说明总体模型有统计学意义,P=<.0001)2023/2/336SourceDFTypeISSMeanSquareFValuePr>FFOOD21317.583333

658.79166757.89<.0001X11010.7604321010.76043288.81<.0001SourceDFTypeIIISSMeanSquareFValuePr>FFOOD2707.218765353.60938231.07<.0001

SS修正均数MS修正均数

F值P值X11010.7604321010.76043288.81<.0001(从TypeⅢSS结果看,三种饲料修正均数间的差异有统计学意义,P<0.0001,说明三种饲料对猪的体重影响是不同的。协变量P<0.0001,差异有统计学意义,即x和y之间有线性回归关系。)

2023/2/337

StandardParameterEstimateErrortValuePr>|t|Intercept35.93518188B6.575471405.47<.0001food112.79324180B3.408989473.750.0013food217.33559201B2.409151137.20<.0001food30.00000000B...x2.401569190.254833219.42<.0001

公共回归系数bc

=35.94+2.40X+12.79foodfood=A=35.94+2.40X+17.34foodfood=B=35.94+2.40Xfood=C2023/2/338

TheGLMProcedureLeastSquaresMeansStandardLSMEANfoodyLSMEANErrorPr>|t|Number

修正均数标准误

194.95863051.8403872<.00011299.50098071.2033114<.00012382.16538871.9643967<.00013LeastSquaresMeansforeffectfoodPr>|t|forH0:LSMean(i)=LSMean(j)DependentVariable:y两两比较的概率值

i/j12310.04240.001320.0424<.000130.0013<.00012023/2/339二、随机区组(配伍组)设计资料的协方差分析

例8-2表8-4三组大白鼠的进食量(x,g)与所增体重(y,g)区组

A组B组C组

x

y

x

y

x

y

12┆┆1112

256.9271.6┆┆

356.9198.2

27.041.7┆┆76.09.2

260.3271.1┆┆356.3199.2

32.047.7┆┆102.18.1

544.7481.2┆┆559.6371.9

160.396.1┆┆169.854.32023/2/340dataex8_2;doa=1to12;dob=1to3;inputxy@@;output;end;end;cards;256.927.0260.332.0544.7160.3271.641.7271.147.1481.296.1210.225.0214.736.7418.9114.6300.152.0300.165.0556.6134.8262.214.5269.739.0394.576.3304.448.8307.537.9426.672.8272.448.0278.951.5416.199.4248.29.5256.226.7549.9133.7242.837.0240.841.0580.5147.0342.956.5340.761.3608.3165.8356.976.0356.3102.1559.6169.8198.29.2199.28.1371.954.3;procglm;classab;modely=xab/solution;lsmeansb/stderrpdiff;run;程序2023/2/341TheGLMProcedureDependentVariable:YSourceDFSumofSquaresMeanSquareFValuePr>FModel1473529.470805252.1050649.39<.0001Error212233.13892106.33995CorrectedTotal3575762.60972

R-SquareC.V.RootMSEYMean0.97005215.3460610.3121369.19722SourceDFTypeIIISSMeanSquareFValuePr>FX16175.0305216175.03052158.07<.0001A113761.318706341.9380643.220.0103B2469.156885234.5784432.210.13502023/2/342

StandardLSMEANbyLSMEANErrorPr>|t|Number167.43015524.9702654<.00011275.10234934.8681166<.00012359.05916218.3787077<.00013

LeastSquaresMeansforeffectbPr>|t|forH0:LSMean(i)=LSMean(j)DependentVariable:yi/j12310.08280.511720.08280.210530.51170.21052023/2/343

两条或多条回归直线的比较对两条或多条回归直线进行比较,即检验其总体回归直线的斜率是否相等(回归直线是否平行),检验其总体截距是否相等。如两者都相同即可合并为一条回归直线。例11-4某地方病研究所调查了8名正常儿童和10名大骨节病儿童的年龄与其尿肌酐含量(mmol/24h),正常儿童数据见表11-1,大骨节病儿童数据见表11-3。是比较两样本尿肌酐含量(Y)对其年龄(X)的回归直线是否平行。2023/2/344

表8名正常儿童和10名大骨节病患儿的年龄(岁)与尿肌酐含量(mmol/24h)正常儿童大骨节病患儿年龄,X尿肌酐含量,Y年龄,X尿肌酐含量,Y1311968101273.543.013.092.482.563.363.182.65109111215168710153.012.832.923.093.983.892.212.392.743.362023/2/345dataex11_4;doc=1to2;inputn;doi=1ton;inputxy@@;output;end;end;cards;8133.54113.0193.0962.4882.56103.36123.1872.6510103.0192.83112.92123.09153.98163.8982.2172.39102.74153.36;procglm;classc;modely=xcx*c/ss1;/*通过检验交互作用看其回归线是否平行*/procglm;classc;modely=xc/ss3;/*通过检验两组修正均数是否相同看其截距是否相同*/run;2023/2/346

TheGLMProcedureDependentVariable:ySumofSourceDFSquaresMeanSquareFValuePr>FModel33.442019961.1473399927.18

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论