版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
SAS统计分析
第七讲
景学安2023/2/31
多元线性回归
一、基本概念
多元线性回归简称多元回归,是研究一个应变量与多个自变量间线性依存关系数量变化规律的一种方法。
二、多元线性回归方程
式中:b0为回归方程常数项,亦称为截距;bj(j=1,2,┅,m)为偏回归系数,即在其他自变量固定的条件下,Xj改变一个单位时应变量的改变量。
2023/2/32
三、多元线性回归方程的应用
预测应变量的估计值
探索影响应变量y的主要因素当X为某一定值时,估计应变量的容许区间当X为某一定值时,估计其应变量的总体均数的置信区间2023/2/33
四、分类变量的数量化
在实际研究中,自变量常常会是分类变量,主要包括三种类型的分类变量:①两分类变量,如性别(男、女);②有序分类变量,如病情(轻度、中度、重度);③无序分类变量,如职业(干部、职员、工人、农民)。进行多元回归分析,必须将这样的指标数量化,常用的数量化方法有:
1.两分类变量
可用0和1表示。例如:
0为男,1为女;0为阴性,1为阳性。
2.有序分类变量
由于有序的分类变量的各类之间有一定的数量关系,可以用0,1,2,3,┄表示。如0为轻度,1为中度,2为重度。2023/2/34
3.无序分类变量
由于各类别之间无数量关系,常用多个0,1变量表示,即建立多个哑变量(dummyvariable)。如表无序四分类变量用三个哑变量表示职业分类变量赋值X1X2X3干部职员工人农民100001000010一般来说,m个类别的分类变量需要(m-1)个哑变量表示。2023/2/35五、SAS语句格式
同单变量线性回归基本相同。
procreg[选项];
model应变量=自变量名列/[选项];必选语句,定义回归分析模型
[freq变量名];可选项,定义频数变量。
[outputout=数据集名统计量=变量名…统计量=变量名];
可选项。Output语句创建一个包括对每个观察值计算统计量的新输出的数据集。2023/2/36
(一)procreg语句的[选项]1.data=数据集
指明回归分析所用的数据集。
2.outest=数据集
指定一个输出数据集,用以存储回归分析所得的参数估计。3.simple
输出每个变量的简单统计结果。(二)model语句的/[选项]
1.selection=method
规定变量筛选方法和建立最优模型的准则。method的以下几种主要选项:
⑴forward(或f)前进法,按照sle规定的α值从无到有依次选一个变量进入模型
⑵backward(或b)后退法,按照sls规定的α值从含有全部变量的模型开始,以次剔除一个变量。2023/2/37⑶stepwise
逐步法,按照sle的α值依次选入变量,同时对模型中现有的变量按sls的α值剔除不显著的变量。⑷adjrsq
选择最优模型的决定系数准则(R2)。应选择R2最大的模型。⑸cp
选择最优模型的Cp准则。应选择Cp值与(p+1)最接近的模型。⑹aic
选择最优模型的aic准则。应选择aic值最小的模型。
注:[选项]中selection语句没有筛选变量的方法时,模型中含有全部自变量的回归模型。
2.sle=概率值
入选标准,规定变量入选模型的显著性水平,前进法默认为0.5,逐步法默认为0.15。
3.sls=概率值
剔除标准,指定变量保留在模型的显著性水平,后退法默认为0.1,逐步法默认为0.15。
2023/2/38
4.P
输出实际值Yi、预测值、残差及其标准误。
5.stb
输出各自变量的标准偏回归系数。
6.cli
输出x对应值的95%容许区间上下限
7.clm
输出预测值的均值的95%可信区间上下限。
8.tol
输出各自变量的容许值。0≤tol值≤1,越接近于0,共线性越严重。
9.vif
输出各自变量的方差膨胀因子。当vif≥10时,可认为多元共线性严重存在。2023/2/39
10.collin
要求详细分析自变量之间的共线性,给出信息矩阵的特征根、条件指数和方差比,当条件指数≥10,方差比>0.5时,可认为存在多元共线性。
11.collinoint
与选择项collin作用相同,但不包括回归常数。
12.R
进行预测值的残差分析(即异常值识别与强影响分析),输出学生化残差值和Cook’s距离D值。当学生化残差值>2时,所对应的点可能是异常点,当D值>0.5时,可认为对应的变量值对回归函数是强影响点。
2023/2/310
完全多元线性回归
例11-527名糖尿病人的血清总胆固醇、甘油三酯、空腹胰岛素、糖化血红蛋白、空腹血糖的测定值列于表11-4中,试建立血糖与其他指标的多元线性回归方程。dataex11_5;infile'e:\sasx\sas7\ex11_5.txt';inputx1-x4y@@;procreg;modely=x1-x4/stb;run;2023/2/311
TheREGProcedureModel:MODEL1DependentVariable:y
AnalysisofVarianceSumofMeanSourceDFSquaresSquareFValuePr>FModel4133.7106933.427678.280.0003Error2288.841174.03823CorrectedTotal26222.55185RootMSE2.00954R-Square0.6008DependentMean11.92593AdjR-Sq0.5282CoeffVar16.850152023/2/312
ParameterEstimatesParameterStandardStandardizedVariableDFEstimateErrortValuePr>|t|EstimateIntercept15.943272.828592.100.04730x110.142450.365650.390.70060.07758x210.351470.204201.720.09930.30931x31-0.270590.12139-2.230.0363-0.33948x410.638200.243262.620.01550.397742023/2/313
逐步回归
简介
逐步回归是筛选自变量的常用的方法之一。筛选自变量的方法还有前进法,后退法和最优回归子集法。逐步回归法是依据事先给定的两个显著性水平SLE和SLS,将自变量逐个引入方程,同时每引入一个新变量后,对已选入的变量要进行逐个检验,将不显著的变量剔除,这样保证最后所得的变量都有显著性。自变量间的多重共线性(multicollinearity)
多重共线性是指在进行多元回归时,自变量间存在线性相关关系。共线关系存在,可使估计系数方差加大,系数估计不稳定,结果分析困难。出现以下现象提示可能存在自变量之间的共线关系。
2023/2/314整个回归方程的统计检验P<α,而各偏回归系数的检验均出现P>α的矛盾现象。偏回归系数的估计值明显与实际情况不符,或者是偏回归系数的符号与专业知识的情况相反。据专业知识,该自变量与应变量间关系密切,而偏回归系数检验结果P>α。
增加(或删除)一个变量,或者改变(或去除)一个观察值,引起回归系数估计值发生大的变化。多重共线性是引起上述问题的重要原因。解决多重共线性的办法找出存在共线性且不重要的那些自变量,剔除出方程,另行回归分析。
用主成分回归或岭回归等有偏估计替代最小二乘估计。用逐步回归等方法筛选自变量。
2023/2/315
例11-6
dataex11_6;infile'e:\sasx\sas7\ex11_5.txt';inputx1-x4y@@;proc
reg;modely=x1-x4/stbselection=cpaicadjrsq;modely=x1-x4/tolvifcollincollinointR;modely=x1-x4/selection=stepwisesle=0.15sls=0.15stb;run;2023/2/3162023/2/3172023/2/3182023/2/3192023/2/3202023/2/3212023/2/3222023/2/3232023/2/3242023/2/3252023/2/3262023/2/3272023/2/328第八章协方差分析
概念
协方差分析(analysisofcovariance)是把线性回归与方差分析结合起来,检验两个或多个修正均数间有无差别的方法。如研究不同的饲料对动物体重的增长情况,但每只动物的进食量是不同的,对体重的增长是有影响的,进食量即为混杂因素,亦称为协变量。协方差分析检验的意义是:用直线回归的方法找出食量(协变量x)与所增体重(应变量y)的线性关系,求得当食量化为相等时(即扣除食量的影响),各饲料组动物所增体重的修正均数,然后用方差分析检验各修正均数间的差别。2023/2/329
协方差分析的应用条件
1.各处理组资料(x,y)来自正态总体分布,且总体方差相等。
2.各处理组的总体直线回归系数βi
相等(回归线平行),且都不为0。
3.协变量是定量变量,且与处理因素不存在交互作用。
4.各处理组的协变量均数差别不能太大。2023/2/330
协方差分析常用公式
修正均数间比较的F值如修正均数间有差别,必要时再作两两比较。公共回归系数bc各修正均数的计算2023/2/331
SAS常用语句格式
Procglm[data=<数据集名>];
Class
分组变量;/*指明分组变量,
必须放在model语句前*/
Model
应变量=分组变量协变量/[选项];
Lsmeans分组变量/[选项];
/*输出各组变量的最小二乘均数(修正均数)*/
run;
2023/2/332
model语句常用的[选项]
solution/*输出回归方程中各参数的估计值
*/lsmeans语句常用的[选项]
stderr
/*输出修正均数的标准误
*/
pdiff
/*输出修正均数间两两比较的概率值
*/2023/2/333一、完全随机设计资料的协方差分析
例8-1为研究A、B、C三种饲料喂养8头猪一段时间,测得每头猪的初始重量(X)和增重(Y),数据见表8-3。试分析三种饲料对猪的催肥效果是否不同?A饲料B饲料C饲料X1Y1X2Y2X3Y312┆781513┆14178583┆84901716┆19189790┆99942224┆30328991┆105110
表8-3三种饲料喂养猪的进食量与增重(kg)2023/2/334dataex8_1;dofood=1to3;doi=1to8;inputxy@@;output;end;end;cards;1585138311651276128016911484179017971690181001895211032210619991894228924912083239525100271023010532110;procglm;classfood;modely=foodx/solution;lsmeansfood/stderrpdiff;run;2023/2/335SAS计算结果
TheGLMProcedureDependentVariable:y
SumofSourceDFSquares
MeanSquare
FValue
Pr>FModel3
2328.343765
776.114588
68.20
<.0001Error20
227.614568
11.380728CorrectedTotal23
2555.958333R-SquareCoeffVarRootMSEyMean0.9109473.6585993.37353492.20833
(以上说明总体模型有统计学意义,P=<.0001)2023/2/336SourceDFTypeISSMeanSquareFValuePr>FFOOD21317.583333
658.79166757.89<.0001X11010.7604321010.76043288.81<.0001SourceDFTypeIIISSMeanSquareFValuePr>FFOOD2707.218765353.60938231.07<.0001
SS修正均数MS修正均数
F值P值X11010.7604321010.76043288.81<.0001(从TypeⅢSS结果看,三种饲料修正均数间的差异有统计学意义,P<0.0001,说明三种饲料对猪的体重影响是不同的。协变量P<0.0001,差异有统计学意义,即x和y之间有线性回归关系。)
2023/2/337
StandardParameterEstimateErrortValuePr>|t|Intercept35.93518188B6.575471405.47<.0001food112.79324180B3.408989473.750.0013food217.33559201B2.409151137.20<.0001food30.00000000B...x2.401569190.254833219.42<.0001
公共回归系数bc
=35.94+2.40X+12.79foodfood=A=35.94+2.40X+17.34foodfood=B=35.94+2.40Xfood=C2023/2/338
TheGLMProcedureLeastSquaresMeansStandardLSMEANfoodyLSMEANErrorPr>|t|Number
修正均数标准误
194.95863051.8403872<.00011299.50098071.2033114<.00012382.16538871.9643967<.00013LeastSquaresMeansforeffectfoodPr>|t|forH0:LSMean(i)=LSMean(j)DependentVariable:y两两比较的概率值
i/j12310.04240.001320.0424<.000130.0013<.00012023/2/339二、随机区组(配伍组)设计资料的协方差分析
例8-2表8-4三组大白鼠的进食量(x,g)与所增体重(y,g)区组
A组B组C组
x
y
x
y
x
y
12┆┆1112
256.9271.6┆┆
356.9198.2
27.041.7┆┆76.09.2
260.3271.1┆┆356.3199.2
32.047.7┆┆102.18.1
544.7481.2┆┆559.6371.9
160.396.1┆┆169.854.32023/2/340dataex8_2;doa=1to12;dob=1to3;inputxy@@;output;end;end;cards;256.927.0260.332.0544.7160.3271.641.7271.147.1481.296.1210.225.0214.736.7418.9114.6300.152.0300.165.0556.6134.8262.214.5269.739.0394.576.3304.448.8307.537.9426.672.8272.448.0278.951.5416.199.4248.29.5256.226.7549.9133.7242.837.0240.841.0580.5147.0342.956.5340.761.3608.3165.8356.976.0356.3102.1559.6169.8198.29.2199.28.1371.954.3;procglm;classab;modely=xab/solution;lsmeansb/stderrpdiff;run;程序2023/2/341TheGLMProcedureDependentVariable:YSourceDFSumofSquaresMeanSquareFValuePr>FModel1473529.470805252.1050649.39<.0001Error212233.13892106.33995CorrectedTotal3575762.60972
R-SquareC.V.RootMSEYMean0.97005215.3460610.3121369.19722SourceDFTypeIIISSMeanSquareFValuePr>FX16175.0305216175.03052158.07<.0001A113761.318706341.9380643.220.0103B2469.156885234.5784432.210.13502023/2/342
StandardLSMEANbyLSMEANErrorPr>|t|Number167.43015524.9702654<.00011275.10234934.8681166<.00012359.05916218.3787077<.00013
LeastSquaresMeansforeffectbPr>|t|forH0:LSMean(i)=LSMean(j)DependentVariable:yi/j12310.08280.511720.08280.210530.51170.21052023/2/343
两条或多条回归直线的比较对两条或多条回归直线进行比较,即检验其总体回归直线的斜率是否相等(回归直线是否平行),检验其总体截距是否相等。如两者都相同即可合并为一条回归直线。例11-4某地方病研究所调查了8名正常儿童和10名大骨节病儿童的年龄与其尿肌酐含量(mmol/24h),正常儿童数据见表11-1,大骨节病儿童数据见表11-3。是比较两样本尿肌酐含量(Y)对其年龄(X)的回归直线是否平行。2023/2/344
表8名正常儿童和10名大骨节病患儿的年龄(岁)与尿肌酐含量(mmol/24h)正常儿童大骨节病患儿年龄,X尿肌酐含量,Y年龄,X尿肌酐含量,Y1311968101273.543.013.092.482.563.363.182.65109111215168710153.012.832.923.093.983.892.212.392.743.362023/2/345dataex11_4;doc=1to2;inputn;doi=1ton;inputxy@@;output;end;end;cards;8133.54113.0193.0962.4882.56103.36123.1872.6510103.0192.83112.92123.09153.98163.8982.2172.39102.74153.36;procglm;classc;modely=xcx*c/ss1;/*通过检验交互作用看其回归线是否平行*/procglm;classc;modely=xc/ss3;/*通过检验两组修正均数是否相同看其截距是否相同*/run;2023/2/346
TheGLMProcedureDependentVariable:ySumofSourceDFSquaresMeanSquareFValuePr>FModel33.442019961.1473399927.18
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024版技术研发与技术服务外包合同
- 04版数据中心运营管理合同
- 空气质量改善技术
- 肛周脓肿手术技巧
- 维修行业发展前景
- 2024年度建筑工程设计、施工及监理综合服务合同
- 2024年度农家乐农家乐旅游联盟合同
- 2024餐厅合作伙伴关系与协调合同
- 2024年度采石厂安全生产许可证转让合同
- 2024年度农村电商电动三轮车租赁合同
- 2024水文情报预报规范
- 2024年新高考试题分析及2025届备考策略建议课件
- 2024年供应链管理师技能竞赛理论考试题库资料(含答案)
- 2024-2030年中国重水市场运行态势与未来竞争力剖析报告
- DL∕T 5537-2017 火力发电厂供热首站设计规范
- 2024版月子中心合同范本
- JGJ8-2016建筑变形测量规范
- 健身器材供货方案(技术方案)
- 信息化平台管理制度
- 2024年版-生产作业指导书SOP模板
- 儿童游乐设施:物业管理手册
评论
0/150
提交评论