相关与回归分析_第1页
相关与回归分析_第2页
相关与回归分析_第3页
相关与回归分析_第4页
相关与回归分析_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

直线相关与回归分析Linear

Correlation

andRegression相关分析和回归分析是研究变量与变量间相互关系的重要方法。为此,SAS系统提供了强大的相关分析与回归分析手段。相关分析可用CORR过程来处理,而回归分析则可用

REG过程来完成。当然,特殊的回归分析SAS提供了专用的过程。这里,仅仅讨论CORR过程和REG过程的常规用法。PROC

CORR

<option(s)>;VAR

variables;PARTIAL

variables;一、直线相关分析CORR过程只有第一条语句(下划线部份)是必需的,其它语句都是可选的。SAS提供的相关分析过程是CORR过程,它位于BASE模块中,可以计算的相关系数有:Pearson积差相关系数、Spearman等级相关系数、Kendall‘s

tau-b统计量、Hoeffding’s独立性分析统计量D。此外,还可以计算偏相关系数等。常用语句及格式:1、PROC

CORR

[options];常用选项DATA=:指定分析数据集Pearson:计算Pearson相关系数Spearman:计算Spearman等级相关系数2、VAR

variables;指明要计算相关系数的变量3、PARTIAL

variables;指定需要控制的变量,用于计算VAR语句中变量的偏相关系数例7-1

为了了解年龄与总胆固醇之间的关系,随机抽查了

20高血脂病人治疗前的总胆固醇水平(mmol/L)与年龄,资料见下表。试问年龄与胆固醇之间是否存在相关关系?年龄胆固醇245.436010.27287.49306.345210.53529.00234.71257.854811.28306.483610.01204.94449.49508.015711.735710.45519.72345.72377.12317.54首先建立SAS数据集data

ex71;input

age

chol;cards;24

5.4360

10.2728

7.49……….51

9.7234

5.7237

7.1231

7.54;run;由于数据太长,此处以省略号代之调用CORR过程PROC

CORR

data=ex71;RUN;程序中只有两条语句,第一条语句调用CORR过程,并指明分析数据集;第二条词句就是程序结束语句RUN。程序中没有VAR语句,则SAS系统对数据集中所有数值型变量进行相关分析。分析结果The

CORR

Procedure2

Variables:age

cholSimple

StatisticsVariableNMeanStd

DevSumMinimumMaximumage2039.4500013.01204789.0000020.0000060.00000chol208.205502.17555164.110004.7100011.73000Pearson

Correlation

Coefficients,

N

=

20Prob

>

|r|

under

H0:

Rho=0agecholage1.000000.84993<.0001chol0.84993<.00011.00000第一行为相关系数第二行为假设检验P值CORR过程的默认输出结果主要包括各个变量的简单统计描述和一个相关系数矩阵。简单统计描述:包括变量名、例数、均数、标准差等,这些都是前面的统计过程经常出现的。相关系数矩阵:在相关系数矩阵的上方指明了相关系数的类型,如本例是”Pearson

Correlation

Coefficients”,接下来就是对相关系数矩阵的说明,矩阵中每一个格子有两个数据,上方的数据是对应变量的相关系数,其下方的数据是该相关系数的显著性检验。本例中,age与chol的相关系数r=0.84993,p<.0001,因此可以认为年龄与胆固醇之间存在着较强的正相关。等级相关系数PROC

CORR

Spearman

data=ex71;RUN;Spearman

Correlation

Coefficients,

N

=

20Prob

>

|r|

under

H0:

Rho=0agecholage1.000000.84456<.0001chol0.84456<.00011.00000计算等级相关系数只需在调用CORR过程的语句中加入选项“Spearman”即可。本例计算的age与chol的等级相关系数sr=0.84456,p<.0001二、直线回归分析SAS提供的回归分析的过程中,REG过程是一个最常用的过程。它采用最小二乘法拟合线性回归模型,同时还提供多种“最优”回归子集的方法,是一个应用广泛的回归过程。我们这里只介绍一元回归的情形。常用语句格式PROC

REG

[options];MODEL

dependent=regressors

</options>;

PRINT

stb;PLOT

[Y*X]

[/options];此过程中,下划线的部份是必需的。语句说明1、PROC

REG

[options];最常用选项:data=数据集2、MODEL dependent=regressors

</options>;指定因变量(dependent)和自变量(regressors),即指定回归方程模型,如,y=x

等Model语句常用选项OptionDescriptionSELECTION=指定变量选择方法:Forward,

Backward,

StepwiseADJRSQ计算校正R2AICcomputes

Akaike’s

information

criterionBICcomputes

Sawa’s

Bayesian

information

criterionCPcomputes

Mallows’

Cp

statisticCOLLINproduces

collinearity

analysisCORRBdisplays

correlation

matrix

of

estimatesCOVBdisplays

covariance

matrix

of

estimatesLACKFITperforms

lack-of-fit

testSTB显示标化回归系数TOLdisplays

tolerance

values

for

parameter

estimatesVIFcomputes

variance-inflation

factorsP计算Y的预测值R残差分析ALPHA=设置alpha水平,默认0.05NOPRINT禁止在output窗口输出结果3、PRINT

stb;要求输出标准化回归系数。对于高版本的SAS系统,

REG过程不会自动输出标准化回归系数,因此,需用该语句强制输出标准化回归系数。对于SAS6.12版,可以自动输出标准化回归系数。4、PLOT [Y*X]/选项;以Y变量为纵轴、X变量为横轴作散点图,并自动绘制拟合的回归直线,常用的选项是画出总体回归线的置信带及个体值的容许区间,对应的选项分别是:conf:总体回归线的置信带;

pred:个体值的容许区间。实例分析仍然采用例7-1的数据资料,试以胆固醇为应变量,年龄为自变量建立直线回归方程。数据集的建立完全同相关分析。PROCREG

data=ex71;MODEL

chol=age;RUN;调用REG过程进行回归分析Model语句中,chol是应变量,放在等号的左边,age是自变量,放在等号的右边。分析结果The

REG

ProcedureModel:

MODEL1Dependent

Variable:

cholAnalysis

of

VarianceSourceDFSum

ofSquaresMeanSquareF

ValuePr

>

FModel164.9613664.9613646.84<.0001Error1824.965941.38700Corrected

Total1989.92730Root

MSE1.17771R-Square0.7224Dependent

Mean8.20550Adj

R-Sq0.7070Coeff

Var14.35267Parameter

EstimatesVariableDFParameterEstimateStandardErrort

ValuePr

>

|t|Intercept12.599510.860443.020.0073age10.142100.020766.84<.0001模型的显著性检验一些统计量参数估计及检验结果的解释结果主要分为三部份:回归模型的显著性检验、一些统计量、回归参数的估计及检验。对回归模型的显著性检验:F=46.84,p<.0001,可以认为回归模型是成立的。一些统计量包括:RootMSE(均方根),即误差均方的平方根;R-Square(R2),即决定系数;AdjR-Sq(校正R平方);Coeff

Var(应变量的变异系数)。参数估计及检验:回归方程的截距intercept=2.59951,自变量age的回归系数为0.14210,因此回归方程为:chol=2.59951+0.14210age对回归系数的假设检验得t=6.84,p<0.0001,因此可以认为回归系数具有统计学意义,即总体回归系数β≠0。以上结果均表明血中胆固醇水平与年龄之间具有直线关系。PROC

REG

data=ex71;MODEL

chol=age;PRINT

stb;PLOT

chol*age

;RUN;输出标准化回归系数及绘制回归直线在程序中添加两条语句(红色部份)。PRINTstb;语句表示输出标准化回归系数;PLOT

chol*age;语句表示绘制回归直线。Parameter

EstimatesVariableDFParameterEstimateStandardErrort

ValuePr

>

|t|StandardizedEstimateIntercept12.599510.860443.020

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论