一线性回归分析课件_第1页
一线性回归分析课件_第2页
一线性回归分析课件_第3页
一线性回归分析课件_第4页
一线性回归分析课件_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1一、线性回归分析2线性回归是统计分析方法中最常用的方法之一。如果所研究的现象有若干个影响因素,且这些因素对现象的综合影响是线性的,则可以使用线性回归的方法建立现象 (因变量)与影响因素(自变量)之间的线性函数关系式。由于多元线性回归的计算量比较大,所以有必要应用统计分析软件实现。示。

SPSS软件中进行线性回归分析的选择项为

Analyze→Regression→Linear。如图所3(一)双变量线性回归4某医师测得10名3岁儿童的身高(cm)、体重(kg)和体表面积(cm2)资料如下。试用多元回归方法

确定以身高、体重为自变量,体表面积为应变量的回归方程。儿童编号体表面积(Y)身高(X1)体重(X2)15.38288.011.025.29987.611.835.35888.512.045.29289.012.355.60287.713.166.01489.513.775.83088.814.486.10290.414.996.07590.615.2106.41191.216.01、数据准备激活数据管理窗口,定义变量名:体表面积为Y,保留3位小数;身高、体重分别为X1、X2,1位小数。输入原始数据,结果如图8.1所示。52、统计分析6激活Analyze菜单选Regression中的Linear...项,弹出Linear

Regression对话框。选y,点击

钮使之进入Dependent框;选x1、x2,点击

钮进入Indepentdent(s)框;在Method处下拉菜单,共有5个选项:Enter(全部入选法)、Stepwise(逐步法)、Remove(强制剔除法)、Backward(向后法)、Forward(向前法)。本例选用Enter法,点击OK钮即完成分析。7点击Statistics...钮选择是否作变量的描述性统计、回归方程应变量的可信区间估计等分析;点击Plots...钮选择是否作变量分布图(本例要求对标准化Y预测值作变量分布图);点击Save...钮选择对回归分析的有关结果是否作保存(本例要求对根据所确定的回归方程求得的未校正Y预测值和标准化Y预测值作保存);点击Options...钮选择变量入选与剔除的α、β值和缺失值的处理方法。83、结果解释9本例以X1、X2为自变量,Y为应变量,采用全部入选法建立回归方程。回归方程的复相关系数为0.94964,决定系数(即r2)为0.90181,经方差分析,F=34.14499,P=0.0003,回归方程有效。回归方程为Y=0.0687101X1+0.183756X2-2.856476。10本例要求按所建立的回归方程计算Y预测值和标准化Y预测值(所谓标准化Y预测值是指将根据回归方程求得的Y预测值转化成按均数为0、标准差为1的标准正态分布的Y值)并将计算结果保存入原数据库。系统将原始的X1、X2值代入方程求Y值预测值(即库中pre_1栏)和标准化Y预测值。1112本例还要求对标准化Y预测值作变量分布图,系统将绘制的统计图送向Chart

Carousel窗口,双击该窗口可见下图显示结果。13Y

=401.739+67.922t14Y

=1190.017+793.915t15例:为了考察火柴销售量的影响因素,选择煤气户数、卷烟销量、蚊香销量、打火石销量作为影响因素,得数据表。建立火柴销售量对于相关因素煤气户数、卷烟销量、蚊香销量、打火石销量的线性回归模型,通过对模型的分析,找出合适的线性回归方程。16(二)多元线性回归分析年份火柴销售量(万件)煤气户数(万户)卷烟销量(百箱)蚊香销量(十万盒)打火石销量(百万粒)7526.7141.1645.1626.3917.087631.1945.7352.4627.047.397730.550.5945.323.083.887829.6358.8246.824.4610.537929.6965.2851.1133.8220.098029.2571.2553.2933.5721.228131.0573.3755.3639.5912.638232.2876.685448.4911.17171、打开数据文件,单击Analyze

Regression→

Linear打开Linear 对话框如图所示。182、从左边框中选择因变量Y进入Dependent 框内,选择一个或多个自变量进入Independent框内。从Method 框内下拉式菜单中选择回归分析方法:强行进入法(Enter),消去法(Remove),向前选择法

(Forward),向后剔除法(Backward)及逐步回归法

(Stepwise)五种。本例中选择逐步回归法(Stepwise)。19Enter(强迫引入法默认选择项)定义的全部自变量均引入方程;Remove(强迫剔除法)定义的全部自变量均删除;Forward(向前引入法)自变量由少到多一个一个引入回归方程,直到不能按检验水准引入新的变量为止。该法的缺点是:当两个变量一起时效果好单独时效果不好,有可能只引入其中一个变量或两个变量都不能引入。20Backward(向后剔除法) 自变量由多到少一个一个从回归方程中剔除,直到不能按检验水准剔除为止。能克服向前引入法的缺点,当两个变量一起时效果

好单独时效果不好,该法可将两个变量都引入方程。Stepwise(逐步引入一剔除法) 将向前引入法和向后剔除法结合起来,在向前引入的每一步之后都要考虑从已引入方程的变量中剔除作用不显著者,直到没有一个自变量能引入方程和没有一个自变量能从方程中剔除为止。缺点同向前引入法,但选中的变量比较精悍。213、单击Statistics,打开Linear

Regression:Statistics对话框,可以选择输出的统计量。22Regression Coefficients栏,回归系数选项栏:Estimates

(系统默认): 输出回归系数的相关统计量。Confidence

intervals:输出每一个非标准化回归系数95%的置信区间。Covariance

matrix:

输出协方差矩阵。23Model

fit是默认项。能够输出复相关系数R、R2及R2修正值,(R2

判定系数在判定一个线性回归直线的拟合优度的好坏时,是一个重要的判定指标)R

squared

change:引入或剔除一个变量时,R2的变化。Descriptives: 基本统计描述。Part

and

Partial correlations:相关、偏相关系数。Collinearity

diagnostics:共线性诊断。24Residuals

残差栏:

Durbin-Watson:D.W检验.Casewise

diagnostics:

奇异值诊断,有两个选项:Outliers

outside(

)standard deviations:奇异值判据,默认项标准差≥3。All

case

输出所有观测量的残差值。本例中选择D.W检验及奇异值诊断,选择标准差为2,即置信度约为95%。254、如果需要观察图形,可单击Plots按纽,打开Linear

Regression:Plots对话框如图所示。在此对话框中可以选择所需要的图形。26在左上角的源变量框中,选择Dependent 进入X(或Y)轴变量框,选择其它变量进入Y(或X)轴变量框,除因变量外,其客观存在变量依次是:ZPRED:标准化预测值,ZRESID:标准化残差,DRESID:剔除残差,ADJPRED:修正后预测值,SRESID学生化残差,SDRESID:学生化剔除残差。27Standardized

Residual

Plots栏,标准化残差图类型:Histogram:

标准化残差直方图Normal

probability

plot

标准化残差序列的正态分布概率图.Produce

all

partial

plots

依次绘制因变量和所有自变量的散布图本例中选择因变量Dependent与标准化残差ZRESID的残差图。285、单击Options按纽,打开Linear

Regression:Options对话框,如图所示。可以从中选择模型拟合判断准则Stepping

Method

Criteria 及缺失值的处理方式。29Stepping

Method

Criteria

栏:Use

probability

of

F:采用F检验的概率为判别依据。Use

F

value: 采用F值作为检验标准。Include

constant

in

equation

回归方程中包括常数项。Missing

Values

缺失值处理方式。306、如果要保存预测值等数据,可单击Save按纽打开LinearRegression:Save对话框。选择需要保存的数据种类作为新

变量存在数据编辑窗口。其中有预测值、残差,预测区间等。本例中不做选择。7、当所有选择完成后,单击OK,得到分析结果31Model

Summary(d)模型综合分析表ModelRR

SquareAdjustedR

SquareStd.

Error

ofthe

EstimateChange

Statistics变动分析Durbin-WatsonR

SquareChangeF

Changedf1df2Sig.

FChange1.879(a).772.7552.44047.77244.085113.0002.994(b).988.986.58304.216215.772112.0003.997(c).994.993.41783.00612.365111.0052.066表模型综合分析中有模型的复相关系数R,样本决定系数R2,修正的可决系数,估计标准误,模型变化导致的可决系数及F值的变化,D.W检验值等。由上表中知模型3的修正的可决系数为0.993,其模型的拟合程度最好,DW值为2.066,显然通过DW检验,说明残差项不存在一阶自相关。32方差分析表方差分析表同时给出了3个模型的方差分析表。其中模型3的F值最大,说明模型3的回归效果最显著。33回归系数34353637回归系数表的输出结果Model栏可以看出:模型1是先将卷烟销量作为自变量进入模型;模型2将卷烟销量与打火石销量两个自变量进入模型;模型3是将卷烟、打火石和煤气户数三个自变量进入模型,自变量蚊香销量没有通过检验自动剔除,得回归模型为:38回归系数表的输出结果可以看出,回归系数都通过检验,模型中自变量与因变量的偏相关系数都在0.7以上,说明进入模型的自变量对因变量的影响都比较显著。由最后两列的容忍度Tolerance和方差膨胀因子VIF的值来看,自变量之间不存在强烈的共线性。39相关系数表火柴销量(万件)煤气户数(万户)卷烟销量(万箱)蚊香销量(十万盒)打火石销量(百万粒)PearsonCorrelation火柴销量(万件)1.000.826.879.808-.490煤气户数(万户).8261.000.903.949-.023卷烟销量(万箱).879.9031.000.903-.029蚊香销量(十万盒).808.949.9031.000-.007打火石销量(百万粒)-.490-.023-.029-.0071.000Sig.(1-tailed)火柴销量(万件)..000.000.000.032煤气户数(万户).000..000.000.468卷烟销量(万箱).000.000..000.458蚊香销量(十万盒).000.000.000..490打火石销量(百万粒).032.468.458.490.N火柴销量(万件)1515151515煤气户数(万户)

15

15

15

15

15卷烟销量(万箱)

15

15

15

15

15蚊香销量(十万盒

15

15

15

15

15打火石销量(百万粒)

15

15

15

15

15相关分析表中表示的相关系数是全部变量(自变量与因变量)两两变量之间的简单相关系数和相关性检验40。残差统计残差统计表表示了预测值、残差、标准化预测值和标准化残差的特征值。其中包括预测值及残差项的最小值和最大值、均值、标准误和样本容量。41共线性诊断表共线性诊断表中第二列是特征值,第三列是条件指数,最后一列是方差比。最大的条件指数小于20,说明自变量之间不存在比较强烈的共线性。42练习115例儿童的血液中血红蛋白(y,g)与钙(x1)镁

(x2)铁(x3)锰(x4)及铜(x5)的含量如下图所示用,逐步回归方法筛选对血红蛋白有显著作用的微量元素(ug)。43练习244二、曲线估计上面介绍了线性回归模型的分析和检验方法。如果某对变量数据的散点图不是直线,而是某种曲线的形式时,可以利用曲线估计的方法为数据寻求一条合适的曲线,也可用变量代换的方法将曲线方程变为直线方程,用线性回归模型进行分析和预测。SPSS提供了多种曲线方程。45例:下表表示的是全国1990年至2002年人均消费支出与教育支出的统计数据,试以人均消费性支出为解释变量,教育支出作为被解释变量,拟合用一条合适的函数曲线。46人均消费支出与教育支出数据表年份人均消费性支出(元)教育支出(元)19901627.6438.2419911854.2247.9119922203.657.5619933138.5671.0019944442.09153.9819955565.68194.6219966544.73307.9519977188.71419.1919987911.94542.7819997493.31556.9320007997.37656.2820019463.071091.8520029396.451062.13

47解:首先根据上表建立数据,作出人均消费支出与教育支出的散点图,如下:由上面图形可以看出,两个变量的散点图为增长的曲线形式,故选择合适

的函数进行曲线估计。481、单击Analyze

Regression

CurveEstimation打开Curve

Estimation对话框。2、选择估计曲线:SPSS有多条曲线形式供选择。49503、单击Save按纽,打开Save对话框如图所示。选择需要保存到数据表中的项目。在Save

Variables栏中,复选项依次是:Predicted

Values预测值、Residuals残差、Prediction

intervals预测区间,可以在下方框中选择置信度,默认值为95%。514、所有选择完成后,单击OK,得到输出结果如表曲线估计输出表52决定系数自由度F值P值回归系数DependentMthRsqd.f.FSigfb0b1b2YQUA.98710382.64.000252.698-.14752.5E-05YCOM.995112086.35.00020.95501.0004YPOW.95411229.58.0003.6E-051.8460Independent:

X曲线图53

从表中可以看出,可决系数接近1的模型是

Com复合函数;也可通过图形验证这三个模型对观察值的拟合程度。对以上三个模型进一步分析。在主对话框下方选择输出方差分析表Display

AMOVA

table, 可得到方差分析表详细结果。54通过比较各种估计模型的样本决定系数,标准误,F值,拟合程度最好的复合函数曲线,并且其模型的回归系数的检验也通过。故可以选择复合函数曲线作为拟合曲线,其回归方程为:5556三、

Logistic

归分析使用多元线性回归来分析多个自变量与一个因变量的关系,因变量要求正态分布的连续随机变量。所谓Logistic回归是指因变量为二级计分或二类评定的回归分析。57某医师研究男性胃癌患者发生术后院内感染的影响因素,资料如下表,请通过Logistic回归统计方法对主要影响因素进行分析。58术后感染Y年龄X1手术创伤度X2营养状态

X3术前预防性抗菌

X4白细胞数(109/L)X5癌肿病理分度(TNM得分和)X6有6942无5.69有7253无4.46无5732无9.74无4111有11.25无3211有10.45有6533有7.05无5832有3.16有5442无6.66有5522有7.97无5911有6.04无6422无9.16无3611有8.48无4231有5.36无4842有4.65无5012有12.8459激活数据管理窗口,定义变量名:术后感染为Y(字符变量,有输入Y、无输入N),年龄为X1,手术创伤程度为X2,营养状态为X3,术前预防性抗菌为X4(字符变量,有输入Y、无输入N),白细胞数为X5,癌肿病理分度为X6。60激活Analyze菜单选Regression中的Logistic..项,弹出Logistic

Regression对话框。选y,点击

钮使之进入Dependent框;选x1、x2、x3、x4、x5和x6,点击

钮使之进入Covariates框;61点击Method处的下拉按钮,系统提供7种方法:621、Enter:所有自变量强制进入回归方程;2、Forward:

Conditional:以假定参数为基础作似然比概率检验,向前逐步选择自变量;3、Forward:

LR:以最大局部似然为基础作似然比概率检验,向前逐步选择自变量;4、Forward:

Wald:作Wald概率统计法,向前逐步选择自变量;5、Backward:

Conditional:以假定参数为基础作似然比概率检验,向后

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论