SPSS如何进行线性回归分析操作_第1页
SPSS如何进行线性回归分析操作_第2页
SPSS如何进行线性回归分析操作_第3页
SPSS如何进行线性回归分析操作_第4页
SPSS如何进行线性回归分析操作_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、spss如何进行线性回归分析操作本节内容主要介绍如何确定并建立线性回归方程。包括只有一个自变量的一元线性回归和和含有多个自变量的多元线性回归。为了确保所建立的回归方程符合线性标准,在进行回归分析之前,我们往往需要对因变量与自变量进行线性检验。也就是类似于相关分析一章中讲过的借助于散点图对变量间的关系进行粗略的线性检验,这里不再重复。另外,通过散点图还可以发现数据中的奇异值,对散点图中表示的可能的奇异值需要认真检查这一数据的合理性。一、一元线性回归分析用spss进行回归分析,实例操作如下:1. 单击主菜单analyze / regression / linear,进入设置对话框如图7-9所示。从

2、左边变量表列中把因变量y选入到因变量(dependent)框中,把自变量x选入到自变量(independent)框中。在方法即method一项上请注意保持系统默认的选项enter,选择该项表示要求系统在建立回归方程时把所选中的全部自变量都保留在方程中。所以该方法可命名为强制进入法(在多元回归分析中再具体介绍这一选项的应用)。具体如下图所示:2. 请单击statistics按钮,可以选择需要输出的一些统计量。如regression coefficients(回归系数)中的estimates,可以输出回归系数及相关统计量,包括回归系数b、标准误、标准化回归系数beta、t值及显著性水平等。mode

3、l fit项可输出相关系数r,测定系数r2,调整系数、估计标准误及方差分析表。上述两项为默认选项,请注意保持选中。设置如图7-10所示。设置完成后点击continue返回主对话框。 回归方程建立后,除了需要对方程的显著性进行检验外,还需要检验所建立的方程是否违反回归分析的假定,为此需进行多项残差分析。由于此部分内容较复杂而且理论性较强,所以不在此详细介绍,读者如有兴趣,可参阅有关资料。3. 用户在进行回归分析时,还可以选择是否输出方程常数。单击options按钮,打开它的对话框,可以看到中间有一项include constant in equation可选项。选中该项可输出对常数的检验。在op

4、tions对话框中,还可以定义处理缺失值的方法和设置多元逐步回归中变量进入和排除方程的准则,这里我们采用系统的默认设置,如图7-11所示。设置完成后点击continue返回主对话框。4. 在主对话框点击ok得到程序运行结果。如题。我选择的是线性回归,得出了一堆表格和图标。我做的是生物学方面的统计。我的目标是得出模拟方程,再根据已有的自变量来计算因变量。我是spss新手,而且我对逐步回归也不了解。但由于工作原因,必须得到模拟方程。请高手告诉我我的这个统计符不符合线性关系,如果符合,怎么写模拟方程,谢谢!以下是部分截图。分享到:2013-11-16 19:52提问者采纳x1,x2.x5是5个自变量

5、,1个y因变量。系数a图中是将x1与y建立一个线性回归模型,常量为1.956e-6,sig. 也即p值=1 0.05,无统计学意义,x1的斜率为-0.504,p=0.0000.05也就说明这个变量对模型的建立无统计学意义,在多元线性回归中也就可以无情的剔除掉。而由系数a图可知,x1, x2,x3,x4,x5的斜率p值都是0.0000.05无显著性意义,说明拟合的线过原点,也即常量值应为0,但是否能改为0这个我也不确定,但0或0.002差别不会太大的。追问厉害,一看就是高手。不好意思,系数那个表里缺一块,我现在补上,再把另外几个表补上。还有点问题想请指教。1.你说的那个常量为1.965e-6,这

6、个e是什么意思?2.自变量一共有6个,从x1到x6,可能是我那个表缺一块的原因吧,抱歉了。系数表缺的部分:其它表:能否将最终的模拟方程式写出来,不胜感激!回答1.965e-6是指1.965乘10的-6次方。已排除的变量表对应系数a表,模型1对应模型1,也即前一个表是进入,相对的后一个就排除。模型1进入了x1,排除的x2,x3,x4,x5,x6中的x2的p值0.05可以去掉,各变量的斜率选用模型6的标准系数。因而最终回归方程为:y=-0.860x1-0.713x2-0.567x3-0.414x4-0.254x5-0.130x6回归分析是处理两个及两个以上变量间线性依存关系的统计方法。在医学领域中

7、,此类问题很普遍,如人头发中某种金属元素的含量与血液中该元素的含量有关系,人的体表面积与身高、体重有关系;等等。回归分析就是用于说明这种依存变化的数学关系。第一节linear过程8.1.1主要功能调用此过程可完成二元或多元的线性回归分析。在多元线性回归分析中,用户还可根据需要,选用不同筛选自变量的方法(如:逐步法、向前法、向后法,等)。8.1.2实例操作例8.1某医师测得10名3岁儿童的身高(cm)、体重(kg)和体表面积(cm2)资料如下。试用多元回归方法确定以身高、体重为自变量,体表面积为应变量的回归方程。儿童编号体表面积(y)身高(x1)体重(x2)123456789105.3825.2

8、995.3585.2925.6026.0145.8306.1026.0756.41188.087.688.589.087.789.588.890.490.691.211.011.812.012.313.113.714.414.915.216.08.1.2.1数据准备激活数据管理窗口,定义变量名:体表面积为y,保留3位小数;身高、体重分别为x1、x2,1位小数。输入原始数据,结果如图8.1所示。图8.1原始数据的输入8.1.2.2统计分析激活statistics菜单选regression中的linear.项,弹出linear regression对话框(如图8.2示)。从对话框左侧的变量列表中选

9、y,点击钮使之进入dependent框,选x1、x2,点击钮使之进入indepentdent(s)框;在method处下拉菜单,共有5个选项:enter(全部入选法)、stepwise(逐步法)、remove(强制剔除法)、backward(向后法)、forward(向前法)。本例选用enter法。点击ok钮即完成分析。用户还可点击statistics.钮选择是否作变量的描述性统计、回归方程应变量的可信区间估计等分析;点击plots.钮选择是否作变量分布图(本例要求对标准化y预测值作变量分布图);点击save.钮选择对回归分析的有关结果是否作保存(本例要求对根据所确定的回归方程求得的未校正y预

10、测值和标准化y预测值作保存);点击options.钮选择变量入选与剔除的、值和缺失值的处理方法。8.1.2.3结果解释在结果输出窗口中将看到如下统计数据:* * * *m u l t i p l er e g r e s s i o n* * * *listwise deletion of missing dataequation number 1dependent variable.yblock number1.method:enterx1x2variable(s) entered on step number1.x22.x1multiple r.94964r square.90181adj

11、usted r square.87376standard error.14335analysis of variancedfsum of squaresmean squareregression21.32104.66052residual7.14384.02055f =32.14499signif f =.0003- variables in the equation -variablebse bbetatsig tx1.068701.074768.215256.919.3887x2.183756.056816.7576603.234.0144(constant)-2.8564766.0177

12、76-.475.6495end block number1all requested variables entered.结果显示,本例以x1、x2为自变量,y为应变量,采用全部入选法建立回归方程。回归方程的复相关系数为0.94964,决定系数(即r2)为0.90181,经方差分析,f=34.14499,p=0.0003,回归方程有效。回归方程为y=0.0687101x1+0.183756x2-2.856476。本例要求按所建立的回归方程计算y预测值和标准化y预测值(所谓标准化y预测值是指将根据回归方程求得的y预测值转化成按均数为0、标准差为1的标准正态分布的y值)并将计算结果保存入原数据库。

13、系统将原始的x1、x2值代入方程求y值预测值(即库中pre_1栏)和标准化y预测值(即库中zpr_1栏),详见图8.3。图8.3计算结果的保存本例还要求对标准化y预测值作变量分布图,系统将绘制的统计图送向chart carousel窗口,双击该窗口可见下图显示结果。图8.4对标准化y预测值所作的正态分布图第二节curve estimation过程8.2.1主要功能调用此过程可完成下列有关曲线拟合的功能:1、linear:拟合直线方程(实际上与linear过程的二元直线回归相同,即y = b0+ b1x);2、quadratic:拟合二次方程(y = b0+ b1x+b2x2);3、compou

14、nd:拟合复合曲线模型(y = b0b1x);4、growth:拟合等比级数曲线模型(y = e(b0+b1x));5、logarithmic:拟合对数方程(y = b0+b1lnx)6、cubic:拟合三次方程(y = b0+ b1x+b2x2+b3x3);7、s:拟合s形曲线(y = e(b0+b1/x));8、exponential:拟合指数方程(y = b0eb1x);9、inverse:数据按y = b0+b1/x进行变换;10、power:拟合乘幂曲线模型(y = b0xb1);11、logistic:拟合logistic曲线模型(y = 1/(1/u + b0b1x)。8.2.2

15、实例操作例8.2某地1963年调查得儿童年龄(岁)x与锡克试验阴性率(%)y的资料如下,试拟合对数曲线。年龄(岁)x锡克试验阴性率(%)y123456757.176.090.993.096.795.696.28.2.2.1数据准备激活数据管理窗口,定义变量名:锡克试验阴性率为y,年龄为x,输入原始数据。8.2.2.2统计分析激活statistics菜单选regression中的curve estimation.项,弹出curve estimation对话框(如图8.5示)。从对话框左侧的变量列表中选y,点击钮使之进入dependent框,选x,点击钮使之进入indepentdent(s)框;在

16、model框内选择所需的曲线模型,本例选择logarithmic模型(即对数曲线);选plot models项要求绘制曲线拟合图;点击save.钮,弹出curve estimation:save对话框,选择predicted value项,要求在原始数据库中保存根据对数方程求出的y预测值,点击continue钮返回curve estimation对话框,再点击ok钮即可。8.2.2.3结果解释在结果输出窗口中将看到如下统计数据:ndependent:xdependentmthrsqd.f.fsigfb0b1ylog.913552.32.00161.325920.6704在以x为自变量、y为应变

17、量,采用对数曲线拟合方法建立的方程,决定系数r2=0.913(接近于1),作拟合优度检验,方差分析表明:f=52.32,p=0.001,拟合度很好,对数方程为:y=61.3259+20.6704lnx。本例要求绘制曲线拟合图,结果如图8.6所示。图8.6对数曲线拟合情形根据方程y=61.3259+20.6704lnx,将原始数据x值代入,求得y预测值(变量名为fit_1)存入数据库中,参见图8.7。图8.7计算结果的保存第三节logistic过程8.3.1主要功能调用此过程可完成logistic回归的运算。所谓logistic回归,是指应变量为二级计分或二类评定的回归分析,这在医学研究中经常遇

18、到,如:死亡与否(即生、死二类评定)的概率跟病人自身生理状况和所患疾病的严重程度有关;对某种疾病的易感性的概率(患病、不患病二类评定)与个体性别、年龄、免疫水平等有关。此类问题的解决均可借助逻辑回归来完成。特别指出,本节介绍的logistic过程,应与日常所说的logistic曲线模型(即s或倒s形曲线)相区别。用户如果要拟合logistic曲线模型,可调用本章第二节curve estimation过程,系统提供11种曲线模型,其中含有logistic曲线模型(参见上节)。在一般的多元回归中,若以p(概率)为应变量,则方程为p=b0+b1x1+b2x2+bkxk,但用该方程计算时,常会出现p1

19、或p0的不合理情形。为此,对p作对数单位转换,即logitp=ln(p/1-p),于是,可得到logistic回归方程为:eb0+b1x1+b2x2+bkxkp = 1+ eb0+b1x1+b2x2+bkxk8.3.2实例操作例8.3某医师研究男性胃癌患者发生术后院内感染的影响因素,资料如下表,请通过logistic回归统计方法对主要影响因素进行分析。术后感染(有无)y年龄(岁)x1手术创伤程度(5等级)x2营养状态(3等级)x3术前预防性抗菌(有无)x4白细胞数(109/l)x5癌肿病理分度(tnm得分总和)x6有有无无无有无有有无无无无无无6972574132655854555964364

20、24850453113342121341232113222121122无无无有有有有无有有无有有有有5.64.49.711.210.47.03.16.67.96.09.18.45.34.612.89645556674686548.3.2.1数据准备激活数据管理窗口,定义变量名:术后感染为y(字符变量,有输入y、无输入n),年龄为x1,手术创伤程度为x2,营养状态为x3,术前预防性抗菌为x4(字符变量,有输入y、无输入n),白细胞数为x5,癌肿病理分度为x6。按要求输入原始数据。8.3.2.2统计分析激活statistics菜单选regression中的logistic.项,弹出logistic

21、 regression对话框(如图8.8示)。从对话框左侧的变量列表中选y,点击钮使之进入dependent框,选x1、x2、x3、x4、x5和x6,点击钮使之进入covariates框;点击method处的下拉按钮,系统提供7种方法:1、enter:所有自变量强制进入回归方程;2、forward: conditional:以假定参数为基础作似然比概率检验,向前逐步选择自变量;3、forward: lr:以最大局部似然为基础作似然比概率检验,向前逐步选择自变量;4、forward: wald:作wald概率统计法,向前逐步选择自变量;5、backward: conditional:以假定参数为

22、基础作似然比概率检验,向后逐步选择自变量;6、backward: lr:以最大局部似然为基础作似然比概率检验,向后逐步选择自变量;7、backward: wald:作wald概率统计法,向后逐步选择自变量。本例选用forward: conditional法,以便选择有主要作用的影响因素;点击options.钮,弹出logistic regression:options对话框,在display框中选取at last step项,要求只显示最终计算结果,点击continue钮返回logistic regression对话框,再点击ok钮即可。8.3.2.3结果解释在结果输出窗口中将看到如下统计数据

23、:dependent variable encoding:originalinternalvaluevaluey0n1parametervaluefreqcoding(1)x4n51.000y10-1.000系统先对字符变量进行重新赋值,对于应变量y,回答是(y)的赋值为0,回答否(x)的赋值为1;对于应变量x4,回答是(y)的赋值为-1,回答否(x)的赋值为1。dependent variable.ybeginning block number0.initial log likelihood function-2 log likelihood19.095425* constant is in

24、cluded in the model.beginning block number1.method: forward stepwise (cond)improv.modelcorrectstepchi-sq.dfsigchi-sq.dfsigclass %variable18.5101.0048.5101.00480.00in: x326.7661.00915.2762.00093.33in: x6no more variables can be deleted or added.end block number 1pin =.0500limits reached.final equatio

25、n for block 1estimation terminated at iteration number 12 becauselog likelihood decreased by less than .01 percent.-2 log likelihood3.819goodness of fit 3.000chi-squaredfsignificancemodel chi-square15.2762.0005improvement6.7661.0093classification table for ypredictedynpercent correcty|nobserved+yy|4

26、|1|80.00%+nn|0|10|100.00%+overall93.33%- variables in the equation -variablebs.e.walddfsigrexp(b)x3-30.5171298.0526.01051.9184.0000.0000x6-10.2797107.9559.00911.9241.0000.0000constant123.40531155.1065.01141.9149结果表明,第一步自变量x3入选,方程分类能力达80.00%;第二步自变量x6入选,方程分类能力达93.33%(参见结果中的分类分析表);方程有效性经2检验,2=15.276,p=

27、0.0005。logistic回归的分类概率方程为:e123.4053-30.5171x3-10.2797x6p = 1+ e123.4053-30.5171x3-10.2797x6根据该方程,若一胃癌患者营养状态评分(x3)为3,癌肿病理分度(x6)为9,则其p=4.510-270,这意味着术后将发生院内感染;另一胃癌患者营养状态评分(x3)为1,癌肿病理分度(x6)为4,则其p=0.981051,这意味着术后将不会发生院内感染。第四节probit过程8.4.1主要功能调用此过程可完成剂量-效应关系的分析。通过概率单位使剂量-效应的s型曲线关系转化成直线,从而利用回归方程推算各效应水平的相应

28、剂量值。8.4.2实例操作例8.4研究抗疟药环氯胍对小白鼠的毒性,试验结果如下表所示。试计算环氯胍的半数致死剂量。剂量(mg/kg)动物数死亡数129765435719343812556111712208.4.2.1数据准备激活数据管理窗口,定义变量名:剂量为dose、试验动物数为observe、死亡动物数为death。然后输入原始数据。8.4.2.2统计分析激活statistics菜单选regression中的probit.项,弹出probit analysis对话框(如图8.9示)。从对话框左侧的变量列表中选death,点击钮使之进入response frequency框;选observe

29、,点击钮使之进入total observed框;选dose,点击钮使之进入covariate(s)框,并下拉transform菜单,选log base 10项(即要求对剂量进行以10为底的对数转换)。系统在model栏中提供两种模型,一是概率单位模型(probit),另一是比数比自然对数模型(logit)。本例选用概率单位模型。点击options.钮,弹出probit analysis:options对话框,在natural response rate栏选calculate from data项,要求计算各剂量组的实际反应率。之后点击continue钮返回probit analysis对话框,

30、再点击ok钮即可。8.4.2.3结果解释在结果输出窗口中将看到如下统计数据:系统首先显示,共有7组原始数据采概率单位模型进行分析。回归方程的各参数在经过14次叠代运算后确定,即probit = 5.95215 - 4.66313x。该方程拟合优度2检验结果,2= 0.833,p=0.934,拟合良好。datainformation7 unweighted cases accepted.0 cases rejected because of missing data.0 cases are in the control group.0 cases rejected because log-tra

31、nsform cant be done.model informationonly normal sigmoid is requested.natural response rate to be estimatedcontrol group is not provided.parameter estimates converged after 14 iterations.optimal solution found.parameter estimates (probit model:(probit(p) = intercept + bx):regression coeff.standard e

32、rrorcoeff./s.e.dose5.952152.398322.48180interceptstandard errorintercept/s.e.-4.663132.19942-2.12017estimate of natural response rate = .000000withs.e. = .26448pearsongoodness-of-fitchi square = .833df = 4p = .934since goodness-of-fit chi square is not significant, no heterogeneityfactor is used in

33、the calculation of confidence limits.covariance(below) and correlation(above) matrices of parameter estimatesdosenat respdose5.75192.82927nat resp.52601 .06995接着,系统显示剂量对数值(dose)、实际观察例数(number of subjects)、试验动物反应数(observed responses)、预期反应数(expected responses)、残差(residual)和效应的概率(prob)。之后,显示各效应概率水平的剂量值

34、及其95%可信区间值,按本例要求,环氯胍的半数致死剂量(即prob = 0.50时)为6.07347,其95%可信区间为1.863057.54282。observed and expected frequenciesnumber ofobservedexpecteddosesubjectsresponsesresponsesresidualprob1.085.05.04.804.196.96082.957.06.05.917.083.84534.8519.011.012.221-1.221.64320.7834.017.016.573.427.48745.7038.012.011.688.31

35、2.30757.6012.02.01.682.318.14016.485.0.0.171-.171.03413confidence limits for effective dose95% confidence limitsprobdoselowerupper.012.46942.027524.27407.022.74406.045344.54351.032.93394.062234.72430.043.08539.078954.86574.053.21433.095804.98445.063.32832.112945.08821.073.43158.130475.18134.083.5267

36、6.148455.26651.093.61561.166945.34550.103.69937.185975.41954.154.06733.290605.74092.204.38570.413956.01572.254.67862.560216.26792.304.95831.734366.51010.355.23239.942616.75084.405.506461.192866.99754.455.785281.495297.25814.506.073471.863057.54282.556.376002.312997.86673.606.698862.865878.25522.657.

37、049743.544388.75565.707.439434.363949.46545.757.884165.3068810.59748.808.410756.2906912.60617.859.069107.2151416.40564.909.97116 8.0941224.20725.9110.202168.2776026.73478.9210.459198.4689229.82525.9310.749288.6717733.68627.9411.082788.8912838.64769.9511.475809.1351145.27000.9611.955389.4157254.59759

38、.9712.572529.7559068.85554.9813.4425010.2057793.92908.9914.9375110.92195153.73112最后,系统输出以剂量对数值为自变量x、以概率单位为应变量y的回归直线散点图,从图中各点的分布状态亦可看出,回归直线的拟合程度是很好的。图8.10剂量-效应关系回归直线散点图第五节nonlinear过程8.5.1主要功能调用此过程可完成非线性回归的运算。所谓非线性回归,即为曲线型的回归分析,一些曲线模型我们已在本章第二节中述及。但在医学研究中经,还经常会遇到除本章第二节中述及的曲线模型,对此,spss提供nonlinear过程让用户根据

39、实际需要,建立各种曲线模型以用于研究变量间的相互关系。在医学中,如细菌繁殖与培养时间关系的研究即可借助nonlinear过程完成。下面一些曲线模型是在论文中较常见的,提供给用户应用时作参考:模型名称模型表达式asympt. regression1y = b1 + b2exp( b3x)asympt. regression2y = b1 -( b2( b3x)densityy = ( b1 + b2x )(-1/ b3 )gaussy = b1(1- b3exp( -b2x2)gompertzy = b1exp( -b2exp( -b3x )johnson-schumachery = b1exp

40、( -b2 / ( x + b3)log modifiedy = ( b1 + b3x )b2log-logisticy = b1 -ln(1+ b2exp( -b3x )metcherlich law of dim. ret. y = b1 + b2exp( -b3x )michaelis menteny = b1x /( x + b2 )morgan-mercer-floriny = ( b1b2 + b3xb4)/( b2 + xb4)peal-reedy = b1 /(1+ b2exp(-( b3x + b4x2+ b5x3)ratio of cubicsy = ( b1 + b2x

41、+ b3x2+ b4x3)/( b5x3)ratio of quadraticsy = ( b1 + b2x + b3x2)/( b4x2)richardsy = b1 /(1+ b3exp(- b2x )(1/ b4 )verhulsty = b1 /(1 + b3exp(- b2x )von bertalanffyy = ( b1(1 - b4 )- b2exp( -b3x )(1/(1 - b4 )weibully = b1 - b2exp(- b3xb4)yield densityy = (b1 + b2x + b3x2)(-1)8.5.2实例操作例8.5选取某地某年寿命表中40-80岁各年龄组的尚存人数资料如下表,请就该资料试拟合gompertz曲线(y = b1b2(b3x))。年龄组(岁)年龄简化值(x)尚存人数(y)4045505560657075800123456788127779258765327285067568599115080039325280748.5.2.1数据准备激活数据管理窗口,定义变量名:年龄简化值为x,尚存人数为y。输入原始数据。8.

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论