SPSS相关与回归分析II_第1页
SPSS相关与回归分析II_第2页
SPSS相关与回归分析II_第3页
SPSS相关与回归分析II_第4页
SPSS相关与回归分析II_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

相关与回归分析(下)实用生物统计分析(七)安徽大学生命科学学院相关与回归分析散点图(scatterplot)相关分析(correlationanalysis)一元线性回归分析(univariatelinearregression)曲线拟合(curveestimation)多元回归分析(multipleregression)二项逻辑回归(binarylogisticregression)曲线拟合目的:生物学变量间的回归关系常常是非线性,如毒物剂量与生物死亡率,细胞(微生物)生长曲线,酶动力学曲线等。若仍直接采用线性模型往往不能准确反映变量间关系,甚至得出错误结论。这时,可通过适当的数学处理,转化为线性模型再进行回归分析,即曲线拟合(curvefitting)或曲线估计(curveestimation)。步骤:AnalyzeRegressionCurveestimation曲线拟合SPSS曲线拟合模型模型名称回归方程相应的线性回归方程Linear(线性)Y=b0+b1xQuadratic(二次)Y=b0+b1x+b2x2Compound(复合)Y=b0(b1x)Ln(Y)=ln(b0)+ln(b1)xGrowth(生长)Y=eb0+b1xLn(Y)=b0+b1xLogarithmic(对数)Y=b0+b1ln(x)Cubic(三次)Y=b0+b1t+b2x2+b3x3S(S曲线)Y=eb0+b1/xLn(Y)=b0+b1/

xExponential(指数)Y=b0*

eb1*xLn(Y)=ln(b0)+b1xInverse(逆)Y=b0+b1/xPower(幂)Y=b0(xb1)Ln(Y)=ln(b0)+b1ln(x)Logistic(逻辑斯蒂)Y=1/(1/u+b0b1x)Ln(1/Y-1/u)=ln(b0+ln(b1)x)曲线拟合实例-火箭电泳?曲线拟合实例-火箭电泳步骤一:AnalyzeRegressionCurveEstimation步骤二:选定因变量(dependent)选定自变量(independent)选择曲线模型曲线拟合实例-火箭电泳输出表包括:各曲线模型的相关指数(R2)、显著性检验(F-检验)和回归方程参数。根据相关指数选择“最佳”拟合方程,本例中对数模型和三次函数模型R2最大,为“最佳”方程的备选。“最佳”的最终确定需结合专业知识,本例中对数模型更为合适。曲线拟合实例-火箭电泳将线性化的方程还原,对(X,Y-hat)作图,比较各方程的拟合程度曲线拟合实例-火箭电泳“最佳”拟合模型-对数模型和三次函数模型多元回归分析多元线性回归方程多元回归方程:Y=β0+β1X1+β2X2+...+βkXkK个自变量:X1、X2、...、Xkβ1、β2、βk为偏回归系数。β1表示在其他自变量保持不变的情况下,自变量X1变动一个单位所引起的因变量Y的平均变动多元回归分析多元线性回归方程的显著性检验方法回归的方差分析-F检验偏回归系数β1、β2、…、βk的t检验多元回归分析多元线性回归方程的比较用R2和AdjustedR2(调整相关指数或决定系数)判定一个多元线性回归方程的拟合程度调整后的决定系数(n样本量;p自变量数):考虑到自变量增加通常都能提高R2,但新增的自变量并不一定具有显著意义,反而可能降低检验精度(df下降),得不偿失,因此要适当平衡。多元回归分析多元回归分析AIC(Akaikeinformationcriterion)BIC(Bayesianinformationcriterion)(n样本量;p自变量数)在回归模型的选择时,AIC/BIC值越小越好多元回归分析多元线性回归分析的主要问题自变量筛选多个自变量用于回归分析时,通常能比单个自变量更好地解释因变量的变化。但自变量的数量也不是越多越好,因为某些自变量对因变量的解释贡献微小(统计显著性不明显),一味求多反而使模型过于复杂而实用性不强。自变量相互间可能存在显著的线性相关,即所谓“多重共线性问题”(Multicolinearity),影响模型的建立通过筛选,去除多余的自变量,简化回归模型,提高模型的适用性。多元回归分析多元线性回归分析的“多重共线性”问题自变量间难免有一定的相关度,但如果相关度很高就不利于回归的构建(偏回归系数βi的估计与回归显著性检验)多重共线性的度量(R2):建立一个变量依其他所有变量的回归模型,其复相关系数的平方多重共线性的标准:

R2>0.9,或

容忍度(tolerance)=1-R2<0.1多元回归分析自变量筛选法Enter:所选择的自变量将全部进入建立的回归方程中,SPSS中该项为默认方式。Forward:向前筛选法,是自变量不断进入回归方程的过程。Backward:向后筛选法,是自变量不断剔除出回归方程的过程。Stepwise:逐步筛选法,是“向前法”和“向后法”的结合。每一步都根据检验标准(大样本0.05,小样本0.10-0.15)选入有意义的变量,剔除无意义的变量,直到无新的变量能被引入为止。多元线性回归实例某地73-90年水稻产量(Y)和播种面积X1、化肥施用量X2、生猪存栏数X3以及水稻扬花期降雨量X4的数据如下。试对该地水稻产量寻求一个恰当的回归模型,以评估各相关因素对产量的影响程度。多元线性回归实例Analyzeregressionlinear…选入因变量(Y)选入自变量(X1-X4)选择自变量筛选方式:Stepwise即进行逐步回归在Statistics…中勾选“collinearitydignostics”多元线性回归实例进入模型的变量表:X2、X3先后进入回归模型多元线性回归实例进入模型的变量X2、X3对回归模型的解释程度:看调整后的R2值:YX2回归达到0.824,Y(X2+X3)回归达到0.877多元线性回归实例可见:两个模型的线性回归关系均是极显著的(sig.<<0.01)回归的方差分析表:多元线性回归实例回归系数表整理出回归方程:1、Y=221.684+2.215X22、Y=137.123+1.369X2+2.385X3(Adjusted-R2=0.824)(Adjusted-R2=0.877)共线性分析:容忍度均未到达<0.1的标准,故不存在明显共线性多元非线性回归分析实例大麦氮磷肥配比试验:施氮肥量(X1)为每亩尿素0,3,6,9,12,15,18kg7个水平,施磷肥量(X2)为每亩过磷酸钙0,7,14,21,28,35,42kg7个水平,共49个处理组合,试验结果列于下表。试构建产量(Y)对于氮、磷施肥量的回归模型。磷

肥氮

肥0369121518086.9162.5216.4274.7274.3301.4270.37110.4204.4276.7342.8343.4368.4335.114134.3238.9295.9363.3361.7345.4351.521162.5275.1325.3336.3381.0362.4382.228158.2237.9320.5353.7369.5388.2355.335144.3204.5286.9322.5345.9344.6353.54288.7192.5219.9278.0319.1290.5281.2多元非线性回归分析实例假设线性模型成立,将X1、X2视作分类变量,可用两因素方差分析检出主效应是否显著(未设置重复,无法检出交互效应)氮、磷效应均极显著。注:由于自变量X1、X2具有连续变量的特征。方差分析实际降低了数据的精度,有必要采用回归方法进一步分析多元非线性回归分析实例Excel绘制响应曲面图回归曲线具备非线性特点多元非线性回归分析实例设计适当的非线性模型,进行拟合和优化:Y=aX1+bX1^2+cX2+dX2^2+eX1X2+f二元二次方程,考虑交互项(X1X2)可以将二次项、交互项视作额外的自变量,则该非线性模型可转变成含5个自变量的线性模型,从而简化分析过程多元非线性回归分析实例步骤一:AnalyzeRegressionlinear步骤二:选择因变量选择自变量选择变量甄选方法(backward)多元非线性回归分析实例程序从完全因子模型出发,删除了交互因子X1X2,其他一次、二次项均保留,模型对平方和的解释比重达到0.976(R-square)多元非线性回归分析实例去X1X2的回归方程的ANOVA检验显著,各变量的系数检验均显著Y=31.63X1-1.14X1^2+8.21X2-0.19X2^2+76.70多元非线性回归分析实例优化后的回归方程如下:分别求Y对X1、X2的偏导

dY/dX1=31.63–2.28X1=0X1=13.87

dY/dX2=8.21–0.38X2=0X2=21.61则氮、磷最佳施用量分别为13.87kg、21.61kg注:通过回归方程进行预测时不能超过自变量的取值范围,例如氮肥的取值范围为0至18kg/亩,而磷肥的取值范围为0至42kg/亩。推论合理的处理组合时,也应该在这个范围内。

Y=31.63X1-1.14X1^2+8.21X2-0.19X2^2+76.70多元非线性回归分析实例在SPSS中也可以直接用非线性方法进行回归:

Analyzeregressionnonlinear…多元非线性回归分析实例直接非线性回归结果:

通过渐进法估计参数,数轮之后参数趋于稳定(收敛)-这与线性回归模型结果一致。-非线性模型估计参数没问题,而其他的统计分析方法缺乏,反而不如线性回归模型常用

Y=31.63X1-1.14X1^2+8.21X2-0.19X2^2+76.70二项逻辑回归(binarylogisticregression)特征:应变量是如生死与否,患病与否,阴性阳性之类的二元分类变量,服从二项分布而非正态分布。显然并不符合多重线性回归对应变量的要求(连续变量,正态分布)。通过拟合logistic

函数,估计每个观察个体的概率注意:尽管名称类似,二项逻辑回归并不同于常说的逻辑斯谛曲线模型二项逻辑回归回归方程:P=b0+b1X1+b2X2+…+bkXk但用该方程计算时,常出现P>1或P<0的不合理情况。为此,对P作对数单位转换,即logitP=ln(P/1-P)

log-likelihood可得到Logistic回归方程为:logitP=b0+b1X1+b2X2+…+bkXk还原后为:

二项逻辑回归分析实例对胃癌患者术后感染进行统计分析,研究感染与否主要受哪些因素影响。因素:比率变量如年龄(X1)、白细胞数(X5),有序变量(X2,X3,X6)如创伤程度、营养状况,二项分类的名义变量如术前预防(X4),变量类型比较复杂。二项逻辑回归分析实例变量筛选方法这里使用“forwardconditional”二项逻辑回归分析实例分析中,将响应变量编码为0、1,分别对应无感染、有感染。分析中,将自变量X4编码为0、1,分别对应有抗菌处理、无抗菌处理。从输出中看SPSS自动对两分变量(Y,X4)的哑变量编码:二项逻辑回归分析实例在逐次加入方法中,首先进入模型的是X3,第二步为X6。参数估计的方法采取的是最大似然法(maximallikelihood,ML)优选模型为:logitP=-219.405+

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论