版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
变量之间的联系确定型的关系:指某一个或某几个现象的变动必然会引起另一个现象确定的变动,他们之间的关系可以使用数学函数式确切地表达出来,即y=f(x)。当知道x的数值时,就可以计算出确切的y值来。如圆的周长与半径的关系:周长=2πr。非确定关系:例如,在发育阶段,随年龄的增长,人的身高会增加。但不能根据年龄找到确定的身高,即不能得出11岁儿童身高一定就是1.40米公分。年龄与身高的关系不能用一般的函数关系来表达。研究变量之间既存在又不确定的相互关系及其密切程度的分析称为相关分析。回归分析如果把其中的一些因素作为自变量,而另一些随自变量的变化而变化的变量作为因变量,研究他们之间的非确定因果关系,这种分析就称为回归分析。回归分析是研究一个自变量或多个自变量与一个因变量之间是否存在某种线性关系或非线性关系的一种统计学方法。回归分析线性回归分析;曲线回归分析;二维Logistic回归分析;多维Logistic回归分析;概率单位回归分析;非线性回归分析;权重估计分析;二阶段最小二乘分析;最优尺度回归。一、线性回归(一)一元线性回归方程直线回归分析的任务就是根据若干个观测(xi,yi)i=1~n找出描述两个变量x、y之间关系的直线回归方程y^=a+bx。y^是变量y的估计值。求直线回归方程y^=a+bx,实际上是用回归直线拟合散点图中的各观测点。常用的方法是最小二乘法。也就是使该直线与各点的纵向垂直距离最小。即使实测值y与回归直线y^之差的平方和Σ(y-y^)2达到最小。Σ(y-y^)2也称为剩余(残差)平方和。因此求回归方程y^=a+bx的问题,归根到底就是求Σ(y-y^)2取得最小值时a和b的问题。a称为截距,b为回归直线的斜率,也称回归系数。1、一元线性回归方程的适用条件线形趋势:自变量与因变量的关系是线形的,如果不是,则不能采用线性回归来分析。独立性:可表述为因变量y的取值相互独立,它们之间没有联系。反映到模型中,实际上就是要求残差间相互独立,不存在自相关。正态性:自变量x的任何一个线形组合,因变量y均服从正态分布,反映到模型中,实际上就是要求随机误差项εi服从正态分布。方差齐性:自变量的任何一个线形组合,因变量y的方差均齐性,实质就是要求残差的方差齐。2、一元线性回归方程的检验检验的假设是总体回归系数为0。另外要检验回归方程对因变量的预测效果如何。(1)回归系数的显著性检验对斜率的检验,假设是:总体回归系数为0。检验该假设的t值计算公式是;t=b/SEb,其中SEb是回归系数的标准误。对截距的检验,假设是:总体回归方程截距a=0。检验该假设的t值计算公式是:t=a/SEa,其中SEa是截距的标准误。
(2)R2判定系数在判定一个线性回归直线的拟合度的好坏时,R2系数是一个重要的判定指标。
R2判定系数等于回归平方和在总平方和中所占的比率,即R2体现了回归模型所能解释的因变量变异性的百分比。如果R2=0.775,则说明变量y的变异中有77.5%是由变量X引起的。当R2=1时,表示所有的观测点全部落在回归直线上。当R2=0时,表示自变量与因变量无线性关系。为了尽可能准确的反应模型的拟合度,SPSS输出中的AdjustedRSquare是消除了自变量个数影响的R2的修正值。(3)方差分析体现因变量观测值与均值之间的差异的偏差平方和SSt是由两个部分组成:SSt=SSr+SSeSSr:回归平方和,反应了自变量X的重要程度;SSe:残差平方和,它反应了实验误差以及其他意外因素对实验结果的影响。这两部分除以各自的自由度,得到它们的均方。统计量F=回归均方/残差均方。当F值很大时,拒绝接受b=0的假设。(4)Durbin-Watson检验回归模型的诊断中,要诊断回归模型中误差项的独立性。如果误差项不独立,那么对回归模型的任何估计与假设所作出的结论都是不可靠的。其参数称为DW或D。D的取值范围是0<D<4,统计学意义如下:①当残差与自变量互为独立时D≈2;③当相邻两点的残差为正相关时,D<2;③当相邻两点的残差为负相关时,D>2
(5)残差图示法在直角坐标系中,以预测值y^为横轴,以y与y^之间的误差et为纵轴(或学生化残差),绘制残差的散点图。如果散点呈现出明显的规律性则,认为存在自相关性或者非线性或者非常数方差的问题。(二)多元线性回归
1.多元线性回归的概念多元线性回归:根据多个自变量的最优组合建立回归方程来预测因变量的回归分析称为多元回归分析。多元回归分析的模型为:y^=b0+b1x1+b2x2+····+bnxn
其中y^为根据所有自变量x计算出的估计值,b0为常数项,b1、b2····bn称为y对应于x1、x2···xn的偏回归系数。偏回归系数表示假设在其他所有自变量不变的情况下,某一个自变量变化引起因变量变化的比率。多元线性回归模型也必须满足一元线性回归方程中所述的假设理论。2.多元线性回归分析中的参数(l)复相关系数R复相关系数表示因变量y与他的自变量xi
之间线性相关密切程度的指标,亦即观察Y与Y^之间的相关程度,复相关系数使用字母R表示。复相关系数的取值范围在0-1之间。其值越接近1表示其线性关系越强,越接近0表示线性关系越差。(2)R2判定系数与经调整的判定系数与一元回归方程相同,在多元回归中也使用判定系数R2来解释回归模型中自变量的变异在因变量变异中所占比率。但是,判定系数的值随着进入回归方程的自变量的个数(或样本容量的大小n)的增加而增大。因此,为了消除自变量的个数以及样本量的大小对判定系数的影响,引进了经调整的判定系数(AdjustedRSquare)。K为自变量的个数,n为观测量数目。自变量的个数大于1时,其值小于判定系数。自变量个数越多,与判定系数的差值越大。(3)零阶相关系数、部分相关与偏相关系数零阶相关系数(Zero-Order)各自变量与因变量之间的简单相关系数。部分相关系数(PartCorrelation)表示:在排除了其他自变量对xi的影响后,当一个自变量进入回归方程模型后,复相关系数的平方增加量。偏相关系数(PartialCorrelation)表示:在排除了其他变量的影响后;自变量Xi与因变量y之间的相关程度。部分相关系数小于偏相关系数。偏相关系数也可以用来作为筛选自变量的指标,即通过比较偏相关系数的大小判别哪些变量对因变量具有较大的影响力。3、多元线性回归分析的检验
建立了多元回归方程后,需要进行显著性检验,以确认建立的数学模型是否很好的拟和了原始数据,即该回归方程是否有效。利用残差分析,确定回归方程是否违反了假设理论。对方程式中各自变量的系数进行检验。其假设是总体的回归方程自变量系数或常数项为0。以便在回归方程中保留对因变量y值预测更有效的自变量。(l)方差分析多元回归方程也采用方差分析方法对回归方程进行检验,检验的H0假设是总体的回归系数均为0(无效假设),H1假设是总体的回归系数不全为0(备选假设)。它是对整个回归方程的显著性检验。使用统计量F进行检验。原理与一元回归的方程分析原理相同。(2)偏回归系数与常数项的检验在多元回归分析中,可能有的自变量对因变量的影响很强,而有的影响很弱,甚至完全没有作用,这样就有必要对自变量进行选择,使回归方程中只包含对因变量有统计学意义的自变量;检验的假设是:各自变量偏回归系数为0,常数项为0。它使用的统计量是t;t=偏回归系数/偏回归系数的标准误(3)方差齐性检验方差齐性是指残差的分布是常数,与自变量或因变量无关。一般是绘制因变量预测值与学生残差的散点图来检验。残差应随机的分布在一条穿过0点的水平直线的两侧。在实际应用中,在线性回归Plots对话框中的源变量表中,选择SRESID(学生氏残差)做Y轴;选择ZPRED(标准化预测值)做X轴就可以在执行后的输出信息中显示检验方差齐性的散点图。共线性诊断在回归方程中,虽然各自变量对因变量都是有意义的,但某些自变量彼此相关,即存在共线性的问题。给评价自变量的贡献率带来困难。因此,需要对回归方程中的变量进行共线性诊断;并且确定它们对参数估计的影响。当一组自变量精确共线性时,必须删除引起共线性的一个和多个自变量,否则不存在系数唯一的最小二乘估计。因为删除的自变量并不包含任何多余的信息,所以得出的回归方程并没有失去什么。当共线性为近似时,一般是将引起共线性的自变量删除,但需要掌握的原则是:务必使丢失的信息最少。
在只有两个自变量的情况下,自变量X1与X2之间共线性体现在两变量间相关系数r12上。精确共线性时对应r122=1,当它们之间不存在共线性时r122=0。r122越接近于1,共线性越强。多于两个自变量的情况,Xi与其他自变量X之间的复相关系数的平方体现其共线性,称它为Ri2。它的值越接近1,说明自变量之间的共线性程度越大。
进行共线性诊断常用的参数(l)容许度(Tolerance)容许度定义为Toli=l一Ri2当容许度的值较小时,自变量Xi与其他自变量X之间存在共线性。使用容许度作为共线性量度指标的条件是,观测量应大致近似于正态分布。(2)方差膨胀因子(VIF)方差膨胀因于(VIF)定义为VIF=1/(l一Ri2),即它是容许度的倒数。它的值越大,自变量之间存在共线性的可能性越大。
(3)条件指数(ConditionIndex)条件参数是在计算特征值时产生的一个统计量,其数值越大,说明自变量之间的共线性的可能性越大;一般认为,条件参数≥15时认为有共线性存在的可能性,特征值(Eigenvalue)如果很小,就应该怀疑共线性的存在。
例题测得97名成年男性血常规和血清生化指标11项,分别是rbc(红细胞),hb(血红蛋白),wbc(白细胞),plt(血小板),tbil(直接胆红素),alt(谷丙转氨酶),ast(谷草转氨酶),alp(碱性磷酸酶),bun(尿素氮),cr(肌酐),见数据文件regression.sav。试以hb(血红蛋白)为因变量,其他为自变量进行回归。Regression.sav1.变量间线性关系的初步探索在获得数据后,应将所得到的数据绘图,探索因变量随自变量变化的趋势。以便确定数据是否适合线性模型。如果数据之间大致呈线性关系,可以建立线性回归方程。如果图中数据不呈线性分布,那么还可以根据其他回归方程模型的观测量分布图形特点以及建立各方程后所得的判定系数R2进行比较后确定一种最佳模型。见曲线拟合及非线性回归。通过散点图还可以发现奇异值。2、选择自变量和因变量3、选择回归分析方法
Enter选项,强行进入法,即所选择的自变量全部进人回归模型,该选项是默认方式。
Remove选项,消去法,建立的回归方程时,根据设定的条件剔除部分自变量。选择回归分析方法
Forward选项,向前选择法,根据在option对话框中所设定的判据,从无自变量开始。在拟合过程中,对被选择的自变量进行方差分析,每次加入一个F值最大的变量,直至所有符合判据的变量都进入模型为止。第一个引入归模型的变量应该与因变量间相关系数绝对值最大。选择回归分析方法
Backward选项,向后剔除法,根据在option对话框中所设定的判据,先建立全模型,然后根据设置的判据,每次剔除一个使方差分析中的F值最小的自变量,直到回归方程中不再含有不符合判据的自变量为止。选择回归分析方法
Stepwise选项,逐步进入法,它是向前选择变量法与向后剔除变量方法的结合。根据在option对话框中所设定的判据,首先根据方差分析结果选择符合判据的自变量且对因变量贡献最大的进入回归方程。根据向前选择变量法则选入变量。然后根据向后剔除法,将模型中F值最小的且符合剔除判据的变量剔除出模型,重复进行直到回归方程中的自变量均符合进入模型的判据,模型外的自变量都不符合进入模型的判据为止。4、选择参与回归的观测量根据变量值选择参与回归分析的观测量,将作为参照的变量进入SelectionVariable框中,单击Rule按钮。打开SetRule对话框。5、Statistics按钮Estimates:输出一般回归系数B、B的标准误、标准回归系数beta、B的t值及t值的双侧检验的显著性水平;Confidenceinterval:输出一般回归系数95%的可信区间;Covariancemaxtrix:输出非标准化回归系数的协方差矩阵、各变量的相关系数矩阵;Modelfit(模型拟合):模型检验,输出复相关系数R,判定系数R2、调整的判定系数,方差分析表;Rsquaredchange:表示回归方差中引入或剔除一个自变量后的R2变化量;Descriptives:输出每个变量的平均值、标准差、样本数、相关系数矩阵和单侧检验显著性水平Partandpartialcorrelations:输出部分相关系数、偏相关系数、零阶相关系数;Collinearitydiagnostics:输出方差膨胀因子及特征值;Durbin-Watson:输出Durbin-Watson统计量及可能的奇异值;Casewisediagnostics:个体诊断,给出残差和预测值,标准化残差和预测值。6、plot按钮Dependent:因变量;ZPRED:标准化预测值ZRESID:标准化残差DRESID:剔除残差ADJPRED:修正后预测值SRESID:学生化残差SDRESID:学生化剔除残差plot按钮Histogrom:输出带有正态曲线的标准化残差的直方图;Normalprobabilityplot:残差的正态概率图,检查残差的正态性;Produceallpartialplots:输出每一个自变量残差相对于因变量残差的散布图。Option按钮Steppingmethodcriteria(设置变量引入模型或从模型中剔除的判据)UseprobabilityofF:采用F值所对应的P值作为变量引入模型或从模型中剔除的判据。Entry:0.05回归模型检验时,若P≤0.05该变量被引入方程;Removal:0.10当回归模型检验时,若P≥0.10该变量从回归方程剔除。Option按钮UseFvalues(采用F值作为变量引入模型或从模型中剔除的判据)Entry:当一个变量的F值≥3.84时该变量被引入方程;Removal:当一个变量的F值≤2.71时该变量从回归方程剔除。练习题1Data09-03美国某银行雇员情况调查,建立一个使用初始工资(salbegin)、工作经验(prevexp)、工作时间(jobtime)、工作类型(jobcat)、受教育年限(educ)预测当前工资(salary)的回归方程。二、曲线回归分析线性回归可以满足许多数据分析,然而线性回归不会对所有的问题都适用,有时因变量与自变量是通过一个已知或未知的非线性函数关系相联系。尽管有可能通过一些函数的转换方法,在一定范围内将它们转变为线性关系,但这种转换有可能导致更为复杂的计算或数据失真。曲线回归分析在很多情况下有两个相关的变量,用户希望利用其中的一个变量对另一个变量进行预测,此时可采用的方法也很多;从简单的直线模型到复杂的时间序列模型。如果不能马上根据观测量数据确定一种最佳模型,可以利用曲线估计在众多的回归模型中来建立一个简单而又比较适合的模型。曲线回归分析线形回归方程Y=b0+b1X二次回归方程Y=b0+b1X+b2X2复合曲线回归方程Y=b0(b1X)生长回归方程对数回归方程三次回归方程Y=b0+b1X+b2X2+b3X3例题为研究抗生素头孢派酮浓度(ug/ml)“x”与抑菌圈直径“y”的数据见下表,试做曲线拟合。数据文件curvefit.sav练习题汽车每加仑汽油行驶的里程数(mpg)与汽车重量(weight)建立回归方程。Data13-01三、Logistic回归分析
多元线性回归要求Y是呈正态分布的连续型随机变量。难以处理因变量为二值变量的情况。在医学中,存在很多二值化的状态,比如生存与死亡、感染与不感染、有效与无效、患病与不患病等等。这时,我们往往要分析生存与死亡或感染与不感染与哪些因素有关。而这些因素(自变量)可能是二值数据或等级分组资料或是计量资料,此时,可以使用logistic回归来分析因变量(二值变量)与自变量的关系。
Logistic回归分析logistic回归的基本概念:设P表示某事件发生的概率,取值范围为0~1,1-P是该事件不发生的概率,将比值P/(1-P)取自然对数得ln(P/1-P),即对P作logit转换,记为logitP,则logitP的取值范围在-∝,+∝之间。以logitP为因变量,建立线形回归方程:
logitP=b0+∑bixip=exp(b0+∑bixi
)/[1+exp(b0+∑bixi)]OR=eв=expвLogistic回归分析可见:b0表示一个不接触危险因素(自变量取值全为0时)的个体发病(死亡或感染)的比值的对数。b0是常数。
bi
表示危险因素改变一个单位时,比值的对数的改变量。bi称为logistic回归系数。例题为研究急性肾衰竭(AFR)患者死亡的危险因素,经回顾性调查,获得某医院1990~2000年中所有发生AFR的422名患者的临床资料数据见数据文件logistic.sav。本资料共涉及29个变量,分别为:sex、age、社会支持、慢性病、手术、糖尿病、肿瘤、动脉硬化、器官移植、cr(血肌酐)、hg(血红蛋白)、肾毒性、少尿、lbp、黄疸、昏迷、辅助呼吸、心衰、肝衰、出血、呼衰、器官衰竭、胰腺炎、dic、败血症、感染、hbp、透析方式、死亡。其中,多分类变量有器官衰竭和透析方式,分别有6个水平和4个水平;定量变量age、cr、hg;其余均为二分类变量。数据背景(data13-02)北京医科大学附属人民医院内分泌科卢纹凯教授课题。颈总动脉中层厚度imt>0.8mm或有斑块定义为动脉硬化,因变量type值为1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 创业空间激励创业者迎接挑战考核试卷
- 利润管理策略提升企业盈利能力考核试卷
- 摩托车的悬挂系统与舒适性能考核试卷
- 新能源发展对交通行业的影响考核试卷
- 组织供应运输服务方案三篇
- 企业战略与市场营销培训考核试卷
- DB11T 494.10-2013 人力资源服务规范 第10部分:流动人员人事档案管理服务
- 中班防震课件教学课件
- DB11T 064-2011 北京市行政区划代码
- 新员工知识产权培训
- JTT327-2016 公路桥梁伸缩装置通用技术条件
- 定量化学分析实验室的整理、整顿、清扫
- (高清版)TDT 1037-2013 土地整治重大项目可行性研究报告编制规程
- 山东省青岛市市南区2023-2024学年九年级上学期期中数学试题
- 爱国卫生工作培训课件
- 与某地政府医疗领域合作框架协议
- 外卖骑手劳动权益保障机制
- 双层罐改造施工方案
- 校车驾驶员安全教育培训
- 人教版五年级上册小数除法竖式计算练习练习400题及答案
- 人教版三年级上册数学计算题专项练习1000题
评论
0/150
提交评论