![大课第一讲 多重线性回归(1)课件_第1页](http://file4.renrendoc.com/view/7384b3ceacea872201f6f0d8ddb34b2e/7384b3ceacea872201f6f0d8ddb34b2e1.gif)
![大课第一讲 多重线性回归(1)课件_第2页](http://file4.renrendoc.com/view/7384b3ceacea872201f6f0d8ddb34b2e/7384b3ceacea872201f6f0d8ddb34b2e2.gif)
![大课第一讲 多重线性回归(1)课件_第3页](http://file4.renrendoc.com/view/7384b3ceacea872201f6f0d8ddb34b2e/7384b3ceacea872201f6f0d8ddb34b2e3.gif)
![大课第一讲 多重线性回归(1)课件_第4页](http://file4.renrendoc.com/view/7384b3ceacea872201f6f0d8ddb34b2e/7384b3ceacea872201f6f0d8ddb34b2e4.gif)
![大课第一讲 多重线性回归(1)课件_第5页](http://file4.renrendoc.com/view/7384b3ceacea872201f6f0d8ddb34b2e/7384b3ceacea872201f6f0d8ddb34b2e5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多重线性回归第一节偏相关分析概念:偏相关系数是用来衡量任何两个变量之间的关系,而使与这两个变量有联系的其它变量都保持不变。即控制了其它一个或多个变量的影响下,计算两个变量的相关性。当控制一个变量时,偏相关系数的计算公式:
当控制多个变量时,偏相关系数的计算公式较为复杂,此处省略。SPSS操作步骤:Analyze-----Correlation-----Partial把分析变量选入Variable框把控制变量选入Controllingfor框ContinueOK身高、体重与肺活量的简单相关系数身高作为控制变量,肺活量与体重的偏相关系数第二节多重(多元)线性回归
在医学研究中,影响某个结局指标的因素常常有很多个,特别对于慢性非传染性疾病更是如此,例如心血管疾病、肿瘤等。多重线性回归分析可以用来发现影响某个结局变量的多个因素,并有可能建立有效的预测模型。
总体回归模型:
β0为常数项,β1,…,βm称为总体偏回归系数。
线性回归的适用条件:1.L:线性——自变量x与应变量y之间存在线性关系;2.I:独立性——Y值相互独立,在模型中则要求残差相互独立,不存在自相关;3.N:正态性——随机误差(即残差)e服从均值为零,方差为2的正态分布;4.E:等方差——
对于所有的自变量x,残差e的方差齐。例2.某研究者测量了29名儿童血液中血红蛋白(g)、钙(μg)、镁(μg)、铁(μg)、锰(μg)、铜(μg)的含量。试以血红蛋白为因变量,其它的为自变量,建立回归模型。
做回归分析的第一步通常是做散点图,以发现因变量与自变量之间是否大致存在直线关系。如有明显的曲线关系,则不能直接做线性回归模型。另外,散点图还有助于发现异常点。或写成:Y=XB+E如矩阵X’X的逆存在,则回归系数矩阵B=(X’X)-1X’Y所有样本点数据代入模型后可写成如下矩阵形式:1.对整个方程的检验:H0:β1=β2=…=βm=02.对单个回归系数或常数项的检验:H0:βi=0三、方程的显著性检验:对整个方程的检验:H0:回归系数全为零β1=β2=…=βm=0H1:回归系数不全为零
α=0.05F=MS回/MS剩=26.306自由度df剩=5,dfe=23,P<0.001拒绝H0,接受H1,认为此回归模型有意义。变异来源离均差平方和SS自由度
d.f.
均方
MSF
总SS总n-1MS回/MS剩
回归SS回pSS回/p
剩余SS剩n-p-1SS剩/(n-p-1)四、筛选有影响的自变量选择标准:对各自变量的偏回归平方和进行检验,F值大于预先设定的Fα,则将此变量选入或保留在方程内。偏回归平方和:将某个变量引入方程后所引起的回归平方和增加的部分;或者,将某个变量剔除方程后所引起的回归平方和减少的部分。例如:将本例中钙剔除后,回归平方和从113.26变为109.94,则钙的偏回归平方和为113.26-109.94=3.32自变量的选择方法1.强行进入法(Enter):为默认选择项,定义的全部自变量均引入方程。2.后退法(Backward):先建立一个包含全部自变量的回归方程,然后每次剔除一个偏回归平方和最小且无统计学意义的自变量,直到不能剔除为止。3.前进法(Forward):回归方程由一个自变量开始,每次引入一个偏回归平方和最大,且具有统计学意义的自变量,由少到多,直到无统计学意义的自变量被引入为止。4.逐步法(Stepwise):它是前进法和后退法的结合。5.消去法(Remove):建立回归方程时,根据设定的条件剔除部分自变量。钙保留下来的原因:后退法的默认剔除标准是α>0.1最终回归模型:
以血红蛋白含量作为因变量y,钙、镁、铁、锰、铜的含量作为自变量进行多元线性回归分析,变量筛选方法为后退法(backward),剔除标准为p>0.1(α)。最后结果只有钙和铁保留在方程中。其中x1代表钙,x3代表铁(方程和偏回归系数的检验略)两个自变量与因变量的拟合面示意图0X1X2Y注意:自变量的选择不是一个单独的数学问题,可以放心地交给计算机自动完成,而必须结合专业知识,综合考察。1.对因变量确实有影响的,应当选入。2.不同筛选方法结果不一致时要谨慎,重点考虑共线性的问题。3.所做出的模型不能视为“最佳”模型,而应视为“局部最优”模型,因为所纳入分析的自变量中常常不能包括全部的影响因素,甚至是很重要的因素。五、标准化偏回归系数由于各自变量量纲(测量单位)不同,各偏回归系数之间不能直接比较。标准化偏回归系数消除了量纲的影响,可以用来直接比较各自变量对因变量作用的大小。
标准化偏回归系数的计算方法:其中,sy代表因变量的标准差,si代表不同自变量的标准差。
从本例来看,钙和铁的偏回归系数的绝对值差不多,但铁的标准化偏回归系数确要大得多,表示铁对血红蛋白的作用比钙要大。六、回归模型的优良性评价(拟和效果)1.决定系数R2:0≤R2≤1
决定系数反映Y的全部变异中能够被回归方程中的全部自变量所解释的比例。R2≤1,越接近于1,说明模型拟和得越好。2.复相关系数R:0≤R≤1
复相关系数描述了因变量y与方程中m个自变量的总体相关性大小。R越接近于1,说明因变量与自变量的关系越密切,模型拟和得越好。复相关系数定义为因变量实测值与预测值的简单直线相关系数:R=corr(y,yˆ)
复相关系数与决定系数有如下关系:3.校正决定系数R2adj:
R和R2有一个缺陷,随着自变量个数的增加,R2总是增加,造成变量数目越多,则拟和效果越优良的错觉。为解决这一问题,可采用校正决定系数。3.校正决定系数R2adj:MS代表均方,用离均差平方和SS除以自由度得到(详见方差分析):
MS残=SS残/(n-m-1)
MS总=SS总/(n-1)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国小便盆市场调查研究报告
- 2025年中国单相共差模电涌保护器市场调查研究报告
- 2025至2031年中国铜徽章行业投资前景及策略咨询研究报告
- 2025年海绵清洁块项目可行性研究报告
- 2025年机械手式水冷碳氧枪系统项目可行性研究报告
- 2025年数控管端高速坡口机项目可行性研究报告
- 2025至2030年中国音响货架数据监测研究报告
- 2025至2030年重型钢板网项目投资价值分析报告
- 2025至2030年室内鞋子项目投资价值分析报告
- 2025至2030年半自动网袋包装机项目投资价值分析报告
- 2024-2025学年第二学期开学典礼-开学典礼校长致辞
- 生物(A版)-安徽省合肥一中(省十联考)2024-2025学年度高二年级上学期期末测试试题和答案
- 苏教版四年级数学下册第三单元第二课时《常见的数量关系》课件
- 2025年中考物理总复习《压强》专项测试卷含答案
- 《智能传感器技术》课件
- SaaS服务具体应用合同范本2024版版
- 山东省潍坊市2024-2025学年高三上学期1月期末 政治试题(含答案)
- 2025-2030年中国旅居康养行业全国市场开拓战略制定与实施研究报告
- 知识产权培训内容课件
- 2025年幼儿园年度工作总结及工作计划
- 残疾人挂靠合作合同协议书范本
评论
0/150
提交评论