版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、一元线性回归二、一元线性回归方程三、回归关系的显著性检验四、置信区间五、多元线性回归六、回归诊断第五章线性回归分析1一、一元线性回归第五章线性回归分析1
生产实践中,常常能找到一个变量与另外一个变量之间的关系:小麦的施肥量与产量、水稻的株高和穗长、冬天的温度与来年病虫害的发生程度等等。回归分析就是找出合适的回归方程,从而用一个变量来预测另一个变量。一元线性回归:最简单的回归关系,即一个变量y在一个变量x上的回归关系,称x为自变量,y为因变量(或称响应变量、依赖变量)第一节一元线性回归2生产实践中,常常能找到一个变量与另外一个变量之间的关如果两个变量x,y之间存在线性回归关系,则有回归模型:总体:yi=+xi+i
a
称为回归截距
b
称为回归系数
i
称为随机误差样本:yi
=a+bxi+i回归方程:
=a+bx第一节一元线性回归3如果两个变量x,y之间存在线性回归关系,则有回归模型:总体
回归参数的计算——最小二乘法期望拟合的线性回归方程与试验资料的误差最小,拟合的误差也称作离回归平方和或残差,可以利用数学中求极值的方法解出a
和b
而使得误差平方和为最小。
误差平方和:第二节线性回归方程4回归参数的计算——最小二乘法误差平方和:第二节线分别求Q
对a
和b
的偏导数,令其等于0:
整理得正规方程组:
第二节线性回归方程5分别求Q对a和b的偏导数,令其等于0:整理得正规方解正规方程组:
(3)式各项乘:(1)式除以
n
得:(2)-(5)式得:即:于是:于是:线性回归方程便已求出为:第二节线性回归方程6解正规方程组:(3)式各项乘:(1)式除以n得对此统计假设有两种检验方法:检验线性回归关系是否存在,就是检验建立回归模型的样本是否来自存在回归关系的总体,即
H0:
=0vsHA:
≠0
只有在此检验结果为显著时,用
a
估计
,用
b估计
,用估计
y
才是有意义的。F检验法
和t
检验法注:df1=1,df2=n-2的一尾F值等于df=n-2的两尾t值的平方第三节回归关系的显著性检验
如果在模型
yi=
+
xi+i中,
=
0,这就意味着不管
xi为什么值,
yi都不发生实质性变化;换言之,x和
y
之间没有显著的回归关系。7对此统计假设有两种检验方法:检验线性回归关系是否存在,1.F检验法利用下图说明F检验法的基本原理。
当自变量为,对应的因变量的实测值为,因变量的预测值为。于是的离均差可分解为两个部分:离均差
随机误差回归引起的偏差第三节回归关系的显著性检验81.F检验法利用下图说明F检验法的基本原理。当自变量为对数据资料所有点的求和得:
对于任一个点有:
两边平方得:
证明:上式右边的中间项为0:即
即第三节回归关系的显著性检验9对数据资料所有点的求和得:对于任一个点有:两误差平方和回归平方和的总平方和于是:
的总平方和便分解为两个部分:第三节回归关系的显著性检验对所有点求和得:
10误差平方和回归平方和的总平方和于是:的总平方变异来源自由度平方和均方F值回归误差1n-2UQ
总变异n-1T检验结论:若F>F0.05,则存在显著的线性回归关系。利用方差分析表第三节回归关系的显著性检验11变异来源自由度平方和均方F值回归1U2.t检验法其中回归系数其标准误:
第三节回归关系的显著性检验H0:
=0vsHA:
≠0选择t
统计量:
122.t检验法其中回归系数第三节回归关系的显著性检验H0:研究光照强度与净光合强度的关系光照
强度X净光合
强度Y一级计算:30070010001500220030004000500060007000140260300380410492580690740830实例:13研究光照强度与净光合强度的关系光照
强度X净光合
强度Y一回归系数b
:回归截距a:
实例:14回归系数b:回归截距a:实例:14变异来源自由度平方和均方F值回归误差184447841081044478413513295.3211.26总变异9455595F检验结论:回归关系达极显著,可得线性回归方程
用光照强度估测净光合强度是合理的。1、F检验法实例:P16115变异来源自由度平方和均方F值回归14447844447843实例:P1612、t
检验16实例:P1612、t检验16结论:回归关系极显著,可得线性回归方程用光照强度来预测净光合强度是合理的。实例:t检验17结论:回归关系极显著,可得线性回归方程实例:t检验17第四节预测值的置信区间因此由x预测y时,y的95%置信区间为:由x预测y时,y有一定的误差,其标准误差为:18第四节预测值的置信区间因此由x预测y时,y的95%置信实例:由x预测y的预测区间第一步:计算当x=2500时,
y
的点估计值:第二步:求y的标准误差:19实例:由x预测y的预测区间第一步:计算当x=2500时,实例:由X预测Y的预测区间第三步:求y的置信区间:第四步:结论有95%的把握预测当树冠的光照强度为2500时,净光合作用的强度在338.95到517.30之间。20实例:由X预测Y的预测区间第三步:求y的置信区间:第四步:第五节多元线性回归分析一、多元线性回归分析概述上面讨论的只是两个变量的回归问题,其中因变量只与一个自变量相关。但在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类多自变量的回归问题为多元回归分析。这里着重讨论简单而又最一般的线性回归问题,这是因为许多非线性的情形可以化为线性回归来做。多元线性回归分析的原理与一元线性回归分析完全相同,但在计算上却要复杂得多。21第五节多元线性回归分析一、多元线性回归分析概述一、多元线性回归分析概述多元线性回归模型多元线性回归方程第五节多元线性回归分析式中β0β1β2
…βm为(偏)回归系数式中b0
b1
b2
…
bm为(偏)回归系数的估计值22一、多元线性回归分析概述多元线性回归模型多元线性回归方程第五根据最小二乘法原理,的估计值应该使
二、参数估计方法——最小二乘准则由求极值的必要条件得:第五节多元线性回归分析23根据最小二乘法原理,的估计值采用矩阵形式:
Y=XB+E二、参数估计方法——最小二乘准则解得:第五节多元线性回归分析24采用矩阵形式:Y=XB+E二、参数估计方法——最小二乘1、回归方程的假设检验三、假设检验原假设H0:β1=β2=…=βm=0F统计量为:回归平方和:自由度:m误差平方和:自由度:n-m-1第五节多元线性回归分析251、回归方程的假设检验三、假设检验原假设H0:β1=β22、回归系数的假设检验统计量为t:其中: C(i+1)(i+1)为矩阵(X’X)-1的(i+1)(i+1)元素
Q
为误差平方和,自由度:df=n-m-1第五节多元线性回归分析原假设H0
:βi=01)t检验262、回归系数的假设检验统计量为t:其中:第五节多元线性回2、回归系数的假设检验统计量为:其中:Ui为xi对y的回归平方和,Q
为误差平方和C(i+1)(i+1)为矩阵(X’X)-1的(i+1)(i+1)元素自由度:df1
=1
df2=n-m-1第五节多元线性回归分析原假设H0
:βi=02)F检验272、回归系数的假设检验统计量为:其中:Ui为xi对y的回归四、回归模型的选择由于自变量较多时,不是每一个自变量的回归关系都显著,对回归不显著的自变量不能简单的进行剔除。尤其时自变量之间存在严重的线性关系时,自变量之间相互影响,很难对自变量的去留做出抉择。为了获得最优回归方程,就需要对自变量进行筛选。第五节多元线性回归分析28四、回归模型的选择由于自变量较多时,不是每一个自变量的回常用的自变量的筛选方法:第五节多元线性回归分析1、向前引入法(Forward)按显著性程度,逐个将回归模型外自变量引入回归模型,直到没有显著的自变量引入为止。2、向后剔除法(Backward)对全回归模型中不显著的自变量依次剔除,直到回归模型中剩余自变量都显著为止。3、逐步筛选法(Stepwise)逐个引入最显著的自变量,同时对模型中不显著的自变量进行剔除,直到没有引入和剔除为止。29常用的自变量的筛选方法:第五节多元线性回归分析1、向前引五、回归模型的判别准则1.R2决定系数
AdjR2矫正的决定系数
n为观测数,p为含截距的参数个数,i为截距数决定系数的值越大,越接近于1模型拟合越好。第五节多元线性回归分析30五、回归模型的判别准则1.R2决定系数第五节多元线性五、回归模型的判别准则2.PRESS统计量——预测残差平方和其中ri
为残差,hi
为杠杆率PERSS统计量用来比较不同方法所建立的回归模型的优劣,PRESS的值越小,模型越好。第五节多元线性回归分析31五、回归模型的判别准则2.PRESS统计量——预测残差平五、回归模型的判别准则3.Cp统计量其中k
为参数个数,n
为观测数
ESS(k)为含k个参数的误差平方和
ESS(T)为全回归的误差平方和Cp统计量的值越小,回归模型越好。第五节多元线性回归分析32五、回归模型的判别准则3.Cp统计量第五节多元线性回一、残差(Residual)分析残差:指实测值和预测值之间的差。第六节回归诊断标准化残差:学生化残差:学生化残差使残差具有优良的可比性33一、残差(Residual)分析残差:指实测值和预测值之间的残差图:以观测值(x或y)为横坐标,残差为纵坐标第六节回归诊断34残差图:以观测值(x或y)为横坐标,残差为纵坐标第六节回方差非齐性时,可用加权最小二乘法回归,或者对因变量的数据进行适当的变换,如:第六节回归诊断观测值不独立时(共线性):说明自变量之间存在着一定的相关性。可能遗漏了某些重要的自变量;可用逐步回归、偏最小二乘法回归或岭回归等进行分析。35方差非齐性时,可用加权最小二乘法回归,或者对因变量的数据进行第六节回归诊断异常点的识别:1.杠杆率hi刻划第i各观测值到中心的远近。2.一般把标准化残差的绝对值≥2的点认为是可疑点,绝对值≥3的点认为是异常点。考虑是否作为例外值加以剔除或做其它处理。杠杆率较大的数据点可以判别为可疑点。36第六节回归诊断异常点的识别:1.杠杆率hi刻划第i各第六节回归诊断二、贡献分析贡献分析:从研究观测点对回归结果的影响入手,找出对回归结果影响比较大的观测点。若存在对回归结果影响比较大的观测点时,得到的回归模型无法保证其稳定性和应用效果。我们希望每个观测点对回归结果都产生一定的影响,个别观测的改变不会对回归模型产生较大的影响。对强影响点的值进行复验,或增大样本容量。37第六节回归诊断二、贡献分析贡献分析:从研究观测点对回归结1、DFFITS统计量此统计量衡量一个观测排除与否对预测值的影响第六节回归诊断一般当时,该观测值应作为强影响点加以关注。381、DFFITS统计量此统计量衡量一个观测排除与否对预测值的2、CooksD统计量此统计量衡量一个观测排除与否对回归系数的影响一般当|Di|>4/n
时,该观测值应作为强影响点加以关注。第六节回归诊断392、CooksD统计量此统计量衡量一个观测排除与否对回归系第六节回归诊断三、共线性诊断共线性:拟合多元线性回归时,自变量之间存在线性或近似线性的关系。共线性存在时,可能会隐藏某些自变量的显著性,增加拟合模型的方差,产生很不稳定的回归模型。进行共线性诊断的方法是基于对自变量的观测数据构成的矩阵进行分析,常用的统计量有:方差膨胀因子(容许度)和条件指数。40第六节回归诊断三、共线性诊断共线性:拟合多
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年花卉保养服务协议范本
- 2023-2024学年浙江省温州市苍南县金乡卫城中学高三5月第二次联考数学试题文试卷
- 2023-2024学年浙江省金兰教育合作组织高三下学期质量调查(一)数学试题
- 2024年设计服务外包协议范本2
- 2024年深度钻井工程服务协议
- 2024年荒山开发承包协议样本
- 2024年个人消费贷款协议模板指南
- 2024年适用车辆租赁长租协议样式
- 底商租赁协议精简(2024年)
- 2024移动网络运营商服务协议
- CA码生成原理及matlab程序实现
- 国家开放大学《电气传动与调速系统》章节测试参考答案
- 须弥(短篇小说)
- 旋风除尘器设计与计算
- 《装配基础知识培训》
- 出口退税的具体计算方法及出口报价技巧
- PCB镀层与SMT焊接
- Unit 1 This is my new friend. Lesson 5 课件
- 2019年青年英才培养计划项目申报表
- 芳香油的提取
- 企业人才测评发展中心建设方案
评论
0/150
提交评论