版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章多元回归分析详解演示文稿目前一页\总数四十五页\编于五点优选第七章多元回归分析目前二页\总数四十五页\编于五点第一节多元线性回归第二节可化为多元线性回归的问题第三节自变量的选择与逐步回归目前三页\总数四十五页\编于五点第一节多元线性回归多元线性回归模型一般形式
其中,,,…,是p+1个未知参数,为回归常数,,…,为回归系数。y称为被解释变量,,…,是p个可以精确测量并可以控制的一般变量,称为解释变量目前四页\总数四十五页\编于五点对一实际问题,若得到n组观测数据(,,…,;),i=1,2,…,n,则线性模型可表示为:目前五页\总数四十五页\编于五点写成矩阵形式y11x11x21…x1pY=y2x=1x12x22…x2pyn1x1nx2n…xnp
ξ
1
ξ
2e=…
ξ
n则Y=Xβ+e目前六页\总数四十五页\编于五点一、多元线性回归模型的基本假定解释变量x1,x2,…,xp是确定性变量,不是随机变量,而且rk(X)=P+1<n,表明矩阵X中的自变量列间无多重共线性随机误差项具有零均值和同方差E(ξ
i)=0var(ξ
i)=E(ξ
i-E(ξ
i))2=E(ξ
i)2=σ2随机误差项在不同样本点之间是相互独立的,不存在序列相关cov(ξ
i,ξ
j)=0i≠ji,j=1,2,…ncov(ξ
i,ξ
j)=E((ξ
i-E(ξ
i)(ξ
j-E(ξj))=E(ξ
i)E(ξ
j)=0
目前七页\总数四十五页\编于五点随机误差项与解释变量之间不相关cov(xi,ξ
i)=0随机误差项的正态分布假定条件为
目前八页\总数四十五页\编于五点二、回归参数的估计设令即目前九页\总数四十五页\编于五点目前十页\总数四十五页\编于五点以上是通过使用最小二乘法(OLSE)对回归参数进行的估计,得到的回归参数的最小二乘估计为在正态假定下,回归参数的最大似然估计(MLE)与最小二乘法(OLSE)是完全相同的目前十一页\总数四十五页\编于五点三、回归方程的效果的检验方程显著性检验回归系数显著性检验拟合优度链接目前十二页\总数四十五页\编于五点1.方程显著性检验(F检验)F检验是以方差分析为基础,对回归总体线性关系是否显著的一种假设检验,是解释模型中被解释变量与所有解释变量之间的线性关系在总体上是否显著的方法利用F统计量进行总体线性显著性检验的步骤如下:(1)提出关于P个总体参数的假设H0:b1=b2=…=bp=0(2)构造统计量(3)检验给定显著性水平α,查F分布表若F>Fα,拒绝H0,表明回归总体有显著性关系.若F<Fα,接受原假设,表明不存在线性关系目前十三页\总数四十五页\编于五点2.回归系数显著性检验回归系数显著性检验,是对每个解释变量进行检验.如果解释变量对被解释变量的影响不显著,应从模型中删除,如果解释变量对被解释变量的影响显著,应保留在模型中.利用t统计量进行参数显著性检验的步骤如下:(1)对总体参数提出假设:H0:bi=0(2)构造统计量:(回归标准差)(3)检验对给定α,若︱t︱>tα/2,说明拒绝原假设若︱t︱<tα/2,则接受原假设.目前十四页\总数四十五页\编于五点当有多个自变量对因变量y无显著影响时,可以剔除多余变量,但由于自变量间的交互作用,不能一次剔除所有不显著变量。一般是将t值(绝对值)最小的变量删除掉,每次只剔除1个变量,再对求得的新的回归方程进行检验,直到保留的变量都对y有显著影响为止。返回目前十五页\总数四十五页\编于五点3.拟合优度拟合优度用于检验回归方程对样本观测值的拟合程度。样本决定系数的取值在(0,1)区间内,越接近1,回归拟合的效果越好;越接近0,回归拟合的效果越差。目前十六页\总数四十五页\编于五点四、复相关系数和偏相关系数复相关系数R是由SSR和SST构造的统计量,用来表示回归方程对原有数据拟合程度的好坏,衡量作为一个整体的x1,x2,…,xp与y的线性关系的大小。目前十七页\总数四十五页\编于五点复相关系数表示的是因变量与全体自变量之间的线性关系,它的符号不能由某一自变量的回归系数的符号来确定,因而复相关系数都取正号。目前十八页\总数四十五页\编于五点其它变量被固定后,计算任意两个变量之间的相关系数,这种相关系数称为偏相关系数。目前十九页\总数四十五页\编于五点简单相关系数只是一种数量表面上的相关系数,而并非本质的东西。在多元回归分析中,偏相关系数才真正反映因变量y与自变量以及自变量与的相关性的数量。返回目前二十页\总数四十五页\编于五点五、预测所谓预测就是给定解释变量一组值通过建立的多元回归模型,估计出对应的1、y0的点预测:2、y0以概率(1-α)落在某区间的区间预测:其中为随机误差项的标准差目前二十一页\总数四十五页\编于五点第二节可化为多元线性回归的问题在自然科学中,y关于x的数量关系多数都不是简单的线性关系,而是各种各样的非线性关系,于是我们常会遇到非线性回归模型,在非线性回归模型中,一种类型是可以通过变量变换化为线性模型,然后按线性模型加以解决;另一种类型的非线性模型是用任何变量变换办法都不能或不方便直接化为线性模型求得参数的估计值。目前二十二页\总数四十五页\编于五点多项式函数Y=β0+β
1x+β
2x2+…+β
pxp设τi=xi则多项式化为:Y=β
0+β
1τ
1+β
2τ
2
+…+β
pτ
p多元幂函数y=αx1β1x2β2…xpβplny=lnα+β1lnx1+…+β
plnxp令z=lny,β
0=lnα,τi=lnxiz=β
0+β
1τ
1+β
2τ
2+…+β
pτ
p目前二十三页\总数四十五页\编于五点指数函数y=a∏eβixi㏑y=㏑a+β
1x1+β
2x2+…+β
pxp
z=㏑y,β
0=㏑a,则z=β
0+β
1x1+β
2x2+…+β
pxp多元对数函数y=a+β
1㏑x1+β
2㏑x2+…+β
p㏑xp设τi=㏑xi,则y=a+β
1τ
1+β
2τ
2+…+β
pτ
p目前二十四页\总数四十五页\编于五点指数函数与幂函数的积y=aexp{∑β
ixi}∏xibi㏑y=㏑a+β
1x1+β
2x2+…+β
pxp
+b1㏑x1+b2㏑x2+…+bp㏑xp令z=㏑y,β
0=㏑a,τi=㏑xi
z=β
0+β
1x1+β
2x2+…+β
pxp+b1τ
1+b2τ
2+…+bpτ
p目前二十五页\总数四十五页\编于五点如果自变量相邻数值之间大小间隔相等,而且相邻样本点对应的因变量y的二次差分大致相同,则该总体可配合二次多项式函数如果是三次差分大致相同,则可配合三次多项式函数目前二十六页\总数四十五页\编于五点第三节自变量选择与逐步回归在建立一个实际问题的回归模型,我们应该如何确定回归自变量。如果遗漏了某些重要的变量,回归方程的效果肯定不好。如果考虑过多的变量,在这些变量中有些自变量对问题研究可能不重要,有些变量可能与其它变量有很大程度的重叠。如果模型把这些变量也引入的话,不仅计算量增大,而且得到的回归方程的稳定性也很差,直接影响了回归方程的应用。目前二十七页\总数四十五页\编于五点在实际应用中,希望拟合这样一个模型,它既能较好的反映问题的本质,又包含尽可能少的自变量。这两个方面的一个适当折中就是回归方程的选取问题,其基本思想是在一定的准则下选取对因变量影响较为显著的自变量,建立一个既合理又简单实用的回归模型。目前二十八页\总数四十五页\编于五点在前面,我们认为残差平方和最小和复相关系数来衡量回归拟合的好坏。因为当引入的自变量的个数增大时,残差平方和随之减少,而复相关系数也随之增大。因此如果按上述原则来选择自变量,不论什么变量多取就行。但是由于变量之间的多重共显性,给自变量的估计值带来了不稳定性,加上变量的抽样误差积累将是y值得估计值误差增大。目前二十九页\总数四十五页\编于五点一穷举法所谓穷举法就是从所有可能的回归方程中按一定的准则选取最优的一个或几个。设在一个实际问题的回归模型中,如果有m个可供选择的变量,由于每个变量都有入选和不入选两种情况,这样y关于这些自变量的所有可能的回归方程就有个,这其中包括只包含常数项的这种情况。下面给出几种选取准则:目前三十页\总数四十五页\编于五点1从拟合的角度考虑的准则[准则1]自由度调整复决定系数达到最大。当给模型增加自变量时,复相关系数的增大是以残差自由度的减少为代价的。随着自由度的减少,模型估计和预测的可靠性也在降低。调整复决定系数其中,为样本容量,为自变量的个数。目前三十一页\总数四十五页\编于五点显然有,随着自变量的增加并不一定增大。因为随着变量的增加而减少,但由于其前面的系数起折扣作用,使得随着自变量的增加并不一定增加。当所增加的自变量对y不产生影响时,反而可能减少。在一个实际问题的回归建模中,自由度调整复决定系数越大,所对应的回归方程越好。目前三十二页\总数四十五页\编于五点[准则2]平均残差平方和达到最小。平均残差平方和是指对应于模型中的估计,其中为自变量的个数。在此无偏估计式中加入了惩罚因子,它体现了对自变量个数的增加所施加的惩罚。目前三十三页\总数四十五页\编于五点一开始自变量个数开始增加时,虽然因子增大了,但此时减少很多,故总起来说还是减少的。当自变量增加到一定程度,重要的自变量基本上都已选上了,这时再增加自变量,减少不多,以至于抵消不了的增加,最终导致了的增加。随着自变量个数的增加,平均残差平方和是先减小后增大的趋势。目前三十四页\总数四十五页\编于五点用平均残差平方和来衡量回归方程的拟合优度,应该用最小者所对应的回归子集为最优方程。在自由度调整的复相关系数中,由于。由于分母并不随p的变化而变化,因而使达到最小的准则和使调整的复相关系数达到最大是等价的。目前三十五页\总数四十五页\编于五点2从极大似然估计方法考虑的准则[准则3]赤池信息量AIC达到最小。AIC既可以用于时间序列分析中的自回归模型的定阶上,也可以用来作回归方程自变量的选择。AIC=,其中是与自变量个数无关的常数。目前三十六页\总数四十五页\编于五点在回归分析的建模过程中,对每一个回归子集计算AIC,其中最小者所对应的模型是“最优”回归模型。由于在正态假定下,参数的OLSE与MLE是一致的,因此,AIC准则在OLSE的情况下也是适用的。目前三十七页\总数四十五页\编于五点3从预测的角度考虑的准则[准则4]统计量达到最小。马勒斯从预测的角度提出的。统计量为,其中,为考虑到所有因素的全模型中的无偏估计。选择最小最小的自变量子集,这个子集对应的回归方程就是最优回归方程。目前三十八页\总数四十五页\编于五点理论上,从所有可能的回归方程中选择应该是最好的方法。但是,穷举法所要拟合的回归方程数随自变量数目的增加而成倍增加,因此当自变量的数目较大时,计算量很大以至于难以实现。在这种情况下,逐步回归是一种可行的选择最优回归方程的方法。目前三十九页\总数四十五页\编于五点二逐步回归一、“最优”回归方程的选择1.回归方程中包含尽量多的信息2.回归方程中包含尽量少的变量方法:逐步剔除的回归分析方法逐步引入的回归分析方法“有进有出”的回归分析方法(逐步回归分析方法)目前四十页\总数四十五页\编于五点逐步剔除法(backward)1、用全部m个变量建立一个回归方程2、对每个变量的回归系数进行F检验,选m个系数中F值最小者记为。如果有,则考虑把剔除。3、对剩余的m-1自变量重新建立回归方程,再检验……4、直至回归方程中的变量的F检验值都大于,没有可剔除的变量为止。这时候的得到的回归方程就是最重确定的方程。目前四十一页\总数四十五页\编于五点逐步剔出法有明显的不足。一开始把全部自变量引入回归方程,计算量很大。如果有些自变量不太重要,一开始就不引入,可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 基于区块链技术的2025年物流追踪系统开发合同3篇
- 2025年度渔船买卖合同(含渔民福利保障)4篇
- 2025年度个人与金融机构客户信息保密及合规管理协议4篇
- 二零二五版林业资源保护与木材采购合作协议4篇
- 二零二五年度出差人员差旅费用结算与报销合同4篇
- WPS格式2024年度建筑工程施工合作合同一
- 退房时2025年度物业管理费结算协议3篇
- 二零二五年度充电桩充电接口标准制定合同3篇
- 2025年度无人机配送司机合作协议范本
- 二零二五年度婴幼儿专用卫生纸销售协议2篇
- 2025-2030年中国草莓市场竞争格局及发展趋势分析报告
- 华为智慧园区解决方案介绍
- 奕成玻璃基板先进封装中试线项目环评报告表
- 广西壮族自治区房屋建筑和市政基础设施全过程工程咨询服务招标文件范本(2020年版)修订版
- 人教版八年级英语上册期末专项复习-完形填空和阅读理解(含答案)
- 2024新版有限空间作业安全大培训
- GB/T 44304-2024精细陶瓷室温断裂阻力试验方法压痕(IF)法
- 年度董事会工作计划
- 《退休不褪色余热亦生辉》学校退休教师欢送会
- 02R112拱顶油罐图集
- 2021年新教材重庆生物高考真题(含答案解析)
评论
0/150
提交评论