




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、精选优质文档-倾情为你奉上第十一章 多重多元回归分析普通回归分析是大家比较熟悉的一种方法,这里将借助复习初等数量统计中多元回归分析的主要内容,相应给出多重多元回归分析的主要内容(包括回归模型、回归式的求法、回归系数的检验等)。而不做复杂的数学推导,仅给出相应的结论,但从中可以看出一元回归、多元回归、多元逐步回归都是本章所要介绍的多重多元回归和双重筛选逐步回归的特例。为了突出重点,略去普通多元回归分析中相重复的内容,如偏相关系数、复相关系数等。§11.1 什么是多重多元回归分析在实际问题中,经常需要同时考虑多个因变量对多个自变量的相互依赖关系,例如在工厂中要同时考察某产品的质量指标,而
2、反映产品的质量指标往往是好几个,于是产品的质量指标可作为多个因变量,而影响产品的质量指标的因素显然更有多个可作为多个自变量,如何从数量上揭示这种相互依赖关系,又如何建立它们的回归式以及预测预报就是一个多重多元回归分析问题;在商品需求研究中,同时考察某些商品销售量与商品的价格、消费者的收入等之间的相互依赖关系;在环境科学中研究多种污染气体(CO、CO2、SO2)的浓度与污染源的排放量和气象因子(风向、风速、温度、湿度)等之间的相互依赖关系等,都属于多重多元回归分析问题,这方面的实例到处可见,不胜枚举。为了给出多重多元回归模型以及回归系数估计、假设检验等,先复习有关初等数理统计中一元回归和多元回归
3、。一元回归数学模型:为了估计回归方程的系数,给出n组观测数据:,代入上式得:在古典线性回归模型中,根据中心极限定理通常假定,在一般情况下,只假定模型满足:(对所有i)及。用最小二乘法求、的估计,为此解方程组:其中,为误差平方和,其中。可得:这里 多元回归数学模型:n组观测数据:代入上式得:其中,独立且用矩阵表示:简写为 用最小二乘法求的估计,为此,令其中 为误差平方和其中可得:1 多重多元回归的数学模型由于线性回归模型应用面是很广的,许多非线性回归问题可以通过引进新变量化线性回归。因此,下面给出多重多元线性回归模型。设有m个自变量,对应p个因变量,假定它们之间有线性关系式:其中是未知参数,是随
4、机误差项,它们不是相互独立的,通常假设它们服从多元正态分布即其中为未知的协差阵。由于用矩阵来研究多元线性回归较方便,因此上述数学模型写成矩阵形式如下:统计问题就是从已知的m个自变量,p个因变量的n组实测数据出发,求未知常数的估计值,并对误差作出估计和推断。和一元统计分析一样,将略出误差项而得到的关系式:称为回归方程,称为回归系数,称为常数项。设有n组自变量与因变量的实测数据:将数据写成矩阵分别用X,Y表示:, 将n组数据代入到多元回归模型中即有:记 于是多重多元线性回归模型可写成:的各行向量是相互独立且同分布。(注意:组与组之间的随机误差项是相互独立的,但组内可以是不独立的,即每一行内部可以是
5、不独立的。)2 多重多元回归式的求法和一个因变量的多元回归分析一样,这里用最小二乘法求的估计,我们如此地选择的值使误差阵各元素平方和相加达到最小,即使最小为此用拉直法以及利用矩阵四块求逆公式可得回归系数的估计值如下:其中是相应于回归常数组成的向量,是回归系数组成的矩阵; 类似一元回归分析将实测值Y与回归值之差称为残差,于是得残差阵:其中可以证明下述统计性质:是的无偏估计量。是的无偏估计量。3 回归系数向量的假设检验(在正态假定下)一元统计中多元回归系数检验是:统计量:其中为偏回归平方和。对多重多元回归,同样需要考察某一部分自
6、变量对p个因变量的影响是否显著的问题,为此考虑模型: 其中X1为阶阵,X2为阶阵,;为阶阵,为阶阵。判断对p个因变量作用是否显著的问题,即要检验假设检验统计量:其中如果拒绝H0,则认为这一部分自变量对p个因变量是有作用的;如果H0不能拒绝,则认为这一部分自变量对p个因变量是不起作用的。§11.2 双重筛选逐步回归分析从上面介绍的内容可以看出多重多元回归分析的计算工作量是很大的,要用手算是很困难的,一般都用计算机去完成。虽然多重多元回归问题,也可以化为多个自变量对每一个因变量逐步个进行回归去建立回归式,但这种做法会丢失多个因变量之间相关的信息,因此必须设法提取这些有关信息,双重筛选逐步
7、回归就可以解决这个问题。1 什么是双重筛选逐步回归多个自变量与多个因变量建立回归式时,不仅对自变量进行筛选,而且对因变量也同时进行筛选,所谓筛选即保留与之有密切关系的变量,剔除与之无关紧要的变量,并且依因变量和自变量的关系将因变量进行分组。例如研究自变量对因变量的回归时,如自变量的一部分仅对因变量的一部分有较密切的关系,不妨设为与有较密切的关系,而另一部分因变量是与有密切关系如此等等,因此就希望将它们分组建立回归式时,此时与一定不会有共同的变量,而对于与可能有共同的变量,因为一个自变量可能对许多不同的甚至全部的都有影响。将这种方法称为双重筛选逐步回归法,由于它的理论分析较难、较繁,此处不介绍,
8、详见张尧庭、方开泰编著多元统计分析引论。2 基本思想首先选一个因变量,不妨记为,对它来筛选所有的自变量,当自变量筛选过程结束后,再转为考虑在未入选的因变量中选第二个因变量,不妨记为;这时已有两个因变量,入选,因此首先考虑,是否有剔除的,如果没有剔除的,则转入对,来筛选自变量,直到自变量筛选过程结束,再转入考虑因变量的筛选,重复上述步骤,直到因变量和自变更既没有剔除也没有引入时为止,这时就建立第一组回归方程。其次从原始数据中删去第一组回归方程中已入选的因变量的资料比如个(注意自变量的数据均不删),重复整个过程直到因变量都有了回归方程才停止。在上述计算过程中,由于对自变量和因变量都要进行筛选,因此
9、需给出四个检验统计量。而且每次对变量(包括自变量、因变量)进行筛选都要对相应的“相关系数阵”作消去变换,因此,一开始将m+p个变量的相关系数阵R分写成三个矩阵:一个记为S1,当自变量进行筛选时,对它做消去变换;另一个记为S,当因变量筛选时,对它做消去变换;再一个是S2,不管每次对自变量还是因变量进行筛选对它都要做消去变换。3 计算步骤及实例设全部自变量为,因变量记为,共有n次观测数据,于是原始资料矩阵为:其中表示第j个变量的第i次观测值。第一步 准备工作。(1)计算m个自变量,p个因变量n次观测数据的平均值及相关系数阵,即其中是变量和的样本相关系数。令,(下边计算需要)把R的右下角因变量的相关
10、阵记为,其中。(2)给定引入变量的临界值F进和剔除变量的临界值F出取临界值以保证逐步筛选变量过程在有限步后停止。第二步 选入第一个因变量。(1)找则首先入选因变量就是(这一步类似于考虑与的一元回归,取回归平方和最大者所对应的因变量,只不过这里是取与相关系数最大者)。(2)对相关矩阵作消去变换第三步 筛选自变量。假设已运算到某一步,入选的自变量为个,因变量为个,相应的S1, S2, S已经过若干次变换,记为,计算:可以证明已入选的自变量有,未入选的自变量有。(1)考虑剔除自变量在所有小于0的中,找一绝对值最小的,设为,如果对给定的值(表示剔除自变量的F临界值)有则剔除自变量,并作矩阵的消去变换:
11、然后转回第三步,继续考虑自变量的筛选,否则转入考虑引入自变量的步骤。(2)考虑引入自变量在所有大于0的中,找一个最大的,设为,如果有则引自变量,并作消去变换:然后转入第三步继续筛选自变量,否则自变量的筛选过程结束,转为第四步,考虑因变量的筛选。第四步 筛选因变量。仍假设此时入选的自变量为m1个,因变量为p1个,相应的相关阵S1, S2, S经过若干次变换,记为计算:可以证明对已入选的因变量有,对未入选的因变量有。(1)考虑剔除因变量在所有小于0的中,找绝对值最小者,设为,如果对给定的值(表示剔除因变量的F临界值)有则剔除因变量,并作矩阵的消去变换然后转第三步筛选自变量,否则转入考虑因变量的步骤
12、。(2)考虑引入因变量在所有大于0的中,找最大的,设为,计算:则引入因变量(即),并作消去变换:然后转回第三步考虑筛选自变量,否则双重筛选的过程结束,这时就建立第一组回归方程。第五步 打印已入选的自变量、因变量、回归方程、残差值等有关结果。然后在原始资料阵中全部删去已入选的因变量的资料(注意:自变量的资料均不删),再重复整个过程,可求出第二组回归方程,类似可求出第三组,第l组的回归方程,直到使所有的因变量都有了回归方程才停止,即双重筛选回归计算全部结束。例 使用双重筛选逐步回归对多点监测气体浓度值的多维时间序列提取主值项。某飞机洞库停放多架飞机在封门的条件下,按洞库的结构布置了12个取样点,抽
13、取大气样品,化验其中可燃气体浓度,每隔2小时取样一次,共停放86小时,每点抽取数n=44,各点编号为1, 2, , 12;同一时刻实测各点的浓度值是12维向量:这是12维的时间序列。设其中是主值项,是小周期与随机误差项。因为事先不知道的形式,故取以下10种t的函数:皆作为自变量,12个因变量,即假定为:然后用双重筛选逐步回归法,剔除无显著作用的自变量,与各分类构造回归式。筛选自变量的统计检验临界值取筛选因变量的统计检验临界值取试验组数n=44计算结果如下:第一类关系式: y1t=4.9297+0.t+0.t4 剩余标准差y2t=4.3055+0.t+0.t4 y3t=3.
14、1907+0.t+0.t4 y10t=3.3128+0.t+0.t4 y11t=3.3419+0.t+0.t4 第二类关系式:y4t=3.8585+0.t2 y5t=4.2110+0.t2 y6t=3.9305+0.t2 y12t=3.9030+0.t2 第三类关系式:y8t=3.9118+0.t2 y9t=4.3916+0.t2 第四类关系式:y7t=3.4895+0.t2+0.lnt 以上分类与实际结构对照,均得到合理的解释,同类点所在地区是相似的,而第7号独成一类,此点实际地位是过渡区。以上所构造的关系式均较小,主值项也提取了主要信息,故作为多维时间序列的其它数据处理方法皆免去。最后指出
15、,在上述F检验中,筛选自变量和因变量的临界值是随着引入或剔除变量的个数而变化的,但当样本容量n较大时,它们的变化甚微,实际计算时也可取,而往往根据具体问题而定,通常取想少选变量一般取或8;若想多选变量,取或0.5,如果取,则全部变量都被引入。当p =1时,取,则化为多个自变量对一个因变量的回归;当时,取,则化为多个自变量对多个因变量的回归,取(一个大数),则化为p个因变量的逐步回归,取,就是每一个因变量与m个自变量的全回归,以上各种情况皆可看作是双重筛选逐步回归的特例。§11.3 附 注众所周知,回归分析中处理的自变量是非随机性的且自变量之间不存在严格线性相关关系。本章介绍
16、的多重多元回归讨论的自变量仍是非随机性的且自变量之间不存在严格线性相关,仅因变量之间允许有线性相关关系。当自变量与因变量的个数都很多,并且自变量之间与因变量之间都存在较强的相关性时,如果采用上述多重多元回归方法,其分析结果可靠性极低。因此,20世纪80年代末90年代初兴起一种新的理论方法即偏最小二乘回归分析,它可以消除变量之间的多重相关性,并建立多因变量与多自变量的统计关系。偏最小二乘回归分析的基本思想:借用主成分分析的工作手段,类似于典型相关分析的做法首先在自变量中提出一个主成分F1(它是的线性组合),同时在因变量中提取一个主成分G1(它是的线性组合),偏最小二乘回归分析在提取这两个主成分时
17、要满足下面两个条件:(1)F1和G1应尽可能大地提取它们各自原变量中的数据信息;(2)F1与G1的相关程度能够达到最大。这两个要求表明F1和G1应尽可能好地综合它们各自的原变量信息。同时自变量主成分F1对因变量主成分G1的解释性又能达到最大。在第一主成分F1和G1被提取之后,偏最小二乘回归分别实施自变量对F1的回是以及因变量对F1的回归。如果回归方程已达到满意精度,则算法终止;否则将利用自变量被F1解释后的残余信息以及因变量被F1解释后的残余信息进行第二轮的主成分提取。如此重复直到能达到一个满意精度为止。若最终对自变量提取了m1个主成分,偏最小二乘回归将通过施行Yk对的回归,最后再把主成分还原成自变量表示的回归方程(k =1, p; j =1, , m)。这里G1的作用已在提取F1时用到,所以这样提取的主成分F1对因变量才有最大的解释能力。选作题参考11.1 用双重筛选逐步回
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025酒店的承包经营合同
- 2025LED广告屏制作安装合同
- 2025设备抵押借款合同范本
- 2025铝合金门窗工程承包合同
- 2025年购房资金短缺的借款合同范本
- 2025城市供电特许经营合同样本
- 2025租赁担保合同模板
- 2025大学生个人车辆租赁合同
- 2025年农业用地流转合同模板
- 2025跨国租赁合同范本
- 第19课《十里长街送总理》 统编版语文(五四学制)六年级上册
- (完整版)四级短对话真题里的虚拟语气
- 2025 ACC-AHA急性冠脉综合征患者管理指南解读课件
- 《强化危险化学品“一件事”全链条安全管理措施》知识培训
- 智慧树知到《形势与政策(北京大学)》2025春期末答案
- 2025年中国尼龙注塑件市场调查研究报告
- 《智慧能源体系》课程教学大纲
- 大象版五年级下册《科学》全套教学课件
- DBJ04-T 241-2024 公共建筑节能设计标准
- 1.2区域整体性和关联性-以青田县稻鱼共生为例课件-高中地理人教版(2019)选择性必修2
- 特殊人群安全用药指导
评论
0/150
提交评论