第四章多元回归分析_第1页
第四章多元回归分析_第2页
第四章多元回归分析_第3页
第四章多元回归分析_第4页
第四章多元回归分析_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章多元回归分析第1页,共66页,2023年,2月20日,星期三第一节多元线性回归第二节可化为多元线性回归的问题第三节曲线回归第四节逐步回归第五节岭回归第2页,共66页,2023年,2月20日,星期三第一节多元线性回归

Yi=b0+b1x1i+b2x2i+…+bpxpi+ξiY1=b0+b1x11+b2x21+…+bpxp1+ξ1Y2=b0+b1x12+b2x22+…+bpxp2+

ξ2…Yn=b0+b1x1n+b2x2n+…+bpxpn+

ξn第3页,共66页,2023年,2月20日,星期三令

y11x11x21…xp1Y=y2x=1x12x22…xp2yn1x1nx2n…xpnb0ξ

1b1ξ

2B=…e=…bpξ

n则Y=XB+e第4页,共66页,2023年,2月20日,星期三一、多元线性回归模型的基本假定解释变量x1,x2,…,xp是确定性变量,不是随机变量,而且解释变量之间互不相关随机误差项具有零均值和同方差

E(ξ

i)=0var(ξ

i)=E(ξ

i-E(ξ

i))2=E(ξ

i)2=σ2随机误差项在不同样本点之间是相互独立的,不存在序列相关

cov(ξ

i,ξ

j)=0i≠ji,j=1,2,…ncov(ξ

i,ξ

j)=E((ξ

i-E(ξ

i)(ξ

j-E(ξj))=E(ξ

j)=E(ξ

i)E(ξ

j)=0

第5页,共66页,2023年,2月20日,星期三随机误差项与解释变量之间不相关

cov(xi,ξ

i)=0随机误差项服从零均值,同方差的正态分布

ξ

i~N(0,σ2)第6页,共66页,2023年,2月20日,星期三二、建立回归方程设令即第7页,共66页,2023年,2月20日,星期三第8页,共66页,2023年,2月20日,星期三多元线性回归矩阵形式多元线性回归模型

Y=XB+ε其中,Y=(y1,y2,…,ym)T,B=(b0,b1,…,bp)T,

ε=(ε1,ε2,...,εm)T,ε~Nm(0,σ2En)

第9页,共66页,2023年,2月20日,星期三最小二乘法选择B使误差平方和

Q(B)=εTε=(Y-XB)T(Y-XB)达到最小。利用微积分的极值求法得正规方程

XT

XB=XTYB的估计量

B=(XTX)-1XTY.称y=b0+b1x1+b2x2+…+bpxp为经验回归方程.

称Y=XB为因变量的估计值.残差向量

e=Y-Y=(En-H)Y其中H=X(XTX)-1XT.残差平方和(SSE)

eTe=YTY-(B)TXTY^^^^^^^^^^^第10页,共66页,2023年,2月20日,星期三估计量性质(1)

B=(XTX)-1XTY是B的线性无偏估计,D(B)=σ2(XTX)-1(2)E(e)=0,D(e)=σ2

(E-H).(3)Cov(e,B)=0.(4)E(SSE)=(m-p-1)σ2.在假设E(Y)=XB、D(Y)=σ2E时,B的任一线性函数ATB

的最小方差线性无偏估计为aTB

,其中A是任一p+1维向量.(6)当Y~Nm(XB,σ2E)时,有以下结论

B~Nm(B,σ2

(XTX)-1),SSE与B相互独立,

SSE/σ2~χ2(m-p-1).^^^^^第11页,共66页,2023年,2月20日,星期三三、多元线性回归模型的建模方法1.打开文件或新建文件2.Analyzeregressionliner3.建模方法(1)enter:强迫进入法(2)stepwise:逐步选择法(3)remove:强迫消除法(4)backward:向后剔除法(5)forward:向前引入法第12页,共66页,2023年,2月20日,星期三

回归统计量(1)estimates:显示回归系数及相关的指标(2)confidenceintervals:显示未标准化回归系数的置信区间(3)covariancematrix:未标准化回归系数的方差—协方差矩阵(4)modelfit:模型检验(5)Rsquaredchange

(6)descriptive:显示变量的均值、标准差等(7)Partandpartialcorrelations:

(8)collinearitydiagnostics:共线性诊断(9)Durbon_waston:D.w.检验统计量第13页,共66页,2023年,2月20日,星期三举例(一)根据我国某地区乡镇企业总产值、从业劳动者人数和固定资产原值的历年资料,求回归方程。(总产值-y,从业劳动者人数-x1,固定资产原值-x2)yearyx1x21988490.62826.5229.601989543.42909.3280.201990649.92999.7326.301991722.32969.6375.501992840.43112.9429.301993999.03234.7475.7019941433.03848.1575.00第14页,共66页,2023年,2月20日,星期三第15页,共66页,2023年,2月20日,星期三第16页,共66页,2023年,2月20日,星期三举例(二)卫生陶瓷是我国住宅建筑、饭店、宾馆、医疗卫生、体育、办公设施等建筑必不可少的卫生设备。合理地发展卫生陶瓷生产是国民经济的需要。卫生陶瓷产量y与城镇住宅建筑面积x1,医疗卫生机构建筑面积x2,办公室建筑面积x3有关。试根据历史资料建立回归方程。yx1x2x34.009.001.402.906.009.001.102.804.0010.001.103.103.0017.001.004.105.0016.001.105.007.0018.001.404.5010.0010.000.801.804.009.000.400.605.009.000.500.807.0010.000.902.1011.0012.001.102.108.0014.002.204.009.0019.002.204.0010.0021.002.403.6014.0020.002.204.2018.0022.002.304.6020.0021.002.104.0024.0028.002.304.3022.0033.002.404.7026.0050.002.606.00第17页,共66页,2023年,2月20日,星期三

Y=0.488+0.576x1+4.769x2-2.145x3(4.245)(2.404)(-2.111)第18页,共66页,2023年,2月20日,星期三举例(三)在研究国家财政收入时,我们把财政收入按收入形式分为各项税收收入、企业收入、债务收入、国家能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y为因变量。自变量如下:x1工业总产值,x2农业总产值,x3建筑业总产值,x4人口数,x5社会商品零售总额,x6受灾面积(数据见spssex/例子3)第19页,共66页,2023年,2月20日,星期三yearyx1x2x3x4x5x619781121.1042371397569962591558.60507619791103.3046811698645975421800.00393719801085.2051541923767987052140.00445319811089.50540021817471000722350.00397919821124.00581124839121016542570.00331319831249.006461275010351030082849.40347119841501.907617321412631043573376.40318919851866.409716361916561058514305.00443719862260.3011194401320381075074950.00471419872368.9013813417624311093005820.00420919882628.0018224586529671110267440.00508719892947.9022017653528341127048101.40469919903244.8023851766230351143338300.103847第20页,共66页,2023年,2月20日,星期三

Y=-13534.1+0.209x1-0.06x2+0.763x3+0.141x4-0.855x5+0.227x6(3.292)(-0.416)(2.341)(2.703)(-2.932)(2.595)第21页,共66页,2023年,2月20日,星期三五、回归方程的效果的检验方程显著性检验参数显著性检验拟合优度检验(复相关系数、偏相关系数)对假设理论的检验第22页,共66页,2023年,2月20日,星期三例2中,方差分析表为:y第23页,共66页,2023年,2月20日,星期三1.方程显著性检验(F检验)F检验是以方差分析为基础,对回归总体线性关系是否显著的一种假设检验,是解释模型中被解释变量与所有解释变量之间的线性关系在总体上是否显著的方法利用F统计量进行总体线性显著性检验的步骤如下:(1)提出关于P个总体参数的假设

H0:b0=b1=b2=…=bp=0,H1:至少有一个bi非零第24页,共66页,2023年,2月20日,星期三

(3)检验给定显著性水平α,查F分布表若F>Fα,拒绝H0,表明回归总体有显著性关系.

若F<Fα,接受原假设,表明不存在线性关系利用F统计量进行总体线性显著性检验的步骤如下:

H0:b1=b2=…=bp=0H1:至少有一个bi≠0离差平方和分解方法方差来源平方和自由度F值临界值显著性回归剩余SSRSSEpm-p-1总计SSTm-1方差分析表第25页,共66页,2023年,2月20日,星期三2.参数显著性检验参数显著性检验,是对每个解释变量进行检验.如果解释变量对被解释变量的影响不显著,应从模型中删除,如果解释变量对被解释变量的影响显著,应保留在模型中.利用t统计量进行参数显著性检验的步骤如下:(1)对总体参数提出假设:H0:bi=0(2)构造统计量:(3)检验对给定α,若︱t︱>tα/2,说明拒绝原假设若︱t︱<tα/2,则接受原假设.第26页,共66页,2023年,2月20日,星期三如果一次t检验后,模型中存在多个不重要变量,一般是将t值最小的变量删除掉,再重新进行检验,每次只剔除1个变量.aii是(X`X)-1主对角线上第i+1个元素第27页,共66页,2023年,2月20日,星期三在x0处,3因变量的预测y0

的置信区间因ε0与B相互独立,则y0与y0

相互独立其中^^第28页,共66页,2023年,2月20日,星期三4数据中心化和标准化(消除不同量纲)i=1,…,m;j=1,…,p.第29页,共66页,2023年,2月20日,星期三六、复相关系数和偏相关系数复相关系数R是由ESS和TSS构造的统计量,用来表示回归方程对原有数据拟合程度的好坏,衡量作为一个整体的x1,x2,…,xp与y的线性关系的大小。第30页,共66页,2023年,2月20日,星期三回归方程的拟合优度检验就是要检验样本数据点聚集在回归直线周围的密集程度,从而评价回归方程对样本数据的代表程度。由判定系数R2来实现。实际中,随着自变量个数的不断增加,必然会使得R2不断变化,于是出现的问题是,R2变化是由于数学习性决定的,还是确实是由于引入了好的变量进入方程而造成的。因此在作拟合优度检验的判定时,一般采用调整的R2,以消除自变量的个数以及样本量的大小对R2的影响。第31页,共66页,2023年,2月20日,星期三其它变量被固定后,计算任意两个变量之间的相关系数,这种相关系数称为偏相关系数。第32页,共66页,2023年,2月20日,星期三简单相关系数只是一种数量表面上的相关系数,而并非本质的东西。偏相关系数才真正反映两个变量的本质联系。Zero-order:零阶相关系数,计算所有自变量与因变量间的简单相关系数。Partcorrelation:部分相关,在排除了其他自变量对xi的影响后,当一个自变量进入模型后,复相关系数的平方增加量。第33页,共66页,2023年,2月20日,星期三回归方程的残差分析回归函数线性假设可行性残差序列的正态性分析残差序列的随机性分析残差序列的独立性分析奇异值诊断异方差诊断第34页,共66页,2023年,2月20日,星期三诊断回归函数是否为自变量x1,x2,…,xp

的线性函数时,主要采用残差图y、e。如果在这个散点图中,点(y,e)大致在e=0附近随机变化(即无明显的趋势性),并在变化幅度不在的水平带状区域内,则可以认为回归函数的线性假定基本上是合理的。否则表明回归函数不是线性的,回归函数中可能应该含有某些变量的高次项或交叉乘积项,或者考虑是否可先将因变量y与某些自变量做变换,再建立相应的线性回归模型。当然,最极端情形是因变量与自变量之间没有回归关系。回归函数线性假设的可行性^^第35页,共66页,2023年,2月20日,星期三残差序列的正态性分析:设误差向量ε~N(0,σ2E),残差向量

e~N(0,σ2(E-H)),ei~N(0,σ2(1-hii)),H=(hij)学生化残差所有SREi近似独立服从N(0,1),即近似地认为来自N(0,1)的简单随机样本。

(1)频率检验法:统计所有SREi的正负个数是否各占一半,介于(-1,+1)、(-2,+2)、(-3,+3)的比例是否约68%、95%、99%。

(2)正态QQ图检验法:将学生化残差从小到大重排r1、…、rm,计算qi=Φ-1[(i-0.375)/(n+0.25)],作图描点(qi,ri)。所有点应基本上在一直线上。或者计算q与r的相关系数,其值应接近于1。第36页,共66页,2023年,2月20日,星期三通过绘制标准化残差序列的带正态曲线的直方图或累计概率图来分析,确定残差是否接近正态Analyze->regression->linearPlot子对话框中选Histogram或p-p图第37页,共66页,2023年,2月20日,星期三残差序列的随机性分析:可以绘制残差序列和对应的预测值序列的散点图。如果残差序列是随机的,那么残差序列应与预测值序列无关,残差序列点将随机地分布在经过零的一条直线上下。在线性回归Plots对话框中的源变量表中,选择SRESID(学生氏残差)做Y轴,选ZPRED(标准化预测值)做X轴第38页,共66页,2023年,2月20日,星期三残差序列的独立性分析:如果回归模型中的误差项不是不相关,则称为自相关或序列相关。Durbin-Watson检验是最常见的自相关检验方法,但它仅适用于一阶自相关,即形如εi=ρεi-1+ui。由于εi未知,就用残差ei

挖代替来判断是否自相关。H0:ρ=0检验统计量判别准则:当0<DW<dl时,正自相关;当4-dl<WD<4时,负自相关;当dl<WD<du或4-du<DW<4-dl时,不能确定上;

当WD在2附近,不存在一阶自相关,通常也无高阶自相关。如果模型存在自相关,可用差分模型代替原有模型,再检验、迭代第39页,共66页,2023年,2月20日,星期三样本奇异值的诊断:样本奇异值是样本数据中那些远离均值的样本数据点。它们会对回归方程的拟合产生较大偏差影响。一般认为,如果某样本点对应的标准化残差的值超出了-3—+3的范围,就可以判定该样本数据为奇异值。Analyze->regression->statistics->casediagnostics第40页,共66页,2023年,2月20日,星期三异方差诊断:线性回归模型要求残差序列服从等方差的正态分布一般通过绘制SRESID与因变量预测值的散点图或计算SRESID和因变量预测值间的相关系数。如果残差序列和预测值的平方根成正比例变化,可以对因变量作开方处理;如果残差序列与预测值成比例变化,可以对因变量取对数;如果残差序列与预测值的平方成比例的变化,可以对因变量求倒数。还可以用WLS法消除异方差。第41页,共66页,2023年,2月20日,星期三

Box-Cox变换是通过对因变量做适当变换,达到对原始数据的“综合治理”,使其尽可能满足线性回归模型的假设条件。Box-Cox变换确定λ值,使得Y(λ)

满足

Y(λ)=Xβ+ε,

ε~N(0,σ2E).利用最大似然方法可确定λ值。第42页,共66页,2023年,2月20日,星期三七、预测和控制所谓预测就是给定解释变量x样本外的某一特征值x0=(1,x10,x20,…,xp0),对因变量的值y0以及E(y0)进行估计。1、y0的点预测:2、y0的(1-α)的预测区间:第43页,共66页,2023年,2月20日,星期三例5继例1,预测从业劳动者为3000万人,固定资产原值为400亿元时该地区的总产值,并给出α=0.05时的预测区间.第44页,共66页,2023年,2月20日,星期三例6中国民航客运量的回归模型.为了研究我国民航客运量的变化趋势及成因,我们以民航客运量作为因变量y,以国民收入、消费额、铁路客运量、民航航线里程、来华旅游入境人数为影响民航客运量的主要因素。Y-民航客运量(万人),x1-国民收入(亿元),x2-消费额(亿元),x3-铁路客运量(万人),x4-民航航线里程(万公里),x5-来华旅游入境人数第45页,共66页,2023年,2月20日,星期三第二节可化为多元线性回归的问题在自然科学中,y关于x的数量关系多数都不是简单的线性关系,而是各种各样的非线性关系,于是我们常会遇到非线性回归模型,在非线性回归模型中,一种类型是可以通过变量变换化为线性模型,然后按线性模型加以解决;另一种类型的非线性模型是用任何变量变换办法都不能或不方便直接化为线性模型求得参数的估计值。第46页,共66页,2023年,2月20日,星期三多项式函数设则多项式化为:多元幂函数令则多项式化为:第47页,共66页,2023年,2月20日,星期三指数函数

取则多元对数函数取则第48页,共66页,2023年,2月20日,星期三指数函数与幂函数的积

令则第49页,共66页,2023年,2月20日,星期三例7某企业在15年中每年的年产量x和总成本y,试建立y对x,x2和x3的多项式回归方程.(数据见spssex/例子7)第50页,共66页,2023年,2月20日,星期三如果自变量相邻数值之间大小间隔相等,而且相邻样本点对应的因变量y的二次差分大致相同,则该总体可配合二次多项式函数如果是三次差分大致相同,则可配合三次多项式函数第51页,共66页,2023年,2月20日,星期三例8根据某地1985-1993年间农产品收购额,建立回归方程.(数据见spssex/例子8)MODEL:MOD_2.Independent:xDependentMthRsqd.f.FSigfb0b1b2yQUA1.0006202698.000178.0955.22383.8810第52页,共66页,2023年,2月20日,星期三例9某制造厂表面处理车间试验将铬后污水同电解污泥混合,使之生成无毒溶液,效果很好.但实际排出污水的浓度不完全相同,而且一定浓度的定量铬后污水只有同定量的电解污泥混合后,才能反应完全.现通过试验,找出铬后污水用量与电解污泥用量之比对于铬后污水浓度之间的关系.(spssex/例子9)第53页,共66页,2023年,2月20日,星期三第三节曲线回归Analyze->regression->curveestimationLinear:y=b0+b1xQuadratic:y=b0+b1x+b2x2Compound:y=b0b1xGrowth:y=e(b0+b1x)Logarithmic:y=b0+b1lnxCubic:y=b0+b1x+b2x2+b3x3S:y=e(b0+b1/x)Exponential:y=b0eb1xInverse:y=b0+b1/xPower:y=b0xb1Logistic:y=1/(1/u+b0b1x))第54页,共66页,2023年,2月20日,星期三第四节逐步回归在多元线性回归中,最难的是如何选择自变量的问题,如果自变量选的太少,则自变量对Y的决定系数太小,导致过大的偏差,如果把与Y有关的自变量都选入是不可能的,一般来讲,选的自变量愈多,ESS愈大,然而多个自变量中有相当一部分对Y影响不显著,反而会因自由度的减少而增大了误差。另外,多个自变量间的相关会给回归方程的实际解释上造成麻烦,即多重共线性的影响。因此我们提出最优方程的概念,要求进入回归方程的自变量都是显著的,未进入回归方程的自变量都是不显著的。第55页,共66页,2023年,2月20日,星期三一、“最优”回归方程的选择1.回归方程中包含尽量多的信息2.回归方程中包含尽量少的变量方法:逐步剔除的回归分析方法逐步引入的回归分析方法“有进有出”的回归分析方法(逐步回归分析方法)第56页,共66页,2023年,2月20日,星期三逐步剔除法(backward)1、用全部变量建立一个回归方程2、对每个变量进行检验,剔除偏回归平方和最小的变量。3、对剩余变量再作回归,再检验……直至方程中没有可剔除的变量为止。第57页,共66页,2023年,2月20日,星期三逐步引入法(forward)1、将所有自变量分别与因变量建立一元线性回归方程,比较各自的回归平方和,将回归平方和最大的变量引入回归方程。2、再分别将剩

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论