多元线性回归和非线性回归_第1页
多元线性回归和非线性回归_第2页
多元线性回归和非线性回归_第3页
多元线性回归和非线性回归_第4页
多元线性回归和非线性回归_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元线性回归和非线性回归第一页,共五十页,编辑于2023年,星期五多元线性回归模型

(multiplelinearregressionmodel)一个因变量与两个及两个以上自变量的回归描述因变量y如何依赖于自变量x1

,x2

,…,

xp

和误差项

的方程,称为多元回归模型涉及p个自变量的多元回归模型可表示为

b0

,b1,b2

,,bp是参数

是被称为误差项的随机变量y是x1,,x2

,,xp

的线性函数加上误差项

包含在y里面但不能被p个自变量的线性关系所解释的变异性第二页,共五十页,编辑于2023年,星期五多元线性回归模型

(基本假定)1.解释变量x1,x2,…,xp是确定性变量.不是随机变量,且要求样本容量的个数应大于解释变量的个数。2.误差项ε是一个期望值为0的随机变量,即E()=03.对于自变量x1,x2,…,xp的所有值,的方差2都相同4.误差项ε是一个服从正态分布的随机变量,即ε~N(0,2),且相互独立第三页,共五十页,编辑于2023年,星期五多元线性回归方程

(multiplelinearregressionequation)描述因变量y的平均值或期望值如何依赖于自变量x1,x2

,…,xp的方程多元线性回归方程的形式为

E(y)=0+1x1

+2x2

+…+

k

xpb1,b2,,bp称为偏回归系数

bi

表示假定其他变量不变,当xi

每变动一个单位时,y的平均变动值第四页,共五十页,编辑于2023年,星期五二元线性回归方程1.表示保持不变时,每变动一个单位时的相应变化量.2.表示保持不变时,每变动一个单位时的相应变化量.考虑二元线性回归模型第五页,共五十页,编辑于2023年,星期五二元线性回归方程的直观解释二元线性回归模型(观察到的y)回归面0ix1yx2(x1,x2)}第六页,共五十页,编辑于2023年,星期五回归参数的估计第七页,共五十页,编辑于2023年,星期五估计的多元线性回归的方程

(estimatedmultiplelinearregressionequation)是估计值是y的估计值用样本统计量估计回归方程中的参数

时得到的方程由最小二乘法求得一般形式为第八页,共五十页,编辑于2023年,星期五参数的最小二乘法求解各回归参数的标准方程如下使因变量的观察值与估计值之间的离差平方和达到最小来求得

。即第九页,共五十页,编辑于2023年,星期五参数的最小二乘法

(例题分析)例1生产总值是衡量一个国家地区经济发展的重要指标,影响一个国家或地区生产总值的因素包括资本、资源、科技、劳动力、进出口、国家基础设施建设等方面的因素。本例研究财政支出对生产总值的影响。《中国统计年鉴》把财政支出划分为31个组成部分,本例只选取其中的13个重要支出项。第十页,共五十页,编辑于2023年,星期五回归系数表用spss软件计算的回归系数如下:第十一页,共五十页,编辑于2023年,星期五参数的最小二乘法需要注意的是,这一回归方程并不理想,回归系数的意义不好解释,这里只是作为多元线性回归参数估计的一例,后边我们还要进一步完善这一模型的建立第十二页,共五十页,编辑于2023年,星期五线性回归方程的某些注意点1样本决定系数2估计标准误差第十三页,共五十页,编辑于2023年,星期五一、多重样本决定系数(multiplecoefficientofdetermination)

对多元回归,总方差同样可分解成如下形式则决定系数为(12.6)(12.7)第十四页,共五十页,编辑于2023年,星期五

多重决定系数反映样本回归方程的拟合好坏程度,R2愈大,说明样本回归方程拟合得愈好。显然,.而称y

关于的样本复相关系数,R

的大小可以反映作为一个整体的与y的线性相关的密切程度.第十五页,共五十页,编辑于2023年,星期五修正多重决定系数(adjustedmultiplecoefficientofdetermination)

由于样本多重判定系数的分母SST

对给定的样本数据是不变的,而SSR与引进回归方程的自变量个数有关.因此,应对R2作调整,调整的样本多重判定系数为(12.8)第十六页,共五十页,编辑于2023年,星期五估计标准误差Sy对误差项的标准差的一个估计值衡量多元回归方程的拟合优度计算公式为第十七页,共五十页,编辑于2023年,星期五回归方程显著性检验第十八页,共五十页,编辑于2023年,星期五线性关系检验

(回归方程显著性检验)检验因变量与所有自变量之间的线性关系是否显著也被称为总体的显著性检验检验方法是将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,因变量与自变量之间存在线性关系如果不显著,因变量与自变量之间不存在线性关系第十九页,共五十页,编辑于2023年,星期五线性关系检验提出假设H0:12p=0线性关系不显著H1:1,2,p至少有一个不等于02.计算检验统计量F确定显著性水平和分子自由度p、分母自由度n-p-1找出临界值F

4.作出决策:若F>F

,拒绝H0第二十页,共五十页,编辑于2023年,星期五方差分析表

前面的这些计算结果可以列成表格的形式,称为方差分析表.方差分析表方差来源平方和自由度方差F值回归SSRpSSR/p残差SSEn-p-1SSE/(n-p-1)总和SSTn-1-第二十一页,共五十页,编辑于2023年,星期五表中的Sig即为显著性P值,由P值=0.000(近似值)可知回归方程十分显著。即可以以99.9%以上的概率断言所有自变量全体对因变量产生显著线性影响。对例1回归方程的检验:

第二十二页,共五十页,编辑于2023年,星期五回归系数显著性检验线性关系检验通过后,对各个回归系数有选择地进行一次或多次检验对每一个自变量都要单独进行检验应用t检验统计量第二十三页,共五十页,编辑于2023年,星期五回归系数的检验

(步骤)提出假设H0:bi=0(自变量xi

因变量y没有线性关系)H1:bi

0(自变量xi

因变量y有线性关系)计算检验的统计量t确定显著性水平,并进行决策t>t,拒绝H0;t<t,不拒绝H0第二十四页,共五十页,编辑于2023年,星期五回归系数的推断

(置信区间)回归系数在(1-)%置信水平下的置信区间为

回归系数的抽样标准差第二十五页,共五十页,编辑于2023年,星期五例1spss计算出的和P值对回归系数的检验:第二十六页,共五十页,编辑于2023年,星期五结果发现:

并不是所有的自变量单独对因变量都有显著性影响,最大的P值为0.926>0.05,在取显著性水平a=0.05时通不过显著性检验。这个例子说明:尽管回归方程通过了显著性检验,但也会出现某些单个自变量(甚至每一个)对因变量并不显著的情况。由于某些自变量不显著,因而在多元回归中并不是包含在回归方程中的自变量越多越好。第二十七页,共五十页,编辑于2023年,星期五在此介绍一种剔除多余自变量的方法:逐步回归法剔除x3科技三项费后:第二十八页,共五十页,编辑于2023年,星期五剔除x6工交部门事业费后:第二十九页,共五十页,编辑于2023年,星期五依次剔除,最终只保留x1,x2,x4,x8,x10,x11,x12,x13,其回归系数见下表:第三十页,共五十页,编辑于2023年,星期五多元线性回归分析操作(一)基本操作步骤(1)菜单选项:analyze->regression->linear…(2)选择一个变量为因变量进入dependent框(3)选择一个或多个变量为自变量进入independent框(4)选择多元回归分析的自变量筛选方法:enter:所选变量全部进入回归方程(默认方法)remove:从回归方程中剔除变量stepwise:逐步筛选;backward:向后筛选;forward:向前筛选(5)对样本进行筛选(selectionvariable)利用满足一定条件的样本数据进行回归分析(6)指定作图时各数据点的标志变量(caselabels)第三十一页,共五十页,编辑于2023年,星期五多元线性回归分析操作(二)statistics选项(1)基本统计量输出Partandpartialcorrelation:与Y的简单相关、偏相关和部分相关Rsquarechange:每个自变量进入方程后R2及F值的变化量Collinearitydignostics:共线性诊断.第三十二页,共五十页,编辑于2023年,星期五非线性回归第三十三页,共五十页,编辑于2023年,星期五水文研究中X和Y的数量关系常常不是线性的,如洪峰流量与流域面积之间。如果用线性描述将丢失大量信息,甚至得出错误结论。这时可以用曲线估计(Curveestimation)或非线性回归(Nonlinearregression)方法分析。本部分仅就一元非线性回归问题,讨论其参数估计。第三十四页,共五十页,编辑于2023年,星期五1,线性化方法

2,直接最小二乘法

3,二步法一元非线性回归方程参数估计的常用方法:第三十五页,共五十页,编辑于2023年,星期五线性化方法1,最简单最常用的方法2,通过对变量作适当变换,将原变量的非线性关系转化为新变量的线性关系,建立起线性回归方程,然后再还原为原变量,这样建立曲线回归方程的方法称为线性化法。3,首先,要确定非线性函数的类型,然后再考虑能否通过变量变换的方法使之线性化。4,如何确定非线性函数的类型?专业知识和经验数学方法:散点图第三十六页,共五十页,编辑于2023年,星期五一、非线性模型的线性化下面列出一些常用的非线性函数的线性化变换,如果实测数据的散点图大致围绕下列的某一曲线散布,就可采用与之相应的变换,使其转化为线性问题。

双曲线型指数曲线型幂函数型对数曲线型S曲线型第三十七页,共五十页,编辑于2023年,星期五

绘制散点图,根据图形和专业知识选取曲线类型(可同时选取几类)按曲线类型,作曲线直线化变换建立直线化的直线回归方程;作假设检验,计算决定系数将变量还原,写出用原变量表达的曲线方程比较决定系数选取“最佳”曲线方程曲线直线化估计的步骤第三十八页,共五十页,编辑于2023年,星期五利用线性回归拟合曲线例上海医科大学微生物学教研室以已知浓度X的免疫球蛋白A(IgA,μg/ml)作火箭电泳,测得火箭高度Y(mm)如表所示。试拟合Y关于X的非线性回归方程。XYX'=lnX

(lnX)2Y2(lnX)Y

残差平方0.27.6-1.60940.412.3-0.91630.615.7-0.51080.818.2-0.22311.018.701.221.40.18231.422.60.33651.623.80.4700合计140.3-2.27082.590257.76-12.23140.8396151.29-11.27050.2609246.49-8.01960.0498331.24-4.06040.0000349.690.00000.0332457.963.90120.1132510.767.60490.2209566.4411.18604.1078

2671.63

-12.8898

7.2312.6215.7718.0119.7521.1622.3623.40

0.13800.10170.00530.03611.09210.05630.05660.15971.6458第三十九页,共五十页,编辑于2023年,星期五(一)绘制散点图,决定曲线类型(对数曲线)

(二)曲线直线化变换

=a+blnX

第四十页,共五十页,编辑于2023年,星期五(三)建立线性回归方程

回归方程为:=19.7451+7.7771lnX方差分析有统计学意义,P=0.0000,F=763.50,表明回归方程有意义。确定系数为0.99,表明回归拟合原资料很好。第四十一页,共五十页,编辑于2023年,星期五直接最小二乘法类似于建立线性回归方程的方法,根据x,y的原始观测资料,依据最小二乘法原理,直接寻求方程中未知参数的最小二乘估计。对于非线性回归,由于回归方程是非线性函数,其正规方程组一般是超越方程(非代数方程),不能用代数方法求解,只能用数值解法,迭代计算出其近似解。第四十二页,共五十页,编辑于2023年,星期五用线性回归拟合曲线(例2)表225名重伤病人的住院天数X与预后指数Y编号123456789101112131415X257101419263134384552536065Y54504537352520161813811846第四十三页,共五十页,编辑于2023年,星期五(一)绘制散点图,决定曲线类型

指数曲线第四十四页,共五十页,编辑于2023年,星期五(二)曲线直线化变换

第四十五页,共五十页,编辑于20

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论