回归分析方法总结全面_第1页
回归分析方法总结全面_第2页
回归分析方法总结全面_第3页
回归分析方法总结全面_第4页
回归分析方法总结全面_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、一、什么就是回归分析回归分析Regression Analysis就是研究变量之间作用关系的一种统计分析方法,其根本组成就是一个或一组自变量与一个或一组因变量.回归分析研究的目的就是通过收集到的样 本数据用一定的统计方法探讨自变量对因变量的影响关系,即原因对结果的影响程度.回归分析就是指对具有高度相关关系的现象,根据其相关的形态,建立一个适当的数学模型函数式,来近似地反映变量之间关系的统计分析方法.利用这种方法建立的数学模型称为回归方程,它实际上就是相关现象之间不确定、不规那么的数量关系的一般化.二、回归分析的种类1、按涉及自变量的多少,可分为一元回归分析与多元回归分析一元回归分析就是对一个因

2、变 量与一个自变量建立回归方程. 多元回归分析就是对一个因变量与两个或两个以上的自变量 建立回归方程.2、按回归方程的表现形式不同,可分为线性回归分析与非线性回归分析假设变量之间就是线性相关关系,可通过建立直线方程来反映,这种分析叫线性回归分析.假设变量之间就是非线性相关关系,可通过建立非线性回归方程来反映,这种分析叫非线性回归分析.三、回归分析的主要内容1、建立相关关系的数学表达式.依据现象之间的相关形态,建立适当的数学模型,通过数学模 型来反映现象之间的相关关系,从数量上近似地反映变量之间变动的一般规律.2、依据回归方程进行回归预测.由于回归方程反映了变量之间的一般性关系,因此当自变量发生

3、变化时,可依据回归方程估计出因变量可能发生相应变化的数值.因变量的回归估计值,虽然不就是一个必然的对应值她可能与系统真值存在比拟大的差距,但至少可以从一般性角度或平均意义角度反映因变量可能发生的数量变化.3、计算估计标准误差.通过估计标准误差这一指标,可以分析回归估计值与实际值之间的差异程度以及估计值的准确性与代表性,还可利用估计标准误差对因变量估计值进行在一定把握程度条件下的区间估计.四、一元线性回归分析1、一元线性回归分析的特点1两个变量不就是对等关系,必须明确自变量与因变量.2如果x与y两个变量无明显因果关系,那么存在着两个回归方程:一个就是以x为自变量,y为 因变量建立的回归方程;另一

4、个就是以y为自变量,x为因变量建立的回归方程.假设绘出图形 那么就是两条斜率不同的回归直线.3直线回归方程中,回归系数b可以就是正值,也可以就是负值.假设0 b ,表示直线上升,说明两个变量同方向变动;假设0 b,表示直线下降,说明两个变量就是反方向变动.2、建立一元线性回归方程的条件任何一种数学模型的运用都就是有前提条件的,配合一元线性回归方程应具备以下两个条件:1两个变量之间必须存在高度相关的关系.两个变量之间只有存在着高度相关的关系,回归方程才有实际意义.2两个变量之间确实呈现直线相关关系.两个变量之间只有存在直线相关关系,才能配合直线回归方程.3、建立一元线性回归方程的方法一元线性回归

5、方程就是用于分析两个变量一个因变量与一个自变量线性关系的数学表达式,一般形式为:yc=a+bx式中:x代表自变量;yc代表因变量y的估计值又称理论值;ab为回归方程参数.其中,a就是直线在y轴上的截距,它表示当自变量 x等于0时,因变量 所到达的数值 也就是直线的斜率,在回归方程中亦称为回归系数 ,它表示当自变量x每变动一 个单位时,因变量y平均变动的数值.一元线性回归方程应根据最小二乘法原理建立,由于只有用最小二乘法原理建立的回归方程才可以同时满足两个条件:1因变量的实际值与回归估计值的离差之与为零;2因变量的实际值与回归估计值的离差平方与为最小值.只有满足这两个条件,建立的直线方程的误差才

6、能最小,其代表性才能最强.现在令要建立的一元线性回归方程的标准形式为yc=a+bx,依据最小二乘法原理,因变量实际值y与估计值yc的离差平方与为最小值,即Q=!2 y-yc2取得最小值.为使 Q=13 y-yc2=最小值根据微积分中求极值的原理,需分别对a,b求偏导数,并令其为0,经过整理,可得到如下方程组Ey=an+bExExy=aEx+bE x2解此方程组,可求得a,b两个参数4、计算估计标准误差回归方程只反映变量 x与y之间大致的、平均的变化关系.因此对每一个给定的x值,回归方程的估计值yc与因变量的实际观察值y之间总会有一定的离差,即估计标准误差.估计标准误差就是因变量实际观察值y与估

7、计值yc离差平方与的平均数的平方根,它反映因变量实际值y与回归直线上各相应理论值yc之间离散程度的统计分析指标.估计标准误差:式中:与一一估计标准误差;y因变量实际观察值;yc因变量估计值;n-2 自由度如何描述两个变量之间线性相关关系的强弱 利用相关系数r来衡量当r>0时,表示x与y为正相关;当r<0时,表示x与y为负相关.5、残差分析与残差图:残差就是指观测值与预测值拟合值之间的差,即就是实际观察值与回归估计值的差在研究两个变量间的关系时,a要根据散点图来粗略判断它们就是否线性相关;b判断就是否可以用回归模型来拟合数据;c可以通过残差来判断模型拟合的效果 ,判断原始数据中就是否

8、存在可疑数据 ,这方面的分 析工作就称为残差分析.6、残差图的制作及作用.坐标纵轴为残差变量 横轴可以有不同的选择;假设模型选择的正确,残差图中的点应该分布在 以横轴为心的带状区域,带状区域的宽度越窄精度越高.对于远离横轴的点,要特别注意.717、几点注解:第一个样本点与第 6个样本点的残差比拟大,需要确认在采集过程中就是否有人为的错 误.如果数据采集有错误,就应该予以纠正,然后再重新利用线性回归模型拟合数据;如果数据 采集没有错误,那么需要寻找其她的原因.另外,残差点比拟均匀地落在水平的带状区域中 ,说明选用的模型计较适宜 ,这样的带状区域 的宽度越窄,说明模型拟合精度越高,回归方程的预报精

9、度越高.还可以用判定系数 r2来刻画 回归的效果,该指标测度了回归直线对观测数据的拟合程度 ,其计算公式就是:其中:SSR回归平方与;SSE残差平方与;Sst=ssr+sse总离差平方与.由公式知,RC目关指数的值越大,说明残差平方与越小,也就就是说模型拟合效果越好.在含有一个解释变量的线性模型中r2恰好等于相关系数r的平方,即R2=r2在线性回D3模型中 R表示解释变量对预报变量变化的奉献率.R2越接近1,表示回归的效果越好由于R2越接近1,表示解释变量与预报变量的线性相关性越强.如果某组数据可能采取几种不同回归方程进行回归分析,那么可以通过比拟 R的值来做出选择即选取R2较大的模型作为这组

10、数据的模型.总的来说:相关指数R2就是度量模型拟合效果的一种指标.在线性*II型中,它代表自变量刻画预报变量的水平.五、多元线性回归分析在一元线性回归分析中,因变量y只受某一个因素的影响,即只由一个自变量 x来估计.但对 于复杂的自然界中的问题,影响因素往往很多,在这种,f#况下,因变量y要用多个自变量同时进 行估计.例如,某种产品的总本钱不仅受原材料价格的影响,而且也与产品产量、治理水平等因素有关;农作物产量的上下受品种、气候、施肥量等多个因素的影响.描述因变量与两个或两个以上自变量之间的数量关系的回归分析方法称为多元线性回归分析.它就是一元线性回归分析的推广,其分析过程相复杂一些,但根本原

11、理与一元线性回归分析类似.多元线性回归方程的一般表达式为:L =4+力厮 +儿+4瓦兀r f££为便于分析,当自变量较多时可选用两个主要的自变量X1与X2.其线性回归方程标准式为其中:yc为二元回归估计值 上为常数项 加与b2分别为y对X1与X2的回归系数,bi表示当自变 量X2为一定时,由于自变量X1变化一个单位而使y平均变动的数值,b2表示当自变量X1为一定 时,由于自变量X2变化一个单位而使 y平均变动的数值,因此,bi与b2称为偏回归系数.要建立二元回归方程,关键问题就是求出参数a,bi与b2的值,求解方法仍用最小二乘法,即分别对a,bi与b2求偏导数,并令函数的一

12、阶导数等于零,可得如下方程组:+ A V x, - A. V % = V v"E、w Z M+包工芭巧=E邛1上三十Z*三十生£W二在回归分析中,通常称自变量为回归因子般用耳,七,一,兀表示,而称因变量为指标,一般用耳立,片表示.预测公式:.一K),称之为回归方程.回归 模型,根据各种原那么可以分为各种模型1、 当n =1时,称为一元单因子回归;当n > 2时,称为多元多因子回归.2、 当f为线性函数时,称为线性回归;当f为非线性函数时,称为非线性曲线回归.最小二乘准那么:假设待定的拟合函数为=人划,另据m个数据点,相当于求解以下规划问题即使得总离差平方与最小.具体在

13、线性拟合的过程中,假设拟合函数为y=a+bx,a与b为待定 系数,有m个数据点,分别为斗上,1 = 1,2,叫应用最小二乘法,就就是要使:产府§ 二 £Z- /工"=SOr -%一少r=1到达最小值.把S瞧成自变量为a与b的连续函数,那么根据连续函数到达及致电的必要条件,于就是得到:cb因此,当S取得最小值时,有:陆=-2, (.£ axi-b)xi二-辽区-叭-与可得方程组为:川 面 总立片牛地上工2%内产L 2称这个方程组为正规方程组,解这个二元一次方程组得到: I2J i 量I或M-必J黑力一£工6工E=|=jf=|g=|如果把已有数据描

14、绘成散点图,而且从散点图中可以瞧出,各个数据点大致分布在一条直线附近,不妨设她们满足线性方程 J =门十左 + £其中,x为自变量,y为因变量,a与b为待定系数; £成为误差项或者扰动项.这里要对数据点做线性回归分析 ,从而a与b就就是待定的回归系数,£为随机误差.不妨设得到的线T拟合曲线为:快二口 + bt这就就是要分析的线性回归方程.一般情况下得到这个方程以后,主要就是描绘出回归曲线,并且观测拟合效果与计算一些误差分析指标,例如最大点误差、总方差与标准差等.这里最缺乏的就就是一个统一的评价系统,以下说明从概率角度确立的关于线性回归的一套评价系统.在实际的线性回

15、归分析中,除了估计出线性回归系数 a与b,还要计算y与x的相关程度,即 相关性检验.相关性检验主要通过计算相关系数来分析,相关系数的计算公式为:二 安丁匚皇,工凹:£耳尸一£ 为 5了工口;其中n为数据点的个数|X/,F为原始数据点,r的值能够很好地反映出线性相关程度的上下般来说,存在以下一些标准1、 当r -1或者r - 1时,表示y与x高度线性相关,于就是由原始数据描绘出的散点 图中所有数据点都分布在一条直线的附近,分别称为正相关与负相关;2、 当r -0时,表示y与x不相关,由原始数据描绘出的散点图的数据点一般呈无规律的 特点四散分布;3、 当-1<r<

16、0或者0<r<1时,y与x的相关程度介于1与2之间;4、 如果r - 1,那么y与x线性相关程度越高;反之,如果r - 0,那么y与x线性相关程度越低.实际计算r值的过程中,长列表计算,即:序号工jtr, d1马再加, 耳*V,x.v.*X;Nm « b* d HI Ah bisirW丸“二支求和砧a>1在实际问题中,一般要保证回归方程有最低程度的线T相关.由于许多实际问题中,两个变量之间并非线性的相关关系 ,或者说线性相关程度不高 ,此时硬给她建立线性回归方程 ,显然没 有太大意义,也没有什么实用价值.一般来说,把这个最低限度的值记为临界值/,称之为相关性检验标准

17、.因此,如果计算出r的值,并且满足r2 ,那么符合相关性要求,线性回归方程作用显著.反之,如果厂< r,那么线性回归方程作用不显著,就尽量不要采用线性回归方程.临界值的数值表如下自由篁显著性水平自由度显著用了?平自由度显著比,K平n 20.050.01n-20.050.01117-20.050.01505540.874150.4K20.WJ62503MI0.48760.7070.834160.46S0W93003490.44970.6660.798170.4560.575 13503250.-18S0.765IS0.4440.561400.364039390.6020.735190.43

18、30,f494502踹0.372100.5760.708200.4230.537500.2730.354110.5530.68421Q.4I30.526JOO0J950.254120.5J20.66112 一0J040.5152001OJ380.18 L130.514UM2303960.5053000JJ3UJ4S140,4470,W22403SB0.4610000,062O.ORI其中,自由度可以由原始数据点的个数减去相应的回归方程的变量个数,例如线性回归方程中有两个变量,而数据点的个数为 n个,那么自由度为n - 2、自由度一般记为 f,但不要与一般的函 数发生混淆.显著性水平一般取为0、

19、01,0、02,0、05等,利用它可以计算y与x之间相关关系的可信程度或者称为置信水平,计算公式为:|1-U.05x100d= 95%这里取显著性水平为“ =0、05 现在介绍置信区间的问题,由于实际误差的存在,由线性拟合得到的计算值跟实际值之间必然 存在一定的差距,其差值就就是计算误差.假设原始数据点为I莺,rj,计算得到的数据点为巧,儿,再给定E附近的一个区间JX 其+喜"那么实际值yi可能落在这个区间内,也可 能落在这个区间外.如果所有的这些区间以仁为中央,长度为|2乂 包含实际值的个数占总数的比例到达95%或者以上,那么称这些区间的置信水平不少于 95%根据以上的分析,可以知道置信区间的概念,如果确定了置信水平为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论