h多重线性回归与相关实用教案_第1页
h多重线性回归与相关实用教案_第2页
h多重线性回归与相关实用教案_第3页
h多重线性回归与相关实用教案_第4页
h多重线性回归与相关实用教案_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、content第一节多重线性回归(hugu)的概念与统计推断第二节假设检验及其评价第三节复相关系数与偏相关系数第四节自变量筛选第五节多元线性回归(hugu)的应用与注意事项第1页/共43页第一页,共44页。目的:作出以多个自变量估计应变量的多元线性回归方程。资料:应变量为定量指标;自变量全部或大部分为定量指标,若有少量定性或等级指标需作转换。用途:解释和预报。更精确意义:由于事物间的联系常常(chngchng)是多方面的,一个应变量的变化可能受到其它多个自变量的影响,如糖尿病人的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂等多种生化指标的影响。第2页/共43页第二页,共44页。第

2、一节多重线性回归的概念与统计(tngj)推断第3页/共43页第三页,共44页。 变量:应变量变量:应变量 1 个,自变量个,自变量k 个,共个,共 k+1 个。个。 样本含量:样本含量:n 数据格式见表数据格式见表13-1 回归模型回归模型(mxng)一般形式:一般形式:上式表示数据中应变量 Y 可以近似地表示为自变量12,kXXX的线性函数。 0为常数项,12,k 为偏回归系数,表示在其它自变量保持不变时,jX增加或减少一个单位时 Y 的平均变化量,e 是去除 k 个自变量对 Y 影响后的随机误差(残差) 。 一、数据与多元线性回归一、数据与多元线性回归(hugu)模型模型ikikiiixx

3、xY.22110第4页/共43页第四页,共44页。例号 X1 X2 Xk Y 1 X11 X12 X1k Y1 2 X21 X22 X2k Y2 n Xn1 Xn2 Xnk Yn 多元回归分析(fnx)数据格式 (1)Y与12,kXXX之间具有线性关系。 (2)各例观测值)21(n ,iYi相互独立。 (3) 残差 eN (0,2) 且各自变量与应变量 Y 具有相同方差,并服从正态分布。 条件(tiojin)第5页/共43页第五页,共44页。车流(X1)气温(X2)气湿(X3)风速(X4)一氧化氮(Y)车流(X1)气温(X2)气湿(X3)风速(X4)一氧化氮(Y)130020.0800.450

4、.06694822.5692.000.005144423.0570.500.076144021.5792.400.01178626.5641.500.001108428.5593.000.003165223.0840.400.170184426.0731.000.140175629.5720.900.156111635.0922.800.039175430.0760.800.120165620.0831.450.059120022.5691.800.040153623.0571.500.087150021.8770.600.12096024.8671.500.039120027.0581.70

5、0.100178423.3830.900.222147627.0650.650.129149627.0650.650.145182022.0830.400.135106026.0581.830.029143628.0682.000.099143628.0682.000.099第6页/共43页第六页,共44页。一般(ybn)步骤(1)求偏回归系数012,kb b bb 01122kkYbb Xb Xb X建立(jinl)回归方程(样本)(2)检验检验(jinyn)并评价回归并评价回归方程方程及各自变量的作用大小及各自变量的作用大小第7页/共43页第七页,共44页。 二、多元(du yun)线性回

6、归方程的建立样本估计(gj)而得的多重线性回归方程bj为自变量Xj 的偏回归系数(partial regression coefficient),是j的估计(gj)值,表示当方程中其他自变量保持常量时,自变量Xj变化一个计量单位,反应变量Y的平均值变化的单位数。 kkxbxbxbby.22110第8页/共43页第八页,共44页。2201122()()kkQYYYbb Xb Xb X11 11221121 1222221 122kkYkkYkkkkkkYl bl bl bll bl bl bll bl bl bl01122()kkbYb Xb Xb X求偏导数(do sh)(一阶)()() ,

7、, j=1,2,k()(), 1,2,ijijiijjijjjYjjjXXlXXXXX XinXYlXXYYX Yjkn12340 14166 0 000116190 004490 000006550 03468Y.X.X.X.X 原 理最小二乘法(chngf)统计(tngj)软件包第9页/共43页第九页,共44页。第二节第二节 假设检验及其评价假设检验及其评价(pngji) 012:0kH, 1:jH各 (j=1,2, ,k)不全为 0, 0.05 1. 方差分析法:残回总SSSSSS/1)SSkMSFSSnkMS回回残残(一)对回归方程 ( ,1)F F k nk第10页/共43页第十页,

8、共44页。变异来源 自由度 SS MS F P 总变异 n-1 SS总 回 归 k SS回 SS回 /k MS回/MS残 残 差 n-k-1 SS残 SS残 /(n-k-1) 多元(du yun)线性回归方差分析表(0.05)第11页/共43页第十一页,共44页。变异来源自由度SSMSFP回归模型4 40.063960.063960.015990.0159917.5917.59.0001.0001残差19190.017270.017270.000909030.00090903总变异23230.081230.08123表13-2显示,P 0.0001,拒绝H0。说明从整体上而言,用这四个自变量构

9、成的回归方程解释空气(kngq)中NO浓度的变化是有统计学意义的。第12页/共43页第十二页,共44页。偏回归系数的t检验(jinyn) 偏回归系数的t检验( jinyn)是在回归方程具有统计学意义的情况下,检验( jinyn)某个总体偏回归系数等于零的假设,以判断是否相应的那个自变量对回归确有贡献 biibiSbt第13页/共43页第十三页,共44页。利用SAS对例13-1的四个偏回归系数进行(jnxng)t检验与标准化偏回归系数的结果如表13-3所示。变量自由度回归系数标准误t值P值标准化偏回归系数截距1-0.141660.06916-2.050.05460X110.000116190.0

10、00027484.230.00050.59249X210.004490.001902.360.02890.27274X31-0.000006550.00069083-0.010.9925-0.00110X41-0.034680.01081-3.210.0046-0.44770第14页/共43页第十四页,共44页。102 R,说明自变量12,kXXX能够解释Y变化的百分比,其值愈接近于 1,说明模型对数据的拟合程度愈好。 21SSSSRSSSS回残总总第三节 复相关系数与偏相关系数 确定(qudng)系数、复相关系数与调整确定(qudng)系数复相关系数的平方称为确定(qudng)系数(coef

11、ficient of determination), 或决定系数,记为R2,用以反映线性回归模型能在多大程度上解释反应变量Y的变异性。其定义为 第15页/共43页第十五页,共44页。复相关系数:确定(qudng)系数的算术平方根 对例13-1,由方差分析表可得:SSR=0.06396 SSE=0.01727 SST=0.081237874. 008123. 001727. 0108123. 006396. 02RSSTSSRR表示变量Y与k个自变量(X1,X2,Xk)的线性相关的密切(mqi)程度。说明,用包含气车流量、气温(qwn)、气湿与风速这四个自变量的回归方程可解释交通点空气NO浓度变

12、异性的78.74%。第16页/共43页第十六页,共44页。8703. 07574. 0R表示交通(jiotng)点空气NO浓度与气车流量、气温、气湿与风速等四个变量的复相关系数为0.8703 第17页/共43页第十七页,共44页。 调整的R2(Adjusted R-Square) 当回归方程中包含有很多自变量,即使其中有一些自变量(如本例中的X3 )对解释反应变量变异(biny)的贡献极小,随着回归方程的自变量的增加,R2 值表现为只增不减,这是复相关系数R2的缺点。调整的R2定义为 1)1 (222knRkRRa7426. 004475789. 07874. 01424)7874. 01 (

13、47874. 02aR第18页/共43页第十八页,共44页。偏相关系数冷饮销售量(元)X1游泳人数(人)X2气温 (oC)X3267267722722292939739781481430304514519249243131528528106610663232618618125312533333655655136913693434690690159315933535740740176117613636780780193119313737889889223122313838996996274927493939第19页/共43页第十九页,共44页。第20页/共43页第二十页,共44页。 偏相关系数(

14、partial correlation coefficient ):一般地,扣除其他(qt)变量的影响后,变量Y与X的相关.表13-5 空气中NO浓度(nngd)与各自变量的相关系数和偏相关系数自变量相关系数偏相关系数偏相关系数P值车流X10.808000.808000.696200.696200.00050.0005气温X20.017240.017240.476700.476700.02890.0289气湿X30.278540.27854-0.00218-0.002180.99250.9925风速X4-0.67957-0.67957-0.59275-0.592750.00460.0046第2

15、1页/共43页第二十一页,共44页。汽车流量(X1)4002000-200-400-600一氧化氮浓度(Y).2.10.0-.1气温(一氧化氮浓度()气 湿 ()一氧化氮浓度()风速(X4)1.51.0.50.0-.5-1.0一氧化氮浓度(Y).10.08.06.04.020.00-.02-.04-.06-.08第22页/共43页第二十二页,共44页。(二)对各自变量 指明方程(fngchng)中的每一个自变量对Y的影响(即方差分析和决定系数检验整体)。含义 回归方程中某一自变量jX的偏回归平方和表示模型中含有其它 k-1 个自变量的条件下该自变量对 Y 的回归贡献, 相当于从回归方程中剔除j

16、X后所引起的回归平方和的减少量,或在 k-1 个自变量的基础上新增加jX引起的回归平方和的增加量。 1. 偏回归(hugu)平方和 第23页/共43页第二十三页,共44页。)(jXSS回表示偏回归平方和,其值愈大说明相应的自变量愈重要。 ()/1/(1)jjSSXFSSnk回残一般情况下, k-1 个自变量对 Y 的回归平方和由重新建立的新方程得到,而不是简单地把jjXb从有 k 个自变量的方程中剔出后算得。 12 1, 1nk第24页/共43页第二十四页,共44页。平方和(变异) 回归方程中 包含的自变量 SS回 SS残 4321X,X,X,X 133.7107 88.8412 432X,X

17、,X 133.0978 89.4540 431XX,X 121.7480 100.8038 421XX,X 113.6472 108.9047 321XX,X 105.9168 116.6351 各自(gz)变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到第25页/共43页第二十五页,共44页。 11234234()(,)(,) 133.7107-133.0978=0.6129SSXSSXXXXSSX XX回回回 21234134()(,)(,) 133.7107-121.748011.9627SSXSSXXXXSSX XX回回回 31234124()(,)(,) 133.710

18、7-113.647220.0635SSXSSXXXXSSX XX回回回 41234123()(,)(,) 133.7107-105.916827.7939SSXSSXXXXSSX XX回回回 152. 0) 1427( /8412.881 /6129. 01F, 962. 2) 1427/(8412.881/9627.112F 968. 4) 1427/(8412.881/0635.203F , 883. 6) 1427/(8412.881/7939.274F 结果第26页/共43页第二十六页,共44页。2. t 检验法 是一种与偏回归平方和检验完全(wnqun)等价的一种方法。计算公式为jb

19、jjSbt检验假设: H0:0j,jt服从自由度为1nk的 t 分布。如果/2,1|jn ktt ,则在(0.05)水平上拒绝 H0,接受 H1,说明jX与Y有线性回归关系。 jb为偏回归系数的估计值,jbS是jb的标准误。 第27页/共43页第二十七页,共44页。结论P 值均小于 0.05,说明3b和4b有统计学意义, 而1b和2b则没有统计学意义。 第28页/共43页第二十八页,共44页。标准化回归系数标准化回归系数 变量标准化是将原始数据减去相应变量标准化是将原始数据减去相应(xingyng)变量的均数,然后再除以该变量的标准差。变量的均数,然后再除以该变量的标准差。()jjjjXXXS

20、 计算得到(d do)的回归方程称作标准化回归方程,相应的回归系数即为标准化回归系数。 YjjYYjjjjSSbllbb标准化回归系数没有单位,可以用来比较各个自变量jX对Y的影响强度,通常在有统计学意义的前提下,标准化回归系数的绝对值愈大说明相应自变量对 Y 的作用愈大。 第29页/共43页第二十九页,共44页。注意:注意: 一般回归系数有单位,用来一般回归系数有单位,用来解释各自变量对应变量的影响,解释各自变量对应变量的影响,表示在其它自变量保持不变时,表示在其它自变量保持不变时, 增加或减少增加或减少(jinsho)(jinsho)一个单位一个单位时时Y Y的平均变化量的平均变化量 。不

21、能用各。不能用各 来比较各来比较各 对对 的影响大小。的影响大小。 标准化回归系数无单位,用标准化回归系数无单位,用来比较各自变量对应变量的影来比较各自变量对应变量的影响大小,响大小, 越大,越大, 对对 的影响越大。的影响越大。jXjbjXYjbjXY第30页/共43页第三十页,共44页。第四节第四节 自变量筛选自变量筛选(shixun)目的:使得(shde)预报和(或)解释效果好第31页/共43页第三十一页,共44页。自变量筛选的标准(biozhn)与原则1.残差平方和(SSE)缩小与确定系数(R2)增大(zn d)2.残差均方( SSE )缩小与调整确定系数增大(zn d)3. CP统计

22、量 选择既具有较小CP值,在图中又接近于CP =q直线的模型作为“最优”的准则 SSTSSER121pnSSEMSEnqSSECqp22第32页/共43页第三十二页,共44页。全局(qunj)择优法目的:预报效果好意义:对自变量各种不同的组合所建立 的回归方程进行(jnxng)比较 择优。选择方法:1 校正决定系数2cR选择法 2pC选择法 第33页/共43页第三十三页,共44页。1调整决定系数2aR选择法,其计算公式为 2211 (1)11aMSnRRnpMS 残总 n 为样本含量,2R为包含)(mpp个自变量的回归方程的决定系数。2aR的变化规律是:当2R相同时,自变量个数越多2aR越小。

23、所谓“最优”回归方程是指2aR最大者。 第34页/共43页第三十四页,共44页。2. pC选择法 )1(2)()(pnMSSSCmpp残残 pSS )(残是由)(mpp个自变量作回归 的误差平方和,mMS)(残是从全部 m 个自 变量的回归模型中得到的残差均方。 当由 p 个自变量拟合的方程理论上为最优时,pC的期望值是 p+1,因此应选择pC最接近 p+1 的回归方程为最优方程。 如果全部自变量中没有包含对 Y有主要作用的变量,则不宜用pC方法选择自变量。 第35页/共43页第三十五页,共44页。逐步(zhb)选择法1. 1.前进法,回归方程中的自变量从无到有、从少到多逐个引入回归方程。这种

24、选择自变量的方法基于残差均方缩小的准则,不一定能保证“最优” . 此法已基本淘汰。 2. 后退法,先将全部自变量选入方程,然后逐步剔除无统计学意义的自变量。 剔除自变量的方法是在方程中选一个偏回归平方和最小的变量,作F检验决定它是否(sh fu)剔除,若无统计学意义则将其剔除,然后对剩余的自变量建立新的回归方程。重复这一过程,直至方程中所有的自变量都不能剔除为止。理论上最好,建议使用采用此法。 3.逐步回归法,逐步回归法是在前述两种方法的基础上,进行双向筛选的一种方法。该方法本质上是前进法。 第36页/共43页第三十六页,共44页。检验水准的设置:小样本定为 0.10 或 0.15,大样本定为

25、 0.05。 值定得越小表示选取自变量的标准越严, 被选入的自变量个数相对也较少;反之,值定得越大表示选取自变量的标准越宽, 被选入的自变量个数也就相对较多。 注意:选入自变量的检验水准入要小于或等于剔除自变量的检验水准出。 第37页/共43页第三十七页,共44页。第五节多元(duyun)线性回归的应用与注意事项1. 影响因素分析 解释应变量。 2. 估计与预测 3. 统计控制 逆估计,少用。 多元线性回归(hugu)的应用第38页/共43页第三十八页,共44页。多元(du yun)线性回归应用的注意事项1、非同质资料的合并问题斜率(xil)相同(同质):可以利用男、女合并的资料拟合共同的回归模型;不同质:此时应按不同性别分别拟合回归模型。2、指标的数量化第39页/共43页第三十九页,共44页。 3、样本含量: n =(510)m。 4、关于逐步回

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论