数学ch相关与回归分析PPT课件_第1页
数学ch相关与回归分析PPT课件_第2页
数学ch相关与回归分析PPT课件_第3页
数学ch相关与回归分析PPT课件_第4页
数学ch相关与回归分析PPT课件_第5页
已阅读5页,还剩91页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一节第一节 变量间的相关关系变量间的相关关系 相关关系是指客观现象间确实存在的数量上不是严格对应的依存关系。第1页/共96页第2页/共96页按涉及变量的多少分为按照表现形式不同分为按照变化方向不同分为一元相关(单相关)多元相关(复相关)直线相关(线性相关)曲线相关(非线性相关)负相关正相关第3页/共96页三相关分析的基本内容三相关分析的基本内容 1 1、判断现象之间是否存在相关关系、关、判断现象之间是否存在相关关系、关系的类型及密切程度;系的类型及密切程度; 、为相关关系建立回归方程或经验公式;、为相关关系建立回归方程或经验公式; 、测定估计误差。、测定估计误差。 第4页/共96页xy正正

2、相相 关关xy负负 相相 关关xy曲线相关曲线相关xy不不 相相 关关一、相关图第5页/共96页序号序号亩施肥量(公斤)亩施肥量(公斤)亩产量(公斤)亩产量(公斤)1 155552962962 250503253253 365653193194 470703743745 574743873876 679794064067 780803893898 882824344349 98484497497101085855285281111868651151112129090535535小麦亩产量与施肥量相关表第6页/共96页 产量和单位成本相关表产量(件)产量(件)企业数(个)企业数(个)平均单位成本

3、(元)平均单位成本(元)202030309 916.816.8303040405 515.615.6404050505 515.015.0505060606 614.814.86060以上以上5 514.214.2第7页/共96页三、三、 简单相关系数简单相关系数概念概念线性相关线性相关总体总体样本样本计算公式计算公式未分组资料未分组资料(8-5)yxxyr2第8页/共96页yxxyr2样本相关系数的定义公式实质第9页/共96页22)()()(yyxxyyxxr yxnxyyyxx1)(222)(1)(xnxxx222)(1)(ynyyy相关系数的推导公式yyLxxLxyLr )()(yxxy

4、nxyL2)(2xxnxxL2)(2yynyyL第10页/共96页)()()()(1)(11)()()(22222222222222yyxxyxxyyynxxnyxxynxnxynyyxnxyyyxxyyxxr (8-8)(8-6)第11页/共96页相关系数r r的取值范围:r0 r0 为正相关,r 0 r tt /2/2,拒绝H H0 0,相关关系显著; 若 t t tt=64.9809t /2/2(13-2)=2.201(13-2)=2.201,拒绝H H0 0,人均消费金额与人均国民收入之间的相关关系显著, ,不能否认总体两变量存在线性相关。第23页/共96页第二节第二节 一元线性回归模

5、型一元线性回归模型一 回归分析的概念1 1 概念 运用数学方法测定相关变量间的一般关系的分析过程。 回归分析方法就是通过对占有相关资料的分析,找出其变化规律性,建立适宜的数学模型或经验公式,使现象间数量上的不确定、不严格的相互依存关系变为确定性的、严格依存的函数关系,即将这种数量关系一般化、平均化。第24页/共96页2 2 回归分析与相关分析的联系与区别回归分析与相关分析的联系与区别 联联 系系 区区 别别 1、理论和方法具有一理论和方法具有一 致性;致性; 2 2、无相关就无回归,、无相关就无回归,相关程度越高,回归越相关程度越高,回归越好;好;3 3、相关系数和回归系、相关系数和回归系数方

6、向一致,可以互相数方向一致,可以互相推算。推算。 1 1、相关分析中,、相关分析中,x x与与y y对等,回对等,回归分析中,归分析中,x x与与y y要确定自变量和要确定自变量和因变量;因变量;2 2、相关分析中、相关分析中x x,y y均为随机变量均为随机变量,回归分析中,只有,回归分析中,只有y y为随机变量为随机变量3 3、相关分析测定相关程度和方向、相关分析测定相关程度和方向,回归分析不仅可以揭示变量,回归分析不仅可以揭示变量 x x 对变量对变量 y y 的影响大小,还可以用的影响大小,还可以用回归模型进行预测和控制。回归模型进行预测和控制。 第25页/共96页二 一元线性回归模型

7、1 1 总体一元线性回归模型的一般形式 x x对y y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。随机误差:各种偶然因素,观察误差和其他被忽视因素的影响。,未知参数,xY第26页/共96页3 3 总体一元线性回归方程, xYE)(样本(或估计的)一元线性回归方程 bxay截距斜率(回归系数)22 2 基本假定u 值相互独立u 服从正态分布u的数学期望E()=0E()=0u的方差都相同,且22第27页/共96页3 3 总体一元线性回归方程, xYE)(样本(或估计的)一元线性回归方程 bxay截距斜率(回归系数)第28页/共96页xy0 x1xx 2xx 3xx xyE)(

8、)(yf)(iyE)(iyf第29页/共96页 b b表明自变量x x每变动一个单位时,变量y y的平均变动值。b b与r r的关系:r0 r0 r=0b0 b0 b=0估计的回归方程的可能形态b0b0b=0 xyyxrbbr;(8-24)第30页/共96页4 4 一元线性回归模型的确定(用未分组资料)y y倚x x的回归方程 根据实际数据,用最小平方法,即使 分别对a a、b b求偏导并令其为零,求得两个标准方程。min) (2yy0)(20) 1)(2xbxaybQbxayaQ令令则2xbxaxyxbnay22)()(bxayyyQ22)( xxnyxxynbnxbnya 解联立方程,得到

9、第31页/共96页 解联立方程,得到22)( xxnyxxynbnxbnya 22222)()()(11xxyyxxxxyxxyxnxyxnxyb8-148-15第32页/共96页最小二乘法图示第33页/共96页最小2)(yy0)(yyyyyx,5 5 回归直线的特点(1 1)回归直线的走向,是由回归系数决定的。(2 2)回归直线满足 , ,即,是一条最适线。(4 4) 回归直线是一条平均数线。(3 3) 回归直线一定通过点( )第34页/共96页 【例例4 4】根据例根据例1 1中的数据,配合人均消中的数据,配合人均消费金额费金额对人均国民收入的对人均国民收入的回归方程回归方程解:根据a a

10、和b b的求解公式人均消费金额对人均国民收入的回归方程为13 第35页/共96页 020040060080010001200140005001000150020002500人均消费与人均国民收入的回归人均消费与人均国民收入的回归第36页/共96页例例5 5 接接例例2 2求回归方程求回归方程测量测量序序 号号储存时间储存时间(小时)(小时)x xV VC C含量含量% y% yxyxy1 10 020200 04004000 019.7019.702 21 118181 1324324181818.1918.193 32 217174 4289289343416.6816.684 43 315

11、159 9225225454515.1715.175 54 413131616169169525213.6613.666 65 512122525144144606012.1512.157 76 611113636121121666610.6410.648 87 79 94949818163639.139.139 98 88 86464646464647.627.6210109 96 68181363654546.116.11合计合计4545129129285285185318534564562x2yy 第37页/共96页 70.19104551. 11012951. 182512454528

12、51012945456102abxy51. 170.19第38页/共96页少少? ?第39页/共96页解: (1) (两者为高度正相关两者为高度正相关) 2222)()(yynxxnyxxyn22545 .5646248 .111654241 .250647168.916 .2049846. 0第40页/共96页2317. 268.916 .204)(22 xxnyxxynb0733. 042317. 29xbya8x(2) 经济含义: : 表明工业生产用固定资产每增加一百万元, ,工业总产值平均上升2.23172.2317百万元当当(百万元百万元) )yc=0.0733+2.2317x 0.

13、0733+2.2317x 9269.1782317. 20733. 0cy第41页/共96页某某企企业业上上半半年年产产品品产产量量与与单单位位成成本本资资料料如如下下: 月月 份份 产产 量量(千千件件) 单单位位成成本本(元元) 要要求求: ()配配合合回回归归方方程程. . ()指指出出产产量量每每增增加加1 10 00 00 0 件件时时,单单位位成成本本平平均均变变动动多多少少? ()假假定定产产量量为为6 60 00 00 0 件件时时,单单位位成成本本为为多多少少元元? 练习1第42页/共96页1481794262162xyxyxn82. 1217964262114816)(22

14、2 xxnyxxynb37.7762182.16426xbya答案:答案:第43页/共96页第44页/共96页练习2 2 设某公司销售收入X X为自变量,Y Y为因变量。现已根据1212个月的有关资料计算出以下数据(单位:万元)25.262855)(2YY73.425053)(2XX09.334229)(XXYY88.647X8 .549Y试拟合简单线性回归方程。第45页/共96页73.407863. 073.42505309.334229)()()(222 XbYaXXYYXXXXnYXXYnb答案:答案:第46页/共96页 三、判定系数(r r2 2)和估计标准误(S Sxyxy) (一)

15、判定系数 1 1 离差平方和的分解 xyy)(0yy bxay)(0yy )(yy222) ()()(yyyyyy总偏差= = 回归偏差+ + 剩余偏差u总偏差 反映因变量的n n个观察值与其均值的总离差。u回归偏差( (被回归解释的偏差) ) 反映由于x x与y y之间的线性关系引起的y y的取值变化u剩余偏差( (未被解释的偏差) ) 反映除x x以外的其他因素对y y取值的影响。第47页/共96页222222)()(1)()(yyyyryyyyr或 2 2 判定系数用r r2 2表示 u 取值范围:u 是对回归模型拟合优度的评价。u 等于相关系数的平方,即r r2 2(r)(r)2 21

16、02 r第48页/共96页102222rynyynxybyar 计算得r r2 2=0.994=0.994 说明我们拟合回归模型产生的偏差中,99.4%99.4%的偏差是由储存时间和VcVc的依存关系来解释的,其余0.6%0.6%是随机误差。例7 7:根据例2 2计算判定系数。第49页/共96页(二)估计标准误(SySy) 1 1 概念概念 SySy是二元正态分布中因变量实际值(是二元正态分布中因变量实际值(y yj j)对估计)对估计值(值( )离散程度的量度。)离散程度的量度。u 反映实际观察值在回归直线周围的分散状况;反映实际观察值在回归直线周围的分散状况;u 从另一个角度说明了回归直线

17、的拟合程度。从另一个角度说明了回归直线的拟合程度。 Sy Sy 越小,越小, 拟合越好;拟合越好; Sy Sy 越大,越大, 拟合越差。拟合越差。iy第50页/共96页2:2)(:22nxybyaySynyySy未分组资料计算公式自由度剩余偏差定义公式2 2 公式3 Sy3 Sy也是用自变量对因变量进行区间估计的抽样误差。 例8 8:接例2 218. 021045651. 11297 .191853ys 说明水果中维生素C C含量的实际观测值与理论估计值之间的平均离差为0.18%0.18%。(8-26)第51页/共96页 在在95%95%的概率保证程度下,可以估计储存时间的概率保证程度下,可以

18、估计储存时间为为8 8小时时,水果中小时时,水果中VcVc含量的区间为:含量的区间为:3528. 062. 718. 096. 162. 7y在一定的把握程度下进行区间估计。第52页/共96页预测及应用预测及应用1 1 点估计点估计(1 1)y y 的平均值的点估计的平均值的点估计平均值的点估计。根据估计的回归方程得平均值的点估计。根据估计的回归方程得第53页/共96页(2 2)y y 的个别值的点估的个别值的点估计计 第54页/共96页SxyZyy20SxyZbxa20)((2 2) 小样本条件下(n n 30)30) 1 1)y y的平均值的置信区间220)2(20220)2(20)()(

19、1)()()(1xxxxnSxytbxaxxxxnSxytyynn第55页/共96页例例】根据例根据例1 1,求出人均国民收入为,求出人均国民收入为1250.71250.7元时,元时,人均消费金额人均消费金额95%95%的置信区间。的置信区间。 解:根据前面的计算结果解:根据前面的计算结果 712.57712.57,S Sy=14.95=14.95,t t(13-2)(13-2)2.202.20,n n=13=13,置信区间为,置信区间为第56页/共96页 2 2)y y 的个别值的预测区间估计的个别值的预测区间估计 220)2(20220)2(20)()(11)()()(11xxxxnSyt

20、bxaxxxxnSytyynn第57页/共96页【例例】根据前例,求出根据前例,求出19901990年人均国民收年人均国民收入为入为1250.71250.7元时,人均消费金额的元时,人均消费金额的95%95%的预测区的预测区间间 解:根据前面的计算结果有解:根据前面的计算结果有 712.57712.57,S Sy=14.95=14.95,t t(13-2)(13-2)2.2012.201,n n=13=13,预测区间为,预测区间为 人均消费金额95%95%的预测区间为678.101678.101元-747.039-747.039元之间。第58页/共96页第59页/共96页包括:回归系数b的检验

21、方程整体的F检验四 一元线性回归模型的显著性检验第60页/共96页回归系数b的显著性检验(要点)第61页/共96页回归系数的显著性检验(样本统计量b的分布)第62页/共96页回归系数的显著性检验(样本统计量b的分布)第63页/共96页1、回归系数b的显著性检验 (步骤)提出假设H0: =0 (没有线性关系) H1: 0 (有线性关系) 计算检验的统计量第64页/共96页例8 8:对例4 4的回归系数进行显著性检验( ( 0.05)0.05)1.1.提出假设 H H0 0: = 0= 0 H H1 1: 0 0 2 2 计算检验的统计量0758.65827.3416034/95.1452638.

22、 02t t=65.0758 t t=65.0758 t /2/2 =2.201 =2.201,拒绝H H0 0,表明人均收入与人均消费之间有线性关系。第65页/共96页1 1 回归系数b b的检验设总体回归系数为 H H0 0:=0=0;H H1 1:00n30n30时 检验统计量 bbZ(=0=0) b b是样本回归系数抽样分布的标准差。通常是未知的,用其估计量 代替。b222222/ )()(xnxnxybyayxxxySb)( 给定显著性水平,查Z Z表可知其临界值 。n n3030时bbt(=0=0) 给定显著性水平,查t t表可知其临界值 。2Z)2(2nt第66页/共96页002

23、Z2Z)2(2nt) 2(2ntZt第67页/共96页2 2 回归模型整体的F F检验 H0:R2=0;H1:R20 检验统计量 )(自由度剩余偏差自由度回归偏差2/)(1/)(/22nyyyyF221)2(rnrFF),(mnF若若F F ,拒绝拒绝H0; 若若FF ,接受接受H0第68页/共96页第四节第四节 非线性回归模型非线性回归模型曲线模型的判别方法:理论和经验判断;观察散点图 曲线模型的确定方法: 通常用变量代换法将曲线转换为直线。按线性模型求解参数,而后再变换为曲线模型。非线性回归分析必须着重解决以下两个问题: 一是如何确定非线性函数的具体形式; 二是如何估计非线性函数中的参数第

24、69页/共96页xbayc第70页/共96页第71页/共96页1 1基本形式2 2 线性化方法xcabyxbaybxaylnlnln指数曲线3 3 图象第72页/共96页第73页/共96页第74页/共96页价格价格 ( (元元) ) x x1 12 23 34 45 56 67 78 89 91010需求量需求量( (千克千克) ) y y5858505044443838343430302929262625252424第75页/共96页价格与需求量的散点图价格与需求量的散点图020406080051015价格需求量第76页/共96页第77页/共96页价格与需求量的回归价格与需求量的回归0204

25、06080051015价格需求量第78页/共96页【例例】为研究生产率与废品率之间的关为研究生产率与废品率之间的关系,记录数据如下表。试拟合适当的模型。系,记录数据如下表。试拟合适当的模型。生产率(周生产率(周/单位单位)x1000200030003500 4000 4500 5000废品率(废品率(%)y5.26.56.88.110.210.313.0第79页/共96页04812160200040006000生产率生产率废废品品率率第80页/共96页第81页/共96页一 多元线性回归模型及其确定nnxxxY22110二元线性回归模型:1 1 总体多元线性回归模型的一般形式22110 xxYY

26、 Y的数学期望E E(Y Y)随机误差,22110 xxYE)( 表明自变量 共同变动引起的Y 的平均变动。也称总体的二元线性回归方程。,21xx、第五节第五节 多元线性回归模型多元线性回归模型第82页/共96页011x2x常数项,和Y Y构成的平面与Y Y轴的截距偏回归系数,表示在 固定时 每变化一个单位引起的Y Y的平均变动;1x2x2偏回归系数,表示在 固定时 每变化一个单位引起的Y Y的平均变动;2x1x随机误差,其理论假定与一元线性回归模型中的 一样。 在多元回归模型中,还要求各自变量之间不存在显著相关,或高度相关。第83页/共96页2 2 样本多元线性回归模型的一般形式 nnxbx

27、bxbay2211二元线性回归模型为:2211xbxbay其数学期望2211xbxbayE)(也称样本(或估计的)二元线性回归方程。第84页/共96页3 3 二元线性回归方程的确定 根据实际资料,用最小平方法,即使 ,分别对a a、b b1 1、b b2 2求编导并令其为零,求得三个标准方程:最小2)(yyj)(2211xbxbay2222112221221112211xbxxbxayxxxbxbxayxxbxbnay解此联立方程便可得到a a、b b1 1、b b2 2。第85页/共96页第86页/共96页年人均年人均收入额收入额(元)(元)X X1 1商品商品价格价格(元(元)X X2 2

28、需求需求量(量(公斤公斤)Y YX X1 12 2Y Y2 2 X X1 1Y YX X2 22 2X X2 2Y YX X1 1X X2 23003006 650509000090000250025001150001150003636300300180018004004005 560601600001600003600360024000240002525300300200020005005004 470702500002500004900490035000350001616280280200020006006005 58080360000360000640064004800048000252

29、540040030003000100010003 31001001000000100000010000100001000001000009 930030030003000100010002 21001001000000100000010000100001000001000004 420020020002000120012006 660601440000144000036003600772000772000363636036072007200120012004 4808014400001440000640064009600096000161632032048004800130013003 390

30、9016900001690000810081001170001170009 927027039003900140014002 21101101690000169000012100121001540001540004 422022028002800890089004040800800939000093900006760067600761000761000180180295029503250032500 例: :某种商品的需求量、人均收入水平以及商品的价格资料如下:第87页/共96页解方程组得 表示:如果商品价格不变,年人均收入额每表示:如果商品价格不变,年人均收入额每增增 加加100100元,商

31、品需求量将增加元,商品需求量将增加1 1公斤,如果人均收公斤,如果人均收入水入水 平不变,商品价格每提高一元,需求量将减少平不变,商品价格每提高一元,需求量将减少10.9510.95 公斤。公斤。 2121211803250040295032500390000890076100040890010800bbabbabba95.1001. 09 .11421bba2195.1001. 09 .114xxy第88页/共96页二 多元线性回归模型的判定系数和估计标准误1 1判定系数222)()(yyyyrj总偏差回归偏差2222211)()(ynyynyxbyxbyajjjj 0 0r r2 21 1修正的判定系数:11)1 (122KnnrrK 是自变量的个数第89页/共96页2 2 估计标准误(S Sy y(x1x1、x2x2)3)(2),(21ny

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论