第八章:相关与回归分析教学_第1页
第八章:相关与回归分析教学_第2页
第八章:相关与回归分析教学_第3页
第八章:相关与回归分析教学_第4页
第八章:相关与回归分析教学_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、STAT1、相关关系与回归方程概述;、相关关系与回归方程概述;2、相关关系的测定;、相关关系的测定;3、回归方程的拟合;、回归方程的拟合;4、回归方程的应用。、回归方程的应用。1、积差法相关系数的计算;、积差法相关系数的计算;2、总离差平方和及其分解。、总离差平方和及其分解。第一节第一节 相关关系概述相关关系概述STAT一、变量间的相互关系一、变量间的相互关系(一)(二)第一节第一节 相关关系概述相关关系概述STAT(一)1、定义:确定的(数量)关系。(1)某一(组)变量与另一变量间存在着一一对应一一对应的关系;例计件工资(y)与产量(x) y=f(x)=10 x; x0=1件件, y0=10

2、元;元; x1=2件件, y1=20元元 原材料消耗总额(y)与产量(x1)、单位产量消耗(x2)和原材料价格(x3) y=x1x2 x3。第一节第一节 相关关系概述相关关系概述STAT(二)、定义:确定的关系。某一(组)变量与另一变量间有关系但并非一一对应非一一对应(随机性随机性) ;例身高y与体重x; A:x=60kg、y=170m; B: x=60kg、y=1.72m; C:x=60kg、y=1.68m; D: x=60kg、y=1.65m。2、表述:y=f(x)+ 。 影响身高的因素:体重、遗传、锻炼、睡眠质量STAT二、相关关系的种类(一)按相关的程度分(二)按相关的形式分(三)按相

3、关的方向分(四)按影响因素的多少分STAT(一)按相关的程度分 P162-倒121、完全相关:函数关系;2、不相关:没有关系;3、不完全相关。STAT(二)按相关的形式分 P162-151、线性相关;2、非线性相关。 STAT(三)按相关的方向分 P162-20 1、正相关:变量的变动方向一致();2、负相关:变量的变动方向相反()。STAT(四)按影响因素的多少分 P162-6 1、单(简)相关:只有一个自变量;例学习成绩与学习时间;血压与年龄;亩产量与施肥量。2、复(多元)相关:两个或两个以上的自变量 ;例经济增长与人口增长、科技水平、自然资源、管理水平等之间的关系; 体重与身高、胖瘦之间

4、的关系。3、偏相关:就多个变量测定其中两个变量的相关程度而假定其他变量不变。 STAT目的 测定变量间的相关方向相关方向与密切程度密切程度。一、相关图表 (一)相关表(二)相关图二STAT(一)相关表 P 164倒21、:自变量分组且计算次数,因变量只计算平均数。30 家同类企业的有关资料家同类企业的有关资料产量产量(件)(件)x x企业数企业数平均单位成本平均单位成本(元)(元)y y202030304040505080809 95 55 56 65 516.816.815.615.615.015.014.814.814.214.2STAT2、:对自变量与因变量均进行分组。注:自变量X轴;因

5、变量Y轴。 (二)相关图(二)相关图: P 165倒12不足难以精确反映相关的密切程度。30 家同类企业的有关资料家同类企业的有关资料产量产量 x x(件)(件)单位成本单位成本 y y( (元元/ /件件) )20203030404050508080合合计计18181616151514144 44 41 13 32 21 13 31 11 13 32 21 14 44 49 910107 7合计合计9 95 55 56 65 53030STAT二STAT三、积差法三、积差法计算计算则的一组样本观察值是设,),(),(YXyxii2222)()()()()()(yyxxyyxxnyynxxny

6、yxxr的标准差的协方差的相关系数与为yxyxyxryxxyyxxy,yyxxxyLLLyxxySSSSTAT(二)(二) xy的作用的作用 (补充)(补充)1、显示x与y之间的相关方向 负相关正相关无直线相关000000rrrrxyxyxyyxxy之间的相关程度越低与越小之间的相关程度越高与越大yxyxxyxy2、显示x与y之间的相关密切程度 STAT1、显示x与y之间的相关方向。XYyy xx )(一)(二)(三)(四),(11yx),(nnyx00)()()()()(ryyxxyyxxxy正相关三一yxxyrnyyxxxy)(STAT负相关 XYyy xx )(一)(二)(三)(四),(

7、11yx),(nnyx00)()()()()(ryyxxyyxxxy负相关四二nyyxxxy)(yxxyrSTAT2、显示x与y之间的相关(密切)程度。正相关)()()()()(yyxxAyyxx图三一密集分布图A散乱分布图BXYPQ偏小偏大)()(qqppyyxxSTAT负相关)()()()()(yyxxAyyxx图四二密集分布图A散乱分布图BXYPQ偏小偏大)()(qqppyyxxSTAT不相关00)(0:xyyyxxxxA图 图A图BXYXYxx yy 00)(0:xyyyxxyyB图之间无直线相关与yxSTAT(三)(三) x、 y的作用的作用 (补充)(补充)1、使不同变量的协方差标

8、准化标准化直接对比。yxyxxynyyxxr)(nyyxxyyxxnyyxxyxyxnyyxx)(标准化的协方差nyyxx)(yxyx11STAT例甲、乙两组有关食量与体重资料如下(单位:斤)1 . 1x 154y 33. 0/ )(nyyxxxy食量食量 x 体重体重 yxx yy xxx/ )( yyy/ )(1.01.11.2150152160-0.100.1-4-26-1.22 倍倍01.22-0.93-0.461.39 x=0.082 y=4.32 r=0.941 . 1p 121q 067. 0pq食食量量 p 体体重重 qpp qq ppp/ )(qqq/ )(1.01.11.2

9、120121122-0.100.1-101-1.22 倍倍01.22-1.2201.22 p=0.082 q=0.82 r=1.00nyyxxryxSTATyt1 . 1x 154y 33. 0 xy食食量量 x 体体重重 yxx yy xxx/ )(yyy/ )(1.01.11.2150152160-0.100.1-4-26-1.2201.22-0.93-0.461.39 x=0.082 y=4.32 r=0.94154160152150yy039. 146. 093. 0tyyty 150 152 160 -0.93 -0.46 1.39STAT2、使111rrnyyxxryx22nyyx

10、xryx2221yxyxyyxxyyxxn1112yxyyxxn22222)()(1yxyxnyynxxyyxxn1:1022rrr同理可证2122yxyyxxnr221)(ynyySTAT(三)积差法相关系数的简捷(三)积差法相关系数的简捷计算公式2222)()()()()()(yyxxyyxxnyynxxnyyxxryxxySTATr的简捷计算式22)()()(yyxxyyxxryxxynyynxxnyxxy2222)()(nyynxxnnyxxyn2222)()()(2222)()(yynxxnyxxyn2222yyxxyxxyyxyxxynyynxxnnyxxyn2222)()(1)(

11、1STAT(四)线性相关的判断准则 P173倒13低度相关微弱相关5 . 03 . 03 . 0rr例为了解营业员每人月平均销售额(万元)和利润率(%)之间的关系,特从100家商店中随机抽取10家,得到如下资料,试计算销售额与利润率的相关系数。高度相关显著相关18 . 08 . 05 . 0rr但可能有其他关系无线性关系与,0yxr函数关系有完全线性关系与:1yxr店店A1A2A3A4A5A6A7A8A9A10额额6 65 58 81 14 47 76 63 33 37 7%12.6 10.4 18.53.08.116.3 12.36.26.616.8STAT解:人均销售额人均销售额 x x利

12、润率利润率(% %)y yx x2 2y y2 2xyxy6 65 58 81 14 47 76 63 33 37 712.612.610.410.418.518.53.03.08.18.116.316.312.312.36.26.26.66.616.816.83636252564641 11616494936369 99 94949158.76158.76108.16108.16342.25342.259.009.0065.6165.61265.69265.69151.29151.2938.4438.4443.5643.56282.24282.2475.675.652.052.0148.01

13、48.03.03.032.432.4114.1114.173.873.818.618.619.819.8117.6117.65050110.8110.82942941465.001465.00654.9654.9STAT 0 0.9871228 .11014651050294108 .110509 .654102222)()(yyxxnyxxynr987. 036.23734401009 人均销售额与利润率之间存在着高度的正相关关系。10, 9 .654,1465,294, 8 .110,5022nxyyxyxSTAT问:若令人均销售额为y,利润率为x,则r的取值是否改变 ?人均销售额人均销售

14、额 x x利润率利润率(% %)y yx x2 2y y2 2xyxy6 65 58 81 14 47 76 63 33 37 712.612.610.410.418.518.53.03.08.18.116.316.312.312.36.26.26.66.616.816.83636252564641 11616494936369 99 94949158.76158.76108.16108.16342.25342.259.009.0065.6165.61265.69265.69151.29151.2938.4438.4443.5643.56282.24282.2475.675.652.052.0

15、148.0148.03.03.032.432.4114.1114.173.873.818.618.619.819.8117.6117.65050110.8110.82942941465.001465.00654.9654.9STAT(五)样本相关系数的(五)样本相关系数的特性特性1、两变量均为随机变量随机变量。2、两变量的地位平等地位平等 rxy= ryx。3、其接近于1的程度与样本容量n有关。 n小,r 1。特例:当n = 2时,r = 1。 例样本(x,y)为(6,12.6),(1,3.0), n = 2。1484816.922548)()(2222yynxxnyxxynrSTAT一、回归

16、分析概述线性相关分析过程:相关分析过程:计算线性相关系数相关系数 r 确定两变量确定两变量之间的相关方向与密切程度相关方向与密切程度。不足 无法表明两变量之间的 无法从一个变量(x)的变化来推测另一个变量(y)的变化情况。八八家家商商店店人人均均销销售售额额(x x)与与利利润润率率(y y)的的相相关关分分析析x x(万万元元) y y(% %)x x(万万元元) y y(% %)x x(万万元元) y y(% %)A A1 1:6 6A A2 2:5 5A A3 3:8 81 12 2. .6 61 10 0. .4 41 18 8. .5 5A A4 4:1 1A A5 5:4 4A A

17、6 6:7 73 3. .0 08 8. .1 11 16 6. .3 3A A7 7:6 6A A8 8:3 31 12 2. .3 36 6. .2 2r=0.988STAT(一)概念 通过一个(些)变量的变化解释另一变量的变化 y = a+bx 、 y=ax1+bx2 。 回归效应回归效应 英国生物学家 F Galton 首次提出。 父辈身高 子辈身高 x y y = f(x)+ 人类的平均身高。STAT(二)回归分析的种类 P162倒41、按自变量的多少分(1):自变量只有一个 。 例 y = a+bx 一元回归方程(2):自变量为2个或2个以上。例 y= 0+ 1x1+ 2x2+ n

18、xnSTAT2、按回归方程式的特征分(1):因变量为自变量的线性函数。例 y = a+bx 一元线性回归方程一元线性回归方程(2):因变量为自变量的非线性函数。例 双曲线回归方程xbay11对数函数回归方程xbayln幂函数回归方程baxy指数函数回归方程bxaeySTAT(三)相关分析与回归分析必须注意的问题 163倒101、以定性分析为基础,确定现象之间有无相关关系 农民工掌握的资金与利率有无内在联系? 避免“虚假相关虚假相关”2、注意相关关系发生作用的范围 施肥量与亩产量的关系3、运用回归方程进行估计(预测)的结果是理论值,与实际值存在差异,仅作为制定政策的参考。4、定性与定量分析相结合

19、伪相关伪相关 自然界存在两种相关现象: 真相关真相关:城镇居民支出与收入之间的相关性是真相关, 伪相关伪相关:太阳落山和月亮升起是地球自转的反映, 但这两种现象确实有关连, 太阳落山的时候月亮正好升起,这就叫伪相关伪相关。 城镇居民支出与农民收入是伪相关。 解决伪相关解决伪相关 的办法的办法 1、使用偏相关系数 2、平稳化法,若干阶“差分”经过ADF单位根检验, 3、剔除趋势法,ARINA121模型,将变量拟合残差,作为剔除趋势项后的值,再计算相关系数。 STAT(四)回归分析的步骤步骤 P166-1、确定自变量和因变量(被解释变量)确定自变量和因变量(被解释变量);例粮食产量(y) 施肥量(

20、x); 消费支出( y ) 国民收入( x ); 火灾损失额( y ) 火灾发生地与最近一个消防站之间的距离( x )。2、确定样本回归方程确定样本回归方程;3、统计检验统计检验;4、预测或控制预测或控制。例 消费与收入的回归方程: y= a+bx= 200+0.15x 已知知 x确定定y:估计估计或预测预测 已知知y确定定x:控制控制STAT二、一元线性回归方程的拟合 P166-(一)总体回归方程总体回归方程例例总体总体 40 户家庭的可支配收入与消费支出的有关数据如下户家庭的可支配收入与消费支出的有关数据如下 收入收入消支消支X X1 18080X X2 2100100X X3 31201

21、20X X4 4140140X X5 5160160X X6 6180180X X7 7200200X X8 8220220第第 1 1 组:组:Y Y1 1第第 2 2 组:组:Y Y2 2第第 3 3 组:组:Y Y3 3第第 4 4 组:组:Y Y4 4第第 5 5 组:组:Y Y5 5555560606565707075756565707074748080858579798484909094949898808093939595103103108108102102107107110110116116118118110110115115120120130130135135120120136

22、136140140144144145145135135137137140140152152157157条件概率条件概率条件均值条件均值1/51/565651/51/574.874.81/51/589891/51/595.895.81/51/5110.6110.61/51/51221221/51/51371371/51/5144.2144.2条件概率:条件概率:Py = 55/x = 80 = 1/5 条件均值:条件均值:E(y/x = 80) = 65STAT图示5010015020080100120140160180200iXiY总体回归直线分布80y分布100y分布200ySTAT假定假定

23、Y。 5010015020080100120140160180200)/(iiXYEiXiY总体回归直线间确实存在线性关系与前提)/(:1XYEXN:2前提总体回归直线iX偶然因素的影响被抵消前提 :3STAT Yi/Xi=条件均值+i =+Xi+ i5010015020080100120140160180200iXiY总体回归直线22)()var(NYYii2)(, 0)(VarE随机扰动项且假定总体回归直线iiiXXYE)/(iiXY /ii160STAT拟合思想抽样 N n,5010015020080100120140160180200iXiY总体回归直线总体回归方程iiiXYXYE)/

24、(样本回归方程bxay bxayiiiXXYE)/(STAT(二) 从总体中随机取样,获取一组样本观察值样本观察值。例例总体总体 40 户家庭的可支配收入与消费支出的有关数据如下户家庭的可支配收入与消费支出的有关数据如下 收入收入消支消支X X1 18080X X2 2100100X X3 3120120X X4 4140140X X5 5160160X X6 6180180X X7 7200200X X8 8220220Y Y1 1Y Y2 2Y Y3 3Y Y4 4Y Y5 5555560606565707075756565707074748080858579798484909094949

25、898808093939595103103108108102102107107110110116116118118110110115115120120130130135135120120136136140140144144145145135135137137140140152152157157条件概率条件概率条件均值条件均值1/51/565651/51/574.874.81/51/589891/51/595.895.81/51/5110.6110.61/51/51221221/51/51371371/51/5144.2144.2N=40n=8STAT图示50100150200801001201

26、40160180200未知总体回归方程 )/(iiiXXYEiXiY样本回归直线)(直线样本回归方程bxay1e2e回归值观察值残差iiiyye:iiiiiebxaeyy 总体样本总体样本回归系数ba样本样本方程方程随机误差随机误差STAT步骤:1、利用样本数据拟合样本回归直线,尽量减少误差; 2、检验样本回归直线对总体回归直线的代表程度。5010015020080100120140160180200未知iiiXXYE)/(iXiY样本回归直线1e2e已知bxay STAT(三)样本回归方程的拟合方法1、XXYE)/(bxaymin11最优直线的直线使niiiniiyyeniieQ122、(O

27、LS法)基本思路:使残差平方和最小的直线“最优直线”。niiiyy12)(min)(12niiibxayba,寻找最优寻找最优直线 STAT 总可以设法找到一对a、b的取值,使Q为最小值。min)() (22bxayyyQxbyna式由 ) 1 (0)()(20) 1)(2xbxaybQbxayaQ)2() 1 (2xbxaxyxbnay整理得xbynxbnyaSTAT将a代入(2)式得xbynxbnyaxbxaxyxbnay)2() 1 (2nxxnyxxyb22)(2xbxnxbnyxynxxbnyxxy22)(:整理22)(xbnxbnyxSTAT简捷计算式xbynxbnyanyxxyy

28、yxx)(:已知2)()(xxyyxxbnxxnyxxyb22)(22)( xxnyxxynnxxxx222)()(nxxnyyxx2)()(2xxySTATrb2xxyyxxybryxxyyxxxyyxbr22xxyxyyxxyxyrb(1)两者是同向的两者是同向的;(2)r反映变量的相关方向与密切程度反映变量的相关方向与密切程度; b反映反映某一某一变量变动一个单位变量变动一个单位时时另一变量另一变量的的平均变动量平均变动量。bxay STAT例为研究收入与食品支出的关系,随机抽取了10户家庭的样本收入收入 x x支出支出 y yx x2 2y y2 2xyxy2020 百元百元30303

29、33340401515131326263838353543437 7 百元百元9 98 811115 54 48 810109 91010400400900900108910891600160022522516916967667614441444122512251849184949498181646412112125251616646410010081811001001401402702702642644404407575525220820838038031531543043029329381819577957770170125742574请拟合样本回归方程请拟合样本回归方程STAT解:257

30、4,701,9577,81,293,1022xyyxyxn1190. 21 . 81 .7022222 nynyyyy9604. 93 .297 .95722222 nxnxxxx高度正相关9509. 01190. 29604. 92023. 0yxbr2023. 09921200729395771081293257410)(222xxnyxxynbSTAT解:通过散点图可近似看出收入与食品支出之间呈线性关系,故设两者有关系bxay2574,701,9577,81,293,1022xyyxyxn2023. 09921200729395771081293257410)(222xxnyxxynb1

31、726. 23 .292023. 01 . 8nxbnyxbyaxbxay2023. 01726. 2: 回归方程经济意义:当收入为经济意义:当收入为0 0时,亦须有时,亦须有217.26217.26元的食品支出,收入元的食品支出,收入每增加每增加100100元,食品支出平均增加元,食品支出平均增加20.2320.23元。元。STAT三、回归方程的方差分析方差分析 P174倒倒7即拟合优度的大小关心样本问题的提出,) (:yybxayxy)(yy bxay) (yy )(yy yy )() ()(yyyyyy(一)总离差平方和总离差平方和的分解bxayebxay回归离差残差总离差xbayxby

32、a残差eyy回归离差)(xxbyy)() ()(yyyyyySTAT由:因为所以22)() ()(yyyyyy)(2)() ()(222yyyyyyyyyy22)() ()(yyyyyy两边加总得)() ()(yyyyyy)(2yyyy=0222)() ()(yyyyyySTAT由:22)() ()(yyyyyy)(2)() ()(222yyyyyyyyyyxbayxbyabxay)()(xbabxabxayyyyy)()(xxbbxxbyy0)()(2xxbyyxxb22)()()()(xxbyyxxxxyyxxb22)() ()(yyyyyy两边加总得)() ()(yyyyyy)()(xx

33、xxbyyb)()(xbbxbxxbyySTAT离差分析222)() ()(yyyyyy)() (2剩余变差差由残差的原因造成的误yy)()()(SSRSSESST回归平方和残差平方和总离差平方和222)() (:) 1 (ebxaebxayySSE分析拟合程度越差越远离越大误差拟合程度越好越接近越小误差yyeyye)()(2可解释变差的变动造成的离差由xyy2222)()()(:)2(xxbxbabxayySSR分析STAT(二)222)() ()(yyyyyy的拟合效果差对越大越小的拟合效果好对越小越大yyyyryyyyr) () (2222222222)()()() ()()(yyyyyyyyyyyy22222)()()() (1ryyyyyyyy判定系数222)() (1yyyyr的比重占SSTSSRyyyy22)()(STAT 判定系数的作用判定系数的作用 xy)(yy bxay) (yy )(yy yy 2r22)()(yyyy呈

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论