线性相关学习教案_第1页
线性相关学习教案_第2页
线性相关学习教案_第3页
线性相关学习教案_第4页
线性相关学习教案_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、会计学1线性相关线性相关第一页,共65页。 人们发现这种不太明确的规律以后,为了验证、利用这些规律,人们会进一步试验,筛选出最主要的变量,再进行理论论证,直至形成一种比较稳定的、可控的操作模式。人们发现这种不太明确的规律以后,为了验证、利用这些规律,人们会进一步试验,筛选出最主要的变量,再进行理论论证,直至形成一种比较稳定的、可控的操作模式。 统计学上,如果发现了某两个变量之间的相关关系,会对这两个变量的一系列观测值进行有效的统计技术处理(回归分析统计学上,如果发现了某两个变量之间的相关关系,会对这两个变量的一系列观测值进行有效的统计技术处理(回归分析(fnx)(fnx)),形成具有一定概率的

2、统计规律。),形成具有一定概率的统计规律。 第2页/共65页第二页,共65页。相关关系相关关系(gun x)(gun x)的的种类:种类: 按相关的方向不同可以按相关的方向不同可以(ky)(ky)分为正相关和负相关分为正相关和负相关 按相关的形式不同可以按相关的形式不同可以(ky)(ky)分为线性相关和非线分为线性相关和非线 性相关性相关 按影响因素的数量不同分为单相关、复相关按影响因素的数量不同分为单相关、复相关 和偏相关和偏相关 按照变量关联的密切程度可分为完全相关、按照变量关联的密切程度可分为完全相关、 不完全相关和完全不相关(无关)不完全相关和完全不相关(无关) 第3页/共65页第三页

3、,共65页。 简单简单(jindn)(jindn)线性相关线性相关 当一个当一个(y )(y )变量变量X X由小到大,另一个由小到大,另一个(y )(y )变量变量Y Y亦相应地由小到大(或由大到小),两变量的散点图呈直线趋势,那么这两个变量之间有线性关系。分析这种线性关系的理论和方法,统称为直线相关或线性相关。亦相应地由小到大(或由大到小),两变量的散点图呈直线趋势,那么这两个变量之间有线性关系。分析这种线性关系的理论和方法,统称为直线相关或线性相关。 两变量直线相关的性质和密切程度,用直线相关系数两变量直线相关的性质和密切程度,用直线相关系数r r来描述。来描述。 第4页/共65页第四页

4、,共65页。 相关系数:又称为积差相关系数或积矩相关系数:又称为积差相关系数或积矩相关系数,它表示两个变量之间直线关系的相关系数,它表示两个变量之间直线关系的密切程度和相关方向的统计指标。密切程度和相关方向的统计指标。 总体相关系数用符号总体相关系数用符号表示,随机样本表示,随机样本相关系数用符号相关系数用符号r r表示。表示。 r r取值范围取值范围(fnwi)(fnwi):-1r1-1r1,没有单,没有单位。位。相关系数的计算相关系数的计算(j sun)及及意义:意义:第5页/共65页第五页,共65页。第6页/共65页第六页,共65页。 习惯上,相关系数的绝对值习惯上,相关系数的绝对值|r

5、|r|在:在: 0.3 0.3以下,称为微弱线性相关;以下,称为微弱线性相关; 0.3-0.5 0.3-0.5,称为低度线性相关;,称为低度线性相关; 0.5-0.8 0.5-0.8,称为显著,称为显著(xinzh)(xinzh)线性相关;线性相关; 0.8 0.8以上,称为高度线性相关。以上,称为高度线性相关。 第7页/共65页第七页,共65页。r r计算公式:计算公式: 22yyxxyyxxlllriiiiyyxxxynxxxxlxx/222nyxxyyyxxlnyyyylxyyy/222 (y y的离均差的离均差(jn (jn ch)ch)平方和)平方和) (x x的离均差的离均差(jn

6、 (jn ch)ch)平方和)平方和)(x与与y的离均差积和)的离均差积和) 第8页/共65页第八页,共65页。相关系数假设检验:相关系数假设检验:212nrrt ,=n-2 从样本(yngbn)计算的r值,是总体相关系数的估计值,从=0(无直线相关)的总体抽出的样本(yngbn),其r不一定为0,因此得到r后必须检验r是否来自=0的总体,以判断两变量间是否存在直线相关关系。可用t检验或直接查r界值表实现。 第9页/共65页第九页,共65页。实例实例(shl)讲讲解解实例110名20岁男青年身高(shn o)与前臂长的数据见表1。 计算相关系数并对=0进行假设检验;表1 10名20岁男青年身高

7、(shn o)与前臂长 身 高(cm) 170 173 160 155 173 188 178 183 180 165 前臂长(cm) 45 42 44 41 47 50 47 46 49 43 第10页/共65页第十页,共65页。实例实例(shl)讲解讲解1 1由原始数据及散点图进行初步由原始数据及散点图进行初步(chb)(chb)分析(图分析(图1 1)图1 10名20岁男青年身高与前臂长散点图图1 10名20岁男青年身高与前臂长散点图353537373939414143434545474749495151150150160160170170180180190190身高(cm)前臂长(cm

8、)前臂长(cm)第11页/共65页第十一页,共65页。实例实例(shl)讲讲解解2 2、计算、计算(j sun)(j sun)相关系数相关系数8227. 04 .785 .962226226104541725785414 .7810454206905 .962101725298525785414 .45206904545 .172298525172522222222YYXXXYXYYYXXlllrnYXXYlnYYlnXXlXYYYYXXX,第12页/共65页第十二页,共65页。实例实例(shl)讲解讲解 H0 H0:=0=0,即身高与前臂长间无直线,即身高与前臂长间无直线(zhxin)(zh

9、xin)相关关系相关关系 H1 H1:00,即身高与前臂长间有直线,即身高与前臂长间有直线(zhxin)(zhxin)相关关相关关系系09. 48227. 012108227. 021022nrrsrtr82102 n=0.05 ,查,查t界值表,得界值表,得0.002P r2r1 r2,就判断,就判断r1r1比比r2r2相关更密切。因为查表,相关更密切。因为查表,若按同一检验水准若按同一检验水准0.050.05,则前者认为无相关而后,则前者认为无相关而后者有相关,可见正确推断有无相关必须经过假设者有相关,可见正确推断有无相关必须经过假设检验。检验。6.6.4. 4. 积差相关分析只适用于双变

10、量正态分布资料积差相关分析只适用于双变量正态分布资料。第22页/共65页第二十二页,共65页。 不服从双变量正态分布而不宜作积差相关分析。不服从双变量正态分布而不宜作积差相关分析。 总体总体(zngt)分布类型未知。分布类型未知。 用等级表示的原始数据。用等级表示的原始数据。秩相关秩相关(xinggun):又叫等级相:又叫等级相关关(xinggun)(rank correlation),即斯皮尔曼(即斯皮尔曼(Spearman)等级)等级相关相关(xinggun)。是用双变量数。是用双变量数量等级顺序作直线相关量等级顺序作直线相关(xinggun)分析。分析。第23页/共65页第二十三页,共6

11、5页。实例实例(shl)讲解讲解 某省卫生防疫站对八个城市进行肺癌死亡回顾调查,并对大气中苯并(a)芘进行监测,结果(ji gu)如下:表3 八个城市的肺癌标化死亡率和大气中苯并(a)芘浓度 城市编号 1 2 3 4 5 6 7 8 肺癌标化死亡率(1/10万) 5.60 18.50 16.23 11.40 13.80 8.13 18.00 12.10 苯并 (a) 芘 (g/100m3) 0.05 1.17 1.05 0.10 0.75 0.50 0.65 1.20 实例(shl)2试检验两者有无相关?试检验两者有无相关?第24页/共65页第二十四页,共65页。实例实例(shl)讲解讲解 本

12、题资料不服从双变量正态分布,宜计算(j sun)等级相关系数。计算(j sun)过程见下表。 肺肺 癌癌 标标 化化 死死 亡亡 率率 ( 1/10万万 ) 苯苯 并并 ( a) 芘芘 城城市市编编 号号 X 等等 级级 Y 等等 级级 d = d2 1 5.60 1 0.05 1 0 0 2 18.50 8 1.17 7 1 1 3 16.23 6 1.05 6 0 0 4 11.40 3 0.10 2 1 1 5 13.80 5 0.75 5 0 0 6 8.13 2 0.50 3 1 1 7 18.00 7 0.65 4 3 9 8 12.10 4 1.20 8 4 16 d2=28 第

13、25页/共65页第二十五页,共65页。rs = 1- n n:总例数:总例数 d d:每一对:每一对(y du)(y du)值的等级差值的等级差rs= 16288(821)=0.6667 ) 1(622nndH0:s0,即肺癌标化死亡率和大气中苯并(a)芘无相关(xinggun)关系H1:s0,即肺癌标化死亡率和大气中苯并(a)芘有相关(xinggun)关系0.05查查rsrs界值表,得界值表,得0.10P0.050.10P0.05,按,按0.050.05水准,不拒绝水准,不拒绝H0H0,尚,尚不能认为肺癌标化死亡率和大气中的苯并(不能认为肺癌标化死亡率和大气中的苯并(a a)芘有相关)芘有相

14、关(xinggun)(xinggun)关系。关系。 实例讲解实例讲解第26页/共65页第二十六页,共65页。SPSSSPSS软件软件(run jin)(run jin)分析结果:分析结果:第27页/共65页第二十七页,共65页。直线直线(zhxi(zhxin)n)回回归归 线性回归分析是基于最小二乘法原理产生古典统计假设下的最优线性无偏估计(gj)。 直线回归是回归分析中最基本、最简单的一种,是处理两变量(其中至少一个是随机变量)间线性依存关系的一种统计方法,即自变量只有一个的情况,故又称简单回归(simple regression),所得方程叫直线回归方程。 若引入回归分析的自变量有两个以上

15、,那么就是多重线性回归分析或多元线性回归分析,所得方程叫多重线性回归方程。“回归回归(hugu)”一词的来历。一词的来历。 第28页/共65页第二十八页,共65页。两变量之间存在直线关系时两变量之间存在直线关系时,通过计算回归方程来描,通过计算回归方程来描述这两个变量相互依存的述这两个变量相互依存的数量关系。数量关系。根据直线回归方程由已知(根据直线回归方程由已知(或易测)变量值,估计未或易测)变量值,估计未知(或难测)变量值。知(或难测)变量值。对总体对总体(zngt)(zngt)回归直线作回归直线作出估计,评价样本回归直出估计,评价样本回归直线的可信程度。线的可信程度。估计正常值范围。估计

16、正常值范围。 用途用途(yngt)(yngt):第29页/共65页第二十九页,共65页。简单简单(jindn)(jindn)线性回归线性回归方程:方程: = a + bx y第30页/共65页第三十页,共65页。表表 1 直线回归方程直线回归方程 a、b 两系数对比两系数对比 a b 含义含义 回归直线在回归直线在 Y 轴上的截距轴上的截距(intercept) 。 表示表示 X 为零时为零时,Y 的平均水平的估计值。的平均水平的估计值。 回归系数回归系数(regression coefficient) ,) ,即直线的斜率。表示即直线的斜率。表示 X 每变化一个每变化一个单位时单位时,Y 的

17、平均变化量的估计值。的平均变化量的估计值。 系数系数0 a0 表示直线与纵轴的交点在原点的上表示直线与纵轴的交点在原点的上方。方。 b0,表示直线从左下方走向右上,表示直线从左下方走向右上方,即方,即 Y 随随 X 增大而增大。增大而增大。 系数系数0 a0 表示直线与纵轴的交点在原点的下表示直线与纵轴的交点在原点的下方。方。 b0,表示直线从左上方走向右下,表示直线从左上方走向右下方,即方,即 Y 随随 X 增大而减小。增大而减小。 系数系数=0 a=0 表表示回归直线通过原点示回归直线通过原点 b=0,表示直线与,表示直线与 X 轴平行,即轴平行,即 Y不随不随 X 的变化而变化。的变化而

18、变化。 计算公式计算公式 XbYa XXXYllXXYYXXb2)()( 第31页/共65页第三十一页,共65页。最小二乘法最小二乘法(chngf)(chngf)原理,此时估计误差平方和原理,此时估计误差平方和 最小。最小。2YY2XXYYXXllbxxxyxbya第32页/共65页第三十二页,共65页。直线直线(zhxin)(zhxin)回归方程的回归方程的假设检验假设检验 样本样本(yngbn)(yngbn)回归系数回归系数b b的假设检验的假设检验(1 1)方差分析;)方差分析;(2 2)t t检验。检验。第33页/共65页第三十三页,共65页。总回归SS/222SSllllllryyx

19、xxyyyxxxy决定系数决定系数:第34页/共65页第三十四页,共65页。 习惯上写成习惯上写成 ,称为确定系数(或决定系数),称为确定系数(或决定系数),数值上等于自变量对因变量的贡献率,即用自变量能解,数值上等于自变量对因变量的贡献率,即用自变量能解释因变量变化的百分之多少释因变量变化的百分之多少(dusho)(dusho)。 越接近于越接近于1 1,回归拟合分析的效果越好,即价,回归拟合分析的效果越好,即价值越大。值越大。 2r2R2R 注意:如果注意:如果X X与与Y Y有回归有回归(hugu)(hugu)关系,则一定存在相关关系关系,则一定存在相关关系,但是若存在相关关系,则不一定

20、存在回归,但是若存在相关关系,则不一定存在回归(hugu)(hugu)关系。关系。 第35页/共65页第三十五页,共65页。作直线作直线(zhxin)回归分析时的注回归分析时的注意事项:意事项: 1 1)两变量间的关系必须)两变量间的关系必须(bx)(bx)有实际意义。有实际意义。2 2)计算直线回归的两变量,若)计算直线回归的两变量,若X X为选定的,则对应为选定的,则对应于每个于每个X X值的值的Y Y值必须值必须(bx)(bx)服从正态分布,其即服从正态分布,其即Y Y的均数;若的均数;若X X、Y Y都是随机变量,则要求都是随机变量,则要求X X、Y Y服从双服从双变量正态分布。否则先

21、经变量变换,使资料符合要变量正态分布。否则先经变量变换,使资料符合要求后再进行回归分析。求后再进行回归分析。第36页/共65页第三十六页,共65页。3 3)用同一资料计算)用同一资料计算X X推算推算Y Y,和由,和由Y Y推算推算X X的两个回的两个回归方程,结果不同。因此,要正确选定自变量。归方程,结果不同。因此,要正确选定自变量。若两变量之间有因果关系,应以若两变量之间有因果关系,应以“因因”为为X X;无法;无法确定时,则以较易测定者或变异较小者为确定时,则以较易测定者或变异较小者为X X。4 4)观察值必须是同质的。如果有两个不同的子群)观察值必须是同质的。如果有两个不同的子群,可能

22、产生实际上不存在的回归,也可能忽视了,可能产生实际上不存在的回归,也可能忽视了确实确实(qush)(qush)存在的回归关系。存在的回归关系。5 5)回归方程一般只适用于自变量)回归方程一般只适用于自变量X X的原观察数据的原观察数据范围,而且实验条件也应与取得原观察数据的实范围,而且实验条件也应与取得原观察数据的实验条件一致,不能任意外推。验条件一致,不能任意外推。第37页/共65页第三十七页,共65页。实例实例(shl)讲解讲解实例3某单位研究代乳粉营养价值时,用大白鼠作实验,得到大白鼠进食(jnsh)量和增加体重的数据见表2。 表2 8只大白鼠的进食(jnsh)量和体重增加量鼠号 1 2

23、 3 4 5 6 7 8 进食量(g) 800 780 720 867 690 787 934 750 增量(g) 185 158 130 180 134 167 186 133 求直线回归方程并对回归系数作假设检验。求直线回归方程并对回归系数作假设检验。 第38页/共65页第三十八页,共65页。实例实例(shl)讲解讲解1 1、由原始数据绘制、由原始数据绘制(huzh)(huzh)散点图并初步分析(图散点图并初步分析(图2 2)图图2 2 大白鼠的进食大白鼠的进食(jnsh)(jnsh)量与增加体重散量与增加体重散点图点图 1001201401601802006007008009001000

24、进食量(g)增重(g)第39页/共65页第三十九页,共65页。实例实例(shl)讲解讲解X=6328,X2=5048814,Y=1273,Y2=206619, ,XY=1018263 2 2、计算、计算(j sun)(j sun)回归系数回归系数b b和截距和截距a a,求回归方程,求回归方程326.47791261. 0125.159261. 04336611320113208127363281018263)()(875.405281273206619)(43366863285048814)(222222XbYallbnYXXYlnYYlnXXlXXXYXYYYXX回归方程:回归方程: =

25、-47.326 + 0.261xy第40页/共65页第四十页,共65页。3 3、回归系数假设检验:、回归系数假设检验: H0H0:0 0,即进食量与增重,即进食量与增重(zn zhn)(zn zhn)之间无直线关系之间无直线关系H1H1:00,即进食量与增重,即进食量与增重(zn zhn)(zn zhn)之间有直线关系之间有直线关系0.050.0597.1097905.2954875.4052905.29544336611320875.405222回总剩回总SSSSSSllSSlSSXXXYYY变变异异来来源源 SS MS F 总总变变异异 4052.875 7 回回归归 2954.905 1

26、 2954.905 16.147 剩剩余余 1097.970 6 182.995 方差分析表实例实例(shl)讲讲解解查查F F界值表,得界值表,得P0.01P0.01,按,按0.050.05水准,拒绝水准,拒绝H0H0,接受,接受H1H1,可认为可认为(rnwi)(rnwi)大白鼠的进食量与增加体重间有直线关系。大白鼠的进食量与增加体重间有直线关系。 第41页/共65页第四十一页,共65页。实例实例(shl)讲解讲解t检验检验(jinyn): 018. 4433665276.13261. 005276.132897.10972.XXXYbXYlsbsbtnSSs)()(剩按按=6=6,查,查

27、t t界值表,得界值表,得0.01P0.050.01P0.05,按按0.050.05水准水准(shuzhn)(shuzhn),拒绝,拒绝H0H0,接受,接受H1H1,结论同上。,结论同上。 本题本题tF018. 4147.16 故可用直线回归方程故可用直线回归方程 来描述大白鼠的进食量与增加体重的关系。来描述大白鼠的进食量与增加体重的关系。XbXaY261. 0326.47第42页/共65页第四十二页,共65页。实例实例(shl)讲讲解解4 4、计算、计算(j sun)(j sun)总体回归系数总体回归系数的的95%95%可信区间可信区间 上限上限(shngxin)= 0.261(shngxi

28、n)= 0.2612.4472.44713.5107 13.5107 =0.1022=0.1022下限下限= 0.261= 0.2612.4472.44713.5107 =0.419813.5107 =0.41984336643366总体回归系数总体回归系数的的95%95%可信区间:可信区间:(b bt t0.05(n0.05(n2) 2) S Sb b,b bt t0.05(n0.05(n2) 2) S Sb b)第43页/共65页第四十三页,共65页。SPSS软件软件(run jin)操作过程:操作过程:1、建立数据库、建立数据库2、分析、分析(fnx)操作:操作:2.1 绘散点图绘散点图

29、F GraphsF ScatterF SimpleF Define: F Y Axis: 增重(zn zhn) X Axis: 食量 F OK第44页/共65页第四十四页,共65页。第45页/共65页第四十五页,共65页。2.2 2.2 分析界面分析界面(jimin)(jimin)操作:操作:F AnalyzeF RegressionF LinearF Dependent: 增重增重(zn zhn)F Independent: 食量食量 F OK第46页/共65页第四十六页,共65页。第47页/共65页第四十七页,共65页。第48页/共65页第四十八页,共65页。回归系回归系数数模拟的拟合参数

30、模拟的拟合参数残差统计量残差统计量第49页/共65页第四十九页,共65页。因变量因变量标准化预测值标准化预测值第50页/共65页第五十页,共65页。预测值预测值预测预测(yc)区区间间影响影响(yngxing)统计量统计量第51页/共65页第五十一页,共65页。实例实例(shl)讲解讲解1001201401601802006007008009001000进食量(g)增重(g)5 5、绘制回归、绘制回归(hugu)(hugu)直线直线图图3 3 大白鼠的进食量与增加体重大白鼠的进食量与增加体重(tzhng)(tzhng)回归直回归直线线 第52页/共65页第五十二页,共65页。第53页/共65页第五十三页,共65页。第54页/共65页第五十四页,共65页。第55页/共65页第五十五页,共65页。第56页/共65页第五十六页,共65页。第57页/共65页第五十七页,共65页。第58页/共65页第五十八页,共65页。第59页/共

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论