第七章相关与回归_第1页
第七章相关与回归_第2页
第七章相关与回归_第3页
第七章相关与回归_第4页
第七章相关与回归_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据、模型与决策数据、模型与决策第七章第七章相关与回归分析相关与回归分析正相关关系与正比例关系正相关关系与正比例关系l假设速度为每小时5公里,则行驶总路程与行驶时间之间有正比例关系: 行驶总路程(公里)5(公里/小时)行驶时间(小时)l人的身高与脚印长度有这样的正相关关系正相关关系: 人的身高6.876脚印长度误差l脚印长度一样的人,长得并不一样高,这有多个方面的原因。他们来自不同的家庭,遗传基因不同、健康状况不同、饮食不同、运动习惯不同等都可能是造成脚印一样长但身高不一样的原因。每一个原因都可能产生误差,而正相关关系右边的误差是这一系列误差的总和。负相关关系负相关关系 美国纽约州的一所医院全

2、年的289411份处方中905份处方有错误。平均每天发生2.5份错误处方。医生的工作年限和经验与处方的错误率有极为密切的关系。第一年工作的医生平均错误率为0.425%,第二年工作的平均为0.234%,第三年工作的平均为0.198%,第四年工作的平均为0.081%。医生的工作年限与错误率有负相负相关关系关关系。不论医生的工作年限是长还是短,都有可能开错处方。总的来说,工作年限短的医生开错处方的可能性比工作年限长的医生大。父亲及其成年儿子的身高正相关父亲及其成年儿子的身高正相关 英国著名生物和统计学家高尔顿(F. Galton,1822 1911)和他的学生,著名统计学家皮尔逊(K. Pearso

3、n,1856 1936)对测量得到的1078个父亲及其成年儿子身高的成对数据进行了研究。研究结果发现,他们之间有正相关关系。父亲比较高则其成年儿子往往也比较高,而父亲比较矮则其成年儿子往往也比较矮。这也就是说,若父亲比较高则其成年儿子总的趋势也比较高。同样道理,比较矮的父亲其成年儿子总的趋势也比较矮。父亲身高与儿子身高的父亲身高与儿子身高的1078对数据的散点图对数据的散点图 儿子身高父亲身高儿子身高的回归儿子身高的回归 成年儿子的身高(厘米) 其父亲的身高(厘米)误差l成年儿子的身高的分布为正态分布 ,l均值 其父亲的身高l成年儿子的平均身高为 其父亲的身高。l成年儿子的身高超过与低于 其父

4、亲的身高 的可能性都等于0.5。516. 067.85516. 067.85516. 067.85516. 067.85),(2N长得比较高的父亲其成年儿子往往比较高长得比较高的父亲其成年儿子往往比较高 1)比父亲还高的儿子少一些;比父亲还高的儿子少一些; 2)没有父亲高的儿子多一些。没有父亲高的儿子多一些。 成年儿子的身高(厘米) 其父亲的身高(厘米)误差l倘若某父亲比较高,例如身高180厘米,那么他的成年儿子的身高超过 厘米 的可能性正好等于0.5。l由此可见,成年儿子的身高比他父亲身高180厘米还高的可能性不到0.5,而没有超过他父亲身高的可能性大于0.5。516. 067.8555.1

5、78180516. 067.85长得比较矮的父亲其成年儿子往往比较矮长得比较矮的父亲其成年儿子往往比较矮 1)比父亲还矮的儿子少一些;比父亲还矮的儿子少一些; 2)没有父亲矮的儿子多一些。没有父亲矮的儿子多一些。 成年儿子的身高(厘米) 其父亲的身高(厘米)误差l倘若某父亲比较矮,例如身高165厘米,那么他的成年儿子的身高超过 厘米 的可能性正好等于0.5。l由此可见,成年儿子的身高比他父亲身高165厘米还矮的可能性不到0.5,而超过他父亲身高的可能性大于0.5。516. 067.8581.171165516. 067.85儿子身高的回归儿子身高的回归 成年儿子往往比较高长得比较高的父亲其成年

6、儿子往往比较矮长得比较矮的父亲其比 父 亲还比 父 亲还高 的 儿子高 的 儿子少一些少一些没有父没有父亲高的亲高的儿子多儿子多一些一些没有父没有父亲矮的亲矮的儿子多儿子多一些一些比 父 亲还比 父 亲还矮 的 儿子矮 的 儿子少一些少一些由父亲身高由父亲身高预测预测儿儿子身高子身高l成年儿子的身高(厘米) 其父亲的身高(厘米) 9.51厘米,概率95%l某父亲身高170厘米,则预测其成年儿子身高为 厘米,上下误差不超过9.51厘米,概率95%。l身高170厘米的父亲,其成年儿子身高的置信水平为95%的预测区间为 (厘米),即l区间的长度19.02厘米, 太大了。39.173170516. 0

7、67.85516. 067.8551. 939.1739 .182,88.16351. 939.173,51. 939.173身高身高l遗传因素不可忽视。它能改变一个人身高的25% 。l受到经济状况制约。繁荣时期人类身体长高,危机时期人类身体长矮。 上个世纪德国人长高,例如男性平均长高18厘米。 然而东德人的身高比西德人增长得慢。在东德城市里的食品供应远好于农村,因而东德的农村居民比城市居民矮2.2厘米 身高增长特别快的是日本人。 美国人却往胖里长,甚至变矮成趋势。今天30岁的美国人比20岁的美国人高。由父母亲身高由父母亲身高预测预测孩子孩子身高身高l成年儿子身高 56.6990.419父亲身

8、高(厘米) 0.265母亲身高(厘米)3厘米,概率95% l成年女儿身高 40.0890.306父亲身高(厘米) 0.431母亲身高(厘米)3厘米,概率95% 倘若根据父亲和祖父的身高预测成年儿子的身高好不好?回归模型:回归模型:y = ax + b + el回归模型中有两类变量:自变量和因变量。回归模型可用来根据自变量的数值预测因变量。l在美国黄石国家公园间歇喷泉的例子中,可观察的“喷发的持续时间“称为是自变量,记为x。待预报的“到下一次喷发间隔时间”称为是因变量,记为y。l线性回归模型(简称回归模型):y = ax + b + e 其中a是斜率,b是截距,e是误差(error)。l如果斜率

9、a大于0,自变量x和因变量y直线正相关(简称正相关)。如果斜率a小于0,自变量x和因变量y直线负相关(简称负相关) 。 回归模型:回归模型:y = ax + b + el回归模型: 问题1) 估计斜率a; 问题2) 估计截距b。l有了斜率a与截距b的估计,就可以在知道自变量x之后,计算因变量y的预测值。l通常假设误差e是正态分布 。 问题3)估计误差标准差 。l有了误差标准差的估计,就可以计算因变量y的概率例如为95%的预测误差。), 0(2Nebaxy预测问题的第预测问题的第1步工作是收集数据步工作是收集数据 1978 年 8 月 1 日至 8 月 8 日清晨 8 时至午夜老忠实间歇喷泉的喷

10、发持续时间(x 分钟)和到下一次喷发的间隔时间(y 分钟)的 107 对数据8 月 1 日 8 月 2 日8月3日 8 月4 日 8月5日 8 月 6 日 8月7日 8月8日y xy xy x y xy x y xy x y x784.4743.9684.0764.0803.5844.1502.3934.7551.7764.9581.7744.6753.4804.3561.7803.9693.7573.1904.0421.8914.1511.8793.2531.9824.6512.0764.5823.9844.3532.3863.8511.9854.6451.8884.7511.8804.64

11、91.9823.5754.0733.7673.7684.3863.6723.8753.8753.8662.5844.5704.1793.7603.8863.4714.0672.3814.4764.1834.3763.3552.0734.3562.9834.6571.9713.6723.7773.7551.8754.6733.5704.0833.7501.7954.6511.7824.0541.8834.4511.9804.6782.9813.5532.0894.3441.8784.1611.8734.7754.2733.9764.3551.8864.5482.0774.2734.4704.18

12、84.1754.0834.1612.7784.6611.9814.5512.0804.8794.1预测问题的第预测问题的第2步工作步工作制作交叉分组列表判断变量之间的相关性制作交叉分组列表判断变量之间的相关性 到下一次喷发的间隔时间911000000012819000036114718000151511861702210430516017111100415061000001.62.02.12.52.63.03.13.53.64.04.14.54.65.0喷发持续时间预测问题的第预测问题的第2步工作步工作通常画散点图判断变量之间的相关性通常画散点图判断变量之间的相关性喷发持续时间与到下一次喷发的

13、间隔时间喷发持续时间与到下一次喷发的间隔时间直线正相关关系直线正相关关系 有了这条直线如何预报有了这条直线如何预报 到下一次喷发的间隔时间到下一次喷发的间隔时间 回归模型:回归模型:y = ax + b + el喷发持续时间与到下一次喷发的间隔时间之间的回归模型: 到下一次喷发的间隔时间 喷发持续时间 , 其中误差 有正态分布 。l三个问题; 1) 计算斜率 的估计; 2) 计算截距 的估计; 3) 计算误差标准差 的估计。 aebe), 0(2Nab预测问题的第预测问题的第3步工作步工作 计算计算斜率斜率a和截距和截距b的估计的估计 建立数据文件,将喷发持续时间的数据放在A列的第1至第107

14、个单元格,到下一次喷发的间隔时间的数据放在B列的第1至第107个单元格; 在其它任意两个单元格上分别输入: “=slope(b1:b107,a1:a107)”; “=intercept(b1:b107,a1:a107)”。 则得斜率(Slope) ; 截距(Intercept) 。 注意:注意:首先输入待预报的因变量的数据首先输入待预报的因变量的数据b1:b107,然,然后输入可观察的自变量的数据后输入可观察的自变量的数据a1:a107。输入的次序。输入的次序不能颠倒。不能颠倒。74097.10a82821.33b预测问题的第预测问题的第3步工作:计算回归直线步工作:计算回归直线l 有了斜率

15、和截距 的估计,就有了回归直线:l 有了回归直线,我们就能根据喷发持续时间 的观察值,预测到下一次喷发的间隔时间 。倘若这一次喷发持续 分钟,则 到下一次喷发的间隔时间 的预报值l 预报下一次喷发大概在66.05112分钟后发生。这说明喷发持续3分钟时,到下一次喷发的间隔时间可能超过66.05112分钟,有正误差;也可能不到66.05112分钟,有负误差;其平均为66.05112分钟。波动的幅度,误差的范围多大?ab82821.3374097.10 xyxy3xy05112.6682821.33374097.10预测问题的第预测问题的第4步工作步工作 计算回归标准误计算回归标准误l回归模型 ,

16、误差 有正态分布l误差标准差 用回归标准误来估计。l输入“=yxste(b1:b107,a1:a107)”,则得因变量y关于自变量x的回归标准误(standard error),它等于6.68261。这就是误差标准差 的估计。 注意:首先输入待预报的因变量的数据b1:b107,然后输入可观察的自变量的数据a1:a107。输入的次序不能颠倒。ebaxye), 0(2N概率与系数概率与系数2816. 16449. 19 96 60 00 0. .1 15758. 22816. 16449. 196009600. .1 1 5758. 2%80%90%95%99) 1, 0(N预测问题的第预测问题的

17、第4步工作步工作 给出预测误差和概率给出预测误差和概率 得到因变量得到因变量 y 关于自变量关于自变量 x 的回归标准误为的回归标准误为6.68261之后,就可以计算预报误差:之后,就可以计算预报误差:l预报误差在预报误差在 之间的之间的概率概率(比例比例)为为80%;l预报误差在预报误差在 之间的之间的概率概率(比例比例)为为90%;l预报误差在预报误差在 之间之间的概率的概率(比例比例)为为95%;l预报误差在预报误差在 之间之间的概率的概率(比例比例)为为99%。 概率越大,预报误差越大,区间长度越长。概率越大,预报误差越大,区间长度越长。56443. 868261. 62816. 19

18、9223.1068261. 66449. 109792.1368261. 69600. 121307.1768261. 65758. 2美国黄石国家公园间歇喷泉的预报问题美国黄石国家公园间歇喷泉的预报问题l 到下一次喷发的间隔时间的预报值到下一次喷发的间隔时间的预报值 (10.74097这一次喷发持续时间这一次喷发持续时间 33.82821)8.56443分钟,概率分钟,概率80%。l 到下一次喷发的间隔时间的预报值到下一次喷发的间隔时间的预报值 (10.74097这一次喷发持续时间这一次喷发持续时间 33.82821)10.99223分钟,概率分钟,概率90%。l 到下一次喷发的间隔时间的预

19、报值到下一次喷发的间隔时间的预报值 (10.74097这一次喷发持续时间这一次喷发持续时间 33.82821)13.09792分钟,概率分钟,概率95%。l 到下一次喷发的间隔时间的预报值到下一次喷发的间隔时间的预报值 (10.74097这一次喷发持续时间这一次喷发持续时间 33.82821)17.21307分钟,概率分钟,概率99%。 使用回归模型进行预测的使用回归模型进行预测的4个步骤个步骤 收集数据;收集数据;画散点图判断变量之间有没有相关性;画散点图判断变量之间有没有相关性;计算斜率和截距的估计,得到回归直线,计算斜率和截距的估计,得到回归直线,给出预测值;给出预测值;计算回归标准误,

20、给出预测误差和概率。计算回归标准误,给出预测误差和概率。 画散点图判断变量之间有没有相关性这个步画散点图判断变量之间有没有相关性这个步骤能否省略?骤能否省略?异常值异常值 异异常常值值强影响力观察值强影响力观察值 异异常常值值强影响力观察值强影响力观察值成对数据成对数据 有有n对观察数据:对观察数据: l变量一的变量一的(样本样本)均值均值 、方差、方差 和标准差和标准差 。l变量二的变量二的(样本样本)均值均值 、方差、方差 和标准差和标准差 。l计算变量一和变量计算变量一和变量2的的(样本样本)相关系数相关系数 : “=correl(起始格:终止格,起始格:终止起始格:终止格,起始格:终止

21、格格) 注意:输入的次序可以先变量一,然后变量注意:输入的次序可以先变量一,然后变量二。也可以先变量二,然后变量一。输入的次二。也可以先变量二,然后变量一。输入的次序可以颠倒。序可以颠倒。 变变量量二二变变量量一一 nnyxyxyx,221121s22s1s2s1x2xr相关系数相关系数l变量一和变量二的相关系数变量一和变量二的相关系数 与量纲与量纲(单位单位)没没有关系,其值一定在有关系,其值一定在1和和1之间。之间。l变量一和变量二正相关时,相关系数变量一和变量二正相关时,相关系数 大于大于0。相关系数相关系数 越接近越接近1,变量一和变量二就越正,变量一和变量二就越正相关。相关。l变量一

22、和变量二负相关时,相关系数变量一和变量二负相关时,相关系数 小于小于0。相关系数相关系数 越接近越接近1,变量一和变量二就越负,变量一和变量二就越负相关。相关。l总之,总之, 越大,变量一和变量二就越相关。越大,变量一和变量二就越相关。l变量一和变量二相互独立时,相关系数变量一和变量二相互独立时,相关系数 等于等于0。相关系数。相关系数 越接近越接近0,变量一和变量二就越,变量一和变量二就越相互独立。相互独立。rrrrrrr2rr父亲及其成年儿子的身高父亲及其成年儿子的身高 著名统计学家著名统计学家Karl Pearson(英国,英国,1857-1936)曾进行了一项研究,研究家庭成员曾进行了

23、一项研究,研究家庭成员间的相似性。作为这项研究的一部分,间的相似性。作为这项研究的一部分,他测量了他测量了1078个父亲及其成年儿子的身个父亲及其成年儿子的身高。经计算,高。经计算,l父亲平均身高为父亲平均身高为68英寸英寸(即即172.7cm),标,标准差为准差为2.7英寸英寸(即即6.86cm);l儿子平均身高为儿子平均身高为69英寸英寸(即即175.3cm),标,标准差为准差为2.7英寸英寸(即即6.86cm);l它们之间的相关系数为它们之间的相关系数为0.5。 喷发持续时间和到下一次喷发的间隔时间喷发持续时间和到下一次喷发的间隔时间 1978年年8月月1日至日至8月月8日清晨日清晨8时

24、至午夜老时至午夜老忠实间歇喷泉的喷发持续时间和到下一忠实间歇喷泉的喷发持续时间和到下一次喷发的间隔时间的次喷发的间隔时间的107对数据。对数据。l喷发持续时间:平均为喷发持续时间:平均为3.46分钟,标准差分钟,标准差为为1.04分钟;分钟;l到下一次喷发的间隔时间:平均为到下一次喷发的间隔时间:平均为71分分钟,标准差为钟,标准差为12.97分钟;分钟;l它们之间的相关系数为它们之间的相关系数为0.8584测定系数测定系数l 回归模型回归模型l 计算自变量计算自变量 与因变量与因变量 的相关系数的相关系数l 称为回归模型称为回归模型 的测定系数的测定系数l , 越接近越接近1,自变量与因变量

25、就越相关。,自变量与因变量就越相关。l 正比例关系:因变量正比例关系:因变量 y (行驶总路程行驶总路程) 5(公里公里/小时小时)自变量自变量 x (行驶时间行驶时间) 因变量因变量 y 的变异完全由自变量的变异完全由自变量 x 的变异而产生的变异而产生l 回归模型回归模型 ,因变量,因变量 y 变异并不完全由变异并不完全由自变量自变量 x 的变异而产生。它有多方面的原因,其中的变异而产生。它有多方面的原因,其中有有 的变异是由自变量的变异是由自变量 x 的变异而产生的。这也就的变异而产生的。这也就是说,自变量是说,自变量 x 可以解释因变量可以解释因变量 y 的的 个变异。个变异。 eba

26、xy xyr2r2rebaxy 102 r2r2rebaxy 喷发持续时间和到下一次喷发的间隔时间喷发持续时间和到下一次喷发的间隔时间l喷发持续时间和到下一次喷发的间隔时间的相关系数 ,测定系数 。这107个到下一次喷发的间隔时间的观察值的约73.69%的变异是因喷发持续时间 的不同而产生的。所建立的回归直线是比较有效的。l喷发持续时间和到下一次喷发的间隔时间回归直线: 到下一次喷发的间隔时间 喷发持续时间 其回归标准误等于6.68261,概率95%的预报误差为13.09792分钟。这个误差范围可以接受。7369. 02 r82821.33 8584. 0 r 74097.10父亲身高与父亲身

27、高与孩子孩子成年后成年后身高身高l 父亲身高与其成年儿子身高的相关系数父亲身高与其成年儿子身高的相关系数 ,测定系数测定系数 。成年儿子为什么有的高,有的。成年儿子为什么有的高,有的矮,其四分之一的变异是因父亲身高的不同而产生矮,其四分之一的变异是因父亲身高的不同而产生的,剩余的四分之三是其他原因造成的。这说明所的,剩余的四分之三是其他原因造成的。这说明所建立的回归直线并不是很有效的。建立的回归直线并不是很有效的。l 成年儿子的身高的回归直线:成年儿子的身高的回归直线: 成年儿子的身高成年儿子的身高 其父亲的身高其父亲的身高(厘米厘米) 概率概率95%的误差为的误差为9.51厘米。误差范围偏大

28、。厘米。误差范围偏大。l 回归直线有改进的余地。为此再寻找一个对成年儿回归直线有改进的余地。为此再寻找一个对成年儿子身高有影响的因素子身高有影响的因素(例如母亲身高例如母亲身高),建立两个自,建立两个自变量的二元回归模型。变量的二元回归模型。25. 02 r67.85 5 . 0 r 516. 0使用回归模型进行预测的使用回归模型进行预测的6个步骤个步骤 收集数据;收集数据;画散点图,判断变量之间有没有相关性,有没画散点图,判断变量之间有没有相关性,有没有异常值和强影响力观察值;有异常值和强影响力观察值;计算相关系数;计算相关系数;计算斜率和截距,得到回归直线,给出预测值;计算斜率和截距,得到

29、回归直线,给出预测值;计算回归标准误、预测误差和概率,分析给出计算回归标准误、预测误差和概率,分析给出的预测误差和概率是否满足要求。的预测误差和概率是否满足要求。计算测定系数,分析得到回归直线有没有改进计算测定系数,分析得到回归直线有没有改进的余地。若需要改进,则根据问题的实际意义,的余地。若需要改进,则根据问题的实际意义,寻找新的自变量。寻找新的自变量。注:有时,在步骤还马上计算测定系数,看是否注:有时,在步骤还马上计算测定系数,看是否有寻找新的自变量的需要。有寻找新的自变量的需要。买书支出买书支出与与家庭收入家庭收入买书支出 家庭收入 买书支出 家庭收入 (y元/年) (x元/月) (y元

30、/年) (x元/月) 450.5 1712 793.2 3331 507.7 1742 660.8 3660 613.9 2043 792.7 3509 563.4 2187 580.8 3579 501.5 2194 612.7 3590 781.5 2404 890.8 3719 541.8 2735 1121 4353 611.1 2948 1094.2 5239 1222.1 3302 1253 6041买书支出买书支出与与家庭收入家庭收入的散点图的散点图020040060080010001200140001000200030004000500060007000家庭收入买书支出买书支出

31、买书支出与与家庭收入家庭收入的的相关系数与测定系数相关系数与测定系数经计算, 买书支出与家庭收入的相关系数为0.7885; 买书支出关于家庭收入的回归模型的测定系数为0.6217。l因变量 y(买书支出)的62.17%的变异依附于自变量 x (家庭收入)的变异。 y尚有超过三分之一的变异需用其他的变量来解释。看来,若能寻找到能解释因变量 y变异的新的自变量,那就更好了。买书支出买书支出与与(家庭收入家庭收入,几年级学生,几年级学生)买书支出 家庭收入 年级 买书支出 家庭收入 年级 (y元/年) ( 元/月) (y元/年) ( 元/月) 450.5 1712 4 793.2 3331 7 50

32、7.7 1742 4 660.8 3660 5 613.9 2043 5 792.7 3509 6 563.4 2187 4 580.8 3579 4 501.5 2194 4 612.7 3590 5 781.5 2404 7 890.8 3719 7 541.8 2735 4 1121 4353 9 611.1 2948 5 1094.2 5239 8 1222.1 3302 10 1253 6041 101x1x2x2x多元回归模型多元回归模型l二元回归模型: ,误差e是正态分布 。 问题1) 估计自变量 的斜率 与自变量 的斜率 ; 问题2) 估计截距b。l有了斜率 、 与截距b的估计

33、,就可以在知道自变量 与 之后,计算因变量y的预测值。 问题3)估计误差标准差 。l有了误差标准差的估计,就可以计算因变量y的概率例如为95%的预测误差。), 0(2Nebxaxay22111x1a2x2a1a2a1x2xExcel回归分析功能回归分析功能 1) 将学生购买书籍支出将学生购买书籍支出(y)的因变量数据放在的因变量数据放在A列的列的第第1至第至第18个单元格,将家庭收入个单元格,将家庭收入( )和是几年级学和是几年级学生生( )的自变量数据分别放在的自变量数据分别放在B和和C列的第列的第1至第至第18个单元格。自变量的数据并排个单元格。自变量的数据并排(B和和C列列)输入。输入。

34、 2) 选择工具下拉菜单;选择工具下拉菜单; 3) 选择数据分析选项;选择数据分析选项; 4) 选择回归选项:选择回归选项: 5) 在回归对话框中在回归对话框中 在在Y值输入区域值输入区域(Y)栏中键入栏中键入a1:a18;在;在X值输值输入区域入区域(X)栏中键入栏中键入b1:c18。 置信度的默认值为置信度的默认值为95% 选择输出区域,并在输出区域栏中键入例如选择输出区域,并在输出区域栏中键入例如e1 6) 单击确定单击确定1x2x计算结果的第一张表:回归统计计算结果的第一张表:回归统计 回归统计Multiple R0.9898R Square0.9797Adjusted R Squar

35、e0.9770标准误差39.21观测值18第 1 行,y与(1x和2x)的复相关系数(Multiple R)第 2 行,测定系数(R Square)第 3 行,修正的测定系数(Adjusted R Square)可忽略不看。第 4 行,y关于(1x和2x)的回归标准误第 5 行,21,xxy的观测值有18n对多元回归模型的复相关系数多元回归模型的复相关系数l计算复相关系数计算复相关系数 的思路:首先将自变量的思路:首先将自变量 和和 组合在一起,令组合在一起,令 , 其中其中 和和 是任意给定的常数。然后计算因变量是任意给定的常数。然后计算因变量 与与 之间的相关系数。最后讨论一个最大值问之间

36、的相关系数。最后讨论一个最大值问题,在题,在 和和 取什么值的时候,这个相关系数取什么值的时候,这个相关系数最大。这个最大的相关系数就称为是因变量最大。这个最大的相关系数就称为是因变量 与自变量与自变量 之间的复相关系数。之间的复相关系数。l复相关系数复相关系数 在在0与与1之间,之间, 越接近越接近1, 与与 就越相关。就越相关。 ,买书支出与,买书支出与(家家庭收入,几年级学生庭收入,几年级学生)有很强的相关性。有很强的相关性。R1x2211xcxcz 2x1c2cyz1c2c),(21xxRRy),(21xxy9898. 0 R多元回归模型的测定系数多元回归模型的测定系数l因变量因变量

37、与自变量与自变量 的复相关系数的复相关系数 的平的平方,方, 称为是二元回归模型称为是二元回归模型 的测定系数。的测定系数。l测定系数测定系数 在在0与与1之间。因变量之间。因变量 y 的的 的的变异是由自变量变异是由自变量 的变异而产生的。这的变异而产生的。这也就是说,自变量也就是说,自变量 可以解释因变量可以解释因变量 y 的的 个变异。个变异。l ,因变量,因变量 y(买书支出买书支出)的的97.97%的的变异依附于自变量变异依附于自变量 (家庭收入家庭收入)与与 (几年级几年级学生学生)的变异。可想而知,这个二元回归模型的变异。可想而知,这个二元回归模型 是有效的。是有效的。yRebx

38、axay 2211),(21xx),(21xx),(21xx2R2R2R2R9797. 02 R1x2xebxaxay 2211多元回归模型的回归标准误多元回归模型的回归标准误l二元回归模型:二元回归模型: ,误差,误差e是是正态分布正态分布 。l二元回归模型的误差标准差二元回归模型的误差标准差 用因变量用因变量 y关于关于自变量自变量 的回归标准误来估计的回归标准误来估计l “买书支出买书支出”关于自变量关于自变量(“家庭收入家庭收入”,“几年级学生几年级学生”)的标准误为的标准误为39.21元。这就是元。这就是误差标准差误差标准差 的估计。的估计。l根据学生的家庭收入与他是几年级学生,预根

39、据学生的家庭收入与他是几年级学生,预测他的买书支出,其概率为测他的买书支出,其概率为95%的预测误差的预测误差为为 元。预测一年的买书支元。预测一年的买书支出,上下有出,上下有75元左右的波动,是可以接受的。元左右的波动,是可以接受的。ebxaxay 2211),(21xx), 0(2 N 85.7621.399600. 1 计算结果的第二张表:方差分析计算结果的第二张表:方差分析 方差分析dfSSMSFSignificance F回归21114549.38557274.68362.442.00E-13残差1523063.271537.5511总计17 1137612.65回归分析、残差和总计

40、的自由度(df)依次为自变量个数2 p、151 pn和171 ndf(SS):MS平方和,MSMS:F残差的残差的回归的回归的Significance F 就是 p 值。p 值为131000. 2 非常的小。检验模型有没有意义检验模型有没有意义l 二元回归模型:二元回归模型: 有没有意义的有没有意义的检验问题的原假设为检验问题的原假设为 ,回归模型没有意义;,回归模型没有意义; 备择假设默认为备择假设默认为 和和 不全等于不全等于0,回归模型有意义。,回归模型有意义。l 方差分析表的第方差分析表的第5与第与第6两列是解这个检验问题的关两列是解这个检验问题的关键。在第键。在第5列的列的F 值比较

41、大的时候拒绝原假设,认为值比较大的时候拒绝原假设,认为回归模型有意义。第回归模型有意义。第6列是列是 p 值,它就是比第值,它就是比第5列这列这个个F 值还要大的概率。若第值还要大的概率。若第6列的列的p值比较小,这意值比较小,这意味着第味着第5列的列的F值比较大,则拒绝原假设。所以我们值比较大,则拒绝原假设。所以我们在第在第6列的列的p值比较小的时候认为回归模型有意义值比较小的时候认为回归模型有意义。l 。p 值如此之小,说明值如此之小,说明F值非常的大,值非常的大,因而我们拒绝原假设,认为因而我们拒绝原假设,认为 与与 不全等于不全等于0,描,描述学生购买书籍的支出与其家庭收入和他所在年级

42、述学生购买书籍的支出与其家庭收入和他所在年级之间的回归模型是有意义的。之间的回归模型是有意义的。 ebxaxay 22110:H210 aa2a131000. 2 p1a2a1a计算结果的第三张表:斜率与截距计算结果的第三张表:斜率与截距 估计标准误t StatP-valueIntercept-0.9830.322-0.0320.975X Variable10.400.1163.460.0035X Variable2104.316.40916.286.1E-11l 计算结果的第三张表用来讨论斜率与截距是否等于 0 的检验,以及他们的估计问题。这些检验问题的原假设是这些检验问题的原假设是“截距截

43、距(或斜率或斜率)等于等于 0” ,而且它,而且它们都是在们都是在t t的绝对值的绝对值, | |t t| |比较大的时候拒绝原假设比较大的时候拒绝原假设, 认为认为截距截距(或斜率或斜率)不等于不等于 0。斜率与截距是否等于斜率与截距是否等于0的检验,及其估计的检验,及其估计 二元回归模型:二元回归模型: l截距检验问题的原假设截距检验问题的原假设 。由于它的。由于它的p值为值为0.975很大,这说明截距为很大,这说明截距为0。l(X Variable 1)检验问题的原假设检验问题的原假设 。由于它的由于它的p值为值为0.0035很小,这说明自变量很小,这说明自变量 前面的系数前面的系数 不

44、等于不等于0,其估计为,其估计为0.40。l(X Variable 2)检验问题的原假设检验问题的原假设 。由于它的由于它的p值为值为 非常的小,这说明自非常的小,这说明自变量变量 前面的系数前面的系数 不等于不等于0,其估计为,其估计为104.31。l回归直线回归直线ebxaxay 22110:H0 b1a2a11101 . 6 1x2x0:H10 a0:H20 a11101 . 6 2131.10440. 0 xxy 买书支出买书支出与与(家庭收入家庭收入,几年级学生,几年级学生)回归直线:回归直线: 学生购买书籍等支出学生购买书籍等支出 其家庭收入其家庭收入 他是几年级学生他是几年级学生l 回归标准误回归标准误39.21,概率,概率95%的预测误差为的预测误差为 (元元) l 第一个学生家庭收入第一个学生家庭收入171.2元,元,4年级学生。据回归年级学生。据回归直线他购买书籍支出的预测值为直线他购买书籍支出的预测值为 其预测区间为其预测区间为 ,即,即l 第一个学生买书支出的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论