相关与回归分析_第1页
相关与回归分析_第2页
相关与回归分析_第3页
相关与回归分析_第4页
相关与回归分析_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章

相关与回归分析教学要求1、理解相关关系的概念及种类;2、熟练掌握相关系数的计算方法;3、熟练掌握一元线性回归分析方法。发生车祸的次数与司机的年龄有关吗?一年的葡萄酒消耗量(平均每人喝葡萄酒摄取酒精的升数)以及一年中因心脏病死亡的人数(每十万人死亡人数)之间有关系吗?身高与足迹长度有关吗?

第一节相关分析一、相关关系的概念现象之间的关系一般可以区分为两种不同的类型:——函数关系:客观现象之间确实存在的、而且数量表现上是严格的确定性的依存关系。——相关关系:客观现象之间确实存在的、但在数量表现上不严格对应的依存关系。

函数关系是一一对应的确定关系;设有两个变量x和y,当变量x取某个数值时,y有确定的值与之对应,则称y是x的函数y=f(x);[在函数关系中,一般把作为影响因素的变量称为自变量(x);把发生对应变化(结果)的变量称为因变量(y)。]所有观察点全都落在一条线上(直线或曲线)。

XY函数关系(例)圆的面积(S)与半径(R)之间的函数关系

S=R2

里程(D)与速度(V)、时间(t)之间的关系D=Vt企业的原材料消耗额(y)与产量(x1)

、单位产量消耗(x2)

、原材料价格(x3)之间的关系

y=x1x2x3

相关关系变量间关系不能用函数关系精确表达;一个变量的取值不能唯一地由另一个变量来确定。即当变量x取某个值时,与之相关的变量y的取值可能有若干个;各观察点分布在直线(或曲线)周围。XY理解相关关系把握两个要点1.相关关系是指现象之间确实存在数量上的相互依赖关系。

两个现象之间,一个现象发生数量变化,另一个现象也会相应地发生数量上的变化。如人的身高与体重。2.现象之间数量依存关系的具体关系值不是固定的。

对于某项标志的每一数值,可以有另外标志的若干个数值与之相适应,在这些数值之间表现出一定的波动性,但又总是围绕着它们的平均数并遵循一定的规律而变化。相关关系(例)父亲身高(y)与子女身高(x)之间的关系社会商品零售额(y)与居民可支配收入(x)之间的关系收入(y)与文化程度(x)之间的关系商品销售量(y)与广告费支出(x1)、价格(x2)之间的关系函数关系与相关关系的联系函数关系往往通过相关关系表现出来。由于存在测量误差和其他随机因素的干扰,可以说现实中没有纯粹的函数关系。相关关系要通过函数关系进行研究。相关变量之间的数量变动虽然表现出一定的波动性,但是这种波动总是按照一定的分布规律围绕其理论均值而波动的,因此可以通过寻找这种数量变化规律,使相关关系转化为函数关系进行研究。(其它有关概念)因果关系原因与结果之间、影响因素与被影响因素之间的关系。相关关系比因果关系包括的范围更广泛。即,因果关系属于相关关系,但相关关系不一定是因果关系。如:商品销售量(y)与广告费支出(x1)、价格(x2)之间的关系。社会商品零售额(y)与居民可支配收入(x)之间的关系。互为因果的情况收入水平和股票持有额是正相关,但是是由于收入增加使股票持有增加?还是持有股票的盈利使收入增加?收入水平和物价水平之间的关系。统计只能说明现象间有无数量上的关系,不能说明谁因谁果。因与果的确定——定性分析(根据经济理论或经济常识以及相关学科的知识分析判断是否存在这样的关系)

注意假相关(伪相关)现象之间没有本质联系,只是表面数字的偶然巧合或受到其他潜在变量的影响而表现出不真实的相关性。如上证股票价格综合指数与气温的关系;

有人测算出教师工资增长与酒价上升是正相关;有人测算出小孩脚的大小与识字多少是正相关;还有人做过测算,发现在美国经济学学位越高的人,收入越低,相关系数为负(要注意不正确的计算方法也会模糊对事物本质的认识)。

即时思考:有数据显示世界各国平均每人拥有电视机数x及居民预期寿命y之间有很强的正相关,可否认为电视机很多的国家,居民预期寿命比较长?有人测试出火灾现场的消防员人数和该场火灾造成的损害之间有很强的正相关,可否认为派出的消防员越多造成的损害越大?

二、相关关系的种类1.按涉及变量多少分为:

单相关(一元相关):两个变量之间的相关。

复相关(多元相关):当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。

偏相关:某一变量与多个变量相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。2.按相关关系的表现形式分为:直线相关(线性相关):一个变量的值会随另一变量的值的变化发生大致均等的变动。曲线相关(非线性相关):一个变量的值会随另一变量的值的变化发生变动,但这种变动不是均等的。

正相关:两个相关现象间,当一个变量的数值增加(或减少)时,另一个变量的数值也随之增加(或减少),即同方向变化。例如收入与消费的关系。

负相关:当一个变量的数值增加(或减少)时,而另一个变量的数值相反地呈减少(或增加)趋势变化,即反方向变化。

例如物价与消费的关系。3.按相关方向分为:4.按相关关系的程度分为:完全相关(函数关系)完全不相关(零相关)不完全相关(狭义的相关关系)相关关系的两种极端情况广告投入和销售之间的关系三、相关分析的内容

●确定现象之间是否存在相关分析

●确定现象之间相关关系的表现形式

●判定现象之间相关关系的方向和密切程度第二节

简单线性相关分析进行相关分析的一般程序:定性分析定量分析在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方向、形态及密切程度。是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断。一、相关表和相关图(一)相关表一般将成对数据依其中一个变量按大小顺序排列,另一个变量对应排列而成。仅能对现象作大体初步观测,当涉及多个影响因素时制表较困难。(二)相关图(也称为散点图)一对数据对应坐标图上一个点,将成对的观察数据表现为坐标图的散点而形成的图。某市1998年—2005年的工资性现金支出与城镇储蓄存款余额的资料,说明简单相关表和相关图的编制方法。

序号年份工资性

现金支出(万元)x城镇储蓄存款余额(万元)y11998

50012021999

54014032000

62015042001

73020052002

90028062003

97035072004

105045082005

1170510例1企业按销售额分组(万元)流通费用率(%)4以下9.65

4~87.68

8~127.2512~167.0016~206.8620~246.7324~286.6428~326.6032~366.58例2相关关系的图示线性正相关完全线性负相关完全线性正相关线性负相关相关关系的图示(续)曲线相关不相关(零相关)不相关能源消耗量与工业总产值的相关表能源消耗量(十万吨)工业总产值(亿元)能源消耗量(十万吨)工业总产值(亿元)3524624138256440402465474228685049326949523171515437724859407658

能源消耗量与工业总产值相关图

19个发达国家一年的葡萄酒消耗量(每人从葡萄酒所摄取的酒精)以及一年中因心脏病死亡的人数资料(选自《统计学的世界》):国家从葡萄酒摄取的酒精(升)心脏病死亡率(每十万人死亡人数)国家从葡萄酒摄取的酒精(升)心脏病死亡率(每十万人死亡人数)澳大利亚2.5211荷兰1.8167奥地利3.9167新西兰1.9266比利时/卢森堡2.9131挪威0.8227加拿大2.4191西班牙6.586丹麦2.9220瑞典1.6207芬兰0.8297瑞士5.8115法国9.171英国1.3285冰岛0.8211美国1.2199爱尔兰0.7300德国2.7172意大利7.9107

19个发达国家一年的葡萄酒消耗量(每人从葡萄酒所摄取的酒精)以及一年中因心脏病死亡的的相关图身高与足迹长度的相关图二、相关系数

相关系数是在线性条件下对变量之间关系密切程度的度量;(1)总体相关系数:反映总体的相关程度,根据总体全部数据计算,通常用“ρ”表示;

样本相关系数:反映样本的相关程度,根据样本数据计算通常用“r”表示。(2)单相关系数:反映两个变量之间的相关程度;

复相关系数:反映两个以上变量之间的相关程度。(3)直线相关系数(通常简称为相关系数):反映变量之间直线相关关系的密切程度;

曲线相关系数(也称为非线性相关系数)反映变量之间曲线相关关系的密切程度。(5)直线相关系数的取值范围是[-1,1]|r|=1,完全线性相关;r=0,没有线性相关;-1r<0,负线性相关;0<r1,正线性相关;|r|越趋于1表示两变量线性关系越密切;|r|越趋于0表示线性关系越不密切。完全负相关完全正相关无线性相关-1.0+1.00-0.5+0.5负相关程度增加r正相关程度增加

00.30.50.81.0相关程度的划分法:不相关

低度相关显著相关高度相关完全相关计算式直线相关系数的计算直线相关系数一般用积差法公式测算从公式可以看出,r的符号决定于分子。

相关系数的特点(1)两个变量是对等的,不必区分自变量和因变量;(2)只能计算出一个相关系数;(3)r只反映两个变量的直线关系密切程度,当r的绝对值很小,甚至为0,只表示它们之间没有直线相关关系,但有可能存在其它类型的相关关系。(4)相关系数的平方称为判定系数(可决系数),用r2

表示;可用于判断回归方程的拟合优度。案例研究:发生车祸次数与司机年龄有关吗?作为交通安全研究的一部分,美国交通部采集了每1000个驾驶执照发生死亡事故的车祸次数和有驾驶执照的司机中21岁以下者所占比例的数据,样本由42个城市组成,在一年间采集的数据及散点图如下:21岁以下者所占比例(%)

21岁以下者所占比例(%)21岁以下者所占比例(%)21岁以下者所占比例(%)80.885100.039121.913152.81480.368101.014132.962162.80180.645100.493131.142163.62382.19101.926132.634162.94380.82112.091142.885172.62781.267111.849142.352174.191.082111.294142.89173.25691.433120.708141.443183.8390.338121.652141.643183.61490.835121.405152.623

90.926122.246153.224

每千个驾驶执照中发生车祸次数每千个驾驶执照中发生车祸次数每千个驾驶执照中发生车祸次数每千个驾驶执照中发生车祸次数EXCEL(三)相关系数的显著性检验1)检验总体X与Y之间的线性相关关系是否显著,即检验自变量X对因变量Y的线性影响是否显著;2)在一元线性回归中,等价于回归方程的显著性检验及回归系数的显著性检验;3)一般采用t检验法(大样本也可用z检验法)1、两个变量都是连续性的;2、必须是成对数据,且每对数据相互独立;3、两个变量的总体都接近正态分布;4、两个变量的关系是线性的;(四)直线积差相关系数的应用条件5、排除共变因素的影响。6、只能描述两变量之间线性关系的密切程度和方向,不能阐明二者的本质联系。7、一般地说,n小于30时计算出的r缺乏有效意义。第三节一元线性回归分析一、回归分析的概念概念:是指对具有相关关系的现象,根据其相关关系的具体形态,选择一个合适的数学模型(称为回归方程式),用来近似地表达变量间的平均变化关系。之所以强调“平均”,是因为如果给定自变量一个值,因变量有若干值与之对应,这些值虽然表现出一定的随机性、波动性,但是又总是按一定的分布规律围绕因变量的均值(数学期望)上下波动,即对于自变量的某个确定值,因变量有一个平均值与之对应。这样现象之间数量不确定的相关关系,从平均意义上说已转变为确定的函数关系,从而为研究不确定关系提供了可能。05001000150020002500300035005001000150020002500300035004000每月可支配收入X(元)每月消费支出Y(元)

随着收入的增加,“平均而言”消费也在增加,且Y的条件均值均落在一根正斜率的直线上。回归模型的类型一个自变量两个及两个以上自变量回归模型多元回归一元回归线性回归非线性回归线性回归非线性回归二、一元线性回归分析的特点两个变量之间不是对称关系回归分析中,必须确定谁是自变量,谁是因变量。两个变量的性质不同回归分析要求因变量是随机变量,自变量是一般变量。回归方程式反映的是变量之间具体的数量变动规律,而不是抽象的系数回归分析的内容从样本数据出发,确定变量之间的数学关系式——建立回归模型;借助于数学模型来表达变量之间的平均数量关系对这些关系式的可信程度进行各种统计检验并从某一特定变量的诸多影响因素(变量)中找出哪些变量的影响显著,哪些不显著;利用所求的回归模型进行分析,预测或控制。

(并给出这种预测或控制的精确程度)三、相关分析与回归分析(一)概念:1.相关分析就是用一个指标来表明现象间相互依存关系的密切程度。广义的相关分析包括相关关系的分析(狭义的相关分析)和回归分析。2.回归分析是指对具有相关关系的现象,根据其相关关系的具体形态,选择一个合适的数学模型(称为回归方程式),用来近似地表达变量间的平均变化关系。(二)相关分析与回归分析的联系1.相关分析需要依靠回归分析来表明现象数量相关的具体形式。2.回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。简单说:1.相关分析是回归分析的基础和前提;2.回归分析是相关分析的深入和继续。(三)相关分析与回归分析的区别

1.变量的地位相关分析中,变量之间处于平等地位;回归分析中,必须确定因变量(处在被解释的地位)、自变量(用于解释和预测因变量变化)。2.变量的性质相关分析中所涉及的变量都是随机变量;回归分析中,因变量是随机变量,自变量一般是非随机的确定变量。3.分析内容(侧重点)相关分析主要描述两个变量之间相关关系的密切程度;主要通过计算相关系数来测定。回归分析揭示变量之间数量变动的统计规律性;主要通过拟合回归方程来描述或推断。四、简单线性回归方程的求解3、条件:所分析的两个变量之间必须存在相关关系,且相关程度在显著相关以上。1、方程式为:2、回归系数b的经济涵义:当自变量变动一个单位时,因变量的平均变动值。(一)方程式(二)估计a、b的几种方法根据求出的拟合值与实际值总有误差,如果求出的a和b能使误差为最小,就是最好的。而使误差达到最小的准则,可从以下四方面考虑。1、使=min,其缺陷在于正、负误差可抵消。

2、使=min,其缺陷在于存在极端值时,不易作出正确判断,且计算不方便。

3、使=min,其缺陷在于未考虑所有观测值,且计算繁杂。

4、使=min,可消除正、负号,也便于数学处理。所以实际中常用该法,称为最小二乘法(最小平方法)。1、用最小平方法配合回归直线的基本思想是:在所有的相关点中,通过数学方法配合一条较为理想的直线,这条直线必须满足两点:⑵原数列与趋势线的离差平方和为最小值。即⑴原数列与趋势线的离差之和为零。即:(三)a、b的最小二乘估计通过求a、b的一阶偏导可得到求解a、b的联立方程:解联立方程得到:2、具体求解4544.674.4172.0248.0418.0575.0805.2972.01280.01042143844739664001210013225174241822525600207.541.444.009.6114.4425.0037.2151.8464.00

88036.4∑6286801101151321351601.22.03.13.85.06.17.28.012345678生产费用(万元)

月产量(千吨)序号例7-3-1:根据例7-2-1资料配合生产费用依产量变化的回归方程:则回归方程为:回归系数b的涵义:月产量每增加1000吨,生产费用平均增加12.9万元。计算得到:6708290100114140144耐用消费品销售额(万元)2820340380450470560620

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论