




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第十章第十章 相关与回归分析相关与回归分析一、基本内容一、基本内容 第一第一节节 相关与回归分析的基本问题相关与回归分析的基本问题 相关的概念与种类、回归的概念与种类、相关分析与回归分析的区相关的概念与种类、回归的概念与种类、相关分析与回归分析的区别和联系、相关分析与回归分析的作用、相关分析与回归分析的别和联系、相关分析与回归分析的作用、相关分析与回归分析的步骤步骤第二节第二节 相关关系与一元线性回归分析相关关系与一元线性回归分析 相关系数测定,建立一元线性回归方程,相关系数测定,建立一元线性回归方程,回归估计标准差回归估计标准差 二、学习目的与要求二、学习目的与要求 通过对本章的学习,使同学
2、们明确相关与回归通过对本章的学习,使同学们明确相关与回归的概念、种类,相关与回归分析的作用,掌握的概念、种类,相关与回归分析的作用,掌握直线相关与简单直线回归分析的原理和计算方直线相关与简单直线回归分析的原理和计算方法。法。 三、学习重点与难点三、学习重点与难点 本章学习的重点是直线相关与简单直线回归分本章学习的重点是直线相关与简单直线回归分析的计算,难点是相关与回归在计算上的联系。析的计算,难点是相关与回归在计算上的联系。 四、授课学时:四、授课学时:4-6个学时个学时 客观现象总是普遍联系和相互依存客观现象总是普遍联系和相互依存的。客观现象之间的数量联系存在着两的。客观现象之间的数量联系存
3、在着两种不同的类型:种不同的类型:函数关系函数关系;相关关系相关关系。 现象的函数关系可以用数学分析的方现象的函数关系可以用数学分析的方法去研究,而研究客观现象的相关关系法去研究,而研究客观现象的相关关系需用统计学中的需用统计学中的相关与回归分析方法相关与回归分析方法。第一节第一节 相关与回归分析相关与回归分析 的基本问题的基本问题 一、相关的概念与种类一、相关的概念与种类 二、回归的概念与种类二、回归的概念与种类 三、相关分析与回归分析的区别与联系三、相关分析与回归分析的区别与联系 四、相关分析与回归分析的作用四、相关分析与回归分析的作用 五、相关分析与回归分析的步骤五、相关分析与回归分析的
4、步骤一、相关的概念与种类一、相关的概念与种类 (一)函数关系(一)函数关系 函数关系是指现象之间存在严格的依存函数关系是指现象之间存在严格的依存关系。关系。 (二)相关关系(二)相关关系 相关关系是指现象之间存在这非严格、相关关系是指现象之间存在这非严格、不确定的依存关系。不确定的依存关系。现象间关系现象间关系相相关关关关系系函函数数关关系系两现象间的数量两现象间的数量按照一定规律一按照一定规律一一对应。例如一对应。例如:2rS两现象间的数量两现象间的数量存在协变关系,存在协变关系,但却不是一一对但却不是一一对应的。例如:考应的。例如:考虑施肥量与产量虑施肥量与产量之间的关系。之间的关系。相关
5、分析回归分析变量间的关系变量间的关系(函数关系)是一一对应的确定关系是一一对应的确定关系设有两个变量设有两个变量 x 和和 y ,变量,变量 y 随变量随变量 x 一起变化,并完一起变化,并完全依赖于全依赖于 x ,当变量,当变量 x 取某取某个数值时,个数值时, y 依确定的关系依确定的关系取相应的值,则称取相应的值,则称 y 是是 x 的的函数,记为函数,记为 y = f (x),其中,其中 x 称为自变量,称为自变量,y 称为因变量称为因变量各观测点落在一条线上各观测点落在一条线上 变量间的关系变量间的关系(函数关系)(函数关系)函数关系的例子函数关系的例子某种商品的销售额某种商品的销售
6、额(y)与销售量与销售量(x)之间的关之间的关系可表示为系可表示为 y = p x (p 为单价为单价)圆的面积圆的面积(S)与半径之间的关系可表示为与半径之间的关系可表示为S = R2 企业的原材料消耗额企业的原材料消耗额(y)与产量与产量(x1) 、单位产、单位产量消耗量消耗(x2) 、原材料价格、原材料价格(x3)之间的关系可之间的关系可表示为表示为y = x1 x2 x3 变量间的关系变量间的关系(相关关系)(相关关系)变量间关系不能用函数变量间关系不能用函数关系精确表达关系精确表达一个变量的取值不能由一个变量的取值不能由另一个变量唯一确定另一个变量唯一确定当变量当变量 x 取某个值时
7、,取某个值时,变量变量 y 的取值可能有几的取值可能有几个个各观测点分布在直线周各观测点分布在直线周围围 变量间的关系变量间的关系(相关关系)l 相关关系的例子相关关系的例子商品的消费量商品的消费量(y)与居民收入与居民收入(x)之间的关系之间的关系商品销售额商品销售额(y)与广告费支出与广告费支出(x)之间的关系之间的关系粮食亩产量粮食亩产量(y)与施肥量与施肥量(x1) 、降雨量、降雨量(x2) 、温度温度(x3)之间的关系之间的关系收入水平收入水平(y)与受教育程度与受教育程度(x)之间的关系之间的关系父亲身高父亲身高(y)与子女身高与子女身高(x)之间的关系之间的关系 (三)相关关系种
8、类(三)相关关系种类 1 按变量的多少,分单相关和复相关按变量的多少,分单相关和复相关 2 按相关形式不同,分线性相关和非线性按相关形式不同,分线性相关和非线性相关相关(曲线相关曲线相关) 3 按相关方向不同,分正相关和负相关按相关方向不同,分正相关和负相关 4 按相关程度的高低,分完全相关、不完按相关程度的高低,分完全相关、不完全相关和不相关全相关和不相关相关关系的图示相关关系的图示在途人数航程产量零件报废率资金占用量施肥量运转时间商品周转速度正直线相关负直线相关指数曲线相关抛物线相关几种不同的相关关系类型二、回归的概念与种类二、回归的概念与种类 (一)回归(一)回归 英国生物学家兼统计学家
9、高尔顿提出英国生物学家兼统计学家高尔顿提出 统计学上的回归分析是指根据大量统计统计学上的回归分析是指根据大量统计数据,找出变量之间在数量变化方面的数据,找出变量之间在数量变化方面的规律。规律。一一 元元线线性性回回归归三、相关分析与回归分析的区别与联系三、相关分析与回归分析的区别与联系 1 联系:均为研究两个或两个以上变量之联系:均为研究两个或两个以上变量之间关系的方法。间关系的方法。 相关分析是回归分析的前提,回归分析相关分析是回归分析的前提,回归分析是相关分析的继续。无相关就无回归,是相关分析的继续。无相关就无回归,相关程度越高,回归越好;相关程度越高,回归越好; 相关系数和回归系数方向一
10、致。相关系数和回归系数方向一致。 2 区别:区别: 相关分析中相关分析中x与与y对等,回归分析中对等,回归分析中x与与y要确定自变量和因变量;要确定自变量和因变量; 相关分析中相关分析中x、y均为随机变量,回归分均为随机变量,回归分析中只有析中只有y为随机变量,为随机变量,x为一般变量;为一般变量; 相关分析用于测定现象相关程度和方向,相关分析用于测定现象相关程度和方向,回归分析用回归模型进行预测和控制。回归分析用回归模型进行预测和控制。四、相关分析与回归分析的作用四、相关分析与回归分析的作用 1 研究经济现象之间的相关形式、相关方研究经济现象之间的相关形式、相关方向和密切程度,认识其数量变化
11、的规律向和密切程度,认识其数量变化的规律性。性。 2 对经济现象进行推算和预测,为科学地对经济现象进行推算和预测,为科学地制定经济政策和管理决策提供科学依据。制定经济政策和管理决策提供科学依据。五、相关分析与回归分析的步骤五、相关分析与回归分析的步骤 1 相关关系的定性分析相关关系的定性分析 2 确定回归方程确定回归方程 3 计算相关系数,对回归方程变量之间的计算相关系数,对回归方程变量之间的相关性进行显著性检验;相关性进行显著性检验; 4 利用回归方程进行推算和预测;利用回归方程进行推算和预测; 5 对推算和预测作出置信区间估计对推算和预测作出置信区间估计第二节 相关关系与一元线性回归分析
12、判断现象之间有无相关关系时,先据实判断现象之间有无相关关系时,先据实际情况看是否有相关关系,若有,在定际情况看是否有相关关系,若有,在定性分析的基础上编制相关表,绘制相关性分析的基础上编制相关表,绘制相关图,最后计算相关系数图,最后计算相关系数。一、相关表和相关图 相关表是一种统计表,它是直接根据现象相关表是一种统计表,它是直接根据现象之间的原始资料,将一变量的变量值按从小到之间的原始资料,将一变量的变量值按从小到大(或从大到小)的顺序进行排列,并将另一大(或从大到小)的顺序进行排列,并将另一变量的值与之对应排列形成的表格。变量的值与之对应排列形成的表格。 相关图又称散点图,它是用直角坐标系的
13、相关图又称散点图,它是用直角坐标系的x轴代表自变量轴代表自变量 ,y轴代表因变量,将两个变量轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。用以表明相关点分布状况的图形。10个大型工业企业销售额(单位:亿元)序号企 业销售额X利润额Y12345678910华东电力大庆石油华北电力华中电力武 钢上海石化北京燕化齐鲁石化宝 钢广东电力11110290856662585148432522242125131812109合 计716179408090100110506070201510525YX销售额利润额10个大型工
14、业企业销售额与利润额散点图(亿元)二、回归分析概述二、回归分析概述 指在相关分析的基础上,根据相指在相关分析的基础上,根据相关关系的数量表达式(回归方程式)关关系的数量表达式(回归方程式)与给定的与给定的自变量自变量x x,揭示,揭示因变量因变量y y在在数量上的平均变化,并求得因变量数量上的平均变化,并求得因变量的预测值的统计分析方法的预测值的统计分析方法XY为随机误差项为模型参数,与式中:XYEY)(YEXXY截距截距斜率斜率一元线性回归方程的可能形态一元线性回归方程的可能形态 为正为正 为负为负 为为0 我们用样本观察值计算我们用样本观察值计算a a、b,b,并用其对总体线性回归方程并用
15、其对总体线性回归方程中的参数中的参数、做出估计,即做出估计,即求样本回归方程,用其对总体求样本回归方程,用其对总体线性回归方程进行估计。样本线性回归方程进行估计。样本回归直线方程又称一元线性回回归直线方程又称一元线性回归方程,其表达式为:归方程,其表达式为:=a+bx=a+bxXYEYbxay以样本统计量估计总体参数以样本统计量估计总体参数斜率(回归系数)斜率(回归系数)截距(回归截距(回归系数)系数)截距截距a 表示在没有自变量表示在没有自变量x的影响时,其它各的影响时,其它各种因素对因变量种因素对因变量y的影响;的影响;回归系数回归系数b 表明自表明自变量变量x每变动一个单位,因变量每变动
16、一个单位,因变量y变动变动b个单个单位。位。iiiiybxayyyxbxay)(值应为的实际而变量之间的平均变动关系,变量与是理论模型,表明随机干扰:随机干扰:各种偶然各种偶然因素、观察误差和其因素、观察误差和其他被忽视因素的影响他被忽视因素的影响X对对y的线性影响而形的线性影响而形成的系统部分,反映两成的系统部分,反映两变量的平均变动关系,变量的平均变动关系,即本质特征。即本质特征。bxay最小平方法最小平方法基本数学要求:基本数学要求:min) (02yyyy02012min,min) (22xbxaybxaybabxayyy,有求偏导数,并令其为零、分别对函数中,有由2xbxaxyxbn
17、ayxbynxbnyaxxyyxxxxnyxxynb222)()()(408090100110506070201510525YX销售额利润额回归直线回归直线10个大型工业企业销售额与利润额散点图(亿元)2 15 0 22YX 10个大型工业企业销售额回归分析计算表(单位:亿元)序号企 业销售额X 利润额YX2XYY212345678910华东电力大庆石油华北电力华中电力武 钢上海石化北京燕化齐鲁石化宝 钢广东电力11110290856662585148432522242125131812109123211040481007225435638443364260123041849277522442
18、16017851650806104461248038762548457644162516932414410081合 计716179563681394335691521071622017922071656368101797161394310222abnXbYaXXnYXXYnb215 0 22YX 例题见课本例题见课本P194-195 r0 r0 r=0b0 b0 b=0 xyyxSSrbSSbr;三、三、 相关系数相关系数 相关系数是用以反映变量之间相关相关系数是用以反映变量之间相关关系密切程度的统计指标。关系密切程度的统计指标。将反映两变将反映两变量间线性相关关系的统计指标称为线性量间线性相
19、关关系的统计指标称为线性相关系数(简称相关系数);相关系数(简称相关系数);将反映两将反映两变量间曲线相关关系的统计指标称为非变量间曲线相关关系的统计指标称为非线性相关系数;将反映多元线性相关关线性相关系数;将反映多元线性相关关系的统计指标称为复相关系数系的统计指标称为复相关系数。 我们只介绍线性相关系数。我们只介绍线性相关系数。_2222()()()()XYX YX X Y Y nX X Y YSrS SX XnY YnX XY Y 2222YYnXXnYXXYnr简化简化公式公式XY协方差协方差X均均方方差差Y均均方方差差相关系数的计算相关系数的计算相关系数取值及其意义相关系数取值及其意义
20、 r 的取值范围是的取值范围是 -1,1|r|=1 为完全相关为完全相关r =1,为完全正相关,为完全正相关r =-1 为完全负正相关为完全负正相关 r = 0 不存在线性相关关系不存在线性相关关系-1 r 0 为负相关为负相关0 r 1 为正相关为正相关|r|越趋于越趋于1表示关系越密切;表示关系越密切;|r|越趋于越趋于0表示关系越表示关系越不密切不密切相关关系的测度相关关系的测度(相关系数取值及其意义)0r1r1r90r30r30r8030r180r低度线性相关低度线性相关 中度线性相关中度线性相关高度线性相关高度线性相关10个大型工业企业销售额相关系数计算表(单位:亿元)序号企 业销售
21、额X 利润额YX2XYY212345678910华东电力大庆石油华北电力华中电力武 钢上海石化北京燕化齐鲁石化宝 钢广东电力1111029085666258514843252224212513181210912321104048100722543563844336426012304184927752244216017851650806104461248038762548457644162516932414410081合 计71617956368139433569 额之间线性高度正相关结果表明销售额与利润83017935691071656368101797161394310222222 YYnX
22、XnYXXYnr 表表8-1 我国人均国民收入与人均消费金额数据我国人均国民收入与人均消费金额数据 单位单位:元元年份年份人均人均国民收入国民收入人均人均消费金额消费金额年份年份人均人均国民收入国民收入人均人均消费金额消费金额1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148相关关系的测度相关关系的测度(相关系
23、数计算例)相关关系的测度相关关系的测度(计算结果)解:解:根据样本相关系数的计算公式有根据样本相关系数的计算公式有人均国民收入与人均消费金额之间的相关系人均国民收入与人均消费金额之间的相关系数为数为 0.9987998707457522639913512827771607332313745751282799915617313222222. yynxxnyxxynr相关系数的显著性检验(相关系数的显著性检验(P196)检验的步骤检验的步骤 第一步,计算相关系数第一步,计算相关系数 第二步,根据回归方程的自由度(第二步,根据回归方程的自由度(n-2)和给定)和给定的显著性水平值,从相关系数临界值查
24、出临界的显著性水平值,从相关系数临界值查出临界值值t/2(n-2) 第三步,判别。如果第三步,判别。如果| |t| t/2 (n-2),表明两变,表明两变量之间线性相关关系显著,检验通过;如果量之间线性相关关系显著,检验通过;如果| |t| | t/2 (n-2),表明两变量之间线性相关关系不显,表明两变量之间线性相关关系不显著,检验不通过。著,检验不通过。 四、估计标准误差四、估计标准误差 估计标准误差是因变量各实际值与其估计标准误差是因变量各实际值与其估计值之间的平均差异程度,表明其估计估计值之间的平均差异程度,表明其估计值对各实际值代表性的强弱;其值越小,值对各实际值代表性的强弱;其值越
25、小,回归方程的代表性越强,用回归方程估计回归方程的代表性越强,用回归方程估计或预测的结果越准确。可从一方面反映回或预测的结果越准确。可从一方面反映回归模型拟合的优劣状况。归模型拟合的优劣状况。22) (22nxybyaynyySenxybyaynyySe22) (五、拟合程度的评价五、拟合程度的评价 总离差平方和的分解总离差平方和的分解对任一实际观测值对任一实际观测值t总有:总有: 对上式两边取平方并求和,得到:对上式两边取平方并求和,得到: 可以证明:可以证明: 从而有:从而有: 即即 ()()()()ttttttYYYYYYYYe222()()()2()()tttttttYYYYYYYYY
26、Y()()0tttYYYY222()()()ttttYYYYYY上式中,上式中,是总离差平方和;是由回归直线可以解释是总离差平方和;是由回归直线可以解释的那一部分离差平方和,称为回归平方和;是用回归直线的那一部分离差平方和,称为回归平方和;是用回归直线无法解释的离差平方和,称为残差平方和无法解释的离差平方和,称为残差平方和。式子两边同除以。式子两边同除以,得:,得:显而易见,显而易见,各个样本观测点与样本回归直线靠得越紧,各个样本观测点与样本回归直线靠得越紧,SSR在在SST中所占的比例就越大中所占的比例就越大。因此,可定义这一比例为决定系数,。因此,可定义这一比例为决定系数,即有:即有:决定
27、系数是对回归模型拟合程度的综合度量,决定系数越大,模决定系数是对回归模型拟合程度的综合度量,决定系数越大,模型拟合程度越高。决定系数越小,则模型对样本的拟合程度越差型拟合程度越高。决定系数越小,则模型对样本的拟合程度越差。 1SSRSSESSTSST21SSRSSErSSTSST 决定系数决定系数r2具有如下特性:具有如下特性:1决定系数决定系数r2具有非负性具有非负性。 由决定系数的定义式可知,由决定系数的定义式可知, r2的分子分母均是的分子分母均是不可能为负值的平方和,因此其比值必大于零。不可能为负值的平方和,因此其比值必大于零。(但是在回归模型中不包括截距项的场合,(但是在回归模型中不
28、包括截距项的场合, 由于总由于总离差平方和的分解公式不成立,按该式计算的离差平方和的分解公式不成立,按该式计算的r2有有可能小于。可能小于。 )2决定系数的取值范围为决定系数的取值范围为 r2 。3决定系数是样本观测值的函数,它也是一个统计决定系数是样本观测值的函数,它也是一个统计量。量。4在一元线性回归模型中,决定系数是单相关系数在一元线性回归模型中,决定系数是单相关系数的平方。的平方。每个因变量每个因变量y y的实际值与其平均数的实际值与其平均数之间存在的离差(之间存在的离差(y- y- )的平方和)的平方和称为总离差平方和,简称总变差。称为总离差平方和,简称总变差。y总变差总变差2yyS
29、ST回归变差回归变差2yySSR估计值估计值 与平均数与平均数 离差的平方和,离差的平方和,称为回归变差(可解释变差)。称为回归变差(可解释变差)。y剩余变差剩余变差2yySSE每个观察值每个观察值y与估计值与估计值 的离差平的离差平方和,称为剩余变差(未解释变方和,称为剩余变差(未解释变差。差。y y y10名学生的身高与体重散点图10名学生的身高与体重散点图40404545505055556060656570707575158158 160160 162162 164164 166166 168168 170170 172172 174174 176176 178178身高(X)身高(X)
30、体重(Y)体重(Y)yy yyyyyy2)(yySST2) (yySSE2) (yySSR剩余平方和剩余平方和回归回归平方和平方和总离差平方和总离差平方和nyySST/)(22222)()(xxnyxxynSSR2)(bxaySSESST=SSR+SSE是指因变量的总变差中可以被自变量是指因变量的总变差中可以被自变量解释部分的比例,即可解释因素的影解释部分的比例,即可解释因素的影响程度。用来说明因变量的变化有多响程度。用来说明因变量的变化有多少可通过自变量得到解释。是衡量拟少可通过自变量得到解释。是衡量拟合模型优劣的重要分析指标。合模型优劣的重要分析指标。SSTSSEyyyySSTSSRr12
31、22r2值越大,说值越大,说明回归模型拟明回归模型拟合得愈优。合得愈优。2222)()( yynxxnyxxynr判定系数与相关系数的关系判定系数与相关系数的关系2rr 222222)()()(yynxxnyxxynr二者均可测定两变量的二者均可测定两变量的线性相关密切程度线性相关密切程度无方向性(不能反映负相关),无方向性(不能反映负相关),则有方向,其方向与样本回归系则有方向,其方向与样本回归系数数 b 相同(可反映正相关,也可反映负相同(可反映正相关,也可反映负相关);相关);说明变量值的总离差平方和中说明变量值的总离差平方和中可以用回归线来解释的比例,可以用回归线来解释的比例,只只说明两变量间关联程度及方向。说明两变量间关联程度及方向。2221yeSSr2()yyn2()yyn22211yyyySSTSSEr 在回归分析中,要检验因变量在回归分析中,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 3.1温度说课稿 2025年初中 人教版物理八年级上册
- 《跨境电商》课件-3.其他平台注册
- 《Linux操作系统》课件-10.Linux进程管理
- 高质量三农田水利设施建设指南
- 农民创业创新培训作业指导书
- 沉淀池施工安全措施
- 蛋糕店项目可行性研究报告
- 机场工程车辆租赁合同范本
- 二零二五年度北京市网吧装修工程网络设备采购合同
- 加油站安全管理预案
- 统计法律知识培训课件
- 活动三《垃圾“流浪”记》(教学设计)-2023-2024学年三年级下册综合实践活动沪科黔科版
- 2025年2月广东省深圳市罗湖区联考初三年级质量检测英语试卷(含答案)
- 政治-广西壮族自治区考阅评·2025届(年)2月高三毕业班联合调研测试试题和答案
- 2025年合伙协议模板
- 2025年南京铁道职业技术学院单招职业适应性测试题库及答案一套
- 对外汉语综合课教案集成
- 北京市朝阳区2024-2025学年高一上学期期末质量检测数学试题【含答案解析】
- 2025年南京科技职业学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 信息系统监理师教程笔记版
- 龙门吊拆除合同
评论
0/150
提交评论