第十章相关与回归分析ppt课件_第1页
第十章相关与回归分析ppt课件_第2页
第十章相关与回归分析ppt课件_第3页
第十章相关与回归分析ppt课件_第4页
第十章相关与回归分析ppt课件_第5页
已阅读5页,还剩61页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第十章第十章 相关与回归分析相关与回归分析一、根本内容一、根本内容 第一节第一节 相关与回归分析的根本问题相关与回归分析的根本问题 相关的概念与种类、回归的概念与种相关的概念与种类、回归的概念与种类、相关分析与回归分析的区别和联络、相关类、相关分析与回归分析的区别和联络、相关分析与回归分析的作用、相关分析与回归分析分析与回归分析的作用、相关分析与回归分析的步骤的步骤第二节第二节 相关关系与一元线性回归分析相关关系与一元线性回归分析 相关系数测定,建立一元线性回归方程,回相关系数测定,建立一元线性回归方程,回归估计规范差归估计规范差 二、学习目的与要求二、学习目的与要求 经过对本章的学习,使同窗

2、们明确相关与回归经过对本章的学习,使同窗们明确相关与回归的概念、种类,相关与回归分析的作用,掌握的概念、种类,相关与回归分析的作用,掌握直线相关与简单直线回归分析的原理和计算方直线相关与简单直线回归分析的原理和计算方法。法。 三、学习重点与难点三、学习重点与难点 本章学习的重点是直线相关与简单直线回归分本章学习的重点是直线相关与简单直线回归分析的计算,难点是相关与回归在计算上的联络。析的计算,难点是相关与回归在计算上的联络。 四、授课学时:四、授课学时:4-6个学时个学时 客观景象总是普遍联络和相互依存的。客观景象之间的数量联络存在着两种不同的类型:函数关系;相关关系。 景象的函数关系可以用数

3、学分析的方法去研讨,而研讨客观景象的相关关系需用统计学中的相关与回归分析方法。第一节第一节 相关与回归分析相关与回归分析 的根本问题的根本问题 一、相关的概念与种类一、相关的概念与种类 二、回归的概念与种类二、回归的概念与种类 三、相关分析与回归分析的区别与联络三、相关分析与回归分析的区别与联络 四、相关分析与回归分析的作用四、相关分析与回归分析的作用 五、相关分析与回归分析的步骤五、相关分析与回归分析的步骤一、相关的概念与种类一、相关的概念与种类 一函数关系一函数关系 函数关系是指景象之间存在严厉的依存函数关系是指景象之间存在严厉的依存关系。关系。 二相关关系二相关关系 相关关系是指景象之间

4、存在这非严厉、相关关系是指景象之间存在这非严厉、不确定的依存关系。不确定的依存关系。景象间关系景象间关系相相关关关关系系函函数数关关系系两景象间的数量两景象间的数量按照一定规律一按照一定规律一一对应。例如:一对应。例如:2rS两景象间的数量两景象间的数量存在协变关系,存在协变关系,但却不是一一对但却不是一一对应的。例如:思应的。例如:思索施肥量与产量索施肥量与产量之间的关系。之间的关系。相关分析回归分析变量间的关系变量间的关系函数关系函数关系是一一对应确实定关系是一一对应确实定关系设有两个变量设有两个变量 x 和和 y ,变量,变量 y 随变量随变量 x 一同变化,并完一同变化,并完全依赖于全

5、依赖于 x ,当变量,当变量 x 取某取某个数值时,个数值时, y 依确定的关系依确定的关系取相应的值,那么称取相应的值,那么称 y 是是 x 的函数,记为的函数,记为 y = f (x),其,其中中 x 称为自变量,称为自变量,y 称为因称为因变量变量各观测点落在一条线上各观测点落在一条线上 变量间的关系变量间的关系函数关系函数关系变量间的关系变量间的关系相关关系相关关系变量间关系不能用函数变量间关系不能用函数关系准确表达关系准确表达一个变量的取值不能由一个变量的取值不能由另一个变量独一确定另一个变量独一确定当变量当变量 x 取某个值时,取某个值时,变量变量 y 的取值能够有几的取值能够有几

6、个个各观测点分布在直线周各观测点分布在直线周围围 变量间的关系变量间的关系相关关系相关关系l 相关关系的例子相关关系的例子l 商品的消费量商品的消费量(y)与居民收入与居民收入(x)之间的关之间的关系系l 商品销售额商品销售额(y)与广告费支出与广告费支出(x)之间的关之间的关系系l 粮食亩产量粮食亩产量(y)与施肥量与施肥量(x1) 、降雨量、降雨量(x2) 、温度、温度(x3)之间的关系之间的关系l 收入程度收入程度(y)与受教育程度与受教育程度(x)之间的关系之间的关系l 父亲身高父亲身高(y)与子女身高与子女身高(x)之间的关系之间的关系 三相关关系种类三相关关系种类 1 按变量的多少

7、,分单相关和复相关按变量的多少,分单相关和复相关 2 按相关方式不同,分线性相关和非线性按相关方式不同,分线性相关和非线性相关相关(曲线相关曲线相关) 3 按相关方向不同,分正相关和负相关按相关方向不同,分正相关和负相关 4 按相关程度的高低,分完全相关、不完按相关程度的高低,分完全相关、不完全相关和不相关全相关和不相关相关关系的图示相关关系的图示在途人数航程产量零件报废率资金占用量施肥量运转时间商品周转速度耿直线相关负直线相关指数曲线相关抛物线相关几种不同的相关关系类型二、回归的概念与种类二、回归的概念与种类 一回归一回归 英国生物学家兼统计学家高尔顿提出英国生物学家兼统计学家高尔顿提出 统

8、计学上的回归分析是指根据大量统计统计学上的回归分析是指根据大量统计数据,找出变量之间在数量变化方面的数据,找出变量之间在数量变化方面的规律。规律。一一 元元线线性性回回归归三、相关分析与回归分析的区别与联络三、相关分析与回归分析的区别与联络 1 联络:均为研讨两个或两个以上变量之联络:均为研讨两个或两个以上变量之间关系的方法。间关系的方法。 相关分析是回归分析的前提,回归分析相关分析是回归分析的前提,回归分析是相关分析的继续。无相关就无回归,是相关分析的继续。无相关就无回归,相关程度越高,回归越好;相关程度越高,回归越好; 相关系数和回归系数方向一致。相关系数和回归系数方向一致。 2 区别:区

9、别: 相关分析中相关分析中x与与y对等,回归分析中对等,回归分析中x与与y要确定自变量和因变量;要确定自变量和因变量; 相关分析中相关分析中x、y均为随机变量,回归分均为随机变量,回归分析中只需析中只需y为随机变量,为随机变量,x为普通变量;为普通变量; 相关分析用于测定景象相关程度和方向,相关分析用于测定景象相关程度和方向,回归分析用回归模型进展预测和控制。回归分析用回归模型进展预测和控制。四、相关分析与回归分析的作用四、相关分析与回归分析的作用 1 研讨经济景象之间的相关方式、相关方研讨经济景象之间的相关方式、相关方向和亲密程度,认识其数量变化的规律向和亲密程度,认识其数量变化的规律性。性

10、。 2 对经济景象进展推算和预测,为科学地对经济景象进展推算和预测,为科学地制定经济政策和管理决策提供科学根据。制定经济政策和管理决策提供科学根据。五、相关分析与回归分析的步骤五、相关分析与回归分析的步骤 1 相关关系的定性分析相关关系的定性分析 2 确定回归方程确定回归方程 3 计算相关系数,对回归方程变量之间的计算相关系数,对回归方程变量之间的相关性进展显著性检验;相关性进展显著性检验; 4 利用回归方程进展推算和预测;利用回归方程进展推算和预测; 5 对推算和预测作出置信区间估计对推算和预测作出置信区间估计第二节 相关关系与一元线性回归分析 判别景象之间有无相关关系时,先据实践情况看能否

11、有相关关系,假设有,在定性分析的根底上编制相关表,绘制相关图,最后计算相关系数。一、相关表和相关图 相关表是一种统计表,它是直接根据景象之间的原始资料,将一变量的变量值按从小到大或从大到小的顺序进展陈列,并将另一变量的值与之对应陈列构成的表格。 相关图又称散点图,它是用直角坐标系的x轴代表自变量 ,y轴代表因变量,将两个变量间相对应的变量值用坐标点的方式描画出来,用以阐明相关点分布情况的图形。10个大型工业企业销售额单位:亿元序号企 业销售额X利润额Y12345678910华东电力大庆石油华北电力华中电力武 钢上海石化北京燕化齐鲁石化宝 钢广东电力11110290856662585148432

12、522242125131812109合 计716179408090100110506070201510525YX销售额利润额10个大型工业企业销售额与利润额散点图亿元二、回归分析概述二、回归分析概述 指在相关分析的根底上,根据相关关指在相关分析的根底上,根据相关关系的数量表达式回归方程式与给定系的数量表达式回归方程式与给定的自变量的自变量x x,提示因变量,提示因变量y y在数量上的平在数量上的平均变化,并求得因变量的预测值的统计均变化,并求得因变量的预测值的统计分析方法分析方法XY为随机误差项为模型参数,与式中:XYEY)(YEXXY截距截距斜率斜率一元线性回归方程的能够形状一元线性回归方程

13、的能够形状 为正为正 为负为负 为为0 我们用样本察看值计算a、b,并用其对总体线性回归方程中的参数、做出估计,即求样本回归方程,用其对总体线性回归方程进展估计。样本回归直线方程又称一元线性回归方程,其表达式为:=a+bxXYEYbxay以样本统计量估计总体参数以样本统计量估计总体参数斜率回归系数斜率回归系数截距回归截距回归系数系数截距截距a 表示在没有自变量表示在没有自变量x的影响时,其它各的影响时,其它各种要素对因变量种要素对因变量y的影响;回归系数的影响;回归系数b 阐明自阐明自变量变量x每变动一个单位,因变量每变动一个单位,因变量y变动变动b个单位。个单位。iiiiybxayyyxbx

14、ay)(值应为的实际而变量之间的平均变动关系,变量与是理论模型,表明随机干扰:各种偶尔随机干扰:各种偶尔要素、察看误差和其要素、察看误差和其他被忽视要素的影响他被忽视要素的影响X对对y的线性影响而构的线性影响而构成的系统部分,反映两成的系统部分,反映两变量的平均变动关系,变量的平均变动关系,即本质特征。即本质特征。bxay最小平方法最小平方法根本数学要求:根本数学要求:min) (02yyyy02012min,min) (22xbxaybxaybabxayyy,有求偏导数,并令其为零、分别对函数中,有由2xbxaxyxbnayxbynxbnyaxxyyxxxxnyxxynb222)()()(4

15、08090100110506070201510525YX销售额利润额回归直线回归直线10个大型工业企业销售额与利润额散点图亿元2 15 0 22YX 10个大型工业企业销售额回归分析计算表单位:亿元序号企 业销售额X 利润额YX2XYY212345678910华东电力大庆石油华北电力华中电力武 钢上海石化北京燕化齐鲁石化宝 钢广东电力111102908566625851484325222421251318121091232110404810072254356384433642601230418492775224421601785165080610446124803876254845764416

16、2516932414410081合 计716179563681394335691521071622017922071656368101797161394310222abnXbYaXXnYXXYnb215 0 22YX 例题见课本例题见课本P248-249 r0 r0 r=0b0 b0 b=0 xyyxSSrbSSbr;三、三、 相关系数相关系数 相关系数是用以反映变量之间相关关系亲密程度的统计目的。将反映两变量间线性相关关系的统计目的称为线性相关系数简称相关系数;将反映两变量间曲线相关关系的统计目的称为非线性相关系数;将反映多元线性相关关系的统计目的称为复相关系数。 我们只引见线性相关系数。_

17、2222()()()()XYX YX X Y YnX X Y YSrS SX XnY YnX XY Y 2222YYnXXnYXXYnr简化简化公式公式XY协方差协方差X均均方方差差Y均均方方差差相关系数的计算相关系数的计算 r 的取值范围是 -1,1|r|=1 为完全相关r =1,为完全正相关r =-1 为完全负正相关 r = 0 不存在线性相关关系-1 r 0 为负相关0 r 1 为正相关|r|越趋于1表示关系越亲密;|r|越趋于0表示关系越不亲密相关关系的测度相关关系的测度相关系数取值及其意义相关系数取值及其意义0r1r1r90r30r30r8030r180r低度线性相关低度线性相关 中

18、度线性相关中度线性相关高度线性相关高度线性相关10个大型工业企业销售额相关系数计算表单位:亿元序号企 业销售额X 利润额YX2XYY212345678910华东电力大庆石油华北电力华中电力武 钢上海石化北京燕化齐鲁石化宝 钢广东电力1111029085666258514843252224212513181210912321104048100722543563844336426012304184927752244216017851650806104461248038762548457644162516932414410081合 计71617956368139433569 额之间线性高度正相关结果

19、表明销售额与利润83017935691071656368101797161394310222222 YYnXXnYXXYnr 表表8-1 我国人均国民收入与人均消费金额数据我国人均国民收入与人均消费金额数据 单位单位:元元年份年份人均人均国民收入国民收入人均人均消费金额消费金额年份年份人均人均国民收入国民收入人均人均消费金额消费金额1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71

20、429.51725.92099.56436907138039471148相关关系的测度相关关系的测度相关系数计算例相关系数计算例相关关系的测度相关关系的测度计算结果计算结果解:根据样本相关系数的计算公式有解:根据样本相关系数的计算公式有人均国民收入与人均消费金额之间的相关系人均国民收入与人均消费金额之间的相关系数为数为 0.9987998707457522639913512827771607332313745751282799915617313222222. yynxxnyxxynr相关系数的显著性检验相关系数的显著性检验检验的步骤检验的步骤 第一步,计算相关系数第一步,计算相关系数 第二步,

21、根据回归方程的自在度第二步,根据回归方程的自在度n-2和和给定的显著性程度值,从相关系数临界值查出给定的显著性程度值,从相关系数临界值查出临界值临界值r(n-2) 第三步,判别。假设第三步,判别。假设|r| r(n-2),阐明两变,阐明两变量之间线性相关关系显著,检验经过;假设量之间线性相关关系显著,检验经过;假设|r| r(n-2),阐明两变量之间线性相关关系不显,阐明两变量之间线性相关关系不显著,检验不经过。著,检验不经过。 四、估计规范误差四、估计规范误差 估计规范误差是因变量各实践值与其估计规范误差是因变量各实践值与其估计值之间的平均差别程度,阐明其估计估计值之间的平均差别程度,阐明其

22、估计值对各实践值代表性的强弱;其值越小,值对各实践值代表性的强弱;其值越小,回归方程的代表性越强,用回归方程估计回归方程的代表性越强,用回归方程估计或预测的结果越准确。可从一方面反映回或预测的结果越准确。可从一方面反映回归模型拟合的优劣情况。归模型拟合的优劣情况。22) (22nxybyaynyySenxybyaynyySe22) (五、拟合程度的评价五、拟合程度的评价总离差平方和的分解总离差平方和的分解对任一实践观测值对任一实践观测值t总有:总有: 对上式两边取平方并求和,得到:对上式两边取平方并求和,得到: 可以证明:可以证明: 从而有:从而有: 即即 ()()()()ttttttYYYY

23、YYYYe222()()()2()()tttttttYYYYYYYYYY()()0tttYYYY222()()()ttttYYYYYY上式中,是总离差平方和;是由回归直线可以解释上式中,是总离差平方和;是由回归直线可以解释的那一部分离差平方和,称为回归平方和;是用回归直线的那一部分离差平方和,称为回归平方和;是用回归直线无法解释的离差平方和,称为残差平方和。式子两边同除以无法解释的离差平方和,称为残差平方和。式子两边同除以,得:,得:显而易见,各个样本观测点与样本回归直线靠得越紧,显而易见,各个样本观测点与样本回归直线靠得越紧,SSR在在SST中所占的比例就越大。因此,可定义这一比例为决议系数

24、,中所占的比例就越大。因此,可定义这一比例为决议系数,即有:即有:决议系数是对回归模型拟合程度的综合度量,决议系数越大,模决议系数是对回归模型拟合程度的综合度量,决议系数越大,模型拟合程度越高。决议系数越小,那么模型对样本的拟合程度越型拟合程度越高。决议系数越小,那么模型对样本的拟合程度越差。差。 1SSRSSESSTSST21SSRSSErSSTSST 决议系数决议系数r2具有如下特性:具有如下特性: 1决议系数决议系数r2具有非负性。具有非负性。 由决议系数的定义式可知,由决议系数的定义式可知, r2的分子的分子分母均是不能够为负值的平方和,因此其比值分母均是不能够为负值的平方和,因此其比

25、值必大于零。但是在回归模型中不包括截距项必大于零。但是在回归模型中不包括截距项的场所,的场所, 由于总离差平方和的分解公式不成立,由于总离差平方和的分解公式不成立,按该式计算的按该式计算的r2有能够小于。有能够小于。 2决议系数的取值范围为决议系数的取值范围为 r2 。 3决议系数是样本观测值的函数,它也是一决议系数是样本观测值的函数,它也是一个统计量。个统计量。 4在一元线性回归模型中,决议系数是单相在一元线性回归模型中,决议系数是单相关系数的平方。关系数的平方。每个因变量每个因变量y y的实践值与其平均数的实践值与其平均数之间存在的离差之间存在的离差y- y- 的平方和的平方和称为总离差平

26、方和,简称总变差。称为总离差平方和,简称总变差。y总变差总变差2yySST回归变差回归变差2yySSR估计值估计值 与平均数与平均数 离差的平方和,离差的平方和,称为回归变差可解释变差。称为回归变差可解释变差。y剩余变差剩余变差2yySSE每个察看值每个察看值y与估计值与估计值 的离差平的离差平方和,称为剩余变差未解释变方和,称为剩余变差未解释变差。差。y y y10名学生的身高与体重散点图10名学生的身高与体重散点图40404545505055556060656570707575158158 160160 162162 164164 166166 168168 170170 172172 1

27、74174 176176 178178身高(X)身高(X)体重(Y)体重(Y)yy yyyyyy2)(yySST2) (yySSE2) (yySSR剩余平方和剩余平方和回归回归平方和平方和总离差平方和总离差平方和nyySST/)(22222)()(xxnyxxynSSR2)(bxaySSESST=SSR+SSE是指因变量的总变差中可以被自变量是指因变量的总变差中可以被自变量解释部分的比例,即可解释要素的影解释部分的比例,即可解释要素的影响程度。用来阐明因变量的变化有多响程度。用来阐明因变量的变化有多少可经过自变量得到解释。是衡量拟少可经过自变量得到解释。是衡量拟合模型优劣的重要分析目的。合模型

28、优劣的重要分析目的。SSTSSEyyyySSTSSRr1222r2值越大,阐值越大,阐明回归模型拟明回归模型拟合得愈优。合得愈优。2222)()( yynxxnyxxynr断定系数与相关系数的关系断定系数与相关系数的关系2rr 222222)()()(yynxxnyxxynr二者均可测定两变量的二者均可测定两变量的线性相关亲密程度线性相关亲密程度2221yeSSr2()yyn2()yyn22211yyyySSTSSEr 在回归分析中,要检验因变量在回归分析中,要检验因变量Y与自变量与自变量X间究竟有无真正的线性关间究竟有无真正的线性关系,可以经过回归系数的显著性检验系,可以经过回归系数的显著性检验t检验或回归方程的显著性检验检验或回归方程的显著性检验F检验来判别。检验来判别。目的目的回归

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论