版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第八章相关与回归分析
CorrelationRegressionAnalysis章前导语:
1、有其父,必有其子。
--------古人和现代人都这么说
2、“真的,”公爵夫人说:“火烈鸟和芥末都很刺鼻。那意思是说‘物以类聚’。”“但芥末并不是鸟。”Alice说。“是的,象往常那样,”公爵夫人说,“你具有多么清晰的表达方式!”
--------《Alice漫游奇境记》2023/12/41相关与回归分析方法介绍第八章相关与回归分析StatisticsinPractice消费者应该留下多少小费?在西方国家餐饮等服务行业有一条不成文的规定,即发生餐饮等服务项目消费时,必须给服务员一定数额的小费,许多人都听说小费应该是账单的16%左右,是否真的如此呢?让我们来考察表8-1,表中的数据是经过调查所得的样本数据,通过对这几组数据的分析与观察,我们能发现两者之间的数量关系。2023/12/42相关与回归分析方法介绍StatisticsinPractice问题:1、是否有足够的证据断定:在账单与小费数额之间存在某种联系?2、如果存在某种联系,怎样使用这种联系来确定应该留下多少小费?本章的重点就是基于成对出现的样本数据做出一些推论。如上例,我们想要确定账单与小费数额之间是否存在某种联系,如果存在,我们就想用一个公式来描述它,这样就能找出人们留小费时遵循的规则。类似这样的问题还有很多,如:(1)犯罪率与偷窃率;(2)香烟消费与患癌症率;(3)个人收入水平与受教育年限;(4)血压与年龄;(5)父母身高与子女身高;(6)薪金与酒价等等。2023/12/43相关与回归分析方法介绍主要内容8.1相关关系概述
一、变量间的相互关系二、相关关系的种类三、相关分析的内容及其假定8.2线性相关关系的测定
一、相关图表二、相关系数8.3回归分析
一、回归分析概述二、一元线性回归方程的拟合三、回归分析的方差分析四、一元线性回归模型的检验五、对回归分析结果的评价六、多元线性回归分析2023/12/44相关与回归分析方法介绍8.1
相关关系概述一、变量间的相互关系(一)函数关系定义:完全确定的(数量)关系。(1)某一(组)变量与另一变量间存在着一一对应的关系;[例]计件工资(y)与产量(x)
y=f(x)=10x;
x0=1件,y0=10元;
x1=2件,y1=20元圆的面积S=ΠR2,R=10,S=100Π(2)表述:y=f(x)。(二)相关关系1、定义:不完全确定的关系。(1)某一(组)变量与另一变量间有关系,但并非一一对应;2023/12/45相关与回归分析方法介绍一、变量间的相互关系[例]身高y与体重x;
A:x=60kg、y=170m;B:x=60kg、y=1.72m;
C:x=60kg、y=1.68m;D:x=60kg、y=1.65m。(2)表述:y=f(x)+
。影响身高的因素:体重、遗传、锻炼、睡眠质量……2、成因(1)某些影响因素尚未被认识;(2)虽已认识但无法测量;(3)测量误差。[例]某种水果P元/斤:购买额y=Px
购买量
x=2斤
y=2P+=2×1.9+0.23、数量关系的形式(1)单一因果关系;(2)互为因果关系;(3)伴随关系。2023/12/46相关与回归分析方法介绍二、相关关系的种类(一)按相关的程度分1、完全相关:函数关系;2、不相关:没有关系;3、不完全相关。(二)按相关的方向分1、正相关:变量的变动方向一致(同增同减);2、负相关:变量的变动方向相反(一增一减)。(三)按相关的形式分1、线性相关;2、非线性相关。2023/12/47相关与回归分析方法介绍二、相关关系的种类相关程度密切相关程度不密切2023/12/48相关与回归分析方法介绍二、相关关系的种类(四)按影响因素的多少分1、单(简单)相关:只有一个自变量;[例]学习成绩与学习时间;血压与年龄;亩产量与施肥量。2、复(多元)相关:两个或两个以上的自变量;[例]经济增长与人口增长、科技水平、自然资源、管理水平等之间的关系;体重与身高、食欲、睡眠时间之间的关系。3、偏相关:就多个变量测定其中两个变量的相关程度而假定其他变量不变。[例]就y=ax1+bx2+,研究y与x1之间的关系,假定x2不变。2023/12/49相关与回归分析方法介绍相关分析要解决的问题变量之间是否存在关系?如果存在关系,它们之间是什么样的关系?变量之间的关系强度如何?样本所反映的变量之间的关系能否代表总体变量之间的关系?为解决这些问题,在进行相关分析时,对总体有以下两个主要假定两个变量之间是线性关系两个变量都是随机变量三、相关分析的内容及其假定2023/12/410相关与回归分析方法介绍8.2
线性相关关系的测定[目的]测定变量间的相关方向与密切程度。一、相关图表(一)相关表1、单变量分组相关表:自变量分组且计算次数,因变量只计算平均数。2023/12/411相关与回归分析方法介绍一、相关图表2、双变量分组相关表:对自变量与因变量均进行分组。注:自变量X轴;因变量Y轴。2023/12/412相关与回归分析方法介绍正相关负相关曲线相关不相关xyxyxyxy又称散点图,用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。一、相关图表[不足]难以精确反映相关的密切程度。(二)相关图2023/12/413相关与回归分析方法介绍二、相关系数二、(线性)相关系数※(一)积差法计算公式——在线性相关的条件下,用来反映变量之间相关方向及程度的统计指标,用r(ρ)表示。2023/12/414相关与回归分析方法介绍二、相关系数[注解1]
协方差Cov(x,y)的作用1、显示x与y之间的相关方向。[正相关]2023/12/415相关与回归分析方法介绍二、相关系数[负相关]2023/12/416相关与回归分析方法介绍二、相关系数2、显示x与y之间的相关程度。[正相关]2023/12/417相关与回归分析方法介绍二、相关系数[负相关]2023/12/418相关与回归分析方法介绍二、相关系数[无线性相关]2023/12/419相关与回归分析方法介绍二、相关系数[归纳]Cov(x,y)的作用第一、显示x与y之间的相关方向第二、显示x与y之间的相关密切程度2023/12/420相关与回归分析方法介绍二、相关系数[注解2]
sx、sy的作用1、使不同变量的协方差标准化
直接对比。2023/12/421相关与回归分析方法介绍二、相关系数2、使2023/12/422相关与回归分析方法介绍二、相关系数(二)积差法相关系数的简捷计算公式2023/12/423相关与回归分析方法介绍二、相关系数[r的简捷计算公式]2023/12/424相关与回归分析方法介绍二、相关系数[r的简捷计算公式]2023/12/425相关与回归分析方法介绍二、相关系数(三)线性相关的经验判断准则[例]为了解餐饮业消费数额与小费之间的数额关系,特从若干名消费者中随机抽取10名消费者进行调查,所得数据如下:2023/12/426相关与回归分析方法介绍二、相关系数[例]计算过程。2023/12/427相关与回归分析方法介绍二、相关系数[解]答:账单消费额与小费之间存在着高度的正相关关系。2023/12/428相关与回归分析方法介绍二、相关系数
问:若令账单消费额为y,小费为x,则r的取值是否改变?2023/12/429相关与回归分析方法介绍二、相关系数(四)样本相关系数的特点1、两变量均为随机变量;2、两变量的地位是平等的rxy=ryx;3、取值范围[-1,1],其接近于1的程度与样本容量n有关。
n
小,r1。特例:当n=2时,r=1。
[例]样本(x,y)为(6,12.6),(1,3.0),n=2。2023/12/430相关与回归分析方法介绍二、相关系数(五)关于相关的普遍错误在解释关于相关的结果中会出现以下三种普遍的错误:1、相关就一定意味着因果关系。如:一项研究表明,统计学教授的薪金与每人的啤酒消费量之间有很强的正相关关系,但这两个变量都受经济形势(隐藏变量)的影响。2、相关系数为0,一定不相关。3、基于平均数进行相关分析与基于个体数据进行相关分析,其相关程度不一样。如:一项研究中,关于个人收入和教育的成对数据产生了一个0.4的线性相关系数,但当使用区域平均时,线性相关系数变为0.7。2023/12/431相关与回归分析方法介绍二、相关系数(六)线性相关的假设检验(两种方法)1、提出原假设与备择假设2、给定显著性水平α3、选择检验方法,构建检验统计量4、将检验统计量与临界值比较,如检验统计量的绝对值大于临界值,则拒绝原假设,否则,就不拒绝原假设。
t检验法
r检验法:用已经算好的r作为检验统计量,其临界值可以通过查表得到。
2023/12/432相关与回归分析方法介绍二、相关系数(六)线性相关的假设检验(两种方法)如袭前例:账单与小费之间的r=0.92,若用t检验法:
r检验法:
N=10,r=0.92,rα=0.632,∵r>rα∴拒绝原假设,则认为两者存在显著的线性相关。2023/12/433相关与回归分析方法介绍二、相关系数一些人相信他们手掌生命线的长度可以用来预测他们的寿命。
M.E.Wilson和L.E.Mather在《美国医学协会学报》上发表的一封信中,通过对尸体的研究对此给予了驳斥。死亡时的年龄与手掌生命线的长度被一起记录下来。作者得出死亡时的年龄与生命线的长度不存在显著相关的结论。手相术失传了,手也就放得下了。看手相:2023/12/434相关与回归分析方法介绍8.3
回归分析一、回归分析概述(一)概念1、[回顾]线性相关分析:计算线性相关系数r确定两变量之间的相关方向与密切程度。
[不足]无法表明两变量之间的因果关系无法从一个或几个变量(xi)的变化来推测另一个变量(y)的变化情况。
10名用餐顾客消费金额与所付小费数据如下:
r=0.922023/12/435相关与回归分析方法介绍一、回归分析概述2、回归分析:通过一个(些)变量的变化解释另一变量的变化y=a+bx、y=a+b1x1+bx2
、y=0+1x1+2x2+…+nxn[回归]英国生物学家F·Galton
首次提出。父辈身高子辈身高
xy
y=f(x)+
人类的平均身高。
[目的]在于通过X的已知或设定值,去估计或预测Y的(总体)均值。变量Y是被预测或被解释的变量,称为因变量(DependentVariable)或被解释变量(ExplainedVariable)变量X是用来预测或解释因变量的变量,称为自变量(IndependentVariable)或解释变量(ExplanatoryVariable)2023/12/436相关与回归分析方法介绍一、回归分析概述(二)回归分析的种类1、按自变量的多少分(1)简单(一元)回归:自变量只有一个。[例]y=a+bx一元回归方程(2)复(多元)回归:自变量为两个或两个以上。[例]y=0+1x1+2x2+…+nxn2、按回归方程式的特征分(1)线性回归:因变量为自变量的线性函数。[例]y=a+bx
一元线性回归方程※(2)非线性回归:因变量为自变量的非线性函数。[例]2023/12/437相关与回归分析方法介绍1.定义:描述因变量y如何依赖于自变量x和误差项
的方程称为回归模型。2.一元线性回归模型可表示为
y=b0+b1x+ey是x的线性函数(b0+b1x部分)加上误差项线性部分反映了由于x的变化而引起的y的变化误差项
是随机变量反映除了x和y之间的线性关系以外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性
0和
1称为模型的参数一、回归分析概述(三)一元线性回归模型
Ⅰ.回归模型(regressionmodel)2023/12/438相关与回归分析方法介绍3.一元线性回归模型的基本假定(1)误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的x值,y的期望值为E(y)=
0+
1x(2)对于所有的x值,ε的方差σ2都相同,即Var(εi)=E(εi2)=
2(3)误差项之间不存在自相关关系,其协方差为0,即Cov(εi,εj)=E(εiεj)=0(i
j)(4)误差项ε是一个服从正态分布的随机变量,即ε~N(0,σ2)(5)自变量是给定的变量,与随机误差项线性无关。以上这些基本假设是德国数学家高斯最早提出的,故也称为高斯假定或经典假定。一、回归分析概述2023/12/439相关与回归分析方法介绍Ⅱ.回归方程(regressionequation)定义:描述因变量y的期望值如何依赖于自变量x的方程,称为回归方程一元线性回归方程的形式如下
E(y)=
0+
1x方程的图示是一条直线,也称为直线回归方程
0是回归直线在y轴上的截距,是当x=0时,y的期望值
1是直线的斜率,表示x每变动一个单位时,y的平均变动值一、回归分析概述2023/12/440相关与回归分析方法介绍Ⅲ.估计的回归方程(estimatedregressionequation)一元线性回归中估计的回归方程为用样本统计量和代替回归方程中的未知参数和,就得到了估计的回归方程总体回归参数和
是未知的,必须利用样本数据去估计其中:是估计的回归直线在y
轴上的截距;是直线的斜率,表示x每变动一个单位时,y的平均变动值
一、回归分析概述2023/12/441相关与回归分析方法介绍一、回归分析概述(四)回归分析的步骤1、确定自变量和因变量;[例]粮食产量(y)施肥量(x);消费支出(y)国民收入(x);火灾损失额(y)火灾发生地与最近一个消防站之间的距离(x)。2、确定样本回归方程;3、参数估计与模型检验;4、预测或控制。[例]消费与收入的回归方程:y=a+bx=200+0.15x
已知x,确定y:估计或预测已知y,确定x:控制2023/12/442相关与回归分析方法介绍相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;相关分析中x、y均为随机变量,回归分析中只有y为随机变量;相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。区别:一、回归分析概述(五)回归分析与相关分析比较2023/12/443相关与回归分析方法介绍理论和方法具有一致性;相关分析是回归分析的基础和前提,无相关就无回归,相关程度越高,回归越好;回归分析是相关分析的继续和深化;相关系数和回归系数方向一致,可以互相推算。联系:一、回归分析概述(五)回归分析与相关分析比较2023/12/444相关与回归分析方法介绍二、一元线性回归方程的拟合(一)总体回归方程2023/12/445相关与回归分析方法介绍二、一元线性回归方程的拟合
Yi/Xi=条件均值+εi
=β0+β1Xi+εi2023/12/446相关与回归分析方法介绍二、一元线性回归方程的拟合(二)样本回归方程从总体中随机取样,获取一组样本观察值。2023/12/447相关与回归分析方法介绍二、一元线性回归方程的拟合[图示]2023/12/448相关与回归分析方法介绍二、一元线性回归方程的拟合(三)样本回归方程的拟合方法1、绝对值拟合法2、最小二乘法(OLS法)※基本思路:使残差平方和最小的直线“最优直线”。2023/12/449相关与回归分析方法介绍二、一元线性回归方程的拟合
总可以设法找到一对的取值,使Q为最小值。2023/12/450相关与回归分析方法介绍二、一元线性回归方程的拟合将上式代入(2)式,得2023/12/451相关与回归分析方法介绍二、一元线性回归方程的拟合[计算公式]2023/12/452相关与回归分析方法介绍二、一元线性回归方程的拟合相关系数r与回归系数之间的关系(1)两者是同向的;(2)r
反映变量的相关方向与密切程度;
反映自变量每变动一个单位时因变量的平均变动量。2023/12/453相关与回归分析方法介绍1.线性特征
是的线性函数
2.无偏特性
3.最小方差特性
在所有的线性无偏估计中,OLS估计具有最小方差
结论:在经典假定条件下,OLS估计量是最佳线性无偏估计量(bestlinearunbiasedestimator,BLUE)。(四)OLS估计量的性质(高斯—马尔柯夫定理)二、一元线性回归方程的拟合2023/12/454相关与回归分析方法介绍二、一元线性回归方程的拟合[例]为研究用餐消费与小费支出的关系,随机抽取了10位用餐顾客,得样本数据如下:请拟合小费依消费的直线回归方程样本的相关系数r=0.922023/12/455相关与回归分析方法介绍二、一元线性回归方程的拟合[例]为研究用餐消费与小费支出的关系,随机抽取了10位用餐顾客,得样本数据如下(用Excel软件生成的折线图)请拟合样本回归方程2023/12/456相关与回归分析方法介绍二、一元线性回归方程的拟合解:通过散点图可近似看出小费与用餐消费之间呈线性关系,故设两者之间关系为经济意义:餐费每增加100元,小费支出平均增加16.55元。2023/12/457相关与回归分析方法介绍三、回归方程的方差分析(一)总离差平方和的分解2023/12/458相关与回归分析方法介绍三、回归方程的方差分析由:2023/12/459相关与回归分析方法介绍三、回归方程的方差分析[离差分析]2023/12/460相关与回归分析方法介绍残差平方和回归离差平方和总离差平方和2023/12/461相关与回归分析方法介绍三、回归方程的方差分析(二)判定系数SSR占SST的比例,用表示;用来衡量回归方程对y的解释程度。2023/12/462相关与回归分析方法介绍三、回归方程的方差分析[判定系数的作用]总离差平方和SST回归平方和SSR残差平方和SSE来自样本回归线来自残差回归线上的点与样本均值离差的平方和判定系数(coefficientofdetermination)的取值范围:[0,1],越接近1,说明实际观测点离样本线越近,拟合优度越高。在给定样本中,SST不变,如果实际观测点离样本回归线越近,则SSR在SST中占的比重越大,因此回归直线的拟合优度可用下面的判定系数(可决系数)测度:实际观测点与回归线上的点的离差的平方和2023/12/463相关与回归分析方法介绍三、回归方程的方差分析(三)判定系数R2与相关系数r的关系2023/12/464相关与回归分析方法介绍判定系数与相关系数的区别判定系数无方向性,相关系数则有方向,其方向与样本回归系数β1相同;判定系数说明变量值的总离差平方和中可以用回归线来解释的比例,相关系数只说明两变量间关联程度及方向;相关系数有夸大变量间相关程度的倾向,因而判定系数是更好的度量值。三、回归方程的方差分析2023/12/465相关与回归分析方法介绍三、回归方程的方差分析(四)估计标准误差1、定义:观察值与回归值之间的平均误差。2、公式2023/12/466相关与回归分析方法介绍三、回归方程的方差分析[图示]2023/12/467相关与回归分析方法介绍
线性回归模型的检验分二大类:统计检验计量经济检验从统计学的角度检验所估计的样本回归函数的有效性从基本假设是否成立这一角度检验最小二乘估计法的适用性及其改进拟合优度检验显著性检验四、一元线性回归模型的检验
本课程只学习统计检验:
1、拟合优度检验
拟合优度检验主要用来检验样本回归函数与实际观测点的“接近”程度,可用判定系数(或相关系数、估计标准误差)测度。2023/12/468相关与回归分析方法介绍(1)线性关系的检验检验自变量与因变量之间的线性关系是否显著,即各解释变量前的参数是否不全为零。如果总体上线性关系成立,则Y的总离差平方和中,可由该线性回归函数解释的部分(系统性因素)所占比重较大,残差平方和(随机性因素)所占比重较小,从而使得回归平方和与残差平方和的比值较大。将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著其中,k表示模型中回归参数的个数,n为样本容量。2、显著性检验2023/12/469相关与回归分析方法介绍线性关系检验的步骤
提出假设H0:
1=0线性关系不显著2.
计算检验统计量F确定显著性水平
,并根据分子自由度1和分母自由度n-2找出临界值F
作出决策:若F>F
(P<α),拒绝H0;若F<F
(P>α),不拒绝H02023/12/470相关与回归分析方法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度智能硬件库存质押担保协议3篇
- 专业化危险品运输安全承诺协议模板版
- 2024建筑模板购销合同范本
- 2025年度LED广告车租赁与旅游景观点亮工程合同3篇
- 2024暑期兼职项目人力资源派遣合同3篇
- 2025版高标准承包鱼塘养殖基地管理合同3篇
- 2024智能音响控制系统设计与施工合同
- 2024某城市地铁线路扩建工程勘察设计合同
- ‘卓尔系’产品2024年度库存管理与合作合同
- 2024版房地产全程策划合同
- 高中体育与健康人教版全一册 形意强身功 课件
- 高中语文《劝学》课件三套
- 人教版一年级数学上册-教材分析
- 【企业盈利能力探析的国内外文献综述2400字】
- 佳能相机PowerShot SX60 HS使用说明书
- 《遥感原理与应用》-课程教学大纲
- GB/T 44311-2024适老环境评估导则
- 板材加工转让协议书模板
- GB 44506-2024人民警察警徽
- 2024年海南省中考历史试题
- Siemens WinCC:WinCC趋势图与历史数据技术教程.Tex.header
评论
0/150
提交评论