统计学第九章相关与回归_第1页
统计学第九章相关与回归_第2页
统计学第九章相关与回归_第3页
统计学第九章相关与回归_第4页
统计学第九章相关与回归_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计学第九章相关与回归第一页,共五十页,2022年,8月28日联系与相互影响是普遍的现象受教育的水平工作后的收入预防疾病支出疾病的发病率事物相互间关系的质的解释:自然的、社会的、经济的、心理的…事物相互间关系的量的分析:两变量或多变量间的数量关系。在可以解释的质的关系基础上进行相关分析和回归分析《统计学》第九章相关与回归第九章相关与回归第二页,共五十页,2022年,8月28日相关分析的意义第一节相关分析概述社会经济现象中,一些现象与另一些现象之间往往存在着依存关系,当我们用变量来反映这些现象的的特征时,便表现为变量之间的依存关系。

在分析变量的依存关系时,我们把变量分为两种:自变量因变量引起其他变量发生变化的量。受自变量的影响发生对应变化的量第三页,共五十页,2022年,8月28日现象之间的相互关系,可以概括为两种不同的类型:(一)函数关系(二)相关关系例如:家庭收入决定消费支出,收入的变化必然引起消费支出的变化,这两个变量中收入是自变量,而消费支出则是因变量。相关分析的意义第四页,共五十页,2022年,8月28日函数关系指变量之间存在着确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量必然有一个确定值与之对应。函数关系可以用一个确定的公式,即函数式来表示。或:Y=F(X)第五页,共五十页,2022年,8月28日相关关系指变量之间存在着非确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量可能有多个不同值与之对应。例2、根据消费理论,商品需求量Q与商品价格P、居民收入I之间具有相关关系:相关关系可用统计模型:或:Y=F(X)+ε式中,为影响Y的除X外的其他随机因素。第六页,共五十页,2022年,8月28日单相关是两个变量之间存在的相关关系,即一个因变量与一个自变量之间的依存关系。因此也称为一元相关。复相关

也称多元相关,是指三个或三个以上变量之间存在的相关关系,通常涉及一个因变量与两个或更多个自变量,也称多元相关。相关关系的种类:1、按相关关系涉及的影响变量多少可分为:第七页,共五十页,2022年,8月28日直线相关当自变量X值每变动一个单位,因变量Y值则随着发生大致均等的变动,这就是直线相关。亦称为简单相关或一元线性相关。曲线相关当自变量X值每变动一个单位,因变量Y值则随之发生不均等的变化,这就曲线相关。亦称为一元非线性相关。相关关系的种类:2、按相关关系的表现形式可分为:第八页,共五十页,2022年,8月28日正相关当自变量X值增加(或减少)时,因变量Y值也随之增加(或减少),这样的相关关系就是正相关,也叫同向相关。负相关当自变量X的值增加(或减少)时,因变量Y的值随之而减少(或增加),这样的相关关系就是负相关,也叫异向相关。相关关系的种类:3、按线形相关的变动方向可分为:第九页,共五十页,2022年,8月28日线性正相关《统计学》第九章相关与回归第十页,共五十页,2022年,8月28日线性负相关非线性相关时间第十一页,共五十页,2022年,8月28日无(不)相关第十二页,共五十页,2022年,8月28日相关关系的种类:4、按相关关系的密切程度分为:完全相关因变量完全随自变量变动而变动,存在着严格的依存关系。即变量间的关系为函数关系。不完全相关变量之间存在着不严格的依存关系,即因变量的变动除了受自变量变动的影响外,还受其他因素的影响。它是相关关系的主要表现形式。完全不相关自变量与因变量彼此独立,互不影响,其数量变化毫无联系。。第十三页,共五十页,2022年,8月28日(1)确定现象之间有无相关关系,以及相关关系的表现形态。(2)确定相关关系的密切程度。(3)确定相关关系的数字模型,并进行参数估计和拟合优度检验。(4)回归预测,并分析估计标准误差。相关分析的主要内容包括:第十四页,共五十页,2022年,8月28日相关关系的测定定性分析是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断定量分析在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度第十五页,共五十页,2022年,8月28日在直线相关的条件下,用以反映两变量间线性相关密切程度的统计指标,用r表示相关系数其基本算法是英国统计学家皮尔逊所创的乘积动差法,简称积差法。相关关系的定量测定第十六页,共五十页,2022年,8月28日相关系数r的取值范围:-1≤r≤10<|r|<1表示存在不同程度线性相关:

|r|

<

0.3为弱相关;0.3≤|r|

<0.5为低度线性相关;0.5≤|r|

<0.8为显著线性相关;0.8≤|r|

<1.0为高度线性相关。r>0为正相关,r<0为负相关;|r|=0表示不存在线性关系;|r|=1表示完全线性相关;第十七页,共五十页,2022年,8月28日序号能源消耗量(十万吨)x工业总产值(亿元)yx2y2xy1234567891011121314151635384042495254596264656869717276242524283231374041404750495148581225144416001764240127042916348138444096422546244761504151845776576625576784102496113691600168116002209250024012601230433648409509601176156816121998236025422560305534003381362134564408合计916625550862617537887第十八页,共五十页,2022年,8月28日【例】计算工业总产值与能源消耗量之间的相关系数资料结论:工业总产值与能源消耗量之间存在高度的正相关关系,能源消耗量x的变化能够解释工业总产值y变化的95.2﹪。相关系数的计算第十九页,共五十页,2022年,8月28日相关关系不等于因果关系;相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系;极端值可能影响相关系数。注意相关关系成立的数据范围。警惕虚假相关使用相关系数时应注意的问题:《统计学》第九章相关与回归第二十页,共五十页,2022年,8月28日回归:退回regression1877年弗朗西斯•高尔顿爵士遗传学研究回归线平均身高《统计学》第九章相关与回归第二节简单线性回归模型第二十一页,共五十页,2022年,8月28日回归分析法产生的历史回归分析法。由著名的英国生物学家、统计学家高尔顿(F.Gallton)——达尔文的表弟所创。早年,高尔顿致力于化学和遗传学领域的研究。他研究父亲们的身高与儿子们的身高之间的关系时,建立了回归分析法。第二十二页,共五十页,2022年,8月28日父亲们的身高与儿子们的身高之间

关系的研究1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式下图是根据1078个家庭的调查所作的散点图(略图)回归分析法产生的历史第二十三页,共五十页,2022年,8月28日160165170175180185140150160170180190200YX儿子们身高向着平均身高“回归”,以保持种族的稳定回归分析法产生的历史第二十四页,共五十页,2022年,8月28日从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下:如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”——见1889年F.Gallton的论文《普用回归定律》。后人将此种方法普遍用于寻找变量之间的规律回归分析法产生的历史第二十五页,共五十页,2022年,8月28日第二节简单线性回归模型回归分析通过一个变量x或一些变量(x1,x2,x3…)的变化解释另一变量y的变化.即根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化和求得因变量的预测值的统计分析方法回归:退回regression回归方程回归模型反映自变量和因变量之间数学联系的表达式。某一类回归方程的总称。第二十六页,共五十页,2022年,8月28日自变量(independentvariable):解释变量,给定的或可以控制的、用来解释、预测应变量的变量。因变量(dependentvariable):响应变量,由自变量来解释其变化的变量。XYXY••••••••《统计学》第九章相关与回归第二十七页,共五十页,2022年,8月28日回归分析的内容和步骤1、根据理论和对问题的分析判断,区分自变量和因变量;2、设法找出适合的数学方程式(即回归模型)描述变量间的关系3、对回归模型进行统计检验;4、统计检验通过后,利用回归模型,根据解释变量去估计,预测因变量。第二十八页,共五十页,2022年,8月28日回归分析的分类根据变量的多少分为:简单回归多元回归只有一个自变量和一个因变量的回归自变量数目在两个或两个以上根据建立的回归模型形式分为:线性回归非线性回归从所拟合的回归模型来看,一变量表现为其它变量的线性组合。从所拟合的回归模型来看,一变量表现为其它变量的非线性组合第二十九页,共五十页,2022年,8月28日回归分析与相关分析理论和方法具有一致性;无相关就无回归,相关程度越高,回归越好;

相关系数和回归系数方向一致,可以互相推算。联系:第三十页,共五十页,2022年,8月28日相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;相关分析中x、y均为随机变量,回归分析中只有y为随机变量;相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。回归分析与相关分析区别:第三十一页,共五十页,2022年,8月28日总体一元线性回归模型:模型参数误差项假定:E()=0总体一元线性回归方程:《统计学》第九章相关与回归第三十二页,共五十页,2022年,8月28日简单线性回归模型指根据成对的两个变量的数值,配合直线方程式,根据自变量的变动,来推算因变量发展变动趋势的方法,其模型为:其中:Yi表示因变量Y在总体中某一个具体的观察值;Xi表示在研究总体中自变量X的具体观察数值;A与B是参数,称为回归系数;εi是一个随机变量,其平均数为0,方差为σ2.总体回归模型第三十三页,共五十页,2022年,8月28日在实际应用中,我们对X和Y所代表的总体往往不可能全面的观察和了解,而只能从中抽取部分资料作为样本,并通过样本提供的信息来认识总体,找出总体回归模型的估计式,其估计式的方程式可写为:简单线性回归模型其中:a,b和ei分别为A、B及εi的估计量。由于抽样的随机性,使样本回归线不可能与总体回归完全重合,从而会出现样本回归函数高估或低估总体回归函数的情况,我们能做的就是设法使样本回归函数尽可能接近总体回归函数,也就是说要使回归方程参数的估计值a、b尽量接近总体真实参数A、B。样本回归模型第三十四页,共五十页,2022年,8月28日一元线性回归方程的几何意义截距斜率一元线性回归方程的可能形态为正为负为0回归直线的拟合第三十五页,共五十页,2022年,8月28日总体一元线性回归方程:样本一元线性回归方程:以样本统计量估计总体参数斜率(回归系数)截距截距a表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数b表明自变量x每变动一个单位,因变量y平均变动b个单位。(估计的回归方程)第三十六页,共五十页,2022年,8月28日随机干扰:各种偶然因素、观察误差和其他被忽视因素的影响X对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。第三十七页,共五十页,2022年,8月28日一元线性回归方程中参数a、b的确定:最小平方法基本数学要求第三十八页,共五十页,2022年,8月28日整理得到由两个关于a、b的二元一次方程组成的方程组:进一步整理,有:第三十九页,共五十页,2022年,8月28日学生身高x体重yx2y2xy估计值ŷABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.29149.44851.60653.76455.92158.07960.23662.39464.55266.70916705702792203303295546-第四十页,共五十页,2022年,8月28日【分析】因为工业总产值与能源消耗量之间存在高度正相关关系(),所以可以拟合工业总产值对能源消耗量的线性回归方程。【例】建立工业总产值对能源消耗量的线性回归方程资料解:设线性回归方程为第四十一页,共五十页,2022年,8月28日即线性回归方程为:计算结果表明,在其他条件不变时,能源消耗量每增加一个单位(十万吨),工业总产值将增加0.7961个单位(亿元)。第四十二页,共五十页,2022年,8月28日回归方程的估计与预测估计的前提:回归方程经过检验,证明X和Y

的关系在统计上是显著相关的。对于给定的

X

值,求出Y平均值的一个估计值或Y

的一个个别值的预测值。对于给定的X值,求出Y

的平均值的置信区间或Y

的一个个别值的预测区间。点估计区间估计第四十三页,共五十页,2022年,8月28日点估计若x=80(十万吨),则:第四十四页,共五十页,2022年,8月28日估计的前提:回归方程经过检验,证明X和Y

的关系在统计上是显著的。回归分析的点估计:对于给定的

X

值,求出Y平均值的一个估计值或Y

的一个个别值。若x=169,则:《统计学》第九章相关与回归第四十五页,共五十页,2022年,8月28日利用点估计得到的Y平均值的点估计值和Y的一个个别值其结果是相同的。点估计不能提供估计量的精确度。在样本自变量取值范围之外进行预测要特别谨慎。《统计学》第九章相关与回归使用点估计应注意的问题:第四十六页,共五十页,2022年,8月28日课后练习:1.若按影响因素的多少划分,相关关系分为

相关和

相关。2.当变量x值增加,变量y值也增加,这是

相关关系;当变量x值减少,变量y值也减少,这是

相关关系。3.直观而形象地显示现象间的相关关系的方法有

。4.现象的单相关关系从形式看有

两种。5.

相关系数是测定变量之间

的代表性指标。6.相关系数是在

相关条件下用来说明两个变量相关

的统计分析指标。7.

完全相关的关系即

关系,其相关系数为

。8.相关系数绝对值的大小反映相关的

,相关系数的正负反映相关的

。9.计算相关系数的两个变量都是

变量,相关系数的取值范围是

。第四十七页,共五十页,2022年,8月28日10.当变量x值增加时,变量y值随之下降,那么变量x与变量y之间存在着()

A.直线相关关系B.正相关关系C.负相关关系D.曲线相关关系11.下列哪两个变量之间的相关程度最高()

A.商品销售额和商品销售量的相关系数是0.9

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论