版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关于相关与回归分析第一页,共八十三页,编辑于2023年,星期二学习目的:(1)掌握相关分析与相关系数的概念、相关系数的计算方法(2)掌握一元线性回归的基本原理和参数的最小二乘估计方法(3)掌握回归方程的显著性检验(4)利用回归方程进行预测重点:(1)相关系数;
(2)一元线性回归的基本原理。难点:(1)相关系数的计算方法;
(2)回归方程的显著性检验。第二页,共八十三页,编辑于2023年,星期二联系与相互影响是普遍的现象受教育的水平工作后的收入预防疾病支出疾病的发病率事物相互间关系的质的解释:自然的、社会的、经济的、心理的…事物相互间关系的量的分析:两变量或多变量间的数量关系。在可以解释的质的关系基础上进行相关分析和回归分析第三页,共八十三页,编辑于2023年,星期二一、相关分析的概念第一节相关分析与相关系数社会经济现象中,一些现象与另一些现象之间往往存在着依存关系,当我们用变量来反映这些现象的的特征时,便表现为变量之间的依存关系。
在分析变量的依存关系时,我们把变量分为两种:自变量因变量引起其他变量发生变化的量。受自变量的影响发生对应变化的量第四页,共八十三页,编辑于2023年,星期二现象之间的相互关系,可以概括为两种不同的类型:(一)函数关系(二)相关关系例如:家庭收入决定消费支出,收入的变化必然引起消费支出的变化,这两个变量中收入是自变量,而消费支出则是因变量。第五页,共八十三页,编辑于2023年,星期二函数关系指变量之间存在着确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量必然有一个确定值与之对应。
函数关系可以用一个确定的公式,即函数式来表示。或:Y=F(X)第六页,共八十三页,编辑于2023年,星期二相关关系指变量之间存在着非确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量可能有多个不同值与之对应。
例2、根据消费理论,商品需求量Q与商品价格P、居民收入I之间具有相关关系:相关关系可用统计模型:或:Y=F(X)+ε式中,为影响Y的除X外的其他随机因素。第七页,共八十三页,编辑于2023年,星期二二、相关数据的收集和相关关系的种类:(一)相关数据的收集199019911992199319941995199619971998199920002001
18598.421662.526651.934560.546670.057494.966850.573142.776967.280579.488189.695933.00
2.1828.4039.4746.8373.2387.33102.00120.74126.02140.99162.24178.00年份国内生产总值(亿元)旅游外汇收入(亿美元)第八页,共八十三页,编辑于2023年,星期二单相关
是两个变量之间存在的相关关系,即一个因变量与一个自变量之间的依存关系。因此也称为一元相关。复相关
也称多元相关,是指三个或三个以上变量之间存在的相关关系,通常涉及一个因变量与两个或更多个自变量,也称多元相关。(二)相关关系的种类:1、按相关关系涉及变量的多少可分为:第九页,共八十三页,编辑于2023年,星期二直线相关当自变量X值每变动一个单位,因变量Y值则随着发生大致均等的变动,这就是直线相关。亦称为简单相关或一元线性相关。曲线相关当自变量X值每变动一个单位,因变量Y值则随之发生不均等的变化,这就曲线相关。亦称为一元非线性相关。2、按相关关系形式可分为:第十页,共八十三页,编辑于2023年,星期二正相关当自变量X值增加(或减少)时,因变量Y值也随之增加(或减少),这样的相关关系就是正相关,也叫同向相关。负相关当自变量X的值增加(或减少)时,因变量Y的值随之而减少(或增加),这样的相关关系就是负相关,也叫异向相关。3、按相关的方向可分为:第十一页,共八十三页,编辑于2023年,星期二线性正相关第十二页,共八十三页,编辑于2023年,星期二线性负相关非线性相关第十三页,共八十三页,编辑于2023年,星期二无(不)相关第十四页,共八十三页,编辑于2023年,星期二4、按相关关系的密切程度分为:完全相关因变量完全随自变量变动而变动,存在着严格的依存关系。即变量间的关系为函数关系。不完全相关变量之间存在着不严格的依存关系,即因变量的变动除了受自变量变动的影响外,还受其他因素的影响。它是相关关系的主要表现形式。不相关自变量与因变量彼此独立,互不影响,其数量变化毫无联系。。第十五页,共八十三页,编辑于2023年,星期二(1)确定现象之间有无相关关系,以及相关关系的表现形态。(2)确定相关关系的密切程度。(3)确定相关关系的数字模型,并进行参数估计和拟合优度检验。(4)回归预测,并分析估计标准误差。相关分析的主要内容包括:第十六页,共八十三页,编辑于2023年,星期二相关关系的测定定性分析是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断定量分析在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度第十七页,共八十三页,编辑于2023年,星期二相关图相关关系的测定将变量之间的伴随变动绘于坐标图上所形成的统计图。又称散点图。简单相关图根据未分组资料的原始数据直接绘制的相关图。分组相关图根据分组资料绘制的相关图。第十八页,共八十三页,编辑于2023年,星期二XY第十九页,共八十三页,编辑于2023年,星期二在直线相关的条件下,用以反映两变量间线性相关密切程度的统计指标,用r表示三、相关系数其基本算法是英国统计学家皮尔逊所创的乘积动差法,简称积差法。(一)相关系数的含义和公式第二十页,共八十三页,编辑于2023年,星期二(二)相关系数的意义第二十一页,共八十三页,编辑于2023年,星期二相关系数r的取值范围:-1≤r≤10<|r|<1表示存在不同程度线性相关:
|r|
<0.3为微弱线性相关;
0.3≤|r|<0.5为低度线性相关;
0.5≤|r|<0.8为显著性线性相关
0.8≤|r|<1为高度线性相关r>0为正相关,r<0为负相关;|r|=0表示不存在线性关系;|r|=1表示完全线性相关;第二十二页,共八十三页,编辑于2023年,星期二序号能源消耗量(十万吨)x工业总产值(亿元)yx2y2xy1234567891011121314151635384042495254596264656869717276242524283231374041404750495148581225144416001764240127042916348138444096422546244761504151845776576625576784102496113691600168116002209250024012601230433648409509601176156816121998236025422560305534003381362134564408合计916625550862617537887第二十三页,共八十三页,编辑于2023年,星期二【例】计算工业总产值与能源消耗量之间的相关系数资料结论:工业总产值与能源消耗量之间存在高度的正相关关系,能源消耗量x的变化能够解释工业总产值y变化的95.2﹪。(三)相关系数的计算第二十四页,共八十三页,编辑于2023年,星期二相关关系不等于因果关系;相关系数只度量变量间的线性关系,因此,弱相关不一定表明变量间没有关系;极端值可能影响相关系数。注意相关关系成立的数据范围。警惕虚假相关使用相关系数时应注意的问题:第二十五页,共八十三页,编辑于2023年,星期二回归:退回regression1877年弗朗西斯•高尔顿爵士遗传学研究回归线平均身高第二节回归分析第二十六页,共八十三页,编辑于2023年,星期二父亲们的身高与儿子们的身高之间
关系的研究1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式下图是根据1078个家庭的调查所作的散点图(略图)回归分析法产生的历史第二十七页,共八十三页,编辑于2023年,星期二160165170175180185140150160170180190200YX儿子们身高向着平均身高“回归”,以保持种族的稳定回归分析法产生的历史第二十八页,共八十三页,编辑于2023年,星期二从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下:如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”——见1889年F.Gallton的论文《普用回归定律》。后人将此种方法普遍用于寻找变量之间的规律回归分析法产生的历史第二十九页,共八十三页,编辑于2023年,星期二一、一元线性回归分析回归分析通过一个变量x或一些变量(x1,x2,x3…)的变化解释另一变量y的变化.即根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化和求得因变量的预测值的统计分析方法回归:退回regression回归方程回归模型反映自变量和因变量之间数学联系的表达式。某一类回归方程的总称。第三十页,共八十三页,编辑于2023年,星期二
自变量(independentvariable):解释变量,给定的或可以控制的、用来解释、预测应变量的变量。因变量(dependentvariable):响应变量,由自变量来解释其变化的变量。XYXY••••••••《统计学》第十章相关与回归第三十一页,共八十三页,编辑于2023年,星期二回归分析的内容和步骤1、根据理论和对问题的分析判断,区分自变量和因变量;2、设法找出适合的数学方程式(即回归模型)描述变量间的关系3、对回归模型进行统计检验;4、统计检验通过后,利用回归模型,根据解释变量去估计,预测因变量。第三十二页,共八十三页,编辑于2023年,星期二回归分析的分类根据变量的多少分为:简单回归多元回归只有一个自变量和一个因变量的回归自变量数目在两个或两个以上根据建立的回归模型形式分为:线性回归非线性回归从所拟合的回归模型来看,一变量表现为其它变量的线性组合。从所拟合的回归模型来看,一变量表现为其它变量的非线性组合第三十三页,共八十三页,编辑于2023年,星期二回归分析与相关分析理论和方法具有一致性;无相关就无回归,相关程度越高,回归越好;
相关系数和回归系数方向一致,可以互相推算。联系:第三十四页,共八十三页,编辑于2023年,星期二相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;相关分析中x、y均为随机变量,回归分析中只有y为随机变量;相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。回归分析与相关分析区别:第三十五页,共八十三页,编辑于2023年,星期二简单线性回归模型指根据成对的两个变量的数值,配合直线方程式,根据自变量的变动,来推算因变量发展变动趋势的方法,其模型为:其中:Yi表示因变量Y在总体中某一个具体的观察值;Xi表示在研究总体中自变量X的具体观察数值;A与B是参数,称为回归系数;εi是一个随机变量,其平均数为0,方差为σ2.总体回归模型第三十六页,共八十三页,编辑于2023年,星期二总体一元线性回归模型:模型参数误差项假定:E()=0总体一元线性回归方程:第三十七页,共八十三页,编辑于2023年,星期二简单线性回归模型的假设1、正态性假定3、线性假定2、同方差假定4、独立性假定当确定某一个Xi时,相应的Y就有许多Yi值与之对应。Yi是一个随机变量,这些Yi构成一个在X取值为Xi条件下的条件分布、并假设其服从正态分布。
假定所有Yi这一条件分布的方差是相等的。
假定所有Yi这一条件分布的平均数位于一条直线上,这条直线为Yi=A+BX,
假定Yi之间是独立的,也就是说抽样时,Y的值在每取一个X值的条件分布相互独立。第三十八页,共八十三页,编辑于2023年,星期二一元线性回归模型的假定第三十九页,共八十三页,编辑于2023年,星期二在实际应用中,我们对X和Y所代表的总体往往不可能全面的观察和了解,而只能从中抽取部分资料作为样本,并通过样本提供的信息来认识总体,找出总体回归模型的估计式,其估计式的方程式可写为:简单线性回归模型其中:a,b和ei分别为A、B及εi的估计量。由于抽样的随机性,使样本回归线不可能与总体回归完全重合,从而会出现样本回归函数高估或低估总体回归函数的情况,我们能做的就是设法使样本回归函数尽可能接近总体回归函数,也就是说要使回归方程参数的估计值a、b尽量接近总体真实参数A、B。样本回归模型第四十页,共八十三页,编辑于2023年,星期二一元线性回归方程的几何意义截距斜率一元线性回归方程的可能形态为正为负为0回归直线的拟合第四十一页,共八十三页,编辑于2023年,星期二总体一元线性回归方程:样本一元线性回归方程:以样本统计量估计总体参数斜率(回归系数)截距截距a表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数b表明自变量x每变动一个单位,因变量y平均变动b个单位。(估计的回归方程)第四十二页,共八十三页,编辑于2023年,星期二随机干扰:各种偶然因素、观察误差和其他被忽视因素的影响X对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。第四十三页,共八十三页,编辑于2023年,星期二残差(Residual):e第四十四页,共八十三页,编辑于2023年,星期二(一)建立一元线性回归方程的步骤1、作散点图2、配直线方程第四十五页,共八十三页,编辑于2023年,星期二一元线性回归方程中参数a、b的确定:最小平方法基本数学要求第四十六页,共八十三页,编辑于2023年,星期二整理得到由两个关于a、b的二元一次方程组成的方程组:进一步整理,有:第四十七页,共八十三页,编辑于2023年,星期二例考察某班学生身高与体重的相关关系学生身高x体重yx2y2xy估计值ŷ残差y-ŷABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.29149.44851.60653.76455.92158.07960.23662.39464.55266.709-0.2910.552-3.6061.2366.0791.921-8.236-1.3945.448-1.70916705702792203303295546-0第四十八页,共八十三页,编辑于2023年,星期二【分析】因为工业总产值与能源消耗量之间存在高度正相关关系(),所以可以拟合工业总产值对能源消耗量的线性回归方程。【例】建立工业总产值对能源消耗量的线性回归方程资料解:设线性回归方程为第四十九页,共八十三页,编辑于2023年,星期二散点图工业总产值能源消耗量第五十页,共八十三页,编辑于2023年,星期二即线性回归方程为:计算结果表明,在其他条件不变时,能源消耗量每增加一个单位(十万吨),工业总产值将增加0.7961个单位(亿元)。第五十一页,共八十三页,编辑于2023年,星期二最小二乘法估计的优良性质残差之和为零所拟合直线通过样本散点图的重心误差项与解释变量不相关a与b分别是总体回归系数的无偏估计量a与b均为服从正态分布的随机变量第五十二页,共八十三页,编辑于2023年,星期二b与r的关系:r>0r<0r=0b>0b<0 b=0第五十三页,共八十三页,编辑于2023年,星期二二、回归方程的显著性检验(一)平方和的分解第五十四页,共八十三页,编辑于2023年,星期二残差平方和回归平方和总离差平方和第五十五页,共八十三页,编辑于2023年,星期二计算公式第五十六页,共八十三页,编辑于2023年,星期二(三)样本判定系数确定回归直线后,需要评价这一直线方程是否有效地反映了这两变量之间的关系。评价回归方程配合好坏的一个主要指标是判定系数(或称确定系数)是相关系数的平方,用表示;用来衡量回归方程对y的解释程度。判定系数取值范围:
越接近于1,表明x与y之间的相关性越强;越接近于0,表明两个变量之间几乎没有直线相关关系.样本判定系数第五十七页,共八十三页,编辑于2023年,星期二r2表示全部偏差中有百分之几的偏差可由x与y的回归关系来解释r的符号同b第五十八页,共八十三页,编辑于2023年,星期二学生身高体重估计值ABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.2949.4551.6153.7655.9258.0860.2462.3964.5566.71-9.71-7.55-5.39-3.24-1.081.083.245.397.559.71-10-7-9-253-5413816705702792203303295546-00第五十九页,共八十三页,编辑于2023年,星期二回归分析中我们最关心的是:
X与Y是否有真正的相关关系。即:(二)F检验第六十页,共八十三页,编辑于2023年,星期二回归系数的检验1、提出假设;2、确定检验统计量;3、给定显著性水平,确定临界值;第六十一页,共八十三页,编辑于2023年,星期二5、结论4、计算F,比较第六十二页,共八十三页,编辑于2023年,星期二学生身高体重估计值ABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.2949.4551.6153.7655.9258.0860.2462.3964.5566.71-9.71-7.55-5.39-3.24-1.081.083.245.397.559.71-10-7-9-253-5413816705702792203303295546-00第六十三页,共八十三页,编辑于2023年,星期二检验统计量落入拒绝域中,故拒绝原假设,接受备择假设。即可以认为b明显地不等于零,X与Y是显著的。第六十四页,共八十三页,编辑于2023年,星期二F检验是基于F分布进行的,是方差分析内容之一。方差来源平方和自由度均方F值回归误差总计SSRSSESST1n-2n-1均方回归均方误差第六十五页,共八十三页,编辑于2023年,星期二当1=0时,SSR=0,则F值=0。当10时,SSR>0,则F值>0。当我们设1=0时,则较大的F值将推翻这一假设。故拒绝原假设,接受备择假设,即认为回归方程是显著的。第六十六页,共八十三页,编辑于2023年,星期二
预测的前提:回归方程经过检验,证明X和Y
的关系在统计上是显著的。
回归分析的点预测:对于给定的
X
值,求出Y平均值的一个估计值或Y
的一个个别值。若x=169,则:
三、预测及应用第六十七页,共八十三页,编辑于2023年,星期二利用点预测得到的Y平均值的点估计值和Y的一个个别值其结果是相同的。点预测不能提供估计量的精确度。在样本自变量取值范围之外进行预测要特别谨慎。使用点预测应注意的问题:第六十八页,共八十三页,编辑于2023年,星期二回归方程的估计与预测估计的前提:回归方程经过检验,证明X和Y
的关系在统计上是显著相关的。对于给定的
X
值,求出Y平均值的一个估计值或Y
的一个个别值的预测值。对于给定的X值,求出Y
的平均值的置信区间或Y
的一个个别值的预测区间。点估计区间估计第六十九页,共八十三页,编辑于2023年,星期二点估计若x=80(十万吨),则:第七十页,共八十三页,编辑于2023年,星期二区间估计对于给定的x=x0
,Y的1-置信区间为自由度为n-2的t分布的水平双侧分位数第七十一页,共八十三页,编辑于2023年,星期二即:在大样本条件下,近似有:第七十二页,共八十三页,编辑于2023年,星期二
回归分析的区间估计:对于给定的X值,求出Y
的平均值的置信区间或Y
的一个个别值的预测区间。第七十三页,共八十三页,编辑于2023年,星期二
Y的平均值的置信区间估计总体的回归模型样本回归方程如果样本回归方程通过检验,则:如果给定x=x0
,则有:分布形态?第七十四页,共八十三页,编辑于2023年,星期二可以证明,ŷ0
是服从正态分布的,其数学期望:其方差:其标准差:第七十五页,共八十三页,编辑于2023年,星期二对于给定的x=x0
,Y的1-置信区间为:也就是:自由度为n-2的t分布的水平双侧分位数第七十六页,共八十三页,编辑于2023年,星期二学生身高体重估计值ABCDEFGHIJ1581601621641661681701721741764750485562605261706524964256002624426896275562822428900295843027630976220925002304302538443600270437214900422574268000777690201029210080884010492121801144047.2949.4551.6153.7655.9258.0860.2462.3964.5566.71-9.71-7.55
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 地理选择题高分指南
- 四年级大数奥数解析
- 地理知识答题英雄帖
- 外贸英语数量表达全解析
- 英语六下外研版三起听力
- 借车合同免责协议
- 房源转让合同模板
- 2023年中城大有产业集团有限公司招聘考试真题
- 2023年淄博市周村区区属国有企业招聘工作人员考试真题
- 2023年长沙市第三社会福利院人员招聘考试真题
- 5.5 跨学科实践:制作望远镜到西安 八年级物理上册人教版2024
- 心理健康与大学生活学习通超星期末考试答案章节答案2024年
- 医院改扩建工程可行性研究报告(论证后)
- 【初中生物】第三章微生物检测试题 2024-2025学年人教版生物七年级上册
- 六年级数学上册 (基础版)第4章《比》单元培优拔高测评试题(学生版)(人教版)
- 医疗集团项目
- 《中华人民共和国药品管理法》
- 医科大学2024年12月肿瘤护理学作业考核试题答卷
- 2024年大型风力发电项目EPC总承包合同
- 植物学#-形考作业4-国开(ZJ)-参考资料
- 多发性硬化诊断与治疗指南(2023版)解读
评论
0/150
提交评论