版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
相关分析与回归分析演示文稿第一页,共一百二十七页。2022/11/211(优选)相关分析与回归分析第二页,共一百二十七页。2022/11/212一、引言第三页,共一百二十七页。2022/11/213在很多研究领域中,往往需要研究事物间的关系。如收入与受教育程度,子女身高与父母身高,商品销售额与广告费用支出,农作物产量与施肥量,上述两者间有关系吗?如果有关系,又是怎么样的关系呢?如何来度量这种关系的强弱?解决上述问题的统计方法是相关第四页,共一百二十七页。2022/11/214分析和回归分析。相关分析和回归分析的共同点是都可推断两个变量间的统计相关性。但两者的区别是明显的,主要表现在:1.变量地位在相关分析中,两个变量地位是对等的;但在回归分析中,一个变量是因变量,其余的变量均为自变量。第五页,共一百二十七页。2022/11/2152.变量类型相关分析中的两个变量均为随机变量,而回归分析中的因变量是随机变量,但自变量可以是随机变量,也可以是非随机变量。3.研究目的相关分析仅度量两个变量间的相关程度和方向,而回归分析则要进一第六页,共一百二十七页。2022/11/216步建立因变量与所有自变量间的回归方程,即回归分析不仅推断自变量对因变量的影响程度,还可以根据回归方程进行预测和控制。第七页,共一百二十七页。2022/11/217二、相关分析第八页,共一百二十七页。2022/11/2181.概述
事物之间的关系可分为两类,一类是函数关系,另一类是相关关系。所谓相关关系指的是两个变量间存在的一种不确定的数量关系,即一个变量的取值不能由另一个变量唯一确定。相关分析研究的是相关关系。第九页,共一百二十七页。2022/11/219相关分析主要研究线性相关关系,但也考察非线性相关关系。下列不属于相关关系的是()。
A.产品成本与生产数量
B.球的表面积与体积
C.家庭的支出与收入
D.人的年龄与体重下列关系是线性相关的是()。第十页,共一百二十七页。2022/11/2110
A.人的身高与视力
B.圆心角大小与所对弧长
C.收入水平与纳税水平
D.父母平均身高与儿子身高相关分析主要研究变量间是否相关及相关的密切程度与方向。相关分析中最常用的是简单相关分析,即两个变量间的相关性。第十一页,共一百二十七页。2022/11/2111三个及三个以上变量间的关系称为复相关,它研究的是一个因变量与两个及以上自变量间的关系。通常,通过控制变量法将复相关转化为两个变量间的相关性,这种关系称为偏相关。描述变量间相关性的常用统计指标是相关系数。除此之外,还可以通第十二页,共一百二十七页。2022/11/2112过距离来描述变量间的关系,称之为距离相关分析。下面分别介绍简单相关分析、偏相关分析和距离相关分析。2.简单相关分析
简单相关主要包括Pearson相关,Spearman相关和Kendall’s相关。(1)Pearson相关系数第十三页,共一百二十七页。2022/11/2113
Pearson相关是简单相关分析中最常用的相关分析方法,其适用范围是:连续数据;正态分布;线性关系。
Pearson(线性)相关系数r的性质:|r|≤1;r>0时正相关;r<0时负相关;r=0时不相关,即两变量间不存在线性相关关系,但可能存在其它形式的非线性关系。第十四页,共一百二十七页。2022/11/2114
|r|≥0.8时高度相关;0.5≤|r|<0.8时中度相关;0.3≤|r|<0.5时低度相关;|r|<0.3时基本不相关。由于相关系数是用样本计算得到的,带有一定的随机性,所以用样本相关性估计总体相关性的可信度需要检验。
SPPS可以自动进行检验,并分第十五页,共一百二十七页。2022/11/2115别用“*”,“**”标注显著性水平0.05,0.01下的显著相关。(2)Spearman和Kendall’s相关系数
Pearson相关系数属参数统计分析中的矩相关系数,有一定的局限性:当正态分布假设不成立时,检验结果不可信;只能度量线性相关性,不能描述非线性相关性。第十六页,共一百二十七页。2022/11/2116
Spearman和Kendall’s相关系数为非参数统计分析中的秩相关系数。当正态分布假设不成立或分析非线性相关关系时,可考虑用上述两种相关系数。但这两种相关系数最适合度量两排序变量间的相关性,对连续变量效果欠佳。第十七页,共一百二十七页。2022/11/2117排序变量的取值可以表示某种顺序关系,如服务满意度取值1~5,分别表示非常不满意,不满意,一般满意,满意,非常满意。例124位高水平数学家的年收入y与其研究成果指标x1,研究工作时间x2以及申请项目成功指标x3如下,分析年收入与三个指标的关系。第十八页,共一百二十七页。2022/11/2118解分析->相关->双变量->调入所有变量,默认“Pearson,双侧检验,标记显著性相关”。结果显示,年收入与三个指标的相关系数分别为0.668,0.859,0.673,在0.01水平下显著相关。上述相关分析只是给出了年收入与三个指标的两两线性相关程度,并第十九页,共一百二十七页。2022/11/2119没有给出它们之间统计学意义下的具体关系,可用回归分析进一步研究。第二十页,共一百二十七页。2022/11/21203.偏相关分析
有时,由于第三个变量的作用,使得简单相关系数不能真实反映两变量间的相关性。例如,研究身高与体重的相关性时,如不考虑年龄、地域的影响,则所得相关系数有可能不能真实反映身高与体重的关系。第二十一页,共一百二十七页。2022/11/2121偏相关分析是在控制对两变量间相关性可能产生影响的其它变量的前提下,即在剔除其它变量的干扰下,研究两变量间的相关性。偏相关分析假定变量间的关系均为线性关系,没有线性关系的变量不能进行偏相关分析。因此,在偏相关分析前,可以先通过计算Pearson相关第二十二页,共一百二十七页。2022/11/2122系数来判定两两变量间的线性关系。偏相关分析通过计算偏相关系数来研究变量间的相关性。偏相关系数的含义与检验方法与简单相关系数类似。第二十三页,共一百二十七页。2022/11/2123
例2Pearson相关分析显示,年收入与研究工作时间相关性最强。现剔除x1,x3影响后,分析年收入与研究工作时间的关系。解分析->相关->偏相关->y,x2调入变量,x1,x3调入控制,选择“双侧检验,标记显著性相关”。结果显示,年收入与研究工作时第二十四页,共一百二十七页。2022/11/2124间的偏相关系数为0.825,小于简单相关系数。可见,简单相关系数有夸大的成分,偏相关系数与实际更加吻合。第二十五页,共一百二十七页。2022/11/21254.距离相关分析
简单相关分析和偏相关分析研究的是两个变量间的相关关系,它们不能分析两个以上变量间的相关关系。此时,可以通过距离相关分析,考察变量间的相似性。距离相关分析通过计算广义距离度量样品或变量间的相似程度。第二十六页,共一百二十七页。2022/11/2126距离相关分析一般不单独使用,而是作为聚类分析、因子分析等的预处理过程。距离相关分析根据统计量的不同,分为不相似性测度和相似性测度。对于不相似性测度,通过计算距离来表示,距离越大,相似性越弱;对于相似性测度,通过计算Pearson相关系第二十七页,共一百二十七页。2022/11/2127数来表示,其数值越大,相似程度越强。在不相似性测度距离分析中,应根据变量的类型选用不同的距离,如区间、计数、二分类。第二十八页,共一百二十七页。2022/11/2128
例3根据8种品牌啤酒的部分调查数据,分析啤酒品牌的相似度。解分析->相关->距离->所有指标调入变量,计算距离选“个案间”。
注
SPSS中的个案指数据表中的行,即一个样本的数据;变量指数据表中的列,即同一指标的所有值。通常,考察变量间的相关性可用第二十九页,共一百二十七页。2022/11/2129相似性测度,而个案即样品间的相似性则采用不相似性测度。显然,品牌1和品牌6最相似,而第三十页,共一百二十七页。2022/11/2130和品牌2最不相似。若采用相似性测度,结果为显然,样品间的相关系数都接近于1,很难辨别出其相似程度。第三十一页,共一百二十七页。2022/11/2131
例45名考官给10名应聘者的面试分数如下,请问各考官评分的一致性如何?哪位考官的可信度较小?各应聘者分数的差异是否明显?解若第1问改为:请问不同考官对应聘者面试分数的影响是否显著,则勉强可用方差分析。因为考官给10应聘者打分不是严格意义下的重复试第三十二页,共一百二十七页。2022/11/2132验。同理,若将应聘者分数做为指标,5个考官打分可视为5次重复试验(这需要假设考官的打分客观,基本无偏差),则第3问也可使用方差分析。
考虑到题目和问题的特点,本题用距离分析更为合理。因为方差分析比较的是均值,而两组很不一致的分第三十三页,共一百二十七页。2022/11/2133数的均值却可能相差不大。分别对5个变量(列)做相似性分析,如果如下:第三十四页,共一百二十七页。2022/11/2134结果显示,前4个考官的评分比较相似,一致性较好;第5个考官的评分与前4个考官的评分很不相似,一致性较差,故第5个考官的评分不太可信。为了考察应聘者分数的差异,应该对数据进行按行距离相关分析。分析结果如下:第三十五页,共一百二十七页。2022/11/2135从上述结果可以判断,应聘者的分数差异较为明显。第三十六页,共一百二十七页。2022/11/2136三、回归分析第三十七页,共一百二十七页。2022/11/21371.概述
与相关分析相比,回归分析不仅能刻画变量间的线性相关程度,而且还能根据回归方程进行预测和控制。英国统计学家Galton和他的学生Pearson观察了1078对夫妇,得出了其成年儿子身高y与夫妇平均身高x的统计关系为第三十八页,共一百二十七页。2022/11/2138即父辈身高每增加或减少一个单位,其子辈身高仅增加或减少半个单位,也即子代的身高有回到同龄人平均身高的趋势。
Galton称这种现象为“回归”。为了纪念Galton,后人将研究两变量间统计关系的方法称为回归分析。第三十九页,共一百二十七页。2022/11/2139回归分析包括的内容甚广。本讲仅介绍下列基本内容:第四十页,共一百二十七页。2022/11/2140回归分析的过程和步骤为:(1)根据研究目的,选定指标变量研究目的确定后,被解释变量比较容易确定。比如,研究通货膨胀时,自然选择全国零售物价总指数作为被解释变量,即因变量。但对被解释变量有影响的解释变量的确定就不太容易。一是人的认识第四十一页,共一百二十七页。2022/11/2141有局限,很难确定哪些因素对被解释变量有影响;二是回归分析要求解释变量间应该是不相关的,而研究者很难确定哪些变量相关或不相关,因为在经济领域很难找到影响同一结果的一些因素彼此之间是独立的;三是从经济关系角度考虑可能要引入某个重要变量,但实际中并无这样的统计数第四十二页,共一百二十七页。2022/11/2142据。此时,可考虑用相近的变量替代,或由其它几个指标复合而成一个新的指标(主成分分析)。另外,不要认为回归模型包括的解释变量越多越好。若回归模型漏掉主要变量肯定会影响应用效果,但如果连一些不重要的因素也进入模型其实未必就好。第四十三页,共一百二十七页。2022/11/2143当引入的变量太多时,一来计算量大,累积的计算误差也大,估计出的模型参数精度自然不高;二来可能引入了相关性较强的变量,它们反映的信息有较严重的重叠,即所谓共线性问题。总之,回归变量的确定是一个非常重要的问题,是建立回归模型最基第四十四页,共一百二十七页。2022/11/2144本的工作。(2)数据的采集和处理数据的采集也是建立回归模型的重要一环。大多数建模竞赛题目会提供相关数据,但这些数据可能包含了一些无用的信息,个别数据缺失甚至失真。在建模前,需要对数据进行适当第四十五页,共一百二十七页。2022/11/2145处理。比如标准化,剔除个别过大或过小的“野值”,用插值方法补齐空缺数据等。(3)回归模型形式的确定收集、处理好数据后,首先要确定适当的数学模型来描述这些变量间的统计关系。本讲仅介绍线性回归,对一元线第四十六页,共一百二十七页。2022/11/2146性回归,可以根据散点图判定;对于多元线性回归,通常只能根据事后的模型的显著性检验。(4)模型参数的估计模型确定后,就要利用样本数据对模型中的参数进行估计。估计参数的常用方法是最小二乘法。第四十七页,共一百二十七页。2022/11/2147利用统计软件可便捷地进行参数估计。(5)模型的检验与修正模型的参数估计完成后,只能说初步建立了回归模型,还不能立即用用这个模型进行预测和分析,因为这个模型是否真正揭示了被解释变量和解释变量间的关系还有待检验。第四十八页,共一百二十七页。2022/11/2148回归模型通常需要进行统计检验和经济意义检验。统计检验包括回归方程的显著性F检验,回归系数的显著性t检验,回归方程的拟合优度R2检验和解释变量的多重共线性检验等。由于样本容量所限或数据质量问题,回归模型可能得不到合理的经济第四十九页,共一百二十七页。2022/11/2149解释,比如出现了国民收入与GDP负相关。当回归模型没有通过检验时,要对模型进行修正。模型的修正可以考虑变量是否设置合理,变量间是否有很强的相关性,样本量是否太少,理论模型是否合适等。(6)回归模型的应用第五十页,共一百二十七页。2022/11/2150当回归模型通过了各种检验后,就可以进行模型应用了。回归模型的一个重要应用是进行预测。比如根据宏观国民经济模型就可以预测下一年的GDP。这方面已有很多成功的范例。回归模型的另一个重要应用是进行控制。第五十一页,共一百二十七页。2022/11/2151因为回归模型揭示了被解释变量和解释变量间的因果统计关系,所以可以通过给定被解释变量值来控制解释变量值。例如,若想将通货膨胀控制为全国零售物价指数增长5%以下,则可以根据通货膨胀回归模型,确定货币的发行量和银行的存款利率等。第五十二页,共一百二十七页。2022/11/21522.一元线性回归一元线性回归是描述两变量间统计关系的最简单的回归模型。(1)模型的建立与参数估计根据相关背景知识或散点图,若两变量间近似呈线性关系,则可用一元线性回归模型第五十三页,共一百二十七页。2022/11/2153其中y称为被解释变量(因变量),x称为解释变量(自变量),称为回归系数,称为随机误差。利用最小二乘法,可求出的估计值。(2)回归分析的显著性检验可以用F统计量检验回归方程的显著性。第五十四页,共一百二十七页。2022/11/2154对于给定的显著性水平,可查表得,若根据样本计算得到的F值满足,则拒绝假设(不显著),即回归方程在水平下是显著的。通常取,SPSS可自动进行F统计量检验。可以用t统计量检验回归系数的显著性,检验方法与F检验类似。第五十五页,共一百二十七页。2022/11/2155还可以用决定系数R2来检验回归方程对样本观察值的拟合程度。
①R实际上即为相关系数;②R2是衡量回归直线与样本值拟合优度的相对指标,越接近于1,表明拟合优度越好;③R2与自变量个数有关,有时用调整的R2(AdjR2)更合理。
第五十六页,共一百二十七页。2022/11/2156这里要特别指出上述三种检验的关系:①在一元线性回归中,回归方程的F检验和回归系数的t检验等价;②千万不要混淆回归方程和系数检验与R2检验。前者检验的是方程或系数的显著性,而R2表示的是因变量被自变量解释的程度。第五十七页,共一百二十七页。2022/11/2157
有时,回归方程和系数均显著,但R2却可能较小。(3)预测预测分为单值预测和区间预测。当x=x0时,称为因变量y的单值预测值。单值预测值统计意义不大,因为对于预测问题,除了要给出预测值外,第五十八页,共一百二十七页。2022/11/2158还希望知道预测精度,这就需要做区间预测。区间预测的思路是:对于给定的显著性水平和x=x0,给出一个区间(T1,T2),使得预测值以概率落在此区间内,此区间即置信区间。通常,SPSS会同时给出y0和y0平均值的置信区间。第五十九页,共一百二十七页。2022/11/2159(4)控制控制相当于预测的反问题,即要求y在一定范围内取值,如何控制x的取值。控制问题比较复杂,没有通用的方法,可采用作图法或解不等式法,这里不做详细介绍。统计软件一般不提供控制功能。第六十页,共一百二十七页。2022/11/2160
例5经调查,某地区住宅建筑面积和建筑成本的有关资料如下,求建筑面积与建筑成本的回归方程。解做原始数据的散点图,近似为直线,考虑用一元线性回归。第六十一页,共一百二十七页。2022/11/2161
原始数据的散点图第六十二页,共一百二十七页。2022/11/2162分析->回归->线性->选建造成本为因变量,建筑面积为自变量;方法可选进入(全部被选变量一次进入回归模型)或逐步(每一步将有最小F概率的变量引入回归方程,若引入回归方程的变量的F概率大于设定值,则将其剔除,直到无变量被引入或剔除,则终止回归过程)。第六十三页,共一百二十七页。2022/11/2163统计量中可选估计、置信区间、模型拟合度、描述性。绘制中选DEPENDNT为Y,ZPRED(标准化预测值)为X。保存中选择预测值(未标准化,均值预测值的S.E.),残差(未标准化),预测区间(均值,单值)第六十四页,共一百二十七页。2022/11/2164
第六十五页,共一百二十七页。2022/11/2165
第六十六页,共一百二十七页。2022/11/2166回归方程在0.01水平下显著。第六十七页,共一百二十七页。2022/11/2167回归系数在0.01水平下显著。标准化系数是在将原数据进行标准化之后回归生成的系数。标准化系第六十八页,共一百二十七页。2022/11/2168数越大,表明该自变量对因变量的影响越大。在一元线性回归中,标准化回归系数等于相关系数。非标准化系数就是用原来的数据算出来的系数。若要写出回归方程,则应该用非标准化系数。
第六十九页,共一百二十七页。2022/11/2169回归分析完成后,在原数据表中增加单预测值(含残差)、均值预测值(含SEP)及两者的区间估计。若需预测新因变量值,则只需给定新自变量值,然后回归分析,即可获得预测值。也可以将模型保存,再利用新自变量值进行预测。第七十页,共一百二十七页。2022/11/21703.多元线性回归当解释变量超过一个时就需要考虑多元线性回归模型。多元线性回归模型的建立、参数估计、模型的检验及应用与一元线性回归类似。多元线性回归模型为第七十一页,共一百二十七页。2022/11/2171其中y称为被解释变量,xi称为解释变量,称为回归系数,称为随机误差。利用最小二乘法,可求出回归系数的估计值。多元线性回归的检验与一元线性回归的检验既有相同之处,也有不同之处。第七十二页,共一百二十七页。2022/11/2172首先可用F统计量检验回归方程的显著性,即自变量整体上对因变量是否有明显影响。在一元线性回归中,回归方程的F检验与回归系数的t检验等价。但在多元线性回归中,回归方程显著并不意味着每个自变量对因变量的影响都显著,所以还要用t统计量检验每个回第七十三页,共一百二十七页。2022/11/2173归系数的显著性。拟合优度用于描述回归方程对样本观察值的拟合程度。与一元线性回归类似,可以用确定系数R2直观地反映回归方程拟合的效果。需要指出的是,R2并不是检验模型优劣唯一标准。有时,为了使得模型从结构上有较合理的经济解释,第七十四页,共一百二十七页。2022/11/2174R2等于0.7左右也可以给接受模型。另外,R2与自变量个数及样本容量n有关。当自变量个数及样本容量接近时,R2易接近于1,此时R2中隐含着虚假成分。总之,由R2决定模型优劣时要慎重。检验多元回归模型时要多种检验方法结合,综合评判。第七十五页,共一百二十七页。2022/11/2175
例6某产品2002~2008年的销售额与流通费用、利润的数据如下,给出利润与销售额、流通费用间的回归方程。解做原始数据的散点图,近似为平面,考虑用二元线性回归。第七十六页,共一百二十七页。2022/11/2176
第七十七页,共一百二十七页。2022/11/2177
第七十八页,共一百二十七页。2022/11/2178
第七十九页,共一百二十七页。2022/11/2179从方差分析表中可知,回归方程显著;从系数表可知,回归系数除常量外显著;从模型汇总可知,模型拟合优度高。需要指出的是,从相关性表中可知,自变量销售额和流通费用有较高的相关性,这不符合线性回归分析的假设,即所谓多重共线性问题。第八十页,共一百二十七页。2022/11/2180从共线性诊断表的特征值、条件数和方差比指标可知,自变量销售额和流通费用的确存在共线性。但从系数表VIF指标可知,共线性并不太严重。共线性相关内容见后。第八十一页,共一百二十七页。2022/11/21814.逐步线性回归如果在回归方程中引入了某些对问题研究影响不大或与其它变量有很大程度重叠的变量,则可能增大参数估计的误差,影响回归方程的预测精度。因此,挑选对因变量有显著影响的自变量,构造“最优”回归方程十分重要。第八十二页,共一百二十七页。2022/11/2182构造“最优”回归方程的常用方法是逐步回归法,其基本思想是:将变量逐个引入,每引入一个变量后,对已引入的变量要进行逐个检验;当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除,即每次引入新变量前回归方程只包括显著的变量。这个过程反复进行,直到既无第八十三页,共一百二十七页。2022/11/2183显著的变量选入回归方程,也无不显著的变量从回归方程中剔除为止。例7某种水泥在凝固时放出的热量y与水泥中的四种化学成分x1,x2,x3,x4有关,观测数据如下,试从中选出主要变量,建立y关于它们的线性回归方程。解选择逐步回归。
第八十四页,共一百二十七页。2022/11/2184
第八十五页,共一百二十七页。2022/11/2185
第八十六页,共一百二十七页。2022/11/2186
第八十七页,共一百二十七页。2022/11/2187
第八十八页,共一百二十七页。2022/11/2188
第八十九页,共一百二十七页。2022/11/2189上述回归采用的是系统默认变量进入概率(0.05)和剔除概率(0.1)。若将进入概率和剔除概率修改为0.1和0.11(要求降低了),则回归分析结果如下:第九十页,共一百二十七页。2022/11/2190
第九十一页,共一百二十七页。2022/11/2191
第九十二页,共一百二十七页。2022/11/2192
第九十三页,共一百二十七页。2022/11/2193
第九十四页,共一百二十七页。2022/11/2194
第九十五页,共一百二十七页。2022/11/2195
第九十六页,共一百二十七页。2022/11/2196
第九十七页,共一百二十七页。2022/11/2197选用全部变量的回归结果为:第九十八页,共一百二十七页。2022/11/2198
第九十九页,共一百二十七页。2022/11/2199两次逐步回归模型包括的变量分别为x1,x4(默认进入和剔除概率)和x1,x2(不同的进入和剔除概率),而根据全部进入回归分析结果,后者更为合理。虽然逐步回归能在一定程度上有助于选择显著变量,但它存在着下列缺陷:第一百页,共一百二十七页。2022/11/21100
(1)进入或剔除概率设置不当时,逐步回归法可能得到的只是局部最优方程,甚至会出现“未输入任何变量到方程中”情况。
(2)极端情况下,逐步回归法可能会漏掉重要的变量。
(3)逐步回归法不能完全消除多重共线性。第一百零一页,共一百二十七页。2022/11/21101可见,对逐步回归法要有正确的认识,不能盲从。在实际中,最好将逐步回归与进入回归结合起来选择显著变量。此外,还要注意从变量的实际背景(比如经济学意义)进行选择。第一百零二页,共一百二十七页。2022/11/211025.基本假设不成立时的线性回归回归模型有下列三个基本假设:对于
(1)方差齐性
(2)不相关性
(3)自变量线性无关性线性无关第一百零三页,共一百二十七页。2022/11/21103当时,称为异方差性。当时,称为自相关性。异方差性和自相关性可能会导致参数估计非有效,显著性检验无意义,预测精度低。当线性相关时,称为第一百零四页,共一百二十七页。2022/11/21104多重共线性。下面对多重共线性做简要介绍。(1)多重共线性的不良后果若两个自变量x1,x2存在线性关系,此时它们前的参数并不反映x1,x2与因变量间的结构关系,而是反映它们对因变量的共同影响。这就导致失去了应有的经济意义,第一百零五页,共一百二十七页。2022/11/21105使得对回归方程无法进行合理的经济解释,降低了回归方程的应用价值。
例8为了研究财政收入,建立了1978年~2003年财政收入与农业增加值、工业增加值、建筑业增加值、总人口、消费、受灾面积的回归模型。数据见《中国统计年鉴2004》。回归分析的结果如下:第一百零六页,共一百二十七页。2022/11/21106
第一百零七页,共一百二十七页。2022/11/21107
F统计量为632.10,表明在0.05水平下回归方程显著;决定系数为0.995,模型拟合得很好,模型对财政收入的解释程度高达99.5%。
t检验表明,除农业增加值、工业增加值和总人口外,其它因素对财政收入的影响均不显著。农业增加值和建筑业增加值的回第一百零八页,共一百二十七页。2022/11/21108归系数小于零,即农业和建筑业的发展反而会使财政收入减少。这显然与理论和实际不符!本例显示了多重共线性的典型后果:回归方程显著,决定系数也很高,但某些回归系数的t检验却不显著,甚至使得回归系数符号相反,无法正确反映该解释变量对被解释变量的单第一百零九页,共一百二十七页。2022/11/21109独影响。(2)多重共线性产生的原因多重共线性产生的主要原因有:①许多经济变量间存在密切的关联,互相依存,互相制约,往往存在同方向的变化趋势。当它们成为解释变量时,就会出现共线性现象。②利用截面数据建立的回归方程第一百一十页,共一百二十七页。2022/11/21110往往存在共线性。③自变量选择不当时,也容易出现共线性。在实际中,自变量完全不相关不太可能,即共线性不太可能完全避免,只能设法降低。(3)多重共线性的诊断多重共线性有下列判定方法:
第一百一十一页,共一百二十七页。2022/11/21111①相关系数检验法——若两个解释变量的简单相关系数较高(>0.8),则可认为存在较严重的共线性。
但要注意,高相关系数是共线性存在的充分条件,即相关系数高一定存在共线性,但相关系数低的变量间也不一定没有共线性。况且,相关系数法也只适用于两第一百一十二页,共一百二十七页。2022/11/21112个变量共线性的判定。可见,不能简单地依据相关系数进行多重共线性的准确判定。
②方差膨胀因子法(误差)——理论证明,共线性可以引起参数估计的方差增大,所以方差膨胀因子(VIF)可以做为共线性的判定标准。当1≤VIF≤10时,可以认为共线第一百一十三页,共一百二十七页。2022/11/21113性不严重;当VIF>10时,则认为该解释变量与其余某些解释变量间有较严重的共线性。
SPSS可以自动计算每个参数的VIF。③特征值(奇异)或条件数(稳定)判定法——根据线性代数知识,可以用XTX的特征值判定共线性。第一百一十四页,共一百二十七页。2022/11/21114
XTX有几个特征值接近于零,就有几个共线性关系。也可用条件数CI判定共线性。当0<CI<10时,基本无共线性;当10<CI<100时,存在较强共线性;当CI>100时,共线性非常严重。
SPSS可以自动计算特征值和特征值CI。第一百一十五页,共一百二十七页。2022/11/21115④不显著系数检验法——当F检验显著,而某些参数的t检验不显著或估计值符号有误,则直
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 石河子大学《西方法律思想史》2021-2022学年第一学期期末试卷
- 石河子大学《生态工程学》2023-2024学年第一学期期末试卷
- 石河子大学《基础工程》2023-2024学年第一学期期末试卷
- 石河子大学《电子技术》2022-2023学年期末试卷
- 沈阳理工大学《信号变换》2021-2022学年第一学期期末试卷
- 沈阳理工大学《计算机网络与通信》2022-2023学年期末试卷
- 温病息风止痉法
- 消毒设备维护管理
- 沈阳理工大学《光纤传感技术》2023-2024学年第一学期期末试卷
- 广告合同高空作业免责协议书
- 发现生活中的美-完整版PPT
- 小学道德与法治人教三年级上册第三单元安全护我成长-《遭遇陌生人》教案
- CAMDS操作方法及使用技巧
- 平狄克《微观经济学》(第8版)笔记和课后习题详解
- 最优化理论与算法课程教学大纲
- 2022年湖北省武汉市江岸区育才第二小学六上期中数学试卷
- (最新版)中小学思政课一体化建设实施方案三篇
- PSA提氢装置操作规程
- 水工隧洞概述(67页清楚明了)
- 计算机维修工技能考核试卷
- 2020年四川省德阳市高三一诊考试地理试卷(Word版,含答案)
评论
0/150
提交评论