《应用统计学》(06)第6章利用变量间的关系进行预测_第1页
《应用统计学》(06)第6章利用变量间的关系进行预测_第2页
《应用统计学》(06)第6章利用变量间的关系进行预测_第3页
《应用统计学》(06)第6章利用变量间的关系进行预测_第4页
《应用统计学》(06)第6章利用变量间的关系进行预测_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

yyyy-M-应用统计应

AppliedStatisticsyyyy-M-世界上所有的模型都只是对现实世界的某种近似。没有完美的模型。所有的模型都命中注定要被修正、改进以至于被替代。

吴喜之

统计名言yyyy-M-怎样解决下面的问题?子女的身高与其父母身高有关系吗?个人的收入水平同他受教育程度有关系吗?农作物的单位面积产量与降雨量和施肥量有关系吗?股票价格与企业的盈利能力有关系吗?工资收入中有性别歧视吗?怎样根据广告费用的支出来预测销售额?yyyy-M-统计应用

看手相资料来源:MarioF.Triiola著《初级统计学》一些人相信他们的手掌的生命线的长度可以用来预测他们的生命。M.E.Wilson和L.E.Mather在《美国医学协会学报》发表的一封信中,他们对死者尸体的研究对此予以了驳斥。死亡时的年龄与手掌生命线的长度被一起记录下来。作者得出死亡时的年龄与生命线的长度不存在显著相关的结论首相术失传了,手掌也就放下来了yyyy-M-统计应用

预测大学足球比赛的获胜得分差额

为检验一场大学足球比赛中“争球码数”、“传球码数”、“回传次数”、“控球时间”以及“主场优势”等变量对比赛最后得分的影响,分析人员建立了一个多元回归模型。该模型的因变量是“比赛获胜得分的差值”,它等于胜方的最后得分减去负方的最后得分从高校体育协会前20名球队的比赛中随机抽取了90场,收集到自变量和因变量的数据并进行多元回归分析,得到的回归结果如下预测变量系数t值截距3.222.06争球码数差0.1112.50传球码数差0.0910.19回传次数差-2.80-5.75控球时间差-0.01-3.94主场优势变量3.041.68因变量:获胜得分差修正的R2=0.72第6章利用变量间的关系进行预测6.1

变量之间有什么样的关系?6.2建立变量之间的数学表达式6.3拟合效果的度量和回归检验6.4所有自变量都有必要放进模型中吗?6.5用自变量预测因变量6.6含有定性自变量的回归

6.1变量间关系的度量

6.1.1用散点图描述变量间的关系

6.1.2用相关系数度量关系的强度

6.1.3总体中也存在这样的关系吗?第6章利用变量间的关系进行预测6.1.1用散点图描述变量间的关系

6.1变量间关系的度量yyyy-M-相关关系

(correlation)一个变量的取值不能由另一个变量唯一确定父亲身高y与子女身高x之间的关系当变量

x取某个值时,变量y的取值可能有几个商品销售额y与广告费支出x之间的关系各观测点分布在直线周围

y

x

yyyy-M-散点图

(scatterdiagram)

不相关

负线性相关

正线性相关

非线性相关

完全负线性相关完全正线性相关

yyyy-M-散点图

(例题分析)【例】一家商业银行在多个地区设有分行,根据所抽取的25家分行2002年的有关业务数据绘制散点图

用Excel绘制散点图yyyy-M-散点图

(不良贷款对其他变量的散点图)yyyy-M-散点图

(5个变量的散点图矩阵)不良贷款贷款余额累计应收贷款贷款项目个数固定自产投资6.1.2用相关系数度量关系的强度6.1变量间关系的度量yyyy-M-相关系数

(correlationcoefficient)度量变量之间线性关系强度的一个统计量若相关系数是根据总体全部数据计算的,称为总体相关系数,记为

若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为r也称为线性相关系数(linearcorrelationcoefficient)或称为Pearson相关系数

(Pearson’scorrelationcoefficient)

用Excel计算相关系数yyyy-M-相关系数的性质性质1:r

的取值范围是[-1,1]

|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关

r=0,不存在线性相关关系

-1

r<0,为负相关0<r

1,为正相关|r|越趋于1表示关系越强;|r|越趋于0表示关系越弱yyyy-M-相关系数的性质性质2:r具有对称性。即x与y之间的相关系数和y与x之间的相关系数相等,即rxy=ryx性质3:r数值大小与x和y原点及尺度无关,即改变x和y的数据原点及计量尺度,并不改变r数值大小性质4:仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。这意为着,r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系性质5:r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系6.1.3总体中也存在这样的关系吗?

6.1变量间关系的度量yyyy-M-相关系数的显著性检验

(检验的步骤)1. 检验两个变量之间是否存在线性相关关系采用R.A.Fisher提出的t检验检验的步骤为提出假设:H0:

;H1:

0计算检验的统计量确定显著性水平,并作出决策若t>t

,拒绝H0yyyy-M-相关系数的显著性检验

(需要注意的问题)即使统计检验表明相关系数在统计上是显著的,并不一定意为着两个变量之间就存在重要的相关性因为的大样本情况下,几乎总是导致相关系数显著比如,r=0.1,在大样本情况下,也可能使得r通过检验,但实际上,一个变量取值的差异能由另一个变量的取值来解释的比例只有10%,这实际上很难说明两个变量之间就有实际意义上的显著关系6.2建立变量间的数学表达式

6.2.1涉及一个自变量的线性回归

6.2.2涉及多个自变量的线性回归第6章利用变量间的关系进行预测6.2.1涉及一个自变量的线性回归6.2建立变量间的数学表达式yyyy-M-一元线性回归涉及一个自变量的回归因变量y与自变量x之间为线性关系被预测或被解释的变量称为因变量(dependentvariable),用y表示用来预测或用来解释因变量的一个或多个变量称为自变量(independentvariable),用x表示因变量与自变量之间的关系用一个线性方程来表示yyyy-M-一元线性回归模型描述因变量y如何依赖于自变量x和误差项

的方程称为回归模型一元线性回归模型可表示为

y=b0+b1x+ey是x的线性函数(部分)加上误差项线性部分反映了由于x的变化而引起的y的变化误差项

是随机变量反映了除x和y之间的线性关系之外的随机因素对y的影响是不能由x和y之间的线性关系所解释的变异性

0和

1称为模型的参数yyyy-M-回归模型中为什么包含误差项

理由1:理论的含糊性。即使有决定y的行为的理论,而且常常是不完全的,影响y的变量不是无所知就是知而不确,因此不妨设

作为模型所排除或忽略的全部变量的替代变量误差项

是未包括在模型中而又影响着y的全部变量的替代物,但为什么不把这些变量引进到模型中来?换句话说,为什么不构造一个含有尽可能多个变量的复回归模型?古扎拉蒂在《计量经济学》一书中列出了7点理由yyyy-M-回归模型中为什么包含误差项

理由2:数据的欠缺。即使我们明知被忽略变量中的一些变量,并因而考虑用一个复回归而不是一个简单回归,我们却不一定能得到关于这些变量的数量信息理由3:核心变量与周边变量。影响y的全部或其中的一些变量,合起来的影响如此之小,充其量是一种非系统的或随机的影响。从实际考虑以及从成本上计算,把它们一一引入模型是划不来的。所以人们希望把它们的联合效应当作一个随机变量来看待yyyy-M-回归模型中为什么包含误差项

理由4:人类行为的内在随机性。即使我们成功地把所有有关的变量都引进到模型中来,在个别的y中仍不免有一些“内在”的随机性,无论我们花了多少力气都解释不了的。随机项

也许能很好地反映这种随机性理由5:糟糕的替代变量。虽然经典回归模型假定变量y和x能准确地观测,但实际上数据会受到测量误差的扰乱。由于这些变量不可直接观测,故实际上我们用替代变量。这时误差项

又可以用来代表测量误差yyyy-M-回归模型中为什么包含误差项

理由6:节省原则。我们想保持一个尽可能简单的回归模型。如果我们能用两个或三个变量就“基本上”解释了y的行为,并且如果我们的理论完善或扎实的程度还没有达到足以提出可包含进来的其他变量,那么为什么要引进更多的变量?让

去代表所有的其他变量好了。当然,我们不应该只为了保持回归模型简单而排除有关的和重要的变量yyyy-M-回归模型中为什么包含误差项

理由7:错误的函数形式。即使我们有了解释一种现象的在理论上正确的变量,并且我们能获得这些变量的数据,我们却常常不知道回归子(因变量)和回归元(自变量)之间的函数形式是什么形式。在双变量模型中,人们往往能从散点图来判断关系式的函数形式,而在多变量回归模型中,由于无法从图形上想像一个多维的散点图,要决定适当的函数形式就不容易yyyy-M-一元线性回归模型

(基本假定)

因变量x与自变量y之间具有线性关系在重复抽样中,自变量x的取值是固定的,即假定x是非随机的误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的x值,y的期望值为E(y)=

0+

1x对于所有的x值,ε的方差σ2都相同且相互独立误差项ε是一个服从正态分布的随机变量,

即ε~N(0,σ2)独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关yyyy-M-估计的回归方程

(estimatedregressionequation)一元线性回归中估计的回归方程为用样本统计量和代替回归方程中的未知参数和,就得到了估计的回归方程总体回归参数和

是未知的,必须利用样本数据去估计其中:是估计的回归直线在y

轴上的截距,是直线的斜率,它表示对于一个给定的x

的值,是y

的估计值,也表示x

每变动一个单位时,y的平均变动值

yyyy-M-参数的最小二乘估计

(methodofleastsquares)德国科学家KarlGauss(1777—1855)提出用最小化图中垂直方向的误差平方和来估计参数使因变量的观察值与估计值之间的误差平方和达到最小来求得和的方法。即用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小yyyy-M-KarlGauss的最小化图xy(xn,yn)(x1,y1)

(x2,y2)(xi,yi)ei=yi-yi^yyyy-M-用Excel进行回归分析第1步:选择【工具】下拉菜单第2步:选择【数据分析】选项第3步:在分析工具中选择【回归】,选择【确定】第4步:当对话框出现时

在【Y值输入区域】设置框内键入Y的数据区域在【X值输入区域】设置框内键入X的数据区域在【置信度】选项中给出所需的数值在【输出选项】中选择输出区域在【残差】分析选项中选择所需的选项

用Excel进行回归yyyy-M-不良贷款对贷款余额的回归

(例题分析)6.2.2涉及多个自变量的线性回归6.2建立变量间的数学表达式yyyy-M-多元回归模型

(multipleregressionmodel)一个因变量与两个及两个以上自变量的回归描述因变量y如何依赖于自变量x1

,x2

,…,

xk

和误差项

的方程,称为多元回归模型涉及k个自变量的多元回归模型可表示为

b0

,b1,b2

,,bk是参数

是被称为误差项的随机变量

y是x1,,x2

,xk

的线性函数加上误差项

包含在y里面但不能被k个自变量的线性关系所解释的变异性yyyy-M-估计的多元回归的方程

(estimatedmultipleregressionequation)

估计值是y

的估计值用样本统计量估计回归方程中的参数

时得到的方程由最小二乘法求得一般形式为

用Excel进行回归6.3拟合效果的度量和回归检验

6.3.1回归方程拟合的好吗?

6.3.2因变量与自变量之间有线性关系吗?第6章利用变量间的关系进行预测6.3.1回归方程拟合的好吗?6.3拟合效果的度量和回归检验yyyy-M-回归方程拟合的好吗?

(误差分解)

xyy

yyyy-M-回归方程拟合的好吗?

(误差平方和的关系)

SST=SSR+SSE总平方和(SST){回归平方和(SSR)残差平方和(SSE){{yyyy-M-决定系数R2

(coefficientofdetermination)回归平方和占总误差平方和的比例反映回归直线的拟合程度取值范围在[0,1]之间

R2

1,说明回归方程拟合的越好;R2

0,说明回归方程拟合的越差决定系数平方根等于相关系数

用Excel进行回归yyyy-M-调整的多重决定系数

(adjustedmultiplecoefficientofdetermination)

用样本量n和自变量的个数k去修正R2得到计算公式为避免增加自变量而高估R2意义与R2类似数值小于R2

用Excel进行回归yyyy-M-估计标准误差

(standarderrorofestimate)实际观察值与回归估计值误差平方和的均方根反映实际观察值在回归直线周围的分散状况对误差项

的标准差

的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量反映用估计的回归方程预测y时预测误差的大小

计算公式为

用Excel进行回归6.3.2因变量与自变量之间有线性关系吗?6.3拟合效果的度量和回归检验yyyy-M-因变量与自变量之间有线性关系吗?

(线性关系检验)

提出假设2.计算检验统计量F作出决策:若F>F

(或P<

),拒绝H0

用Excel进行回归yyyy-M-每个自变量对因变量都有显著影响吗

(回归系数检验)检验自变量xi

对因变量y的影响是否显著提出假设计算检验的统计量决策

用Excel进行回归6.4所有自变量都有必要放进模型中吗?

6.4.1自变量之间相关对模型有什么影响?

6.4.2剔除不必要的自变量

6.4.3模型有多好?第6章利用变量间的关系进行预测6.4.1自变量之间相关对模型有什么影响?

6.4所有自变量都有必要放进模型中吗?yyyy-M-多重共线性

(multicollinearity)回归模型中两个或两个以上的自变量彼此相关多重共线性带来的问题有可能会使回归的结果造成混乱,甚至会把分析引入歧途可能对参数估计值的正负号产生影响,特别是各回归系数的正负号有可能同预期的正负号相反

用Excel进行回归yyyy-M-多重共线性的识别检测多重共线性的最简单的一种办法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验若有一个或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着多重共线性如果出现下列情况,暗示存在多重共线性模型中各对自变量之间显著相关当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著回归系数的正负号与预期的相反

用Excel进行回归yyyy-M-多重共线性问题的处理将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关如果要在模型中保留所有的自变量,则应避免根据t统计量对单个参数进行检验对因变量值的推断(估计或预测)的限定在自变量样本值的范围内

用Excel进行回归yyyy-M-提示在建立多元线性回归模型时,不要试图引入更多的自变量,除非确实有必要在社会科学的研究中,由于所使用的大多数数据都是非试验性质的,因此,在某些情况下,得到的结果往往并不令人满意,但这不一定是选择的模型不合适,而是数据的质量不好,或者是由于引入的自变量不合适6.4.2剔除不必要的自变量6.4所有自变量都有必要放进模型中吗?yyyy-M-奥克姆剃刀

(Occam’sRazor)模型选择可遵循奥克姆剃刀的基本原理最好的科学模型往往最简单,且能解释所观察到的实事对于线性模型来说,奥克姆剃刀可表示成简约原则一个模型应包括拟合数据所必需的最少变量如果一个模型只包含数据拟合所必需的变量,这个模型就称为简约模型(parsimoniousmodel)实际中的许多多元回归模型都是对简约模型的扩展yyyy-M-变量选择过程在建立回归模型时,对自变量进行筛选选择自变量的原则是对统计量进行显著性检验将一个或一个以上的自变量引入到回归模型中时,是否使得残差平方和(SSE)有显著地减少。如果增加一个自变量使SSE的减少是显著的,则说明有必要将这个自变量引入回归模型,否则,就没有必要将这个自变量引入回归模型确定引入自变量是否使SSE有显著减少的方法,就是使用F统计量的值作为一个标准,以此来确定是在模型中增加一个自变量,还是从模型中剔除一个自变量变量选择的方法主要有:向前选择、向后剔除、逐步回归、最优子集等yyyy-M-向前选择

(forwardselection)从模型中没有自变量开始对k个自变量分别拟合对因变量的一元线性回归模型,共有k个,然后找出F统计量的值最高的模型及其自变量,并将其首先引入模型分别拟合引入模型外的k-1个自变量的线性回归模型如此反复进行,直至模型外的自变量均无统计显著性为止yyyy-M-向后剔除

(backwardelimination)先对因变量拟合包括所有k个自变量的回归模型。然后考察p(p<k)个去掉一个自变量的模型(这些模型中在每一个都有的k-1个自变量),使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除考察p-1个再去掉一个自变量的模型(这些模型中每一个都有k-2个的自变量),使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除如此反复进行,一直将自变量从模型中剔除,直至剔除一个自变量不会使SSE显著减小为止yyyy-M-逐步回归

(stepwiseregression)将向前选择和向后剔除两种方法结合起来筛选自变量在增加了一个自变量后,它会对模型中所有的变量进行考察,看看有没有可能剔除某个自变量。如果在增加了一个自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除按照方法不停地增加变量并考虑剔除以前增加的变量的可能性,直至增加变量已经不能导致SSE显著减少在前面步骤中增加的自变量在后面的步骤中有可能被剔除,而在前面步骤中剔除的自变量在后面的步骤中也可能重新进入到模型中yyyy-M-用SPSS进行逐步回归

(stepwiseregression)

用SPSS进行回归第1步:选择【Analyze】下拉菜单,并选择

【Regression-linear】选项进入主对话框第2步:在主对话框中将因变量选入【Dependent】,将所有自变量选入【Independent(s)】;在

【Method】下选择【Stepwise】第3步(需要预测时)点击【Save】,在【Predictioninterval】下选中【Mean】和【Individual】,点击【Continue】回到主对话框。点击【OK】yyyy-M-逐步回归

(例题分析—SPSS输出结果)VariableEntered/Removeda

model

VariableEnteredVariableRemovedmethod1各项贷款余额x1

Stepwise(Criteria:Probability-of-F-to-enter<=.050,Probability-of-F-to-remove<=.100).

2固定资产投资额x4

Stepwise(Criteria:Probability-of-F-to-enter<=.050,Probability-of-F-to-remove<=.100).

aDependentvariable:不良贷款yyyyy-M-逐步回归

(例题分析—SPSS输出结果)Modelsummary

model

RR-SquareAdjustedR-Square

Std.ErroroftheEstimate

1.844a.712.6991.97992.872b.761.7391.8428aPredictors:(Constant),各项贷款余额x1bPredictors:(Constant),各项贷款余额x1,固定资产投资额x4含x1和x4的模型只含x1的模型yyyy-M-逐步回归

(例题分析—SPSS输出结果)

ANOVAc

modelSumofSquaresdfMeanSquareFSig.1RegressResidualTotal222.48690.164312.65012324222.4863.92056.754.000a2RegressResidualTotal237.94174.709312.65022224118.9713.39635.034.000baPredictors:(Constant),各项贷款余额x1bPredictors:(Constant),各项贷款余额x1,固定资产投资额x4cDependentvariable:不良贷款yyyyy-M-逐步回归

(例题分析—SPSS输出结果)ModelUnstandardizedCoefficientsUnstandardizedCoefficientstSig.BStd.ErrorBeta1(Constant)

贷款余额x1-.830.038.723.0050844-1.1477.534.263.0002(Constant)

贷款余额x1

固定资产投资x4-.443.050-.032.697.007.0151.120-.355-.6366.732-2.133.531.000.044aDependentvariable:不良贷款yCoefficientsayyyy-M-模型有多好?建立的模型是否合适?或者说,这个拟合的模型有多“好”?可以从以下几个方面入手分析所估计的回归系数

的符号是否与理论或事先预期相一致回归模型在多大程度上解释了因变量y取值的差异?可以用判定系数R2来回答这一问题考察关于误差项

的正态性假定是否成立。因为在对线性关系进行F检验和回归系数进行t检验时,都要求误差项

服从正态分布,否则所用的检验程序将是无效的。

正态性的简单方法是画出残差正态概率图6.5用自变量预测因变量第6章利用变量间的关系进行预测yyyy-M-用自变量预测因变量根据自变量x

的取值,利用估计的回归方程预测因变量y的取值点估计对于自变量x

的一个给定值x0

,根据回归方程得到因变量y的一个估计值区间估计对于自变量x

的一个给定值x0

,根据回归方程得到因变量y的一个估计区间y的平均值的置信区间(confidenceinterval)y的个别值的预测区间(predictioninterval)

yyyy-M-用SPSS求置信区间和预测区间

用SPSS进行回归第1步:选择【Analyze】下拉菜单,并选择

【Regression-linear】选项进入主对话框第2步:在主对话框中将因变量选入【Dependent】,将所有自变量选入【Independent(s)】;在

【Method】下选择【Stepwise】(一元回归略去此步)第3步(需要预测时)点击【Save】,在【Predictioninterval】下选中【Mean】和【Individual】,点击【Continue】回到主对话框。点击【OK】6.6含有定性自变量的回归第6章利用变量间的关系进行预测yyyy-M-虚拟自变量

(dummyvariable)用数字代码表示的定性自变量虚拟自变量可有不同的水平只有两个水平的虚拟自变量比如,性别(男,女)有两个以上水平的虚拟自变量贷款企业的类型(家电,医药,其他)虚拟变量的取值为0,1yyyy-M-含有定性自变量的回归回归模型中使用虚拟自变量时,称为虚拟自变量的回归当虚拟自变量只有两个水平时,可在回归中引入一个虚拟变量比如,性别(男,女)一般而言,如果定性自变量有k个水平,需要在回归中模型中引进k-1个虚拟变量yyyy-M-含有定性自变量的回归

(例题分析)【例】为研究工资水平与工作年限和性别之间的关系,在某行业中随机抽取10名职工,所得数据如右表

用Excel进行回归yyyy-M-虚拟自变量的回归

(例题分析)引进虚拟变

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论