版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
应用统计学第八章相关与回归分析
CorrelationandRegressionAnalysis1本章学习目标通过本章的学习,你应该能够:
理解和掌握相关分析和回归分析的原理估计一元线性回归模型,并对模型进行检验利用计算机软件估计多元线性回归模型,并对模型进行检验了解几种常见的非线性函数,并对它们进行线性化变换;计算样本相关系数,并能对相关系数进行显著性检验2第8章相关与回归分析8.1相关与回归的基本概念8.2简单线性相关与回归分析8.3多元线性相关与回归分析8.4非线性相关分析与非线性回归分析38.1相关与回归的基本概念8.1.1变量间的相互关系8.1.2相关关系的类型8.1.3相关分析与回归分析4变量间的相互关系确定性的函数关系:当一个或者几个变量取一定的值时,另一个变量有确定值与之相对应;例如销售收入与销售量之间的关系、路程与速度之间的关系;不确定性的相关关系:当一个或几个相互联系的变量取一定数值时,与之相对应的另一个变量的值虽然不确定,但它仍按照某种规律在一定的范围内变化;
变量之间的函数关系和相关关系在一定条件下可以相互转化。
客观现象的函数关系可以用数学分析的方法去研究,而研究客观现象的相关关系必须借助于统计学中的相关与回归分析方法。
5相关关系的类型从相关关系涉及的变量数量看:单相关和复相关一个变量对另一变量的相关关系,称为单相关;
一个变量对两个以上变量的相关关系时,称为复相关;
从变量相关关系的表现形式看:线性相关和非线性相关从变量相关关系变化的方向看:正相关和负相关从变量相关的程度看:完全相关(函数关系)、不完全相关、不相关6相关分析与回归分析
联系:有共同的研究对象,在具体应用时,常常必须互相补充;
区别:研究目的和方法上有明显区别;局限性:定性分析与定量分析相结合;相关分析是用一个指标(相关系数r)来表明现象间依存关系的密切程度。
回归分析是用数学模型近似表达变量间的平均变化关系。7相关分析可以不必确定变量中哪个是自变量,哪个是因变量,其所涉及的变量都是随机变量。回归分析必须事先确定具有相关关系的变量中哪个为自变量,哪个为因变量。一般地说,回归分析中因变量是随机的,而把自变量作为研究时给定的非随机变量。相关分析和回归分析有共同的研究对象,常常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的密切程度。只有当变量之间存在着高度相关时,进行回归分析才有意义。相关分析与回归分析
88.2简单线性相关与回归分析8.2.1简单线性相关系数及检验8.2.2总体回归函数与样本回归函数8.2.3回归系数的估计8.2.4简单线性回归模型的检验8.2.4简单线性回归模型预测9相关系数总体相关系数(
populationcorrelationcoefficient)ρ
是反映两变量之间线性相关程度的一种特征值,表现为一个常数。样本相关系数(
samplecorrelationcoefficient)r
是总体相关系数的一致估计量,是根据样本观测值计算的,反映样本观测值线性相关程度的指标。10样本相关系数其中: r=样本相关系数 n=样本容量
样本相关系数:或:11样本相关系数计算的例子树的高度树干的直径yxxyy2x23582801225644994412401812771897294933619810893660137803600169217147441494511495202512151126122601144
y=321
x=73
xy=3142
y2=14111
x2=71312树干的直径,x树的高度,y样本相关系数计算的例子r=0.886→表明x和y具有高度线性相关关系。13Excel输出结果Excel相关分析的输出结果工具/数据分析/相关系数树的高度与树干的直径的相关系数14相关系数的特点
r的取值在-1与1之间;
当r=0时,X与Y的样本观测值之间没有线性关系;在大多数情况下,0<|r|<1,即X与Y的样本观测值之间存在着一定的线性关系,当r>0时,X与Y为正相关,当r<0时,X与Y为负相关。如果|r|=1,则表明X与Y完全线性相关,当r=1时,称为完全正相关,而r=-1时,称为完全负相关。
r是对变量之间线性相关关系的度量。r=0只是表明两个变量之间不存在线性关系,但它并不意味着X与Y之间不存在其他类型的关系。
15r=+0.3r=+1相关系数的图示yxyxyxyxyxr=-1r=-0.6r=016单相关系数的显著性检验
假设
H0:ρ=0 (无线性相关关系) H1:ρ
≠0 (确实存在线性相关关系)检验统计量
(自由度为n–2)17单相关系数的显著性检验是否可以根据5%的显著性水平认为树的高度与树干的直径之间存在一定程度的线性相关关系?H0:ρ
=0(无线性相关关系)H1:ρ≠0(确实存在线性相关关系)
=0.05,df
=
8-2=618单相关系数的显著性检验结论:
足以证明树的高度与树干的直径之间存在一定程度的线性相关关系。决策:
拒绝H0拒绝H0拒绝H0a/2=0.025-tα/2不能拒绝H00tα/2a/2=0.025-2.44692.44694.68d.f.=8-2=619回归分析
RegressionAnalysis回归分析研究一个变量如何随着其他变量的变化而变化;
用一个称为回归模型的数学方程来描述因变量与自变量之间的变化关系,再通过控制或给定自变量的数值来估计或预测因变量可能的数值。
被解释变量、因变量(Dependentvariable):被视为随着自变量而变化的变量,是我们想要加以解释的变量。解释变量、自变量(Independentvariable):被视为主动变化的变量,用于解释被解释变量。20一元(简单)线性回归模型只有一个自变量,XX和Y的关系用线性函数来描述Y的变化被认为是由于X的变化引起的21线性部分总体回归函数(模型)总体回归函数(模型):截距项
斜率
随机误差项(随机干扰项)因变量Y的第t个观测值自变量X的第t个观测值随机误差项其中,ut是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他各种因素对Y的影响。
22总体回归线与随机误差项随机误差项yxxi对应的因变量的实际观测值yiyi的拟合值
xi斜率=β2截距=β1
ut23样本回归直线是根据样本数据拟合的,是总体回归线的一个估计。样本回归线和样本回归模型回归截距的估计值回归斜率的估计值
估计的(或拟合的)y值自变量样本回归线(样本回归方程)样本回归函数(样本回归模型)残差24总体回归线是未知的,只有一条。样本回归线是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。总体回归模型中的β1和β2是未知的参数,表现为常数。而样本回归函数中的和是随机变量,其具体数值随所抽取的样本观测值不同而变动。总体回归模型中的ut是yt与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的et是yt与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出et的具体数值。
样本回归函数和总体回归函数的区别
25误差项的标准假定假定1:误差项的期望值等于0,即对所有的t总有E(ut)=0假定2:误差项的方差为常数,即对所有的t总有Var(ut)=E(ut2)=假定3:误差项之间不存在序列相关关系,其协方差为零;假定4:自变量是给定的变量,与随机误差项线性无关;假定5:随机误差项服从正态分布;26最小二乘估计在根据样本数据确定样本回归方程时,总是希望y的估计值尽可能地接近其实际观测值,即残差et的总量越小越好。由于et有正有负,简单的代数和会相互抵消,因此为了数学上便于处理,我们采用残差平方和作为衡量总偏差的尺度。所谓最小二乘法,就是根据这一思路,通过使残差平方和最小来估计回归系数的方法。27最小二乘估计正规方程组(标准方程组)28最小二乘估计量求解正规方程组,可得:以上就是总体回归系数的最小二乘估计量。29最小二乘估计量的性质最小二乘估计量是随着样本的不同而不同的随机变量;在满足标准假定的情况下,回归参数的最小二乘估计量是无偏的,即
最小二乘估计量是因变量Y的线性组合;数学上还可以证明,在所有的线性无偏估计中,回归系数的最小二乘估计量的方差最小,同时随着样本容量的增大,其方差会不断缩小;综上所述,在标准的假定条件下,最小二乘估计量是最佳线性无偏估计量和一致估计量。
30
是当x等于0时y的平均估计值;
是x每变化一个单位,因变量y平均变化的量。最小二乘估计量的解释31一元线性回归模型的例子一家房地产公司的经理想知道该公司住房的售价和住房面积(单位:平方尺)
之间的关系。为此他抽取了一个包含10套住房的随机样本。因变量(y)=住房的售价(单位:$1000)自变量(x)=住房的面积(单位:平方尺)32住房价格例子的样本数据住房的售价y住房的面积xxyx224514003430001960000312160049920025600002791700474300289000030818755775003515625199110021890012100002191550339450240250040523509517505522500324245079380060025003191425454575203062525517004335002890000
y=2865
x=17150
xy=5085975
x2=3098375033回归系数的估计34用Excel进行回归分析工具/数据分析/回归35Excel输出结果回归统计MultipleR0.76211RSquare0.58082AdjustedRSquare0.52842标准误差41.33032观测值10方差分析
dfSSMSFSignificanceF回归分析118934.934818934.934811.08480.01039残差813665.56521708.1957总计932600.5000
Coefficients标准误差tStatP-valueLower95%Upper95%Intercept98.2483358.033481.692960.12892-35.57720232.07386住房的面积0.109770.032973.329380.010390.033740.18580样本回归方程是:36回归分析的图示住房价格模型:散点图和样本回归线斜率
=0.10977截距
=98.2483337是当x等于0时y的平均估计值在这个例子中,没有房子的面积会等于0,所以98.24833仅仅意味着在所观测的样本范围内,住房售价中有$98,248.33不能用住房的面积来加以解释。回归截距估计值的解释38回归斜率估计值的解释是x每变化一个单位,因变量y平均变化的量。这里0.10977表示住房面积每增加一平方尺,住房的售价平均增加0.10977×$1000=$109.77。39总体(随机误差项)方差的估计
标准的一元线性回归模型除了β1和β2以外,还有一个未知参数,就是总体随机误差项的方差
2。由于随机误差项ut不可直接观测,所以需要用最小二乘残差et来估计
2。
数学上可以证明,S2是
2的无偏估计。40总体(随机误差项)方差的估计
分母n-2是自由度,因为残差必须满足两个约束条件:S2的正平方根称为回归估计的标准误差。S越小表明实际观测点与所拟合的样本回归线的离差程度越小,即样本回归线具有较强的代表性,反之,S越大表明实际观测点与所拟合的样本回归线的离差程度越大,即回归线的代表性越差。
41回归模型检验的种类
理论意义检验:主要考察参数估计值的符号和取值是否与实质性科学的理论以及人们的实践经验相符。如果不符,原因可能是样本容量太小,或者不满足标准假定条件。
一级检验(统计学检验):利用统计学中的抽样理论来检验样本回归方程的可靠性,具体分为拟合程度评价和显著性检验。这是所有现象进行回归分析时都必须通过的检验。
二级检验(经济计量学检验):是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差检验等等。这是经济计量学研究的内容。42拟合程度的评价所谓拟合程度是指样本观测值聚集在样本回归线周围的紧密程度。
判断回归模型拟合程度优劣的指标是可决系数(决定系数),该指标是建立在对总离差平方和进行分解的基础之上的。
总离差(因变量的实际观测值与样本均值的离差)
可解释离差(因变量的拟合值与样本均值的离差,可以看作能够由回归直线解释的部分)
残差(因变量的实际观测值与拟合值的离差,可以看作不能由回归直线解释的部分)
43总离差平方和的分解总离差平方和可以分解为两部分:总离差平方和回归平方和残差平方和其中:
=因变量观测值的平均值
y=因变量的观测值 =因变量实际观测值的拟合值44XiyxyiTSS
=
(yi
-
y)2RSS
=
(yi
-
yi)2
ESS=
(yi-
y)2
___总离差平方和的分解y
yy_y
45可决系数(coefficientofdetermination)是回归平方和占总离差平方和的比例,可决系数越大,说明模型拟合程度越高。
可决系数也称为R平方(R-squared),用R2表示。可决系数,R246相关系数与可决系数
R2注意:
一元线性回归模型的可决系数就是因变量Y和自变量X的相关系数的平方。
其中: R2=一元线性回归模型的可决系数 r=简单相关系数区别:可决系数是就回归模型而言的,具有非负性;而相关系数是就两个变量而言的,可正可负;
47R2=1可决系数,R2yxyxR2=1R2=1所有的观测值都位于回归直线上,RSS=0,说明总离差可以完全由所估计的样本回归直线来解释。48可决系数,R2yxyx0<R2<1观测值并不是全部位于回归直线上,RSS>0,有部分总离差不能由样本回归直线来解释。49可决系数,R2R2=0回归直线没有解释任何离差,即模型中解释变量X与因变量Y完全无关,Y的总离差全部归于残差平方和,即RSS=TSS。yxR2=050Excel输出结果回归统计MultipleR0.76211RSquare0.58082AdjustedRSquare0.52842标准误差41.33032观测值10方差分析
dfSSMSFSignificanceF回归分析118934.934818934.934811.08480.01039残差813665.56521708.1957总计932600.5000
Coefficients标准误差tStatP-valueLower95%Upper95%Intercept98.2483358.033481.692960.12892-35.57720232.07386住房的面积0.109770.032973.329380.010390.033740.18580住房售价的58.08%离差可以用住房的面积变化来解释。51回归系数的显著性检验——t检验
回归斜率的显著性检验—t检验X和Y是否确实存在线性关系?零假设和备择假设H0:β2=0 (无线性相关关系)H1:β2
0 (线性相关关系确实存在)检验统计量
其中:=回归斜率的估计值
β2=假设的斜率=标准差的估计值52其中:
=最小二乘斜率的标准差的估计值 =回归估计的标准误差回归系数的显著性检验——t检验53Excel输出结果回归统计MultipleR0.76211RSquare0.58082AdjustedRSquare0.52842标准误差41.33032观测值10方差分析
dfSSMSFSignificanceF回归分析118934.934818934.934811.08480.01039残差813665.56521708.1957总计932600.5000
Coefficients标准误差tStatP-valueLower95%Upper95%Intercept98.2483358.033481.692960.12892-35.57720232.07386住房的面积0.109770.032973.329380.010390.033740.1858054住房的售价$1000(y)住房的面积(x)2451400312160027917003081875199110021915504052350324245031914252551700估计的样本回归方程为:模型中斜率等于0.10977;请问住房的面积对住房的售价是否具有显著的影响?
回归系数显著性检验的例子55回归系数显著性检验的例子H0:β2=0H1:β2
0检验统计量:
t=3.32938有足够的证据表明住房的面积确实对住房的售价有显著的影响。Excel输出结果:拒绝H0
Coefficients标准误差tStatP-valueIntercept98.2483358.033481.692960.12892住房的面积0.109770.032973.329380.01039t决策:结论:拒绝H0拒绝H0a/2=.025-tα/2不能拒绝H00tα/2a/2=.025-2.30602.30603.32938d.f.=10-2=856回归系数的置信区间估计斜率的置信区间估计的公式为:Excel的输出结果:以95%的置信水平认为,斜率的置信区间为(0.0337,0.1858)
Coefficients标准误差tStatP-valueLower95%Upper95%Intercept98.2483358.033481.692960.12892-35.57720232.07386住房的面积0.109770.032973.329380.010390.033740.18580d.f.=n-257回归系数的置信区间估计因为住房的售价是以$1000为单位的,我们可以以95%的置信度认为住房面积每增加一平方尺对住房售价的平均影响在$33.70到$185.80之间。
Coefficients标准误差tStatP-valueLower95%Upper95%Intercept98.2483358.033481.692960.12892-35.57720232.07386住房的面积0.109770.032973.329380.010390.033740.18580这个95%的置信区间
不包含0.结论:以0.05的显著性水平认为住房的面积对住房的售价有显著的影响。58简单线性回归模型预测
回归预测的基本公式:发生预测误差的原因有:模型本身中的误差因素所造成的误差(总体回归函数未将所有影响Y的因素都纳入模型,可以用随机扰动项的方差来评价)
由于回归系数的估计值同其真值不一致所造成的误差
由于X的设定值同实际值不同引起的误差
由于未来时期总体回归系数发生变化造成的误差
59一元线性回归模型区间预测
区间预测的公式:60一元线性回归模型预测的例子请预测面积为2000平方尺住房的售价?住房的售价$1000(y)住房的面积(x)2451400312160027917003081875199110021915504052350324245031914252551700估计的样本回归方程为:61一元线性回归模型预测的例子预测面积为2000平方尺住房的售价为:预计面积为2000平方尺的住房的售价为317.85×$1,000=$317,85062一元线性回归模型预测的例子计算置信度为95%的住房(面积为2000平方尺)售价的预测区间。置信度为95%的住房售价的预测区间为215.57--420.13,或者$215,570--$420,130。638.3多元线性相关与回归分析8.3.1多元线性回归模型及假设8.3.2多元线性回归模型的估计8.3.3多元线性回归模型的检验64多元线性回归模型研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系。总体回归模型截距项总体回归系数随机误差项估计的(或拟合的)Y值总体回归系数的估计值估计的样本回归方程:65误差项的标准假定假定1:零均值假定2:同方差
假定3:无自相关假定4:自变量与随机误差项线性无关假定5:正态性假定假定6:各自变量之间不存在较强的线性关系66回归系数的估计为了便于表述,我们用矩阵形式来表示总体回归模型。其中:67回归系数的估计68回归系数的估计在此,Y和X都是已知的矩阵或者向量,只有是未知的,所以,而根据定理,如果,则因此两项均转置,得
69最小二乘估计量整理得:(正规方程组,即标准方程组,k个方程)
根据标准假定6,k个自变量之间不存在高度的线性相关关系,因此的逆矩阵存在;此即最小二乘估计量的矩阵表示。70多元线性回归模型的例子某个馅饼分销商经理想要评价影响馅饼销售的因素,为此他确定了因变量:馅饼销售量(以周为单位)自变量:价格($)
广告投入($100)他收集了过去15周的数据作为样本。71馅饼销售模型周馅饼销售量价格($)广告投入($100s)13505.503.324607.503.333508.003.044308.004.553506.803.063807.504.074304.503.084706.403.794507.003.5104905.004.0113407.203.5123007.903.2134405.904.0144505.003.5153007.002.7多元回归模型:72估计多元线性回归模型多元回归分析的计算通常采用现成的软件来完成,例如,Excel、SPSS等。Excel:工具/数据分析/回归73Excel输出结果回归统计MultipleR0.72213RSquare0.52148AdjustedRSquare0.44172标准误差47.46341观测值15方差分析
dfSSMSFSignificanceF回归分析229460.02714730.0136.538610.01201残差1227033.3062252.776总计1456493.333
Coefficients标准误差tStatP-valueLower95%Upper95%Intercept306.52619114.253892.682850.0199357.58835555.46404价格-24.9750910.83213-2.305650.03979-48.57626-1.37392广告投入74.1309625.967322.854780.0144917.55303130.7088874多元线性回归方程的解释-24.975:
扣除广告投入对销售量的影响,平均来讲,销售价格每增加$1将引起馅饼的周销售量减少24.975个。74.131:
扣除销售价格对销售量的影响,平均来讲,广告投入每增加$100将引起馅饼的周销售量增加74.131个75利用模型进行预测请预测当销售价格为$5.50,广告投入为$350时馅饼的周销售数量:预测的销售量为428.62个注意广告投入是以$100为单位的,所以$350意味着x2=
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025北京市个体工商户雇工劳动合同书范文
- 2025年度按摩店合伙人市场分析与竞争策略协议3篇
- 2025年度农村墓地建设项目投资合作协议书
- 二零二五年度养老公寓入住与休闲娱乐服务合同3篇
- 二零二五年度公司企业间新能源车辆购置借款合同3篇
- 2025年度工伤赔偿争议解决机制协议书3篇
- 二零二五年度养老机构兼职校医照护服务合同3篇
- 二零二五年度养殖场专业技术人员聘用合同3篇
- 二零二五年度地下停车场开发与运营管理合同3篇
- 二零二五年度智能电网设备采购合同风险识别与防范3篇
- TSG 51-2023 起重机械安全技术规程 含2024年第1号修改单
- 《正态分布理论及其应用研究》4200字(论文)
- GB/T 45086.1-2024车载定位系统技术要求及试验方法第1部分:卫星定位
- 浙江省杭州市钱塘区2023-2024学年四年级上学期英语期末试卷
- 1古诗文理解性默写(教师卷)
- 广东省广州市越秀区2021-2022学年九年级上学期期末道德与法治试题(含答案)
- 2024-2025学年六上科学期末综合检测卷(含答案)
- 在线教育平台合作合同助力教育公平
- 工地钢板短期出租合同模板
- 女排精神课件教学课件
- 2024年湖南省公务员考试《行测》真题及答案解析
评论
0/150
提交评论