一元线性回归分析与预测_第1页
一元线性回归分析与预测_第2页
一元线性回归分析与预测_第3页
一元线性回归分析与预测_第4页
一元线性回归分析与预测_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一元线性回归分析与预测世界上的变量之间大致有如下三种关系:y=f(x),变量之间存在着严格的依存关系,对于A变量的每一个数值,B变量总有一个确定的值与之对应。例如商品销售额与销售量的依存关系。y=f(x),变量之间存在着严格的依存关系,对于A变量的每一个数值,B变量总有一个确定的值与之对应。例如商品销售额与销售量的依存关系。变量之间存在着非严格的依存关系,A变量在数量上的变化会影响B变量在数量上的变化,但B变量在数量上的变化具有一定的随机性。变量间关系函数关系相关关系无关系具有相关关系的变量之间虽然具有某种不确定性,但是,通过对现象的不断观察可以探索出它们之间的统计规律(本质上就是探索相关变量之间在总体上的规律),这类统计规律称为回归关系。我们只通过有限次地观察样本,相关关系的变量之间呈现不确定性,也即A变量增大或者减小,B变量未必相应地增大或者减小,B变量具有随机性,但是如果我们观察的样本数量足够多,A变量与B变量又会呈现出某种确定的关系,比如随着A变量的增大,B变量的均值可能随之增大,这种在大样本容量下变量之间呈现出的确定关系(可视为总体下的变量之间呈现出的确定关系,只有样本容量足够大,才可以呈现出总体的规律,正如只有大量投掷硬币,才可以呈现出落地后“正面朝上”的概率为0.5这一总体的特征,或者规律),称之为回归关系。有关回归关系的理论、计算和分析称为回归分析。研究回归关系时,变量又分为自变量和因变量,自变量是因变量的影响因素,因变量的变化受到自变量变化的影响,自变量实际上可视为我们常说的“因“,因变量可视为我们常说的”果“,虽然二者并不是严格意义上的因果关系。至于两个变量,哪个是自变量,哪个是因变量,大家根据实际情况来判断。本文将从一组样本数据出发,确定这些变量之间的回归关系,也即将这些变量拟合为确定的回归方程的数据模型(也就是确定的函数关系),并用统计指标来说明回归方程对样本数据的拟合程度,也就是判断自变量影响因变量的显著性,另外,还可以运用回归方程进行预测。大家看,这实际上仍是通过样本来推断总体的应用场景,所以在回归分析中也少不了要做假设检验。综上所述,回归分析是研究总体下的变量之间(自变量与因变量)的定量关系(使用回归方程来描述,即函数表达式)的一种统计分析方法,其目的在于根据已知自变量来估计和预测因变量,是一种预测性的建模技术。本文介绍最简单的回归分析,只有一个自变量,且自变量与因变量呈线性关系,因此称之为一元线性回归分析。下面我们先对本文所介绍的一元线性回归分析的应用场景做几个假设,也就是给出已知条件:1、线性Linear:因变量Y的总体均数μ与X呈线性关系,即μ=β0+β1X-------①2、独立Independent:每一个自变量值x对应一个Y随机变量,所有这些Y随机变量彼此独立;3、正态Normaldistribution:对任何给定的自变量值x,它所对应的因变量Y服从正态分布。4、方差相等Equalvariance:对于自变量X的任何值,其所对应的因变量Y的标准差σε2相等。对以上的已知条件做如下说明:自变量X不是随机变量,我们可以在一个范围内人为选取若干个X值,每一个具体的X值,它所对应的Y变量的取值却都是随机的,也就是说Y变量都是一个随机变量,而且都服从正态分布,所有这些Y变量的标准差相等,而且相互独立。对于每一个具体的X值,它与对应的Y随机变量的总体均值uy|x(表示在X=x的条件下Y随机变量的总体均值)具有线性关系,其回归方程见公式①,β0为回归方程的截距,β1为回归方程的斜率,也称为回归系数,在回归分析中,回归系数直接反映了自变量X对因变量Y的影响程度。在本文中,总体的一些特征或者规律是已知的,比如因变量呈正态分布;所有因变量的方差相等,且彼此独立;自变量与因变量的均值具有线性关系,但是总体也有未知的信息需要进一步推断,比如回归方程中的β0和β1,只有β0和β1是明确的,我们才可以利用回归方程做进一步的预测,比如给定一个具体的X值,通过回归方程,便可以预测出对应的Y值。在本文中所采用的假设检验,应该属于参数检验,因为上述的总体的某些特征是已知的。为了便于更直观和更形象地理解上述的总体的已知特征,可参考下图。下图即为在自变量X取值为x0,x1,…xn的条件下,所对应的每个因变量Y的总体。下面我们介绍如何通过样本数据,来推断总体的回归方程,也即①式。如上图所示,现在有容量为n的样本(x0,y0),(x1,y1),…,(xn,yn),从各点在坐标系中的分布来看,各点散落在一条直线周围,因此可以拟合为一条直线,假设该直线的线性方程为:为了使得线性方程拟合这n个样本的效果达到最佳,那就需要各实测点至回归直线的纵向距离的平方和最小,也即使得达到最小。根据最小二乘法原理(大家可参考相关资料),通过这n个样本,可以计算出和的值,分别如下:而且还可以进一步推导出:由此可知,对样本拟合出的回归方程,其中的截距和回归系数,,也皆服从正态分布,而且均值分别为总体回归方程中的的,,而且将一指定的X值xi代入拟合回归方程中,求出的也呈正态分布,而且均值为。所以,,分别可以作为,,的估计值,因此拟合回归方程可以看作是总体回归方程的近似。关于自变量X和因变量Y,我们主要关心的是自变量X与总体Y是否存在线性回归关系,也就是在总体的回归方程中β1是否为0。原假设:β1=0,也即x与y没有线性回归关系,μy|x=β0+0x=β0,下面利用样本数据来构造检验统计量,检验x与y是否有线性回归关系,可以采用两种检验方法。第一种是方差分析,也就是对样本中的y值的变异进行拆解分析,如下图所示。应变量y离均差平方和分解示意图实际上可以拆分为两部分变异,分别为SS回,SS残,拆解过程如下:SS回:为回归平方和,即总平方和中可以用x解释的部分,或者说x与y的线性回归关系可解释的变异,越大越好。SS残:为残差平方和,反映除了x对y的线性影响之外的一切因素对y的变异作用,也就是在总平方和中无法用x解释的部分,表示考虑回归之后y的真正的随机误差,其越小越好,也即回归的效果越明显。SS总:为y的离均差平方和,表示未考虑x与y的回归关系时y的总变异。检验x与y是否有线性回归关系,实际上可以转换为检验SS回是否比SS残足够大,如果是,说明变异主要是由x引起的,由此可以推断x与y具有线性回归关系。既然是两个方差之间的比较,我们自然想到F检验。利用样本数据构造F检验统计量:F=SS回/v回SS残/v残=MS回是回归均方,MS残是残差均方,v回如果检验统计量F>F0.05(1,n-2),则说明x解释的部分远大于随机误差,所以可拒绝原假设,接受备选假设。备选假设:β1≠0,也即x与y有线性回归关系,也即μy|x=β0+下面介绍第二种检验方式---t检验:我们已经知道,服从正态分布,其中,MS残为σ所以的标准方差的无偏估计为:原假设:β1=0,基于原假设,可构造以下t检验统计量如果t>t0.05/2,n-2,则说明回归系数不为0,也即x解释的部分远大于随机误差,所以可拒绝原假设,接受备选假设。对于检验x与y是否有线性回归关系,方差分析与t检验的结论是一致的,即两者是完全等价的。同时,也可以求出β1的区间估计使用同样的方法,也可以求出β0的区间估计,因为也服从以下的正态分布。我们利用方差分析或者t检验的方式推断出回归方程是否成立,也即在总体中x与y的线性回归关系是否存在。但是我们该如何评估回归方程的优劣呢?也就是说它的预测效果如何,因为通过样本数据求出回归方程,其目的也在于给出一个x,来预测y可能的取值。下面我们给出决定系数的概念,它是评估回归方程优劣的一个重要指标。R2=SS回SSR2为回归平方和与总平方和的比值,即y的总变异中因x与y的线性回归关系所能解释的比例,反映了回归贡献的相对程度,无量纲。R综上所述,一个拟合良好的回归方程应该具有较小的p值(≤0.05,假设检验中统计量对应的累积概率值)和较大的决定系数R2(≧0.7)一旦根据样本数据拟合出回归方程,并且通过假设检验推断出x与y具有线性回归关系,也即β1≠0,而且决定系数R2≧0.7,那么下面便可以利用拟合的回归方程进行预测了,也即将一个指定的X值代入方程中,计算出。一元线性回归有两种预测:一是均值的预测,也就是每一个x值对应的因变量y的均值(上面提到,因变量y是一个随机变量,这里的均值的预测,就是y的总体的均值);另一个是个值的预测,也就是预测y变量在一定的概率下会落入的我们首先介绍第一种预测:均值预测。不妨指定一个X值为x0,则由拟合回归方程计算出的,其均值与方差如下:上面我们提到:MS残为σ可以作为的标准差的估计值。由此有:即为在x=x0的条件下,对应因变量y的总体的均值,也就是。由此我们得到,在给定的1-α(α一般为0.05,也即置信度为95%)的置信度下,的置信区间为:95%置信区间的含义:如果作100次抽样(每次抽取n个样本),获得100个容量为n的样本,可算得100个置信区间,其中平均有95个置信区间包含该总体均值。下面我们再介绍第二种预测:个值的预测。通过样本数据我们计算出了,它可以作为的一个估计值。另外也可以预测一下y变量如果以作为均值,由于随机因素的影响在上下波动的范围,可以称之为容许区间,比如95%容许区间,指有95%的y变量取值在该区间内。首先计算一下与之差的均值和方差,因为与都是服从正态分布的随机变量,所以二者之差也是服从正态分布的随机变量。差的均值与方差如下所示:从而有:上面我们提到:MS残为σ那么的1-α的容许区间为:

由于<,所以容许区间的范围要大于置信区间的范围,如下图所示。下面我们通过一个实际的案例,来演示一下一元线性回归分析与预测的过程。以下表格收集了30名成年男子的体重与肺活量,试对体重与肺活量进行线性回归分析。编号体重(kg)肺活量(L)160.14.51260.384.47359.744.4455.044.07559.674.34659.444.397574.29859.754.31960.54.41058.724.361156.954.181257.224.11355.964.061457.874.231556.874.31655.974.141756.074.211855.284.141955.794.22054.564.042155.114.22253.244.022360.14.522460.54.482559.044.32659.014.322759.74.222859.064.282959.124.293054.214.2在本例中,主要研究体重对肺活量的影响,所以体重为自变量,而肺活量为因变量。首先制作二者的散点图,观察各点是否散落在一条直线周边,如果是,则可以进一步进行线性回归的分析;如果不是,则就没有必要做进一步的线性回归分析了。大家看上图,各个点基本散落在直线的周边,所以我们可以进一步做线性回归分析。首先求出拟合线性回归方程。=lxylxx=7.54137.94=- = 4.27-0.055*57.73=1.10所以拟合线性回归方程为:=1.10+0.055下面使用F检验推断体重与肺活量是否有线性回归关系。原假设:体重与肺活量无线性回归关系,也即=0;备选假设;体重与肺活量有线性回归关系,也即≠0;方差分析dfSSMSFSignificanceF回归分析10.411734(SS回)0.411734(MS回)75.546431.93217E-09残差280.152602(SS残)0.00545(MS残)总计290.564337(SS总)很明显F=75.55>F0.05,(1,28),则拒绝原假设,接受备选假设,也即成年男子的体重与肺活量有线性回归关系。前面我们已经提到,β1在该例中,=0.00545137.94=0.0063,t0.05/2,28=2.048(可查表,或者使用excel函数求出该值)。所以β1的95%置信区间为(0.055-2.048*0.0063,0.055+2.048*0.0063)=(0.042,0.068)下面我们再通过计算决定系数R2来判断一下该回归方程拟合是否良好。R2=SS回SS总由此可知,成年男子的体重能解释其肺活量73%的变异,仅有27%的变异是由其他因素来解释,也就是说用体重来预测肺活量,效果比较好。最后基于拟合的回归方程,进行预测。首先预测一下肺活量总体的均值的置信区间。根据前面给出的求置信区间的公式,可计算出:当男子体重为58kg时,肺活量这个总体的均值在95%置信度下的区间。其中=0.016,=1.10+0.055*58=4.29,t0.05/2,28=2.048所以肺活量这个总体的均值在95%置信度下的区间为:(4.29–2.048*0.016,4.29+2.048*0.016)=(4.26,4.32)下面我们再做个值的预测。根据前面给出的求容许区间的公式,可计算出:当男子体重为58kg时,肺活量95%的数据所在的容许区间。其中=0.076,=1.10+0.055*58=4.2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论