交通数据处理与分析-一元线性回归分析_第1页
交通数据处理与分析-一元线性回归分析_第2页
交通数据处理与分析-一元线性回归分析_第3页
交通数据处理与分析-一元线性回归分析_第4页
交通数据处理与分析-一元线性回归分析_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

交通数据处理与分析-一元线性回归分析第一页,共38页。最小二乘法判定系数回归方程的显著性检验/回归系数的显著性检验模型预测精度的度量一元线性回归分析第二页,共38页。在几种预测精度度量指标中。百分比误差、平均百分比误差和平均绝对百分比误差是对预测精度的相对度量,其对预测模型精度的度量要比回归标准差、平均绝对误差和误差平方和更直接第三页,共38页。预测精度、模型假设检验和模型预测能力是有区别的。模型假设检验可以用来判定模型是否可以用来拟合历史数据;精度分析是模型对历史数据拟合效果的一个度量模型的预测能力则往往不能通过历史数据来说明。由于预测对象是未来还没有发生的一种状态,不能应用未来数据分析模型的预测能力,一个很直接的方法是:把一部分观测数据用来估计模型参数,而余下的数据用作模型预测能力的评价。通过模型预测值和这部分实际数据进行对比分析(精度分析),从而判定模型的预测能力。第四页,共38页。现有全国31个主要城市2007年的气候情况观测数据,如表所示。下面研究年平均气温与全年日照时间之间的关系一元线性回归分析第五页,共38页。令x表示年平均气温,y表示全年日照时数。由于x和y均为一维变量,可以先从x和y的散点图上直观地观察它们之间的关系,然后再做进一步的分析。Matlab中的corr(x,y)或corrcoef(x,y)函数用于求相关系数数据的散点图第六页,共38页。Pearson相关系数(Pearson’scorrelationcoefficient)又叫相关系数或线性相关系数。它一般用字母r表示。它是由两个变量的样本取值得到,这是一个描述线性相关强度的量,取值于-1和1之间。当两个变量有很强的线性相关时,相关系数接近于1(正相关)或-1(负相关),而当两个变量不那么线性相关时,相关系数就接近0。相关系数第七页,共38页。Kendallt

相关系数(Kendall’st)这里的度量原理是把所有的样本点配对(如果每一个点由x和y组成的坐标(x,y)代表,一对点就是诸如(x1,y1)和(x2,y2)的点对,然后看每一对中的x和y的观测值是否同时增加(或减少)。比如由点对(x1,y1)和(x2,y2),可以算出乘积(x2-x1)(y2-y1)是否大于0;如果大于0,则说明x和y同时增长或同时下降,称这两点协同(concordant);否则就是不协同。如果样本中协同的点数目多,两个变量就更加相关一些;如果样本中不协同(discordant)的点数目多,两个变量就不很相关。相关系数第八页,共38页。Spearman(斯皮尔曼)秩相关系数(Spearmanrankcorrelationcoefficient或Spearman’sr)它和Pearson相关系数定义有些类似,只不过在定义中把点的坐标换成各自样本的秩(即样本点大小的“座次”)。Spearman相关系数也是取值在-1和1之间,也有类似的解释。通过它也可以进行不依赖于总体分布的非参数检验。相关系数第九页,共38页。R=corr(x,y,param1,param2,…)R=corrcoef(x,y)其中corrcoef函数输出的是Pearson相关系数,corr()函数可通过调整控制参数设置计算的相关系数类型。第十页,共38页。一元线性回归分析年平均气温(x)全年日照时间数(y)第十一页,共38页。regress()函数对于可控变量x1,x2,…,xp和随机变量y的n次独立的观测(xi1,xi2,…,xip;yi),(i=1,2,…n),关于x1,x2,…,xp的p重广义线性回归模型如下一元线性回归分析第十二页,共38页。y为因变量观测值向量,X为设计矩阵,f1,f2,…,fp为p个函数,对应模型中的p项,β为需要顾及的系数向量,ε为随机误差一元线性回归分析Xyβε第十三页,共38页。不同的函数f1,f2,…,fp对应不同类型的回归模型,特别地,当f1(xi1)=xi1,f2(xi2)=xi2,…,fp(xip)=xip,(I=1,2,…,n)时,上式称为p重线性回归。一元线性回归模型是多重线性回归的特殊情况。一元线性回归分析Xyβε第十四页,共38页。b=regress(y,X)返回多重线性回归方程中的系数向量β的估计值b,这里的b为一个p*1的向量。输入参数y为因变量的观测向量值,是n*1的列向量。X为n*p的设计矩阵。regress函数把y或X中的不确定数据NaN作为缺失数据而忽略他们。注意:当回归模型中需要常数项时,矩阵X中应当有1列1元素一元线性回归分析第十五页,共38页。[b,bint]=regress(y,X)还返回系数估计值的95%置信区间bint,它是一个p*2的矩阵,第1列为置信下限,第2列为置信上限。[b,bint,r]=regress(y,X)还返回残差(因变量的真实值yi减去估计值yˆi)向量,它是一个n*1的矩阵一元线性回归分析第十六页,共38页。[b,bint,r,rint]=regress(y,X)还返回残差的95%置信区间rint,它是一个n*2的矩阵,第1列为置信下限,第2列为置信上限。rint可用于异常值的诊断,若第i组观测的残差的置信区间不包括0,则可认为第i组观测值为异常值。[b,bint,r,rint,stats]=regress(y,X)还返回一个1*4的向量stats,其元素依次为判定系数R2,F统计量的观测值、检验的p值和误差方差的估计值[…]=regress(y,X,alpha)用alpha指定计算bint和rint时的置信水平为100(1-alpha)%第十七页,共38页。相关系数与判定系数第十八页,共38页。当需要计算判定系数R2,F统计量的观测值、p值时,模型中应包含常数项。若模型中不包含常数项,regress函数输出的判定系数R2、F统计量的观测值、p值是不正确的。在不考虑常数项的情况下,计算出的判定系数R2的值可能是负数,说明所用模型不适合用户的数据。第十九页,共38页。第二十页,共38页。输出结果如下所示一元线性回归分析进而可以写出线性回归方程通过假设检验的p值可得到回归得到的线性关系是否显著的结论。第二十一页,共38页。通过对残差和残差的置信区间进行分析,可以看出原始数据中是否存在异常点,若残差的置信区间不包括0点,可认为该组观测为异常点。残差分析第二十二页,共38页。残差分析残差图的横坐标表示观测序号,纵坐标表示残差值的大小。途中的每条竖直线段对应一组观测的残差和残差的置信区间,线段终点处的圆圈对应纵坐标为残差值的大小。第二十三页,共38页。线段上端点的纵坐标为置信上限,下断点为置信下限。从残差图中可以看出有4条线段(红色虚线)与水平线y=0没有交点,可认为这四组观测数据为异常数据。它们分别是拉萨(9.8,3181)、重庆(19,856.2)、成都(1608,935.6)和贵阳(14.9,1014.8)残差分析第二十四页,共38页。将四组异常数据剔除后重新计算相关系数,剔除异常数据后,x和y的线性相关性变为-0.8554,线性相关性进一步增强。调用regress函数重新计算,结果如下所示回归方程为对回归直线进行显著性检验的p值为1.3088*10-8,可知y(全年日照时数)与x(年平均气温)的线性关系更为显著一元线性回归分析第二十五页,共38页。一元线性回归分析第二十六页,共38页。Matlab统计工具箱中提供了regstats函数,可用来进行多重线性回归分析regstats(y,X,model)输入参数X为自变量观测值矩阵(或设计矩阵),它是n*p的矩阵。默认情况下,regstats函数自动在X第一列元素的左边加入一列1,不需要用户自己添加。输入参数y为因变量的观测值向量,是n*1的列向量。可选的输入参数model是一个字符串,用来控制回归模型的类型一元线性回归分析第二十七页,共38页。在上述调用格式下,regstats函数会生成一个交互式图形用户界面(GUI),界面上带有回归诊断统计量列表,包括系数的估计值、因变量的预测值、残差、判定系数、调整的判定系数、F检验和t检验的相关结果等,共23个可选项。一元线性回归分析第二十八页,共38页。stats=regstats(…)返回一个结构体变量stats,它有24个字段,包括了回归分析的所有诊断统计量。这种调用格式不生成图形用户界面,stats的后23个字段分别与图形用户界面上的23个选项相对应。stats=regstats(y,X,model,whichstats)仅返回有whichstats参数指定的统计量。whichstats可以是形如’leverage’的单个字符串,也可以是形如{‘leverage’,‘standres’}的字符串的元胞数组。一元线性回归分析第二十九页,共38页。regress函数和regstats函数利用普通最小二乘法估计模型中的参数,参数的估计值受异常值的影响比较大。robustifit函数采用加权最小二乘法估计模型中的参数,受异常值的影响比较小。b=robustfit(X,y)返回多重线性回归方程中系数向量β的估计值b,这里的b为一个p*1的向量。输入参数X为自变量观测值矩阵,它是n*p的矩阵。与regress函数不同的是,默认情况下,robustfit函数自动在X第一列元素的左边加入一列1,不需要用户自己添加。输入参数y为因变量的观测值。一元线性回归分析第三十页,共38页。b=robustfit(X,y,wfun,tune)用参数wfun指定加权函数,用参数tune指定调节常数。wfun为字符串,其可能的取值详见下表一元线性回归分析第三十一页,共38页。其中第三十二页,共38页。用户也可以自定义权重函数,函数的输入必须是残差向量,输出是权重向量。在调用robustifit函数时,把自定义权重函数的句柄(形如@myfun)作为wfun参数传递给robustifit函数,此时必须指定tune参数。第三十三页,共38页。b=robustfit(X,y,wfun,tune,const)用参数const来控制模型中是否包含常数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论