曲线回归拟合优度指标的讨论_第1页
曲线回归拟合优度指标的讨论_第2页
曲线回归拟合优度指标的讨论_第3页
曲线回归拟合优度指标的讨论_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

曲线回归拟合优度指标的讨论

在讨论了计算中的线性回归和曲线回归的拟合优势指标的情况后,我们注意到了在实际应用中,统计学中的曲线回归指数存在较大的评价问题。通过理论分析,找出了存在过高估计问题的原因,并用一个典型实例进行了验证,同时给出了几何意义清晰、计算简单且分辨率与灵敏度较高的拟合优度指标。建立线性相关系数r的表达方式在统计学中,线性回归分析方法导出线性回归数学模型的一般过程是:对于给定的数据集合{(xi,yi)|i=1,2,3,…,N},若因变量y与自变量x之间存在线性回归数学模型ˆy=a+bxyˆ=a+bx,则把变量集{(xi,yi)|i=1,2,3,…,N}的线性相关系数r定义为:r2=bd=L2xyLxxLyy=[∑(xi-ˉx)(yi-ˉy)]2∑(xi-ˉx)2∑(yi-ˉy)2(1)r2=bd=L2xyLxxLyy=[∑(xi−x¯)(yi−y¯)]2∑(xi−x¯)2∑(yi−y¯)2(1)其中:b=∑(xi-ˉx)(yi-ˉy)∑(xi-ˉx)2=LxyLxxd=∑(xi-ˉx)(yi-ˉy)∑(yi-ˉy)2=LxyLyyb=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2=LxyLxxd=∑(xi−x¯)(yi−y¯)∑(yi−y¯)2=LxyLyy可以推出线性相关系数r的另一种表达方式:r2=∑(ˆy-ˉy)2∑(y-ˉy)2=∑(y-ˉy)2-∑(ˆy-y)2∑(y-ˉy)2=1-∑(ˆy-ˉy)2∑(y-ˉy)2r2=∑(yˆ−y¯)2∑(y−y¯)2=∑(y−y¯)2−∑(yˆ−y)2∑(y−y¯)2=1−∑(yˆ−y¯)2∑(y−y¯)2数理统计学中把上式的平方根称为复相关系数,记为R。即R2=1-∑(ˆy-ˉy)2∑(y-ˉy)2(2)R2=1−∑(yˆ−y¯)2∑(y−y¯)2(2)从相关系数r到复相关系数R的推导过程可知,在线性回归与相关分析中,相关系数r等于复相关系数R。曲线回归拟合优度指标的确定从线性相关系数r与复相关系数R的关系的讨论中已知,r=R。即讨论变量集{(Xi,yi)|i=1,2,3,…,N}的线性相关系数r与讨论复相关系数R是等价的。关于曲线相关(或非线性相关),目前讨论得比较少。有的统计论著把呈抛物线分布的数据集的相关系数给定为r=0(实际上是意指数据间无线性关系),易引起该数据集无相关关系的误解,实际上数据间存在非线性相关关系。由于线性相关与回归具有计算方法简单便于应用的优点,在医学统计文献中,常常把曲线回归(非线性回归)问题转化为线性回归问题来讨论。对于变量集合{(xi,yi)|i=1,2,3,…,N}的曲线回归问题,可以通过对自变量和因变量的变换转换成线性回归问题的,常采用下面两种转换方法,然后应用最小二乘原理,求出变量集的回归曲线与相关关系。1.实际问题中所求回归曲线形如ˆy=a0+a1g1(x)+⋯+angn(x)n<Ν-1yˆ=a0+a1g1(x)+⋯+angn(x)n<N−1其中{gi(x)|i=1,2,…,n}均为不含参数的非线性函数。可令ui=gi(x),将X-Y空间上的曲线回归转化为U-Y空间上的线性回归。在这种特殊情况下,因为变量y没有改变,可以从U-Y空间上的相关系数r推出R2=1-∑(ˆy-y)2∑(y-ˉy)2R2=1−∑(yˆ−y)2∑(y−y¯)2,所以可以用R作为曲线回归拟合优度指标。2.在实际问题中,有时为简化计算过程,常将X-Y空间上的曲线回归转化为U-Z空间上的线性回归。如今ui=gi(x),Z=f(y)的变换。在这种情况下,因为变量y已作变换,只能从U-Z空间上的相关系数r推出R2z=1-∑(ˆz-z)2∑(z-ˉz)2R2z=1−∑(zˆ−z)2∑(z−z¯)2,但推不出R2=1-∑(ˆy-y)2∑(y-ˉy)2R2=1−∑(yˆ−y)2∑(y−y¯)2。所以用R作为曲线回归拟合优度指标是有疑问的。至于不能借助于上述形式的变换转换成线性回归的实际问题,一般采用Gauss-Newton法和Marguardt法,求出变量集的非线性回归曲线。此时用复相关系数R作为非线性回归曲线拟合优度的指标更是值得商榷的了。从上面的讨论可知,非线性回归只有极少数情况类似于线性回归,可利用公式(2)作为拟合优度的指标。如何确定曲线拟合优度指标的问题,已引起了学者们的注意。但关于适合于曲线回归与线性回归的通用的拟合优度指标的问题,还未见讨论。曲线拟合后的内测值是否较好为了得到非线性回归曲线拟合优度的指标,仿效线性回归中线性相关系数r的定义或复相关系数R的定义,文献提出了一个非线性相关系数,作为曲线回归拟合优度的指标:rΝL=∑(yi-ˉy)(ˆyi-ˉˆy)[∑(yi-ˉy)2∑(ˆyi-ˉˆy)2]12(3)rNL=∑(yi−y¯)(yˆi−yˆ¯¯)[∑(yi−y¯)2∑(yˆi−yˆ¯¯)2]12(3)把式(3)和线性相关系数r的定义式(1)比较,可以说式(3)是式(1)的“克隆”。它表示变量集{(yi‚ˆyi)|i=1,2‚3,⋯‚Ν}的线性相关系数。显然式(3)有下面的两个特点:1.式(3)定义的拟合优度的指标rNL不会小于零,因为通过曲线拟合后,不管拟合优度如何,{yi}与{ˆyi}应呈正线性相关关系。2.较大的rNL的值,只表明{yi}与{ˆyi}呈较好的正线性相关关系。若将rNL作为{yi}与{ˆyi}的拟合优度的指标,就是误用了。因为从式(3)可以推出rΝL=1-∑(ˆˆyi-yi)2∑(yi-ˉyi)2‚其中ˆˆyi=a+bˆyi即rNL是用ˆˆy来拟合yi的优度指标,而不是ˆy拟合yi的优度指标。3.式(3)定义的拟合优度的指标rNL的分辨率不高。对于拟合得较好的几条回归曲线,rNL很难分辨出孰优孰劣。例如,对表1中提供的统计资料:文献拟合出了5条回归曲线:ˆy1=1/(-0.1438+0.0737x)ˆy2=exp(4.5347-1.7251lnx)ˆy3=57.5992-29.8921lnxˆy4=exp(4.5261-0.5062x)ˆy5=100[exp(0.7814-2.1857lnx)]/[1+exp(0.7814-2.1857lnx)]本文按文献的方法补充一条回归曲线:ˆy6=113.7959exp(-0.5812x)文献据rNL的值认为回归曲线ˆy4与ˆy5拟合y较优,因为rNL的值达0.995以上。实际上0.995以上的rNL值并非表示用ˆy4与ˆy5估计y的值达到了这个精度,而是表示用ˆˆy4=-1.6644+1.1404ˆy4和ˆˆy5=1.1318+0.9446ˆy5估计y的值达到了这个精度,数据见表3。另外,从表2可以看出,回归曲线ˆy4与ˆy5的rNL值非常接近,据rNL的值较难判断回归曲线ˆy4与ˆy5的优劣。由上可见,用式(3)表示曲线拟合的优度是有问题的,它隐含再次施行了线性拟合,因而过高估计了rNL。其结果是用较优的数据(如ˆˆy4‚ˆˆy5)来计算rNL,但提供的预测数据却是相对较差的数据(如ˆy4,ˆy5)。其次,rNL的分辨率不高,对于拟合得较好的几条回归曲线,有时较难判断回归曲线的优劣。所以,套用线性回归与相关的理论与方法于曲线回归与相关是不尽人意的。拟合优度指标的组合在解决实际问题的过程中,所拟合的回归曲线优劣与否的标准是,在相同参数个数的条件下,拟合值{ˆyi}愈接近{yi},则认为拟合得愈好。把{yi}与{ˆyi}视为N维空间中的点,若{yi}与{ˆyi}之间的距离愈小,则可以认为用{ˆyi}估计{yi}愈好。于是,可定义新的拟合优度指标RNL为:RΝL=1-√∑(yi-ˆyi)2∑y2i(4)对于原始数据与所拟合的曲线提供的数据来说,显然有RNL≤1。RNL把残差平方和与相对误差有机地结合在一起,几何意义清晰且计算简单;RNL愈接近于1,表示曲线ˆy的拟合优度愈好。根据RNL与rNL各自的几何意义可知,RNL的分辨率将会比rNL的分辨率有很大的提高。另外,把{yi}与{ˆyi}视为N维空间中的向量,若{yi}与{ˆyi}之间的夹角θ愈小,则可以认为用{ˆyi}估计{yi}愈好。可定义辅助拟合优度指标FR=cosθ=∑yiˆyi√∑y2i√∑ˆy2i(5)FR叫做角余弦系数,往往被相关系数代替,未能普遍采用。它计算简单,几何意义清晰,也值得推荐使用。根据RNL和FR的几何意义,对于分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论