最小一乘线性回归的数学归纳法刻画_第1页
最小一乘线性回归的数学归纳法刻画_第2页
最小一乘线性回归的数学归纳法刻画_第3页
最小一乘线性回归的数学归纳法刻画_第4页
最小一乘线性回归的数学归纳法刻画_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

最小一乘线性回归的数学归纳法刻画

异常点的处理方法众所周知,最小二乘法在方法论和理论上相对成熟。这个解可以用一个简单的公式来表达。这是组合常用的方法之一。目前,最小二乘法也十分广泛地应用于科学技术领域的许多实际问题,如曲线拟合、数据光滑、状态估计、函数逼近、系统辩识、时间序列建模等。尽管某些实际问题用最小二乘估计求解可获得较满意的效果,但该方法也存在一些局限性,比如,当收集的数据较少,并且数据中夹杂有异常点时,用最小二乘法所得的结果就令人难以接受,在此情况下应用所得到的回归方程或模型进行预测、拟合等,则预测或拟合的精度是相当低的,甚至根本不能使用。事实上,当数据中夹杂有异常点时,异常点有较大的偏差,其平方之值相对更大,为了压低平方和,就不能不“将就”这些点,因而虚增加了残差大的数据对回归线施加的影响,从而异常点会把回归线拉得离它更近一些,导致回归线“失真”较大。通常,人们对异常点的处理方法是凭直觉和经验将其剔除,这样将有两方面的不足:一方面,剔除异常点后获得的回归模型当然会因此受到影响(因为减少了样本量,尤其当数据较少时更为突出),另一方面,异常点恰好在某些方面确实反映了一些特殊的信息,不应该随意剔除。在数理统计上,人们用“稳健性”刻划一个方法受异常值影响的程度。通常,人们认为回归模型中的随机误差服从正态分布,在这个假设下,理论上可以证明,最小二乘有一些优良的性质,但在一些应用,特别是在某些数量经济的问题中,误差不能认为有正态性,而是服从一种尾部占更大比重的分布,理论证明:在这些情况下,最小一乘估计的统计性能优于最小二乘估计,其具有不可替代的优越性;另外,“最小一乘”准则的稳健性比最小二乘准则的稳健性好,而且其受异常点的影响较小一点,所以将误差绝对值之和最小作为目标也被广泛地应用到工程实践中。由于最小一乘回归属于不可微问题,与最小二乘相比,具有较大的难度,从而导致对该问题的研究较为缓慢。在给出的样本点(即原始数据)的条件下,快速正确地获得稳健的最小一乘回归模型的方法不多。目前,在已有的文献中主要有松弛算法、目标规划法和搜索算法,这些方法的特点是通过将原问题转化为线性规划、加权最小二乘法等通过迭代的形式得到。这样存在两个问题:第一,算法经过迭代后是否能收敛到一个值,即存在收敛性问题;第二,如果算法收敛,该结果是否就是所需要的最小一乘解,即结果的正确性问题。还有,上述算法的都是建立在一元线性回归的基础上,当变量数增加模型变为多元线性回归模型时,这些算法是否还能解决这类问题,这将无从考证。本文旨在从理论上探讨基于最小一乘的多元线性回归模型的性质,从而在理论上给最小一乘方法的工程应用提供指导。1线性回归模型假设样本数据为(x1,y1)、(x2,y2)、…、(xn,yn),其中yn∈R1,xi=(xi1,xi2,…,xiP)∈RP是P维行向量。现将由这些数据拟合一条曲线:当用最小二乘准则时,建立的模型为:式中ei为实际值yi与拟合值f(ix)的残差(i=1,2,…,n),Qls为残差平方和。当用最小一乘准则时,建立的模型为:式中Qla为残差绝对值之和。假定拟合的曲线(1)是线性的,即y=a+xbT。式中,a和b为待定参数,其中a∈R1,b=(b1,b2,…,bP)为P维的行向量)。用最小二乘准则可建立如下线性回归模型:由最小二乘回归知识知,待求参数的估计值为:用最小一乘准则可建立如下线性回归模型:由于(6)式是不可微的优化问题,用通常的方法求解时,将无能为力。下面先讨论最小一乘线性回归模型的性质,然后将性质用于最小一乘线性回归模型参数的估计。2元线性非奇次回归模型a为求解(6)式,先给出下列几个引理、命题和定理:引理1设有n个样本点(xi,yi)(i=1,2,…,n;其中xi∈R1,yi∈R1),则由“最小一乘”准则确定的直线y=a+bx(a∈R1,b∈R1)经过其两个样本点。命题1rj∈Q+(j=1,2,…m,Q+表示正有理数集合),则必存在一个正整数L,使得rjL均为正整数。命题2设(a0,b0)是问题(6)的解,则(a0,b0)也是问题MinL×Qla的解,其中L∈R+(R+表示正实数集合)。下面讨论二元线性奇次回归模型的性质:定理2设有n个样本点(x1j,x2j,yj)(j=1,2,…,n),则由“最小一乘”准则确定的直线y=b1x1+b2x2经过其两个样本点。证明:不妨设x1j≠0(事实上,若x1j=0,则与b1无关,因而确定b1时可将其剔除。),则:由命题1知,对|x11|、|x12|、…、|x1n|,存在一个正整数L,使得:L|x11|、L|x12|、…、L|x1n|为正整数,记为L1、L2、…、Ln。由命题2知,(7)式对应的问题与问题等价。对(9)式作如下理解:(9)式表示由在最小一乘准则下确定回归直线。由引理1知,问题(9)确定的回归直线必过其中两点。设为:综上,由问题(7)确定的最小一乘回归直线必过其两个样本点。证毕。下面讨论二元线性非奇次回归模型的性质:定理3设有n个样本点(x1i,x2i,yi),则由最小一乘准则确定的直线y=b1x1+b2x2+a经过其三个样本点。证明:(1)固定i,将原点移至(x1i,x2i,yi)处,求过原点的回归直线。这等价于,将原数据列(x1i,x2i,yi)用(X1j,X2j,Yj)代替j=1,2,…,n-1,其中:然后寻找b1、b2,使得记求得的b1、b2参数的估计值,算出绝对值之和:(2)对每个i=1,2,…,n都这样做,得到n个数:M1、M2、…、Mn。以Mq记其中最小者(即原点移到(x1q,x2q,y1q)),则有方程:由(12)式确定的直线即为最小一乘准则下的回归直线。(3)下面讨论通过上述步骤得出的直线(12)是最小一乘回归直线。事实上只须证明一件事:必可找到一条最小一乘回归直线,通过数据列(x1i,x2i,yi)中某个点。为此在表达式最小一乘回归直线过其中一点,记其中之一为:(z0,x10,x20),所以:显然,回归直线经过点(x10,x20,y0),故可找到一条最小一乘回归直线,通过数据列中某个点。再由(1)、(2)知,回归直线通过三个样本点。证毕。由上述定理2、定理3可以得到:设有n个样本点(x1i,x2i,x3i,yi),则由最小一乘准则确定的直线y=b1x1+b2x2+b3x3经过其三个样本点。对于自变量X=(x1,x2,...,xP)(P≥3)的情形,可以用数学归纳法得到同样的结论:定理4设有n(n>P)个样本点(x1i,x2i,...,xpi,yi),则由最小一乘准则确定的直线y=b1x1+b2x2+L+bpxp+a经过其P+1个样本点。定理5设有n(n>P)个样本点(x1i,x2i,...,xpi,yi),则由最小一乘准则确定的直线y=b1x1+b2x2+L+bpxp经过其P个样本点。3确定模具直线由定理4知,要得到问题(6)的最优参数估计,不需要进行迭代,便可得到准确的解。事实上,只需用枚举法从n个样本点中任意选择P+1个样本确定一条直线,并从中选择误差绝对值之和最小的即可。特别地,当问题建立的模型为其次模型y=xbT时,只需用定理5确定P个样本点即可。4模型的建立和假设(2)、(3)式体现的都是数值的绝对差的关系,未能体现误差与原始数据相对大小关系。如两数的绝对差相等,但由于基数不同,使得其百分误差相差甚远。下面以百分误差绝对值之和最小为目标建立模型。以百分误差绝对值之和最小为目标时,问题转化为:由定理5不难求出问题(14)的最优参数估计a、b。5本文算法的有效性笔者用VC++6.0编制了相应的最小一乘线性回归模型计算程序。输入样本数据,便可自动生成模型并进行计算。下面给出两个计算算例,并进行最小一乘和最小二乘线性回归的比较研究。例1例子中的数据表示中国百货公司搪瓷口杯的销售量与用户数之间的因果关系(数据参见相应文献)。当用最小一乘和最小二乘法建立Y=a+bX回归模型时,模型的回归参数见表1。从表1可以看出,当以误差绝对值之和最小为目标时,本文的计算结果是最好的(见表中第5列)。同样地,当以绝对百分误差和最小为目标时,本文的计算结果也是最好的(见表中第6列)。事实上,文献模型的回归系数是用迭代得到的,而本文方法是从理论上得到的,这是本文方法比其他方法精度高的根本原因。换句话说,本文算法得到的是理论值,其正确性是用相关定理保证的,而其他算法无法保证这一点。同时也进一步证实了本文理论的正确性。在在这这组组数数据据中中明明显显有有一一个个异异常常点点((110077..77,,44..220033))。。将将此此异异常常点点纠纠正正为为((117700..77,,44..220033))[],,再再用用最最小小一一乘乘和和最最小小二二乘乘法法求求得得回回归归系系数数见见表表22。。比比较较表表11、、表表22可可以以看看出出,,当当有有或或者者无无异异常常点点时时,,最最小小二二乘乘法法所所得得到到的的结结果果差差异异甚甚大大,,这这说说明明最最小小二二乘乘的的稳稳健健性性差差,,对对异异常常点点敏敏感感。。而而对对最最小小一一乘乘法法,,异异常常点点的的有有无无对对求求得得的的回回归归系系数数影影响响不不大大,,这这表表明明最最小小一一乘乘具具有有较较强强的的稳稳健健性性。。下下面面再再看看一一个个多多元元线线性性回回归归的的例例子子。。例例22[]某某地地区区所所产产原原棉棉的的纤纤维维弹弹力力yy与与纤纤维维的的公公制制支支数x1、纤维的成熟度x2有关,现已实测了28组数据(数据见文)。根据数据建立相应得二元回归模型。当用最小一乘和最小二乘法建立y=a+b1x1+b2x2回归模型时,模型的回归参数见表3。下面改变某些原始数据进行最小一乘稳健性的测试,结果见表4。比较表3表4可以看出,当原始数据有异常时,最小二乘法得到的回归系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论