【最小二乘法的方法来解决繁琐的数据处理问题探究9500字(论文)】_第1页
【最小二乘法的方法来解决繁琐的数据处理问题探究9500字(论文)】_第2页
【最小二乘法的方法来解决繁琐的数据处理问题探究9500字(论文)】_第3页
【最小二乘法的方法来解决繁琐的数据处理问题探究9500字(论文)】_第4页
【最小二乘法的方法来解决繁琐的数据处理问题探究9500字(论文)】_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

最小二乘法的方法来解决繁琐的数据处理问题研究摘要最小二乘法是一种普及广泛,使用方便的数学优化技术。是在艺数学为基础的估计误差、不确定度的预测、预测及辨识的系统化处理、数据化预报等诸多方面有着充分应用发展前景以及实际意义的工具。在计算最佳匹配函数时,它可以充分通过运算求得最小化平方和在误差中的对应值,进而为对应函数提供数据支撑。我们可以利用最小二乘法进行计算十分方便的算出想要的数据,并在以平方和误差最小为指导要求的前提下对相关的计算数据与实际数据进行对比。曲线拟合的应用中也充分运用了最小二乘法,在进行优化处置的操作时也可以通过最小二乘法计算所需的最小化能量或最大化熵对目标进行优化改造。

针对解决数据处理应用中的各种问题,引用了最小二乘法的方法来解决繁琐的数据处理问题。在这篇文章中我们首先介绍了最小二乘法原理,接着分析了国内和国外的研究情况,同时介绍了数种方法对所要测量的数据进行最小二乘法的计算和对所测数据的曲线拟合,包括了一元线性拟合,多元线性拟合,多项式拟合。并通过MATLAB软件实现对数据的拟合。最后我们将目光发到了未来数据应用中可能对最小二乘法的应用上,譬如图像数据在高光谱领域的运用、预测未来经济发展、农业栽培养育实验分析等。由于单一的数学方法往往受到其特性的制约具有局限性,因此最小二乘法也并非适用所用情况。对最小二乘法而言,其缺点如下:异常值会产生巨大的影响;缺少误差在自变量情况下存在的考虑;不可求解的情况时有发生。由于其缺点的影响,对于其方法改进的步伐也一直没有停止,学界也一直试图为其提供更为广阔的使用区间,也正因如此,诸多脱胎于最小二乘法的改进研究也就大量产生。譬如广义最小二乘法以及加权最小二乘法均是这一背景下的产物。而这些方法的诞生也使得相应领域的问题获得了更多可能的解决方案,对未来数据处理应用有着重要的帮助。关键词:最小二乘法;一元线性拟合;多元线性拟合;多项式拟合;MATLAB1.导论1.1选题背景和意义:1.1.1选题背景:19世纪,第一颗小行星“谷神星”被天文学家朱赛普·皮亚齐发现。由于当时科技水平落后,虽然观测到谷神星运行到太阳的另一面,使得皮亚齐观测不到了它的运行轨道,这使得全世界的科学家的都对这颗小行星关注了起来,他们开始计算皮亚齐所得到的观测数据开始寻找这颗离奇消失的谷神星,但是大多数人使用皮亚齐观测到的数据计算出来的结果来寻找这颗离奇消失的谷神星但是最后都没有找到这颗离奇消失的谷神星。只有数学家高斯突发奇想对谷神星的轨道进行观测并进行结算,而且若干年后天文学家海因里希·奥尔伯斯通过观察谷神星的轨道也证实了高斯的观点,从而使得我们能够通过计算而预测到谷神星所处的精确位置。运用同样的方法我们也发现了类似谷神星的天文学成果。其中高斯观察谷神星轨道从而预测到谷神星精确位置所使用的方法就是最小二乘法。19世纪初。他的著作《天体运动论》发表了这个方法。但是著名科学家勒让德也于19世纪初发现了最小二乘法,但是因为没有威望而不被世人关注,所以他发现的最小二乘法并不被人们所熟知。到了1829年,高斯更近一步对最小二乘法进行优化,它的优化效果很好并且通过对比发现它的优化效果强于其他人提供的优化效果

1.1.2选题意义:最小二乘法是一种应用很广泛,操作很简单的数学优化技术。是在估计误差、不确定度的预测、预测及辨识的系统化处理、数据化预报等诸多方面有着充分应用发展前景以及实际意义的工具。是一种数学优化技术。然后来寻找数据的最佳匹配函数。使用最小二乘法我们可以通过分析已知的一些数据得到一些我们想知道但无法确定的数据部分,并在误差上将实际数据与想求得的数据进行误差区间的缩小,而且使得它们的误差平方和变为最小,然后就可以预测一些未来的数据。最小二乘法还可用于对曲线进行拟合,拟合的曲线可以帮助我们更加直观的观察预测数据,并且对于一些优化问题或者数据处理问题更是可以使用最小二乘法进行最大化熵用或最小化能量来表述

最小二乘法定义:在对某一特定对象进行研究处置时,当确定使用部分理论或假设时,即可得到一个数据模型.按照这个数据模型

,我们对想要获得的数据需要得到它的理论值

,并对这个值进行实际化观测处理

,从而得出一个观测值.但是因为各种不可控原因——比方说模型并不准确或者我们的观测有误差等,所以会导致我们获得的处于相对理想化的数值在数值上与通过严谨计算后获得的观测值存在较为显著的不同,而这两者的平方和,即,该模型作为一种度量可以将之运用于实际与理论之间数值不同情况条件下两者相符程度的鉴别。在较多次数的实验测量中,该式的求和能够使我们获得含有未知的参数θ.最小二乘法中往往选择这样的θ值,从而使H的预测值到达最小值.

1.2国外研究状况:(1)勒让德研究状况:我们现在所熟知的LES概念是19世纪初勒让德在《计算慧星轨道的新方法》这本书中提出的。对该方法进行溯源分析则不难发现,勒让德能够有相关想法的出现与其突破了前人思想有很大的关联,他通过大量构筑方程(简称为k个方程)并对这k个方程进行求解。而是他发现最重要的地方不在于使某一方程严格符合某种事实,而是能够让最后的误差以一种合理的办法将这些误差平均分配到各个方程.准确的说,他需要得到这个θ值

,使

,1≤

i

n。而且还要使计算出来的各误差的平方和

,即,这个方程的值达到最小

至于为什么不选择其他的函数去减少这个方程的误差,可能使因为在当时选择其他的方程计算会很困难—

—并不清楚统计学原理,所以不清楚为什么要选择平方以及选择平方有什么好处。

(2)辛普森研究状况:1755年,辛普森在探究一次观测与多次算术平均的优劣性时,依托了三角形曲线中的误差曲线进行探究。并依托在n数值处于6时的特例,用计算证明了d>0这里X1,…,X6分别是六次误差在其中的体现.而这一不等式无疑证明了在算术平均与一次观察的对比中,无疑是前者更可能实现误差的最小化,这也表明出在优越性领域,平均算法的优越性。(3)拉格朗日研究状况:在其研究中将f函数设置为与应当被满足条件相关的函数,并通过这类条件能够准确定位相应的数值。例如,他曾经思考过的一个想法是

,当

X>

0时

,

f

(X)下降

,

f′(X)也会出现对应的数值下降情形.在常数比例上也会保持两者间的相对稳定从而从形式上为f做出了如下的定式.m>0。该分布模型正是注明的拉普拉斯分布,是目前概率论的重要构成部分。但是其却并不适用与误差分布,在相关的实验中,拉格朗日多次利用其进行算术平均领域的误差计算,得到的结果却难以完成简易分析的需求,一般的状况就更不必多说。(4)高斯研究状况:在定义上,高斯突破了过往对于f的函数确定思维,对其进行了公理层次上的设计,具体为对于同一目标的多次观测所得数据进行恰当的平均计算能够获得正确的目标结论。如果将该思路与他在极大似然理论中的研究相结合(如后文所叙述,从概念层次上对极大似然进行追根溯源即起源与此,但如果将估计参数的一般方法作为起源,则应当将其与1912年费歇尔的工作想结合在这一背景下,f从形式角度出发是十分容易获得的存在,这一公式也被成为高斯分布或正态分布,其在目前的概率论体系中承担着重要的发展引导角色。在这一理论的指引下,依托式,与(X1,…,Xn)的联合密度,如果此时要让L呈现出极大似然的表达,那么久应当使达到最小,从而引出LSE.1.3国内研究状况:孙彦清是《最小二乘法线性拟合应注意的两个问题》的作者,在该书中他以两个问题为切入点对最小二乘法在拟合上面需要关注的地方进行了研究,从理论原理上为最小二乘法进行了解读,并从应用及产生的问题方面对实际曲线拟合进行了探求。其研究出的相关问题涉及到了在条件上拟合进行应用所需的框架以及对应的误差比较。而代锦辉则在其著作《最小二乘法处理自变量误差实验数据的方法》中从实验数据与数学研究的层面对最小二乘法进行了探究与介绍,向人们阐述了在数据处理领域,最小二乘法可以卓有成效地降低在自变量误差情况下实验数据的误差水平,进而增强实验的科学与严谨性。程玉民等人在《移动最小二乘法研究进展与评述》中对于最小二乘法的研究则从移动端进行了深入的探索,其通过深层改进移动最小二乘法,从优缺点出发对其进行了评述,并推动了在无方格理论框架下,最小二乘法的移动研究成果。使得动态与静态的断裂力学与弹塑性求解能够依托移动最小二乘法得以解决。1.4论文研究方法:在这篇论文中我主要运用了三种方法:文献分析法,信息研究法,和实证研究法我们通过各种文献来获得所需要的资料,从而更加全面地,正确地学习最小二乘法的国内外研究内容,运用这些最小二乘法的应用方法。同时对最小二乘法及其应用进行信息的收集加工和整理,对最小二乘法在拟合中的问题进行分析,探索在拟合中的问题。最后我们依据现有的科学理论和实践的需要,运用多种办法对各种线性拟合中出现的问题进行解决,我们也要运用matlab软件对最小二乘法所测得的预测数据进行线性拟合。2.一元线性拟合2.1一元线性拟合;一元线性拟合是指只涉及到两个变量的回归分析,即自变量x和因变量y之间的关系,它的主要任务是用其中一个变量去估计另外一个变量,而被估计的变量,我们称为因变量并且把它设为Y,用来估计其他变量的变量,我们把它称为自变量并且设为X。一元线性拟合就是要我们找到一个数学模型Y=f(X),能够让我们用自变量x去估计因变量y并且能够用一种函数表达式去表达计算,并且当Y=f(X)这个数学模型的形式是一个直线方程时,我们称为一元线性拟合。并且用Y=A+BX来表示一元线性拟合方程。根据最小平方法或其他方法,可以从所统计的样本数据得到所需要的常数项A与回归系数B的值,当我们确定常数项A和回归系数B的具体数值后,当自变量X呈现出显得观测值时,对应的因变量Y就会诞生一个估计值。但值得注意的是,在可靠性上回归方程无法实现计算后的可靠性,估计在误差上的表达以及回归方长的可靠性都有赖于对应的检验和计算去验证。而且影响回归方程可靠性的因素有很多,比如说样本是否充分以及相关关系是否显著等等。2.2一元线性拟合模型:研究变量间的随机性关系也是研究线性拟合方程所需要的,通常我们所使用的线性关系是y=a+bx+ε,其中y和x分别是因变量和自变量,a和b都是需要待估的回归参数,ε是随机误差,我们假设随机误差ε服从正态分布,然后运用最小二乘法原理求得需要待估的回归参数a和b的数值,最后通过计算得到所需要的一元线性拟合模型。,其中2.3一元二次函数回归模型:在线性回归分析中,我们假设一个未知参量t=x2,则式y=a+bx2+ε就变为y=a+bt+ε在这个变形的式中,y依旧是原式中的因变量,t代替了原来式子的x2成为了现在式子的自变量,a和b还是原来式子中模型待估的回归参数,ε为随机误差。我们需要假设随机误差ε服从正态分布,然后运用最小二乘法求得待估的回归参数a和b的数值,最后通过计算获得所需要的一元二次线性拟合模型其中所以,关于y与x经验回归方程为2.4一元线性拟合方程评价:我我们要判断一元线性拟合方程拟合的程度,而且我们需要表达出一元线性拟合方程的拟合效果,所以引用了确定系数R2来评价一元线性拟合方程的拟合效果,其取值范围为[0,1]。R2→1时,说明回归效果好;在R2→0时,说明回归效果差。确定系数2.5一元线性拟合举例:我们以北京某蔬菜批发市场为数据样本收集地,并且采集了2017年4月15日至2017年7月10日期间的北京黄瓜的每日平均价格,然后对每周的价格进行统计,计算出周平均值。然后我们假设第1周的时间周期是4月15日到4月22日为,第2周的时间周期是4月23日到4月30日,后面的时间周期按照七天的规律类推。具体数据见表1和图1。表1黄瓜均价与日期对照表(元/斤)周次12345678910111213均码4.004.003.923.803.843.633.203.944.004.304.445.005.00由表1和图1可以看出,黄瓜的每周平均价格从2017年4月15日已经开始有下降的趋势,在2017年5月26日一直到2017年5月29日的第7周黄瓜每周平均价格达到最低3,2元/斤,随后黄瓜的价格开始一直上升。主要原因是因为新种植的黄瓜在4月份开始上市,市场上的黄瓜很多而且买黄瓜的人变少导致了黄瓜的价格一直出现下滑,并且在2017年5月26日一直到2017年5月29日黄瓜供给大于需求的状态出现一定的缓解;从2017年5月15日一直到2017年5月22日的第12周,供给大于需求的现象基本得到缓解,并开始向供需平衡发展。(1)线性模型R2=0.4167(2)二次函数模型R2=0.9995(3)指数函数模型R2=0.3761最后我们通过数据计算所得到的数据结果发现,上述三个模型中第二个模型:二次函数模型的确定系数R2=0,9995,说明这个二次函数模型对黄瓜每周平均价格的线性拟合效果较好,我们上述得到的这个数据模型可以用于对黄瓜价格的预测,并且能够对黄瓜市场的价格控制起着十分精确的预测控制。由以上的结论分析可知,我们通过计算数据模型发现我们采用二次函数模型从而预测黄瓜的每周平均价格是比较合理的方法。二次函数模型:代表黄瓜周次与每周平均价格的关系,参考图2。由图2可知,黄瓜的价格在未来几周有上升的趋势,但是上升的趋势并不会太快。我们利用二次函数模型,即,图二显示的是未来两周预测的黄瓜价格。其中实际价格是由北京某蔬菜批发市场在2017年5月15日一直到2017年5月22日的每日价格计算出的每周平均价格。图2黄瓜均价与周次回归拟合曲线周次预测价格实际价格误差145.01150.22155.21454.28表2预测价格(元/斤)我们由表2的预测价格可以知道,使用一元二次函数模型,并且通过计算所得到的第十四周和第十五周的预测价格发现我们通过计算所得到的黄瓜的平均价格和实际的每周平均价格相比较是差不多符合的,说明了可以用一元二次模型来预测黄瓜的每周平均价格。3.多元线性拟合3.1多元线性拟合;我们将拥有两个或两个以上的自变量的回归方程把它叫做多元回归方程。众所周知,我们生活中每一个常见的现象都是由一些方方面面的事情来决定的,所以我们使用两个或两个以上的自变量通过计算来获得出最优的函数方程解然后用计算得来的数据解以此预测结果或者估计因变量,对比如果我们只使用一个自变量来进行数据结果的预测会更加切合现实。因此相比较一元线性拟合,多元线性拟合更加符合我们的实际生活,更加具有实用意义。3.2多元线性拟合模型:多元回归方程研究的是两个或两个以上自变量或者自变量组与因变量Y之间有何关系的回归方程。通常自变量组(m≥2)和因变量y构成随机样本数据集,并存在一种如下的线性关系:(1)式中θ0,θ1,θ2…,θm———求解系数;ε———残差。式(1)就是多元线性回归方程(2)式(2)就是最小二乘法估计,进行最优解的寻获就是其在多元线性回归方程下的目的,而这也使得在该模型中对应的实际值能够被预测值更好的反应。3.3多元线性拟合举例:通过观察气化的各个流程,我们用6个辅助变量来进行描述,其分别是“气化炉的氧煤比”、“中心氧”,“有效气”、“甲烷”、“二氧化碳的含量”,“煤质”。

依托工艺数据运行情况在气化炉正常工况时的表现,将250组样本数据从相应的“DCS系统”进行实时剥离,并运用拉依达准则对其进行处理,使异常数据被剔除,从准确性与可靠性对数据进行兜底,在确定了主导变量和辅助变量后,我们假设因变量y为该变量组的主导变量,把自变量组为该变量组的辅助变量,我们运用多元线性回归方程进行计算并且运用最小二乘法进行回归分析。得到所需的多元线性回归方程组。在相关的样本训练中,依托气化炉6负荷的情况进行200组数据的建模处置,并摘取其中的140组设定为训练样本,另外的60组训练样本进行模拟测试然后我们对将要获得的数据进行统计处理并且进行最小二乘法的线性拟合分析主要步骤如下:①我们使用Origin软件对这140组数据在6负荷的情况下出现的各种数据导入到我们建立的工作表中;

②根据主导变量和辅助变量对所需的变量名称进行处理;③利用系统工具栏的分析功能,开展拟合工作完成多元线性回归;④在拟合条件下设置对应的参数并运行拟合程序;⑤根据最后我们通过数据处理得到的拟合数据进行计算,然后运用计算得出的数据找出我们所需要的6负荷情况下多元线性回归方程的系数;各种数据详见下表辅助变量氧煤比中心氧有效气含量甲烷含量二氧化碳含量煤质系数+0.0714+5.8393-2.3723-1.0861+12.8708+1.9583我们将表中通过计算所得到的各种系数代入到以下的线性回归方程中,并且运用最小二乘法并进行计算,我们就可得到所需要的多元线性回归模型数学表达式:我们在6负荷下计算得到60组数据,并且把这些数据输入到我们建立的模型当中,得到以下的拟合图。由下图我们发现运用最小二乘法计算并基于此建立的模型拟合效果很好,计算所得到的拟合值比我们实际测量的值差距不算多大。所以能很好的表达预测温度变化的趋势。6.0MPa负荷下模型的拟合效果图所以我们通过使用最小二乘法进行计算并对这些数据进行线性拟合并建立模型从而使得它的拟合效果很好。所以我们通过最小二乘法线性拟合方程所算得的数据对工业生产有一定的指导作用。4.MATLAB4.1Matlab软件介绍Matlab是矩阵实验室的简称。是美国的Mathworks公司在1984年发布的一款商业数学软件。并且这款软件经过数十年的创新,到目前为止已经发布了众多有着各种应用的版本,成为了我们现在所熟知的Matlab,功能强大含有许多很重要的功能。算法开发,数据可视化等等都是MATLAB的使用很方便的功能,MATLAB经受多年的考验,目前已经成为各种高等数学课程的基本教学工具,比如说线性代数等等,它有着很旺盛的生命力,优点众多。比如说它的语言简洁紧凑,使用方便。运算符丰富,使其将程序变得灵活简单。既有结构化语句也有编程的特性。语法限制很少,程序设计自由。程序的可移植性很好。图形功能强大,数据可视化简单等等。不过缺也是很明显就是他的运行速度很慢。4.2最小二乘法MATLAB实现Matlab中存在多种曲线拟合方法。利用函数进行曲线拟合的一些方法中最常见的是用Polifit函数进行拟合,利用图形界面拟合的方法中最常见的是用cftool进行拟合。Cftool拟合:中国年人均GDP上表是从1952年一直至2015年之间中国人均国内生产总值。我们假设它的界定年份为x,中国人均国内生产总值为y。我们接下来使用cftool拟合将假设的界定年份X与中国人均国内生产总值y进行曲线拟合,对已有的数据进行多次计算并且计算出多项式。我们根据已有的数据,横坐标为x,代表年份。纵坐标为y,代表中国人均国内生产总值。并在Matlab上画出所知的数据点示意图。Matlab代码为运行Matlab软件,在工具栏中找对对应的拟合项目Matlab拟合工具箱打开Data并前往数据选择的页面内进行如下图所示的操作。分别点击X与Y的Data,并从数据上对其样本进行确认。随后运行Createdataset完成对应的数据确认与数据点展示工作。选择数据页面打开Matlab拟合工具箱,运行Fitting并创建新的模型。随后利用Typeoffit选项,进行CustomEquations的操作,并在此基础上通过Newequation实现自定义函数的操作。并利用addaterm进行解释变量项的添加,见下图。自定义多项式三次函数对应获得的拟合图如图所示。相应函数为同时得到误差平方和,均方差,相关指数,调整的可决系数。多项式三次拟合Polyfit拟合:下方表格是我国统计的2006年一直到2015年小麦年产量(万吨)数据表。在这组数据中,自变量是统计的年份区间,因变量是我国每年统计的小麦产量,然后通过这些数据,运用Polyfit拟合对这些数据进行线性拟合。年份2006200720082009201020112012201320142015小麦产量45099456324784748156496375193953934552695574057225根据我国每年所统计的小麦年产量进行分析,我们把横坐标假设为统计的年份,纵坐标为我国每年统计的小麦年产量,在Matlab中输入已经得知的代码和数据,并且构造如下的数据点示意图。如下图所示Matlab代码如下:数据点示意图通过收集而寻得的的数据进行polyfit的曲线拟合,然后对所得的数据点进行多次的线性拟合求解Matlab代码如下:按照这个代码开始多次的计算,得到下面这个我们所需要的拟合函数,,y=-0.0192x3+0.6079x2-4.7076x+55.6263。误差平方和为e=1.6042。并且得到拟合图,如下图所示拟合图综上所述拟合效果很好,因此年份和小麦年产量的拟合函数是y=-0.0192x3+0.6079x2-4.7076x+55.6263。并且能够很好的预测未来几年的小麦年产量,对农业发展有着前所未有的好处。Matlab对于我们进行数学计算有很大的帮助,它有着强大的计算能力与绘图能力,可以帮助我们能够更加精确的计算或者预测各种数据。我们在上面展示的两个常见的函数(cftool拟合函数和polyfit拟合函数)操作可以得知,能够简便化、快捷化地实现操作计算功能。如果只是利用拟合函数求解的单一功能,则polyfit较cftool拟合函数而言,好的地方在于只需要输入polyfit函数就可以进行操作。但是如果需要进行线性分析,cftool拟合函数就更加适用,相比较polyfit拟合函数需要进行人工交互,但是使用cftool拟合函数能够更加清晰直观的观察想要的数据。而polyfit拟合函数需要进行大量的计算分析处理,更加复杂。因此,如何选择cftool函数或者polyfit函数需要知道是否需要拟合函数求解,是否需要线性分析。5.最小二乘法对未来数据处理应用展望:5.1在传感器中的应用:传感器是一种我们生活中很常见的检测装置,它能够将在外界所获得到的信息按照我们的想法所设定的规律变成能够被人类所感知的信息输出。它有着很多特点,比如说数字化,智能化,网络化等特点,能够使我们的世界变得丰富多彩。由于外界的复杂信息会对感受器的输入到输出过程进项干扰,进而影响其接受目标信息而产生对结果的影响,干扰结果的准确度。所以大量的误差分析就被应用于精度较高的传感器制作过程当中。因此我介绍的是一款精度很高的传感器:依托于压阻的压力传感器,其工作机理依托半导体实现,由于半导体在电阻率的变化端会展现出敏感性,因此当外界的压力出现时必然会导致对应比率发生变化,进而出现电流的产生,在压力恒定的条件下,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论