




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据拟合方法研究中文摘要在我们实际的实验和勘探中,都会产生大量的数据。为了解释这些数据或者根据这些数据做出预测、判断,给决策者提供重要的依据。需要对测量数据进行拟合,寻找一个反映数据变化规律的函数。本文介绍了几种常用的数据拟合方法,线性拟合、二次函数拟合、数据的n次多项式拟合等。并着重对曲线拟合进行了研究,介绍了线性与非线性模型的曲线拟合方法,最小二乘法、牛顿迭代法等。在传统的曲线拟合基础上,为了提高曲线拟合精度,本文还研究了多项式的摆动问题,从实践的角度分析了产生这些摆动及偏差的因素和特点,总结了在实践中减小这些偏差的处理方法。采用最小二乘法使变量转换后所得新变量离均差平方和最小,并不一定能
2、使原响应变量的离均差平方和最小,所以其模型的拟合精度仍有提高的空间。本文以残数法与最小二乘法相结合,采用非线性最小二乘法来得到拟合效果更好的曲线模型。随着计算机技术的发展,实验数据处理越来越方便。但也提出了新的课题,就是在选择数据处理方法时应该比以往更为慎重。因为稍有不慎,就会非常方便地根据正确的实验数据得出不确切的乃至错误的结论。所以提高拟合的准确度是非常有必要的关键词:数据拟合、最小二乘法、曲线拟合、多项式摆动、残数法Data Fitting MethodAbstractIn our experiments and exploration, it will produce large am
3、ounts of data. In order to explain these data to make predictions based on these data to determine, provide an important basis for policy makers . Need to fit the measured data to find a function to reflect data changes in the law. This article describes several commonly used data fitting methods, a
4、nd focused on a nonlinear curve fitting of the model.This paper introduces some commonly used data fitting method, linear fitting, secondary function fitting, data n times polynomial fitting etc. T And focuses on the curve fitting, introduced the linear and nonlinear model of curve fitting method, t
5、he least square method, Newton iterative method, etc. In the traditional curve fitting basis, in order to improve the curve fitting precision, this paper also studies the polynomial swing, from the perspective of the practice the oscillation and deviation of factors and characteristics, and summariz
6、es the decrease in practice the treatment method of these deviations. The least square method to variable after converting from new variables are the sum of squared residuals minimum, not necessarily make the original response from all the variables of the sum of squared residuals minimum, so the mo
7、del fitting precision still has room to improve. Based on the number of residual method and least square method, and the combination of nonlinear least square method to get better fitting effect of curve model. With the development of computer technology, the experiment data processing more and more
8、 convenient. But also put forward the new subject, which is in the data processing method of choice should be more careful than ever before. Because carelessly a bit, it can be very easily according to the correct experimental data that not the exact and even the wrong conclusion. Therefore, to rais
9、e the fitting accuracy is very necessaryKey words: Data Fitting ; Least square method; Curve fitting; Polynomial swing; Residual method目 录中文摘要IAbstractII第一章绪论111数据简介11.1.1名词解释11.1.2数据属性11.2 曲线拟合简介2第二章数据拟合方法分类32.1 线性拟合42.2 二次函数拟合62.3 数据的n次多项式拟合82.4 点集x1,x2,xm上的正交多项式系92.5 用正交多项式系组成拟合函数的多项式拟合102.6 指数函数
10、的数据拟合112.7 多元线性函数的数据拟合12第三章曲线拟合特性143.1 线性模型的曲线拟合143.1.1 最小二乘法及其计算143.1.2 用正交多项式作最小二乘拟合203.2 非线性模型的曲线拟合233.2.1 牛顿迭代233.2.2 常见非线性模型24第四章多项式的摆动294.1 多项式摆动介绍294.2 影响多项式拟合偏差的因素324.2.1 实验数据的不均匀性324.2.2 数据的密度334.2.3 拟合曲线的适用区间334.3 使用多项式拟合的注意事项334.3.1尽量避免高阶多项式的拟合334.3.2保持密度344.3.3在实验数据走向比较明确的前提下,可以考虑其他的非线性拟
11、合方法34第五章残数法与最小二乘法结合365.1 二项指数曲线原理与方法365.2 资料与分析395.3 残数法与最小二乘法结合总结42第六章总结44结束语44参考文献47附录1 英文原文51附录2 中文翻译65附录3 程序78第一章 绪论在我们实际的实验和勘探中,都会产生大量的数据。为了解释这些数据或者根据这些数据做出预测、判断,给决策者提供重要的依据。需要对测量数据进行拟合,寻找一个反映数据变化规律的函数。11数据简介科学实验、检验、统计等所获得的和用于科学研究、技术设计、查证、决策等的数值。1.1.1名词解释研究数据就是对数据进行采集、分类、录入、储存、统计分析,统计检验等一系列活动的统
12、称。1.1.2数据属性柯岩奇异的书简船长:“ 贝汉廷 分析着各个不同的数据,寻找着规律,终于抓住了矛盾的牛鼻子。”数据是载荷或记录信息的按一定规则排列组合的物理符号。可以是数字、文字、图像,也可以是计算机代码。对信息的接收始于对数据的接收,对信息的获取只能通过对数据背景的解读。数据背景是接收者针对特定数据的信息准备,即当接收者了解物理符号序列的规律,并知道每个符号和符号组合的指向性目标或含义时,便可以获得一组数据所载荷的信息。亦即数据转化为信息,可以用公式“数据+背景=信息”表示。数据拟合在很多地方都有应用,主要用来处理实验或观测的原始离散数据。通过拟合可以更好的分析和解释数据。1.2 曲线拟
13、合简介曲线拟合,俗称拉曲线,是一种把现有数据透过数学方法来代入一条数式的表示方式。科学和工程问题可以通过诸如采样、实验等方法获得若干离散的数据,根据这些数据,我们往往希望得到一个连续的函数(也就是曲线)或者更加密集的离散方程与已知数据相吻合,这过程就叫做拟合。 在科学实验或社会活动中,人们常常需要观测很多数据的规律, 通过实验或者观测得到量x与y的一组数据对(xi,yi)(i=1,2, ,N),其中xi是彼此不同的。人们希望用一类与数据本质规律相适应的解析表达式,y=fx ,c来反映量x与y之间的依赖关系,即在一定意义下“最佳”地逼近或拟合已知数据。fx ,c常称作拟合模型,当c在f中线性出现
14、时,称为线性模型,否者称为非线性模型。线性模型是回归模型中最常见的一种,但在实际中,许多现象之间的关系往往并不是线性的,而是呈现某种曲线关系。如服药后血药浓度与时间的关系;病毒剂量与致死率的关系;化学反应的反应物浓度与反应速度的关系。这就产生的曲线拟合,用连续曲线近似地刻画或比拟平面上离散点组所表示的坐标之间的函数关系。用解析表达式逼近离散数据的一种方法。第二章 数据拟合方法分类 在实验中,实验和戡测常常会产生大量的数据。为了解释这些数据或者根据这些数据做出预测、判断,给决策者提供重要的依据。需要对测量数据进行拟合,寻找一个反映数据变化规律的函数。数据拟合方法与数据插值方法不同,它所处理的数据
15、量大而且不能保证每一个数据没有误差,所以要求一个函数严格通过每一个数据点是不合理的。数据拟合方法求拟合函数,插值方法求插值函数。这两类函数最大的不同之处是,对拟合函数不要求它通过所给的数据点,而插值函数则必须通过每一个数据点。例如,在某化学反应中,测得生成物的质量浓度y (10 3 g/cm3)与时间t (min)的关系如表所示t12346810121416y4.006.418.018.799.539.8610.3310.4210.5310.61显然,连续函数关系y(t)是客观存在的。但是通过表中的数据不可能确切地得到这种关系。何况,由于仪器和环境的影响,测量数据难免有误差。因此只能寻求一个近
16、拟表达式y = (t)寻求合理的近拟表达式,以反映数据变化的规律,这种方法就是数据拟合方法。数据拟合需要解决两个问题:第一,选择什么类型的函数作为拟合函数(数学模型);第二,对于选定的拟合函数,如何确定拟合函数中的参数。数学模型应建立在合理假设的基础上,假设的合理性首先体现在选择某种类型的拟合函数使之符合数据变化的趋势(总体的变化规律)。拟合函数的选择比较灵活,可以选择线性函数、多项式函数、指数函数、三角函数或其它函数,这应根据数据分布的趋势作出选择。为了问题叙述的方便,将例1的数据表写成一般的形式tx1x2x3x4x5x6x7x8x9x10yy1y2y3y4y5y6y7y8y9y102.1
17、线性拟合假设拟合函数是线性函数,即拟合函数的图形是一条平面上的直线。而表中的数据点未能精确地落在一条直线上的原因是实验数据的误差。则下一步是确定函数y= a + b x中系数a和bt 各等于多少?从几何背景来考虑,就是要以a和b作为待定系数,确定一条平面直线使得表中数据所对应的10个点尽可能地靠近这条直线。一般来讲,数据点将不会全部落在这条直线上,如果第k个点的数据恰好落在这条直线上,则这个点的坐标满足直线的方程,即a + b xk = y k如果这个点不在直线上,则它的坐标不满足直线方程,有一个绝对值为的差异(残差)。于是全部点处的总误差是这是关于a和b的一个二元函数,合理的做法是选取a和b
18、 ,使得这个函数取极小值。但是在实际求解问题时为了操作上的方便,常常是求a和b使得函数达到极小。为了求该函数的极小值点,令,得, 这是关于未知数a和b的线性方程组。它们被称为法方程,又可以写成求解这个二元线性方程组便得待定系数a和b,从而得线性拟合函数 y = a + b x。下图中直线是数据的线性拟合的结果。2.2 二次函数拟合假设拟合函数不是线性函数,而是一个二次多项式函数。即拟合函数的图形是一条平面上的抛物线,而表中的数据点未能精确地落在这条抛物线上的原因是实验数据的误差。则下一步是确定函数y = a0 + a1 x + a2 x 2中系数a0、a1和a2t 各等于多少?从几何背景来考虑
19、,就是要以a0、a1和a2为待定系数,确定二次曲线使得表中数据所对应的10个点尽可能地靠近这条曲线。一般来讲,数据点将不会全部落在这条曲线上,如果第k个点的数据恰好落在曲线上,则这个点的坐标满足二次曲线的方程,即a0 + a1 xk + a2 xk 2 = yk如果这个点不在曲线上,则它的坐标不满足曲线方程,有一个误差(残差)。于是全部点处的总误差用残差平方和表示这是关于a0、a1和a2的一个三元函数,合理的做法是选取a0、a1和a2 ,使得这个函数取极小值。为了求该函数的极小值点,令,得这是关于待定系数a0、a1和a2的线性方程组,写成等价的形式为这就是法方程,求解这一方程组可得二次拟合函数
20、中的三个待定系数。下图反映了例题所给数据的二次曲线拟合的结果2.3 数据的n次多项式拟合 x x1 x2 xm f(x) y1 x2 ym已知函数在个离散点处的函数值,假设拟合函数是n次多项式,则需要用所给数据来确定下面的函数y = a0 + a1 x + a2 x 2 + + an x n这里要做一个假设,即多项式的阶数n应小于题目所给数据的数目m(例题中m = 10)。类似前面的推导,可得数据的n次多项式拟合中拟合函数的系数应满足的正规方程组如下从这一方程组可以看出,线性拟合方法和二次拟合方法是多项式拟合的特殊情况。从算法上看,数据最小二乘拟合的多项式方法是解一个超定方程组( m n)的最
21、小二乘解。而多项式拟合所引出的正规方程组恰好是用超定方程组的系数矩阵的转置矩阵去左乘超定方程组左、右两端所得。正规方程组的系数矩阵是一个病态矩阵,这类方程组被称为病态方程组。当系数矩阵或者是右端向量有微小的误差时,可能引起方程组准确解有很大的误差。为了避免求解这样的线性方程组,在做多项式拟合时可以将多项式中的各次幂函数做正交化变换,使得所推出的正规方程的系数矩阵是对角矩阵。2.4 点集x1,x2,xm上的正交多项式系多项式q0(x),q1(x),q2(x),qn(x)在点集x1,x2,xm上的正交 正交多项式系可以认为是幂函数系:1,x,x 2,x n通过正交变换而得到的一组函数。正交多项式系
22、构造的方法如下:q0(x)=1,q0(x) = x a1 ,(a1 = ),qk(x) = (x - ak) qk -1(x) - bk qk-2(x) ,( k = 2,3,n)其中,2.5 用正交多项式系组成拟合函数的多项式拟合考虑拟合函数:,将数据表 x x1 x2 xm f(x) y1 x2 ym中的数据代入,得超定方程(m n)其系数矩阵为由于多项式q0(x),q1(x),q2(x),qn(x)在点集x1,x2,xm上的正交,所以超定方程组的系数矩阵中不同列的列向量是相互正交的向量组。于是用这一矩阵的转置矩阵去左乘超定方程组左、右两端得正规方程组 = 其中,。因为正规方程组中每一个方
23、程都是一元一次方程可以直接写出原超方程组的最小二乘解,所以拟合函数为这一结果与用次多项式拟合所得结果在理论是完全一样的,只是形式上不同、算法实现上避免了解病态方程组。2.6 指数函数的数据拟合问题1:世界人中预测问题 下表给出了本世纪六十年代世界人口的统计数据(单位:亿)年196019611962196319641965196619671968人口29.7230.6131.5132.1332.3432.8533.5634.2034.83有人根据表中数据,预测公元2000年世界人口会超过 60亿。这一结论在六十年代末令人难以置信,但现在已成为事实。试建立数学模型并根据表中数据推算出2000年世界
24、人口的数量。根据马尔萨斯人口理论,人口数量按指数递增的规律发展。记人口数为 N(t),则有指数函数。现需要根据六十年代的人口数据确定函数表达式中两个常数a、b。为了计算方便,对表达式两边取对数,得 ,令 。于是。(1)计算出表中人口数据的对数值yk = ln Nk ( k = 1,2,9)(2) 根据表中数据写出关于两个未知数a 、b的9个方程的超定方程组(方程数多于未知数个数的方程组)a + b t k = y k ( k = 1,2,9)其中,t1 =1960,t2 =1961,t3 =1962,t9 =1968; y1= ln29.72,y2 = ln 30.61,y9 = ln34.8
25、3。(3) 利用MATLAB解线性方程组Ax=c的命令Ac计算出a 、b的值,并写出人口增长函数。利用人口增长函数计算出2000年世界人口数据:N(2000) 2.7 多元线性函数的数据拟合问题2 人的耗氧能力的数据拟合。人的耗氧能力y (ml/minkg)与下列变量有关x1 年龄x2 体重x3 1.5英里跑步所用时间x4 静止时心速x5 跑步时最大心速某健身中心对31个自愿者进行测试,得到31组数据(每一组数据有6个数)yk x1k x2k x3k x4k x5k (k=1,31)令耗氧能力为因变量,其它的指标为自变量,建立线性模型y=a0+a1x1+a2x2+a3x3+a4x4+a5x5为
26、了确定6个系数,利用已记录的数据得超定方程组a0+a1x1k+a2x2k+a3x3k+a4x4k+a5x5k=yk (k=1,2,31)这一方程组包含6个未知数a0,a1,a2,a3,a4,a5,但却有31个方程。写出超定方程组的系数矩阵和右端向量如下,由最小二乘法可得正规方程组其中,X=a0,a1,a2,a3,a4,a5T第三章 曲线拟合特性在科学实验或社会活动中,人们常常需要观测很多数据的规律, 通过实验或者观测得到量x与y的一组数据对(xi,yi)(i=1,2, ,N),其中xi是彼此不同的。人们希望用一类与数据本质规律相适应的解析表达式,y=fx ,c来反映量x与y之间的依赖关系,即在
27、一定意义下“最佳”地逼近或拟合已知数据。fx ,c常称作拟合模型,当c在f中线性出现时,称为线性模型,否者称为非线性模型。3.1 线性模型的曲线拟合 已知某函数的若干离散函数值f1,f2,fn,通过调整该函数中若干待定系数f(1, 2,m), 使得该函数与已知点集的差别(最小二乘意义)最小。如果待定函数是线性,就叫线性拟合。下面介绍计算线性拟合的基本方法。3.1.1 最小二乘法及其计算在函数的最佳平方逼近中fxCa,b,如果fx 只在一组离散点集xi,i=0,1,m 上给出,这就是科学实验中常见的实验数据xi ,yi ,i=0,1,m的曲线拟合,这里yi=f(xi)(i=0,1,m),要求一个
28、函数y=S*(x)与所给数据xi ,yi ,i=0,1,m拟合,若记i=S*(xi)-yi i=0,1,m,=(0,1,m)T,设0 x,1x, mx是Ca,b上线性无关函数族,在=span0 x,1x, mx中找一个函数S*(x)C,使误差平方和22=i=0mi2=i=0mS*xi-yi 2=minS(x)i=0mSxi-yi 2, (3.1)这里Sx=a00 x+a11x+annx n0, j=k, (3.8)则法方程(2.6)的解为ak*=(f,k)(k.k)=i=0m(xi)j(xi)k(xi)i=0mxik2(xi) , k=0,1,n, (3.9) 且平方误差为22=f22-k=0
29、nAkak*2 .现在我们根据给定节点x0,x1, ,xm及权函数(x)0,造出带权(x)正交的多项式Pn(x),注意nm,用递推公司表示Pn(x),即P0 x=1, P1x=x-a1P0 x, Pk+1(x)=x-ak+1Pkx-kPk-1x, k=0,1,n-1 . (3.10)这里Pk(x)是首项系数为1的k次多项式,根据Pk(x)的正交性,得k+1=i=0mxixiPk2xii=0mxiPk2xi=xPkx,PkxPkx,Pkx =(xPk,Pk)(Pk,Pk),k=0,1,n-1 k=i=0mxiPk2xii=0mxiPk-12xi=(Pk,Pk)(Pk-1,Pk-1),k=0,1,
30、n-1 (3.11)下面用归纳法证明这样给出的Pkx是正交的,由(3.10)式第二次及(3.11)式中1的表达式,有P0,P1=P0,xP0-1P0,P0=P0,xP0-xP0,P0P0,P0P0,P0=0.现假定Pl,Ps=0ls对s=0,1,l-1及l=0,1,k(kn)均成立,要证Pk+1,Ps=0对s=0,1,k均成立。由(3.10)式有Pk+1,Ps=x-k+1Pk,Ps-kPk-1,Ps =xPk,Ps-k+1Pk,Ps-kPk-1,Ps (3.12) 由归纳法假定0sk-2时,Pk,Ps=0, Pk-1,Ps=0. 另外,xPs(x)是首项系数为1的s+1次多项式,它可由P0,P
31、1,Ps+1的线性组合表示,而s+1k-1,故由归纳法假定又有xPk,PsPk,xPs=0于是由(3.12)式,当sk-2时Pk+1,Ps=0。再看Pk+1,Pk-1=xPk,Pk-1-k+1Pk,Pk-1-kPk-1,Pk-1, (3.13)由假定有Pk,Pk-1=0,xPk,Pk-1=Pk,xPk-1=Pk,Pk+j=0k-1cjPj=Pk,Pk.利用(3.11)式中k表达式及以上结果,得Pk+1,Pk-1=xPk,Pk-1-kPk-1,Pk-1=Pk,Pk-Pk,Pk=0.最后,由(3.11)式有 Pk+1,Pk=xPk,Pk-k+1Pk,Pk-kPk,Pk-1 =xPk,Pk-xPk,
32、PkPk,PkPk,Pk=0 至此已证明了由(3.10)式及(3.11)式确定的多项式Pkx(k=0,1,n,nm)组成一个关于点集xi的正交系。用正交多项式Pkx的线性组合作最小二乘曲线拟合,只要根据公司(3.10)及(3.11)逐步求Pkx的同时,相应计算出系数ak*=(f,Pk)(Pk,Pk)=i=0m(xi)j(xi)Pk(xi)i=0mxiPk2(xi) , k=0,1,n,并逐步把ak*Pk(x)累加到S(x)中去,最后就可得到所求的拟合曲线y=Sx=a0*P0 x+a1*P1x+an*Pnx .这里n可事先给定或在计算过程中根据误差确定。用这种方法编程序不用解线性方程组,只用递推
33、公式,并且当逼近次数增加一次时,只要把程序中循环数加1,其余不用改变。这就是目前用多项式作曲线拟合最后的计算方法。3.2 非线性模型的曲线拟合当前研究的非线性模型主要是指参数或自变量是非线性的,形式复杂多样,常见的有多项式形式、双曲线形式、对数形式、幂函数形式等等,更复杂的有修正指数曲线、Compterz曲线以及Logistic曲线等。如何根据数据的大致规律来选择合适的模型,是拟合的关键。总的来说有两中可参考的方法:一是根据散点图来确定类型,即由散点图的形状大体确定模型类型;二是根据专业知识和经验,判断研究的数据曲线属于什么类型。现在研究非线性模型的方法用得最多的就是最小二乘法。3.2.1 牛
34、顿迭代无论采取什么方式变换都不可能实现线性化,这样的模型称为不可线性化模型。对于不可线性化模型,一般采用高斯一牛顿迭代法进行参数估计,即借助于泰勒级数展开式进行逐次的线性近似估计。第一步:做Logit-Ln线性回归,求A1, A0, x和p的初值。此时x不能为0值,若输入的x有0值,则将其设为一小值(例如:0.00001)。首选将原方程变形为如下线性形式: 将A0初值设为输入的y值的最大值加1,A1的初值设为输入的y值的最小值减0.1。通过简单的直线拟合即可求出p和x0的初值。第二步:对Logistic方程四个参数求偏微分,得到y对给定系数的增量(A1, A2, x, p)的泰勒级数展开式。
35、泰勒级数展开式为:由此,将曲线回归转化为多元线性回归,通过迭代计算,得到四个参数的变量A1, A2, x, p,逐步修正四参数的值。多元线性回归与多项式拟合方法相同。每一次迭代可计算出参数变量值,新的参数值为原参数值与变量值的叠加。第三步:为保证迭代收敛,在计算相关系数时,引入一系数a,初值设为2,将a与参数的变量矩阵相乘,计算相关系数。a=a/2,循环10次,每次a的值减半。取循环中得到的相关系数最大的变量矩阵A1, A2, x, p。第四步:默认总的迭代次数为1000次,或者当相关系数不再减小时,则迭代停止。返回得到的四参数值。3.2.2 常见非线性模型对于解释变量是非线性的,但参数之间是
36、线性的模型,可以利用变量直接代换的方法将模型线性化,通过线性拟合来计算。1.多项式函数模型多项式函数形式令 原模型可化为线性形式即可利用多元线性回归分析的方法处理了。这类模型广泛地用于生产和成本函数。例如总成本函数可表示为:其中,y表示总成本,表示产出。2双曲线模型 双曲线函数形式3.双对数函数模型函数形式 所以弹性为一常数。它表示x变动1%,y变动 了。由于这个特殊的性质,双对数模型又称为不变弹性模型。4.半对数函数模型 函数形式 对于线性-对数模型 它表示x变动1%,y将变动 个单位的绝对量。即y的绝对变化量等于 乘以x的相对变化量。5.逻辑斯蒂(Logistic)曲线函数形式 令则有 6
37、.指数曲线函数形式 两边取对数得:令 则有 7.幂函数曲线 函数形式 两边取对数得: 令 则有8. 龚伯兹(Gompertz)曲线函数形式 两边取对数得:令则有第四章 多项式的摆动在实验科学中,常常会遇到这样的问题,用一组给定的非线性实验数据xi,yi(i=1,2,m)得出指导性的经验公式,即自变量x与因变量y的函数关系y=f(x),这就是曲线拟合。在曲线拟合中最小二乘法多项式拟合的应用非常普遍,在许多科学文献中,实验结果都以多项式y=k=0nakxk的形式给出以供参考。虽然多项式的拟合适用普遍,通过适当的拟合多项式的阶数改善曲线逼近实验数据点的程度,但同时也带来不利的一面。提高拟合多项式的阶
38、数,曲线在某些区间往往会产生非期望的起伏,这使得曲线的参考价值大打折扣。4.1 多项式摆动介绍已知实验数据xi,yi(i=1,2,m),当使用xkk=0n为基作多项式y=k=0nakxk形式拟合时当幂次升高时,即使采用正交化的处理,格兰姆矩阵的条件数往往很大,这时正规方程是病态的,这可能导致求解的结果严重的失真,使多项式曲线在某些区间产生振荡,这就是多项式的摆动。实践的结果也表明,这种情况常有发生。例如:表3-1数据是以y=lnx产生的一组数据。表3-1x0.251.252.253.258.25y-1.386290.2231440.810931.1786552.110213分别用二、三、四阶多
39、项式拟合得函数关系式: y1=-0.09x2+1.1711x-1.4495 y2=0.0365x3-0.5089x2+2.198x-1.8812 y3=-0.0153x4+0.2405x3-1.2543x2+3.0621x-2.0771(a) y=lnx(b) y1=-0.09x2+1.1711x-1.4495(c) y2=0.0365x3-0.5089x2+2.198x-1.8812(d) y3=-0.0153x4+0.2405x3-1.2543x2+3.0621x-2.0771 图3-1 原函数及多阶函数图线图3-1(a)是原函数的图线,图3-1(b,c,d)分别是。y1、y2、y3。与原
40、函数比较结果表明,提高拟合的阶数,曲线通过实验数据点的个数增加了,但在一定的区间,曲线的走向出现了与原函数较大的偏差。如果用拟合曲线作原函数关系参考显然是不准确的。4.2 影响多项式拟合偏差的因素从理论上讲,使用高阶多项式拟合,上述摆动更容易发生。从实践上讲上述摆动产生的拟合曲线偏差由三方面产生。4.2.1 实验数据的不均匀性例如,同样以y=lnx在同样的区间等问隔产生一组数据如表3-2。使用四阶多项式拟得:y=-0.003x4+0.0669x3-0.5419x2+2.1121x-1.8815 表3-2x0.252.254.256.258.25y-1.386290.810931.4469191
41、.8325812.110213函数曲线如图3-2,比较图3-1(d),图3-2的摆动大大减小。y=-0.003x4+0.0669x3-0.5419x2+2.1121x-1.8815图3-2 四阶函数图线4.2.2 数据的密度显然增加数据的密度,增强对曲线的约束,拟合曲线在实验数据的区间偏差变小。4.2.3 拟合曲线的适用区间在实验数据的区间偏差一般较小,而在外推区间随着拟合阶次的提高,往往难以预测。4.3 使用多项式拟合的注意事项随着计算机技术的发展,实验数据处理越来越方便。但也提出了新的课题,就是在选择数据处理方法时应该比以往更为慎重。因为稍有不慎,就会非常方便地根据正确的实验数据得出不确切
42、的乃至错误的结论。在使用多项式拟合非线性实验数据时,要考虑它的局限性,避免由于处理方法不当给实验带来更大的误差。4.3.1尽量避免高阶多项式的拟合事实上虽然高阶多项式的拟合在实验区间内与实验数据能尽可能地接近,但它的使用存在两大弊端。首先,应用计算困难,实践应用价值不高。其次,外推误差大,对拟合在实验区间内与实验数据吻合得较好,而在区间外的摆动常会产生不可预期的走向,不能正确反映自变量和因变量之间的函数关系的变化趋势。例如,根据表3-2数据的四阶拟合函数关系计算相应点的函数值与原函数相比较,如表3-3。从表中可以看出,当x=12.25时时已经与原函数相去甚远。因此这个拟合表达式对实践的指导意义
43、是局限的。表3-3x0.252.254.256.258.2510.2512.25ln(x)-1.38630.81091.44691.83262.11022.32732.5055y-1.38630.81251.46371.90652.32811.7638-1.9034y-1.30460.77951.41221.82482.14032.39952.62174.3.2保持密度如果确实有必要采用多项式拟合,要保持适当的数据密度同时,尽量采用等间距采样的实验数据。如图3-2.4.3.3在实验数据走向比较明确的前提下,可以考虑其他的非线性拟合方法在这个例子中最好是拟合成的形式。但如果在有些函数关系不明的情
44、况下可根据散点分布特点考虑其它形式的拟合。例如:表3-2的数据根据数据的散点分布特点可拟合成y=Axn+Bxn的形式,下面是n=15时拟合出的函数:y=-1.3759x15+1.3962x15图3-3 拟合函数图线描绘的函数关系图线如图3-3。把表3中对应的x值代入y中求出y 填入表中。比较y、y 和原函数ln(x)值,这种拟合方法函数的外推走向与原函数更为接近。第五章 残数法与最小二乘法结合二项型指数,是由两个指数项相加而构成的函数表达式。此函数表达式所描绘出的曲线称为二项型指数曲线。此曲线在药代动力学中具有重要的应用价值,常用于研究二室模型药物静脉注射后血药浓度与时间的关系。目前,拟合二项
45、型指数曲线常用的方法为残数法,它是把一条曲线分解成若干指数成分,然后对这些指数成分通过曲线直线化的方式得到相应指数成分的参数估计值。而曲线直线化是采用最小二乘法使变量转换后所得新变量离均差平方和最小,并不一定能使原响应变量的离均差平方和最小,所以其模型的拟合精度仍有提高的空间。以残数法和非线性最小二乘法相结合,即以残数法计算所得的参数估计值为初始值,借助于SAS软件中的NLIN过程,采用非线性最小二乘法来得到拟合效果更好的曲线模型。此做法可解决残数法拟合精度不高、非线性最小二乘法不便使用的问题。5.1 二项指数曲线原理与方法二项型指数曲线参数个数一般为指数项数目的2倍,分析时常用的方法是残数法
46、,它把一条曲线分解成两个指数成分,每次分析一个指数项。药物静脉注射后,在体内的代谢和分布规律比较复杂,其规律因药物的性质和作用部位不同而异,人们通常尝试采用较为简单的模型来描述,即药物静脉注射后的二室模型,其药一时曲线模型为:y=Ae-t+Be-t (5.1)其中,为分布速度常数,为消除速度常数,。当时间t充分大时,Ae-t将趋向于0 。所以,式(5.1)就可简化为:y=Be-t (5.2)两边取以10为底的对数得:logy=logB-2.303t (5.3)作logy_t图,取尾端几个近似呈直线关系的点拟合回归直线。直线的斜率为-2.303,由斜率可求出值;直线的截距为logB,由截距可求出
47、B值。对式(5.1)进行移项整理,得:y-Be-t=Ae-t (5.4)其中,y为实测浓度,Be-t为外推浓度,前者与后者之差为残数浓度,记为y残。对其余点(也称外推点)作logy残_t图,由尾端向前取几个近似呈直线关系的点,拟合一条回归直线,得残数线的截距logA和斜率-2.303,据此可计算出和A。需要注意的是,有时尾端多个外推点计算所得的外推浓度Be-t会大于实测浓度y。此时,式(5.4)需进行相应转化,Be-t-y=-Ae-t (5.5)然后,作logy残_t图,由尾端向前,选取合适的散点拟合回归直线后,所得的残数线的截距应为log(-A)。有时也会遇到部分外推点的外推浓度大于实测浓度
48、而另外一些外推点的外推浓度小于实测浓度的情形,此时可根据二者之差的大小来选择部分点进行分析。若超过1/2的外推点外推浓度与实测浓度之差大于0,则可舍弃另一部分外推点,仅以二者之差大于0的这些外推点按照式(5.5)进行分析;反之,若超过1/2的外推点外推浓度与实测浓度之差小于或等于0,则可仅以二者之差小于或等于0的这些外推点按照式(5.4)进行分析。采用残数法,可求得参数、A、B的值。然后以残数法计算所得的参数估计值为初始值,借助于SAS软件中的NLIN过程,采用非线性最小二乘法来得到拟合效果更好的曲线模型。评价曲线模型的拟合效果,可使用残差平方和、相关指数等指标。残差平方和的计算公式为:SS残
49、=y-y2 (5.6)其中y为响应变量的实际观测值,y为由回归方程算得的响应变量的估计值。相关指数的计算公式为:R2=1-SS残SS总 (5.7)如果SS残占SS总的比例很小,说明估计值与实际观察值很接近,曲线拟合得较好,即R2越接近于1,曲线拟合得越好。SS残的计算公式同式(5.6)。5.2 资料与分析根据有关专业知识,已知某药物为双室模型药物,静脉注射100 mg后,测得各时间点的血药浓度结果见表4-1。试拟合该药物的药-时曲线。表4-1 某药物静脉注射后各时间点的血药浓度时间(h)血药浓度(ug/ml)时间(h)血药浓度(ug/ml)0.16565.033.0002.290.50028.
50、695.0001.361.00010.047.5000.711.5004.9310.0000.38已知此药物是双室模型药物,且采用静脉注射,所以其药一时曲线应为二项型指数曲线。具体分析时,可将所有的散点划分成两段,分别用来计算两个指数项的参数。在计算指数项参数的值时,所得回归直线的斜率和截距对参数值的最终确定有重要影响。而回归直线的斜率和截距依赖于散点的选择,所以在不同计算阶段,选择合适的散点个数尤为重要。第一步,借助SAS语言的宏功能,将不同计算阶段各种可能选取的散点个数组合都考虑进去,采用残数法进行分析,由计算所得的截距和斜率推导出指数项参数的值,这样每种散点个数组合都可以得到一组参数估计
51、值。第二步,将残数法所得曲线模型参数的估计值代入NLIN过程作为初值,每种散点个数组合情形下均可得到一个局部最优的曲线模型。第三步,从多个局部最优的曲线模型中,选取拟合效果最好的曲线模型,选取的标准是残差平方和最小。SAS程序见附录本资料共有8个散点,两阶段可能的散点个数组合有6种,即:33、34、35、43、44、53。散点组合中的两个数字,依次表示在logy_t图和logy残_t图上由尾端向前选取的散点个数。以散点组合34为例,其含义为先选取logy_t图上的后三个散点(即原6-8号散点),然后以剩余散点作logy残_t图后,再选取logy残_t图上的后四个散点(即原25号散点)。SAS输
52、出结果显示:这6种散点个数组合,最终所得到的回归方程拟合本资料的残差平方和均为0.000945。这里,可以任选一种组合情形,根据NLIN过程拟合的参数的值,就可写出曲线的回归方程了。以下是6种散点组合情形下残数法拟合的曲线模型以及非线性最小二乘法拟合的曲线模型,它们对资料的拟合效果见表4-2。表4-2 残数法与非线性最小二乘法拟合的回归方程拟合方法 散点组合 回归方程残 差平方和 相关指数残数法33y=81.6329e-2.5898t+4.8472e-0.2551t55.216000.984562残数法34y=86.6542e-2.6149t+4.8472e-0.2551t17.753100.
53、995036残数法35y=89.5426e-2,6302t+4.8472e-0.2551t5.783900.998383残数法43y=95.7515e-2.7353t+4.9234e-0.2569t0.439500.999877残数法44y=94.9814e-2.7286t+4.9234e-0.2569t0.065600.999982残数法53y=96.3489e-2.8922t+6.3325e-0.2892t1.25600.999649非线性最小二乘法 y=94.3687e-2.7010t+4.7954e-0.2525t 0.00095 1.000000图4-1 最终曲线回归方程对资料的拟合
54、效果根据残差平方和的大小,可知非线性最小二乘法所得曲线模型拟合效果最好,残数法中以散点组合44情形下拟合效果较好。所以,以残数法得到的参数估计值为初始值,再用非线性最小二乘法进一步拟合资料,两法结合应用,所得曲线模型拟合效果更优。最终的曲线回归方程对资料的拟合效果见图4-1,所得模型对该资料的拟合效果令人非常满意。5.3 残数法与最小二乘法结合总结残数法求解二项型指数曲线,其手工计算较为繁杂,不便使用。借助SAS软件的强大功能,以编程的方式实现了残数法的参数估计。SAS软件中的NLIN过程可实现对曲线模型参数的非线性最小二乘估计,所得曲线模型较残数法得到的曲线模型拟合效果更佳。但NLIN过程对
55、参数初始值较为敏感,为保证程序能够快速得到一组较优的模型估计值,采用残数法的结果作为初始值,通过迭代运算,得到更合理的模型参数估计值。当然,应用残数法时,其结果较为依赖于每个指数成分参数估计时的散点选择。因此,分析本资料时在程序中引入宏,运行了所有的散点组合可能,从而得到残差平方和最小的曲线模型。需要说明的是,并非所有的散点组合都是可行的。因为选取散点准备拟合回归直线时,还需计算某些变量的对数值。若选点不合适,则这些变量取值可能为负,这样其对数值就无法计算了,后续的结果也就不准确了。此时,不适合以宏的方式来选取所有散点组合进行相应计算,可根据散点趋势进行人工选点。极限原理在其中起着重要作用。所
56、以,根据极限原理的应用条件,必须在多个时间点上取样,尤其是药物吸收中末期应多次取样,且取样时间应充分大。否则,在取点进行直线回归分析时,结果很不稳定。取点的多少,较大程度上影响到斜率和截距的值,取点较少将导致残数值误差较大,一般每一个计算阶段应选取3个以上(含3个)的散点。此外,要正确进行曲线拟合,尤其要注意: (1)曲线在理论上能否得到适当解释;(2)资料所具备的特征与观察点的趋势有无矛盾;(3)拟合的曲线本身是否最优或较优。第六章 总结在我们实际的实验和勘探中,都会产生大量的数据。为了解释这些数据或者根据这些数据做出预测、判断,给决策者提供重要的依据。需要对测量数据进行拟合,寻找一个反映数
57、据变化规律的函数。本文介绍了几种常用的数据拟合方法,线性拟合、二次函数拟合、数据的n次多项式拟合等。并着重对曲线拟合进行了研究,介绍了线性与非线性模型的曲线拟合方法,最小二乘法、牛顿迭代法等。在传统的曲线拟合基础上,为了提高曲线拟合精度,本文还研究了多项式的摆动问题,从实践的角度分析了产生这些摆动及偏差的因素和特点,总结了在实践中减小这些偏差的处理方法。采用最小二乘法使变量转换后所得新变量离均差平方和最小,并不一定能使原响应变量的离均差平方和最小,所以其模型的拟合精度仍有提高的空间。本文以残数法与最小二乘法相结合,采用非线性最小二乘法来得到拟合效果更好的曲线模型。随着计算机技术的发展,实验数据
58、处理越来越方便。但也提出了新的课题,就是在选择数据处理方法时应该比以往更为慎重。因为稍有不慎,就会非常方便地根据正确的实验数据得出不确切的乃至错误的结论。所以提高拟合的准确度是非常有必要的。结束语经过两个多月的努力,灰色系统分析方法研究论文终于完成,在整个设计过程中,出现过很多的难题,但都在老师和同学的帮助下顺利解决了,在不断的学习过程中我体会到写论文是一个不断学习的过程,从最初刚写论文时对灰色系统的分析方法模糊认识到最后能够对该问题有深刻的认知,我体会到实践对于学习的重要性,以前只是明白理论,没有经过实践考察,对知识的理解不够明确,通过这次的做,真正做到理论实践相结合。总之,通过毕业设计,我
59、深刻体会到要做好一个完整的事情,需要有系统的思维方式和方法,对待要解决的问题,要耐心、要善于运用已有的资源来充实自己。同时我也深刻的认识到,在对待一个新事物时,一定要从整体考虑,完成一步之后再作下一步,这样才能更加有效。致 谢 四年的读书生活在这个季节即将划上一个句号,而于我的人生却只是一个逗号,我将面对又一次征程的开始。四年的求学生涯在师长、亲友的大力支持下,走得辛苦却也收获满囊,在论文即将付梓之际,思绪万千,心情久久不能平静。 伟人、名人为我所崇拜,可是我更急切地要把我的敬意和赞美献给一位平凡的人,我的导师。我不是您最出色的学生,而您却是我最尊敬的老师。您治学严谨,学识渊博,思想深邃,视野
60、雄阔,为我营造了一种良好的精神氛围。授人以鱼不如授人以渔,置身其间,耳濡目染,潜移默化,使我不仅接受了全新的思想观念,树立了宏伟的学术目标,领会了基本的思考方式,从论文题目的选定到论文写作的指导,经由您悉心的点拨,再经思考后的领悟,常常让我有“山重水复疑无路,柳暗花明又一村”。 感谢我的爸爸妈妈,焉得谖草,言树之背,养育之恩,无以回报,你们永远健康快乐是我最大的心愿。在论文即将完成之际,我的心情无法平静,从开始进入课题到论文的顺利完成,有多少可敬的师长、同学、朋友给了我无言的帮助,在这里请接受我诚挚谢意! 同时也感谢学院为我提供良好的做毕业设计的环境。 最后再一次感谢所有在毕业设计中曾经帮助过我的良
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 内蒙古民族大学《时尚休闲体育》2023-2024学年第二学期期末试卷
- 上海第二初级中学2024-2025学年初三第六次质检(下学期开学考)生物试题含解析
- 三亚中瑞酒店管理职业学院《卫生学》2023-2024学年第二学期期末试卷
- 山东省日照市2024-2025学年中考物理试题模拟试卷解析含解析
- 无锡市南长区重点达标名校2025年初三下学期5月冲刺卷生物试题试卷含解析
- 四川省泸县一中2024-2025学年高三4月19日第12周物理试题考试试题含解析
- 创业企业服务创新重点基础知识点
- DB32/T+5100-2025+江淮地区稻茬小麦绿色综合防倒技术规程
- 教学工作总结个人范文(28篇)
- 实验室的年终工作总结(30篇)
- 2025-2030中国橡胶粉改性沥青行业市场现状供需分析及投资评估规划分析研究报告
- 外出攻读博士协议书
- 武汉城市职业学院《卫星通信》2023-2024学年第二学期期末试卷
- 2024-2025年度统编版(2024)小学道德与法治六年级(上)教学工作总结(共三套)
- 2024年常德市农商银行系统招聘笔试真题
- 江苏2025年03月南京市建邺区公开招考5名政府购岗人员笔试历年典型考题(历年真题考点)解题思路附带答案详解
- 2025年深入贯彻中央八项规定精神学习教育测试试题及答案
- GB/T 320-2025工业用合成盐酸
- 《测绘生产成本费用定额》(2025版)
- 中华武术-太极知到课后答案智慧树章节测试答案2025年春武汉城市职业学院
- 2025届广东省江门市高三下学期一模考试历史试题(原卷版+解析版)
评论
0/150
提交评论