




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、认识最小二乘法 对“用最小二乘法探求回归直线方程”的教学反思 北京师范大学数学系 李勇 人民教育出版社中学数学室 宋莉莉第六次课题研讨会开设的研究课之一数学 3中“2.3 变量间的相关关系”的第 3 课时“用最小二乘法探求回归直线方程” 引起了广泛的讨论. 包 括 执教者在内的许多一线教师都反映自己在讲授统计知识时, 往往由于对知识内容 一知半解不得不“照本宣科”,有时甚至会出现理解上的偏差;在指导学生体会统 计思想时,更是感到“心有余而力不足” . 教师的这些感受都是真实自然的, 主要原因有三: 其一是绝大多数教师自己虽然学过 “概率论与数理统计” 类课程, 但这 些课程大都是统计学的数学基
2、础,少有统计思想的介绍;其二是以往的高 中数学教材中几乎不涉及统计学思想, 教师在教学过程中远离统计学内容, 结果 使自己对概率统计知识变得陌生;其三是缺乏必要的适于中学概率统计的教学 参考资料 .统 计学是一门“实践性”和“过程性”都很强的学科,任何一个单独的统计概念、公式、统计方法及其所蕴涵的统计思想都与解决特定实际问题的过程相 关联 . 因此应 在统计知识的教学过程中,重视渗透和明确统计思想 . 统计思想既 深刻又有其独特性, 正如统计学家陈希孺先生所说 “统计学不止是一种方法或技 术,还含有世界观 的成分它是看待世界上万事万物的一种方法” . 统计教学 不容忽视的一个目标就是培养学生的
3、“统计思想” .以上是统计教学非常重要的两个方面, 但在教师的知识储备不足时是不可能 实现的,所以当务之急是提高教师自身的统计水平. “高水平数学教学的前提是教师自己准确理解所教内容” . 因此本文想以“最小二乘法”为载体,通过挖掘 其产生的历史背景、思想源头、来龙去脉、与其他统计知识的联系等,为教师提供一个感受统计思想的内涵、 统计方法的特征、 统计学家创设统计方法时的思想 火花等的机会.一、最小二乘法与最小一乘法什么时候用最小二乘法 在研究两个变量之间的关系时,可以用回归分析的方法进行分析。当确定了 描述两个变量之间的回归模型后, 就可以使用最小二乘法估计模型中的参数, 进 而建立经验方程
4、.例如,在现实世界中,这样的情形大量存在着:两个变量X 和 丫 (比如身高和体重)彼此有一些依赖关系,由 X 可以部分地决定丫 的值,但这种关系又是不 确定的 . 人们常常借助统计学中的回归模型来寻找两个变量之间的关系,而模型 的建立当然是依据观测数据. 首先通过试验或调查获得 x 和 丫 的一组对应关系 ( Xi , 丫) ,( X2, 丫 2 ), , ,( Xn ,Yn ),然后回答下列 5 个问题:这两个变量是否有关系? ( 画出散点图,作直观判断 )这些关系是否可以近似用函数模型来描述?(利用散点图、已积累的函数曲线形状的知识和试验数据,选择适当的回归模型,如一元线性模型y=b )
5、+bx,二次函数模型y=bo+ bx + bzx2等)建立回归模型.对模型中的参数进行估计,最小二乘法是这些参数的一种常用估计方法 .讨论模型的拟合效果.在上述第 3 步中,设所建立的回归模型的一般形式是是一 一个由参数一决定的回归函称为响应变量, x 称为解释变量或协变量; 数;f是一个不可观测的随机误差.为了通过试验数据来估计参数-的值,可以采 用许多统计方法,而最小二乘法是目前最常用、最基本的 . 由一的估计值T 决定的A方程1= -I二称为经验回归方程或经验方程.教科书中涉及的回归模型是最简单的一元线性模型Y=bo+bix+t ,是一个不可观测的随机误差此时模型的拟合效果可以通过Pea
6、rs on 相关系数弘朋一刃=2A1 Y i-lZ来描述。事实上,在线性回归模型中可以证明相关指数等于相关系数的平方 .什么是最小二乘法思想简单地说,最小二乘的思想就是要使得观测点和估计点的距离的平方和达到 最小 . 这里的“二乘”指的是用平方来度量观测点与估计点的远近(在古汉语中“平方”称为“二乘”),“最小”指的是参数的估计值要保证各个观测点与估计点的距离的平方和达到最小 .例如,对于回归模型Y=f (x9 ) +A若 (耳人), (心打) 为收集到的观测数据,贝炖该用 卜人锄 来估计益 ,这里是的估计值。这样点篇:的估计就是I:;,它们之间距离的平方就是1 1半厂 ,进而最小二乘估计量就
7、是使得Q二弘-疔+ 3金掰(*)达到最小值的参数.特别当各个1和相应的估计值相等,即二人时,最小二乘估计量就是使得曲二加 - 几屈 ri_i( * )达到最小值的参数.如果我们能够在固定解释变量值的前提下观测预报变量,就认为解释变量的 观测值和估计值相等,从而可以通过( * ) 式求最小二乘估计.在实际应用中,人们常忽略“各个和相应的估计值相等”的条件,而把 ( * ) 式的最小值点称为参数的最小二乘估计量,其原因有二:其一是不知道最小二乘方法的原理;或是找不到估计量I 的合理数学表达式,也就无法通过(*)式求最小二乘估计量,只好用 TOC o 1-5 h z ( * )式的最小值点作为参数的
8、估计.在教科书中,已知(Xi, yi) ,(X2, y2), ,(Xn, yn)是变量*和丫的一组观 测数据,要估计的是回归直线方程y=bo + bix 中参数bo, bi 的值。所以这时目标 函数为工 5- (如半如 i)2 ?于是这时的最小二乘法就是寻求bo, bi 的值,使在各点处的偏差yi -( bo +biXi)(i =i, 2, , n)的平方和达到最小 .在这种情形中,有意思=bo+ bix 一定经过观测数据点的中心(, )aa进一步,若观测数据全部落在某一直线上,则这个直线方程的截距和斜率必 是模型参数的最小二乘估计量. 因此最小二乘法还为我们提供了一种求解方程组 的方法 ?关
9、于最小二乘估计的计算,涉及更多的数学知识,这里不想详述.其一般的 过程是用目标函数对各b 求偏导数,并令其等于 0, 得到一个线性方程组.高斯 当年将其命?但从创设的近”,目的名为正则方程,并创设了解线性方程组的消元法一一高斯消元法 ?从 计算的角度看,最小二乘法与插值法类似,都是处理数据的算法思想看,二者却有本质的不同 .前者寻求一条曲线,使其与观测数据“最接是代表观测数据的趋势;后者则是使曲线严格通过给定的观测数据, 其目的是通过来自函数模型的数据来近似刻画该函数.在观测数据带有测量误差 的情况下,就会使得这些观测数据偏离函数曲线,结果使得与观测数据保持一 致的插值法不如最小二乘法得到的曲
10、线更符合客观实际?最小二乘法能在统计学中得到应用,也是因为测量误差的存在。事实上,在 高斯等人创立了测量误差理论,对最小二乘法进行了误差分析之后, 这种方法才在统计界获得了合法地位,正式成为了一种统计方法?关于最小一乘法将上述最小二乘法的一般形式改为目标函数,就是最小一乘法。最小一乘法诞生在1760 年,比最小二乘法还要早 40 多年 .但 是由于当时无法解决的计算问题,最小一乘法在此后的百余年中都没有获得长足 的发展?直到 1950 年 , 发现了用线性规划求解的方法以及电子计算机的使用, 才解决了计算难题?如今,统计理论的发展使最小一乘法在某些应用部门(如数量经济学)显示了优良的性质,正在
11、逐步受到应用界的重视?有意思的是,有人做过这样的试验:准备大量的散点图,让一些人各自用目 测的方法画直线?结果表明,大多数人目测的结果更接近于最小一乘法而不是最小二乘法获得的直线。二、最小二乘法的发现史及其在统计学中的地位发现最小二乘法的动因是天文学和测地学中处理数据的需要?陈希孺先生所著数理统计学简史中记载了这样一段历史 .在 18 世纪,天文学和测地学中的 一些数据分析问题可以描述如下:有( 1 )个可以测量的量X。 , xi, ,, Xm , 和 m 个未知的参数B 1, B 2, , B m.按照某种理论,它们之间应有线性关系、0但是由于实际工作中对 X0, Xi, , Xm的测量存在
12、误差,而且式只是理论上的近似而非严格成立池就是说,式左边的表达式实际上不等于0,其真实值与 测量有关,可视为一种误差?若进行了n 次测量,在实际问题中, n 总是大于甚至是远远大于m目的是多提供一些信息,以便对参数B 1, B 2, , , B m作出较精确的估计.设在第i次测量中,Xo, Xi, , Xm分别取值Xoi, Xli, , Xmi,则 按照 式,应有1 B! 1 ? ! 1(i =1,2,j n)。若式严格成立,则只要从上述 n个方程中任意挑出m个就可以解出B i,B 2, , B m 的值.但式并非严格成立,于是需要设计合适的算法来估计参数的值1750 年,天文学家梅耶发表了一
13、种方法.他在研究海上航行船只的定位问题到了一个包含3 个未知参数的形如式的关系式以及27 组观测数据 .梅耶 把这 27 个方程分成 3 组,然后把每组中的 9 个方程相加,共得到 3 个方程,这样可以解出 3 个未知参数 .至于分组的方法,梅耶以其中一个系数为准,按各方 程中此系数的大小分组:最大的 9 个,最小的 9 个和剩下的 9 个各成一组.在最 小二乘法发现之前,这个方法曾经比较流行,并被冠以梅耶的名字 .值得一提的是,梅耶还估计了这种方法的误差,并试图对误差的界限作一个估计.虽然今天看来梅耶的做法有一些错误,但他在那么早的阶段就做出这种努力, 是难能可贵 的.1787年,拉普拉斯在
14、研究天文问题时引出了一个形如式的作4, n= 24的方程组.他的求解方法是,先把24 个方程编号,然后按下列方式得到需要求解的 4 个方程 .方程 1: 24 个方程的和;方程 2:前 12 个方程之和 -后 12 个方程之和;方程 3: 编号为 3, 4, 10, 11 , 17, 18 的方程之和一编号为 1 , 7, 14, 20 的方程之和;方程 4: 编号为 2, 8, 9, 15, 16, 21 , 22 的方程之和编号为 5, 6, 12, 13, 19 的方程之和。拉普拉斯没有解释如此组合的原因,这使得他的方法无法应用于类似的问题.对解决这类问题做过尝试的还有大数学家欧拉,但他
15、的做法显得杂乱无章, 缺乏基本的合理性 .看来这个问题的解决还需要一点新的思路.1805 年,法国数 学家勒让德采取了一个新的角度来考虑这个问题.他不再关心如何找出个数等于未知数个数的方程组,而是考虑如何使误差在整体上达到平衡,于是他采取使 的原则去求解B 1, B2, , , B m.这一原则使误差不过分集中在几个方程上,而是比较均匀地分布于各方程,从而有助于揭示系统的更接近真实的状态.而勒让德之前的学者的做法对于误差在各方程之间的分布的影响是不清楚的 .后来,最小二乘法逐步渗入到统计数据分析领域,对统计学的发展产生了重 大影响 . 统计史家对此评价很高,有的认为最小二乘法之于统计学,犹如微
16、积分之于数学 .有的学者称最小二乘法是19 世 纪统计学的“中心主题”.最小二乘法之所以能获得如此的显赫地位,主要得益于它与线性模型的联系 .勒让德创设最小二乘法是为了解决形如式的线性表达式 (如今已发展为线性模型)的,由此导出的也是一个线性的方程组,这使得最小二乘法具有计算简便的特点?但更加重要的是,“线性”的特点使最小二乘法在误差 分析方面较之其他方法具有不可替代的优势?在 1809 年高斯对最小二乘估计进行的误差分析中发现, 在线性 模型的所有无偏估计类中,最小二乘估计是唯一的方差最小的无偏估计;进入20 世纪后,哥色特、费歇尔等人还发现,在正态误差的假定下,最小二乘估计 有较完善的小样
17、本理论,使基于它的统计推断易于操作且有关的概率计算不难进行.与此同 时,对 TOC o 1-5 h z 最小二乘法误差分析的研究也促进了线性模型理论的发展.如今,线性模型已经成为理论结果最丰富、应用最广泛的一类回归模型.三、对“用最小二乘法探求回归直线方程”的教学建议体现“过程性”在本部分内容的教学中,应结合具体问题体现两个过程?一是回归分析的过程,即:要研究两个定量变量(如年龄和脂肪含量)是否具有某种关系 画散点图,直观判断. 用回归直线代表试验数据的趋势* 用最小二乘法求得斜率和截距的估计值,得到经验方程. =bo+bix用 经验回归 方程对相应变量进行预测?二是用最小二乘法估计回归直线的
18、过程?这个过程包括两个环节,一是通过让学生自己寻求回归直线,引导他们认识到应该从 “整体上”看待这个问题,即“从整体上看,各观测数据点与直线的距离最小”是确 定直线的一个合理原则;二是让学生经历用数学语言刻画 “从整体上看,各观测 数据点与直线的距离最小”的过程?首先建立回归直线的目的,是为这与用平均数来代表一个变量体现统计思想 对于本部分内容,统计思想主要体现在两个方面了从整体上代表两个变量的观测数据的关系,的数据是类似的?二是观测值不可能正好落在回归直线上?这是因为回归直线方程y=bo+bx是线性回归模型Y=bo+biX+=y+J的一部分,这里是误差项.该模型 假定, 变量x与y有线性关系
19、y=b +bx,而凡是不能被该线性关系描述的 y的变 化都由误差 项来承担 . 由于误差,观测值不可能正好落在这条直线上.如果这个模型有意义的话,这些观测值不会离这条直线太远.而且bo和bi是通过样本估计出AA来的(通常用 , 1 表示),存在随机误差,这种误差也会导致预测结果的偏差参考文献 :章建跃 .数学学习论与学习指导. 北京:人民教育出版社, 2001.李勇 , 张淑梅 . 统计学导论. 北京:人民邮电出版社, 2007.陈希孺 . 数理统计学简史 . 长沙:湖南教育出版社, 2002.吴喜之 . 统计学:从数据到结论(第二版) . 北京:中国统计出版社, 2006.Gudmund R
20、. Iversen, Mary Gergen. 吴喜之等,译. 统计学基本概念和方法. 北京:高 等教育出版社 , 2000. 纽约:施普林格出版社, 1997.中国大百科全书总编辑委员会数学编辑委员会.中国大百科全书?数学 .北京:中. 19922008-10-06 人教网般都是用 matlab 搞定的,它里面有现成的函数供使用的 典型程序解析:x=0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1;%input xi datay=1.978 3.28 6.16 7.08 7.34 7.66 9.56 9.48 9.30 11.2; % input yi data n
21、=2; %polynomial orderp=polyfit(x, y, n)% polyfit 的输出是一个多项式系数的行向量( 拟合二项式的系 数)ezplot(-9.8108*x*x+20.1293*x-0.0317)% 对拟合的函数作图 xi=linspace(0,1,100); %x-axis data for plotting z=polyval(p, xi);% 为了计算在xi 数据点的多项式值,调用MATLAB 的函数 polyvalplot(x,y, o ,x,y,xi,z,:)% 在同一个图形里看他们的拟合程度典型例题:对以下数据分别作二次,三次多项式拟合,并画出图形.x=
22、1:16;y=4, 6.4, 8, 8.4, 9.28, 9.5, 9.7, 9.86, 10, 10.2, 10.32, 10.42, 10.5, 10.55, 10.58,;源程序:二次多项式拟合x=1:1:16;y=4, 6.4, 8, 8.4, 9.28, 9.5, 9.7, 9.86, 10, 10.2, 10.32, 10.42, 10.5, 10.55, 10.58,;a=polyfit(x,y,2)a =-0.0445 1.0711 4.3252ezplot(-0.0445*xA2+1.0711*x+4.3252)三次多项式拟合x=1:1:16;y=4, 6.4, 8, 8.4
23、, 9.28, 9.5, 9.7, 9.86, 10, 10.2, 10.32, 10.42, 10.5, 10.55, 10.58,;a=polyfit(x,y,3)a =0.0060-0.19632.13462.5952ezplot(0.0060*xA3-0.1963*xA2+2.1346*x+2.5952)简介用连续曲线近似地刻画或比拟曲线拟合平面上离散点组所表示的坐标之间的函数关系的一种数据处理方法。用解析表达式逼近离散数据的一种方法。在科学实验或社会活动中,通过实验或观测得到量x与y的一组数据对(xi , yi)(i = 1, 2, ,m),其中各xi是彼 此不同的。人们希望用一类与
24、数据的背景材料规律相适应的解析表达式,y=f (x , c )来反映量x与y之间的依赖关系,即在一定意义下“最佳”地逼近或拟合已知数据。f (x , c)常称作拟合模型,式中c = (c1, c2, ,cn)是一些待定参数。当c在f中线性出现时,称为线性模型,否则称为非线性模型。有许多衡量拟合优曲线拟合公式推导度的标准,最常用的一种做法是选择参数c使得拟合模型与实际观测值在各点的残差(或离差)ek = yk f (xk , c)的加权平方和达到最小,此时所求曲线 称 作在加权最小二乘意义下对数据的拟合曲线。有许多求解拟合曲线的成功方法,对于线性模型一般通过建立和求解方程组来确定参数,从而求得拟
25、合曲线。至于非线性模型,则要借助求解非线性方程组或用最优化方法求得所需参数才能得到拟合曲线,有时称之为非线性最小二乘拟合。曲线拟合:贝塞尔曲线与路径转化时的误差。值越大,误差越大;值越 小,越精编辑本段意义线直线化是曲线拟合的重要手段之一。对于某些非线性的资料可以通过简单的变量变换使之直线化,这样就可以按最小二乘法原理求出变换后变量的直线方程,在实际工作中常利用此直线方程绘制资料的标准工作曲线,同时根据需要可将此直线方程还原为曲线方程,实现对资料的曲线拟合。编辑本段常用的非线性函数.指数函数(exponential function)Y=aebX(12.29)对式(12.29 )两边取对数,得
26、将曲线拟合在选定点上lnY=lna+bX (12.30)b0时,丫随*增大而增大;b 0) (12.32)b0时,丫随*增大而增大,先快后慢;b0, X0)(12.34)曲线拟合式中b0时,丫随*增大而增大;b0时,丫随*增大而减少。对式(12.34 )两边取对数,得lnY=lna+blnX (12.35)所以,当以lnY和lnX绘制的散点图呈直线趋势时,可考虑采用幕函数来描述丫和X间的非线性关系,lna和b分别是截距和斜率。更一般的幕函数Y=aXb+k(12.36)式中k为一常量,往往未知。编辑本段利用线性回归拟合曲线的一般步骤(一)绘制散点图,选择合适的曲线类型 一般根据资料性质结合专业知
27、识便可 确定资料的曲线类型,不能确TH垃二辽d廿_L_二 一曲线拟合定时,可在方格坐标纸上绘制散点图,根据散点的分布,选择接近的、合适 的曲线类 型。(二)进行变量变换Y =f(Y),X =g(X)(12.37)使变换后的两个变量呈直线关系。(三)按最小二乘法原理求线性方程和方差分析(四)将直线化方程转换为关于原变量X、Y的函数表达式简单地说都属于III类油,具体建议下。润滑油基础油分类简介国外各大石油公司过去曾经根据原油的性质和加工工艺把基础油分为石蜡基基础油、中间基基础油、环烷基基础油等。20世纪80年代以来,以发动机油的发展为先与,润滑油趋向低黏度、多级化、通用化,对基础油的黏度指数提出
28、了更高的要求, 原来的基础油分类方法已不能适应这一变化趋势。 因此,国 外各大石油公司目前一般根据黏度指数的大小分类,但一直以来没有严格的标 准。 API于 1993 年将基础油分为五类( API-1509 ),并将其并如 EOLCS (API 发动机油发照认证系统)中,其分类方法见表-1 。表-1API-1509 基础油分类标准试验方法 ASTM D2007 ASTM D2270 ASTM D2622/D4294/D4927/D3120类别 饱和烃含量 /% 黏度指数 VI 硫含量 /% (质量分数)I 类 90% 800.3II 类 90% 80120 90% 120 140 很高 黏度指
29、数 120W VI140 高 黏度指数90 VI120 中黏度指数40VI90 低黏度指数VI40 通用基础油 UHVI VHVI HVI MVI LVI 专用基础油 低凝 UHVI W VHVI W HVI W MVI W 深度精制 UHVI S VHVI S HVI S MVI S 该标准按黏度指数把基础油分为低黏度指数(LVI )、中黏度指数(MVI)、高黏度指数(HVI)、很高黏度指数(VHVI)、超高黏度指数(UHVI)基 础油 5 档。按使用范围,把基础油分为通用基础油和专用基础油。专用基础油又分为适用于多级发动机油、 低温液压油和液力传动液等产品的低凝基础油 (代号后加W )和适用于汽轮机油、 极压工业齿轮油等产品的深度精制基础油 (代号后加S )。 其中 HV
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 麻将室房间管理制度
- 工业废弃物处理与资源化利用研究
- 工业大数据在生产车间的应用
- 工业旅游产业园营销策略
- 工业废水处理技术的研究进展
- 工业物联网与供应链管理的融合实践
- 工业物联网平台的建设与发展趋势
- 工业自动化中的控制软件与硬件选择
- 工业污染防治的技术创新与升级研究
- 工业涂装的安全防护措施
- 大学语文试题及答案 二
- 2025年 汾西矿业井下岗位高校毕业生招聘考试笔试试题(山西省)含答案
- 物理中考二轮复习教案 1作图专题3(电学电磁学)
- 石膏厂安全管理制度 最终
- 2025年河北省中考麒麟卷生物(二)
- 2025年八年级数学下学期期末总复习八年级数学下学期期末测试卷(2)(学生版+解析)
- 四级阅读测试题及答案
- 农村供水水质管理制度
- 建筑工地应急预案方案
- T/CIE 208-2024儿童机器人教育评价指南
- 2025年高考英语课后续写高频考点话题分类第07讲 读后续写之成长类主题(讲义)
评论
0/150
提交评论