版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、武新乾多元统计模型数模竞赛辅导专题河南科技大学数学与统计学院(2010-07-23 )、尸、前言24年前( 1986 年),美国出现了大学生数学建模竞赛。随着改革开放的进程,数模竞赛 逐渐传入我国。 1992 年,开始国内第一届大学生数学建模比赛。数模竞赛一经传入,便受 到了全国高校的普遍关注, 引起了大学生的广泛兴趣。 特别是近年来, 虽然试题难度不断增 大,但是,参赛的学生规模空前膨胀,获奖的组队也日益增加,论文质量不断提高。综观 18 年的竞赛试题,问题广泛,解决方案多种多样,其中基于统计分析的问题屡见 不鲜。比如: 1992 年 A 题(简单记为 1992A ,下同)“施肥方案对作物、
2、蔬菜的影响” ,采 用多元二次回归、全回归、逐步回归和二次响应面回归;1993A “非线性交调的频率设计” ,采用最小二乘方法(简单记为LS); 1998A “资产投资收益与风险模型”和2000A “DNA序列的分类”,都采用多元分析方法;2001A “血管管道的三维重建”和“血管切片的三维重建”,分别采用LS方法和非线性拟合;2001B “公交车调度的规划数学模型”,采用聚类分 析、平滑方法和随机过程的有关知识;2003A“SARS传播的数学原理及预测与控制”和“ SARS 传播的研究” ,均考虑了时间序列的应用; 2003A“SARS 传播预测的数学模型” ,采用非线 性拟合,建立了指数模
3、型; 2004A“MS 网点的合理布局”采用了聚类分析, “基于利润最大 化的实运商业网点分布微观经济模型”采用多元统计分析方法,另外,“临时超市网点的规划模型研究”考虑了经验分布的应用;2004B “电力市场的输电阻塞优化管理(指导教师:肖华勇)”和“电力市场输电阻塞管理模型”,均使用了多元线性回归;2005A “长江水质的评价和预测” 、“长江水质的评价预测模型” (二元线性回归预测) 、“基于回归分析的长江水 质预测与控制” ,均考虑了回归分析, 此外,“长江水质评价和预测的研究” 、“水质的评价和 预测模型”,均考虑了时间序列分析方法和多元线性回归模型;2005B “DVD 在线租赁系
4、统的优化设计”应用了抽样统计和随机服务模型, “DVD 在线租赁问题”和“ DVD 租赁优化 方案(指导教师:孙浩) ”考虑了二项分布和随机模拟; 2005B“DVD 在线租赁问题研究” 和2005C “雨量预报方法的评价模型”考虑了均值的应用;2006B “艾滋病疗法评价及疗效预测模型”使用了二次曲线和多元方差分析, “艾滋病疗法评价及疗效的预测模型”使用了 逐步回归方法, “艾滋病疗法的评价及疗效的预测模型” 应用了假设检验和方差分析, “艾滋 病疗法的评价及疗效的预测”使用了线性拟合、二次和三次曲线拟合与非线性回归,“基于数据统计分析的艾滋病疗效评价方法”采用了F-检验和二次多项式回归;
5、2007A “中国人口区域结构向量模型”采用了倒数曲线模型拟合, “基于 Leslie 模型的中国人口预测及蒙特卡 罗仿真(指导教师:梅长林)”应用了概率方法;2008A “数码相机定位”应用了多元线性 回归分析;2008B “高等教育学费标准探讨(华南农业大学,编号1910)”应用了因子分析、主成分分析和聚类分析, “高等教育学费标准的探讨(华南农业大学,编号 1920)”采用了 多元回归分析、数据挖掘和模拟退火算法,“关于高等教育学费标准的评价及建议(编号cumcm0849)”和“高校学费合理性研究(编号cumcm0860)”分别考虑了回归分析和曲线拟合。由是可知, 多元统计分析是常见的解
6、决数模竞赛的主要工具之一, 务必给以充分的重视 和加强训练指导。二、回归分析1. 一元线性回归经典的一元线性回归模型为ya bx;i, i =1, ,n,(1)其中xi, yi为观察值,1节?为独立同分布(i.i.d.)随机误差序列,并且;i N 0,;2 。易知,参数a和b的最小二乘估计(LSE)(2)其中Xi, n i 4l XX2)卞i=1nl =Yxy i Axin-、二、XjYi - nXy。于是,所得线性回归方程为(3)在应用回归方程(3)进行拟合、预测和控制之前,必须进行检验问题H0:b =0,出:13 = 0。(4)常用统计量为SSR1 n -2 SSRF =SSE n-2 S
7、SE(5)n其中 SSR = '? -yi A二孑1拓=用岑为回归平方和,SSE = v yj-g 2为残差平方和。i 二当原假设H0成立时,F F 1,n - 2。(6)对于给定的显著性水平:0:1 ,由P F F:. 1,n-2-,查表确定临界值F? 1,n-2。当F F- 1,n-2时,拒绝原假设H°,说明x与y之间存在线性关系,回归方程有意义。否则,回归方程无意义,这时有几种可能性:X确实对y无任何影响;x对y有影响,但不是线性关系; 除x以外,还有另外的因素对 y有影响,这时需要 进一步研究。变量x与y之间的线性关系的判断, 除了上述方差分析法以外, 还可以利用相关
8、系数检 验法。样本相关系数它是总体相关系数r 二丄x的估计量。n、x-xyTi丄lxy1xxlyyn2 2_X 、yi _yi丄r具有一个特性,它只依赖于样本容量(7)n和总体相关系数t。当原假设H。:= 0成立时,统计量t=rJJt(n-2 )。这说明也可以利用t检验法对原假设进行检验。诚然,在使用统计软件进行假设检验时,往往会输出(8)p值,也可以直接利用p进行检验判断,这里p = P F _ f , f为统计量F的样本值。当p< :-时,拒绝原假设 H0,认 为x对y的线性影响是显著的,否则,认为x对y的线性影响是不显著的。只有当拒绝原假设 H 0,即认为x对y的线性影响是显著时,
9、才能利用线性回归方程(3)进行预测和控制。此时,个体y。与集体平均E y的点预测为?0 询 1?(0。(9)个体y。的区间预测(置信水平为 1 - :为SSE乂- Fa(1, n_ 2)-s- n 21_ 2+ 1 +壬 X)nn ' Xii咼2-x)J:乂_ 21 ZXn2'Xi-Xi W(10)(11)或者为?0 -d, ?0 d 1,其中d =L,2 n -2 ? i x0 C C J x0为预报半径,iiXiX2Xn集体平均E y。的区间预测(置信水平为 i -:)为-_ 2(X)_x)n -2SSE<?0 十 Fa。,n-2)n - 2-丄+nS (Xi -X
10、)或者为?0 -dyo di l,其中 di =t: 2 n-2 ? X0 CC。在实际应用中,为了方便起见,当X0取值在X附近并且样本容量n比较大时,(i2)(i3)通常使用:=0.05?0 - 2 ? y。: ?0 2?(i4)或者字:-0.0i?o一 3 ? : y。: ? 3 ?(i5)来进行预测和控制。比如,要控制y在yi 一 y 一 y?中,只需通过-= 0.05yi二 a?论 - 2;?, y2 = a? bX2 2?(i6)或者:=0.0iyi二 a?论 一 3?, y2 二 a? bX2 3?(i7)分别求出Xi和X?,从而确定变量x值的控制范围。2. 多元线性回归经典的多元
11、线性回归模型为yi =bo +冷十鸟为2 +bmXm +引,i =1,n ,(18)其中Xi,Xi2,,Xm,yi为观察数据,为独立同分布(i.i.d.)随机误差序列,并且2;i N 0,;。易知,参数b二:心。,“®,,bm的最小二乘估计(LSE)为其中t?=(b0&,b2,Y =y2*1,X =-一 yn 一J于是,所得线性回归方程为,bm )1= (XX )XY,(19)X11X12X1 mX21X22X2maa+a。Xn17An2Xnm+b2x2:m。(20)方程的显著性检验H0:b|=b2= bm=0, H1 :b1,b2/ ,bm不全为 0。(21)常用统计量为f
12、 SSRmn - m -1 SSRSSE (n m1)m=<SSE(22)n其中SSR二' ?i A-yn2 2)为回归平方和,SSE=5: (yi -?)为残差平方和。当原假设H0成im立时,F F m,n -m-1。(23)对于给定的显著性水平 0:1 ,由P F F._ m, n m1 ":工,查表确定临界值F- m,n-m-1。当F F:. m,n-m-1时,拒绝原假设 H0,即在显著性水平下,变量X1,X2,,Xm对y的线性影响显著,回归方程有意义。否则,回归方程无意义,此时有如下几种可能性: X1, X2 / ,Xm确实对y无影响; X1,X2/ , Xm对
13、y有影响,但是非线性关系; 除XhX2,Xm以外,还有另外的因素对 y有影响,这时需要进一步研究。只有通过方程的显著性检验,才能进一步对(偏)回归系数进行显著性检验。检验问题H°j :bj =0, H1j :bj =0 j =1,2, ,m。(24)(25)检验统计量为FjPjSSE n- m-1或者tjSSE n-m-1(26)二XX , X是中心化的数据矩阵,即其中片=b?2 jjj,ijj为l'的第j个对角元素,而X11_X1x12 _X2X1 m_XmX21_X1-x22 _X2a+X2m_Xm-_X1Xn2 -乂2Xnm一 XmX 二O在原假设H0j成立的条件下,F
14、j F 1, n -m -1 , tj t n - m-1。( 27)当Fj > (1 ,nm1)或者tj t“2( nm1 )时,拒绝原假设H0j),表明变量Xj对y的 作用是显著的(为在回归方程中是显著的);否则,接受原假设 H0j,说明召对y的作用 是不显著的,可以将其从回归方程中剔除。只有当回归方程的显著性检验和回归系数的显著性检验均通过以后,才可以利用回归 方程(20)进行预测和控制。给定一组变量值X。= 1,心,x°2,x°m ,对应的y和E y0的点预报为?0 =? +b?X°1 +?X02 + +bmxom。( 28)y。的预报区间(区间估计
15、)为?0 -d, y。d 1,(29)其中 d =©2 (n m T+x。(XX x。为预报半径,<? = JSSE。当 Xoj 取值在Xj j =1,2,,m附近并且样本容量n充分大时,通常使用近似预报区间,即当 -0.05 时,预报区间为?0 -2;?,?0 - 2-?1 ;( 30)当=0.01时,预报区间为?0 -3 ?,?03? 1。( 31)E y。的预报区间(区间估计)为I?。 di,y0 di I,(32)其中 d =t.,2 n -m -1 ? X XX x。在实际问题中,常希望通过控制m个变量中的某一个(或者少数几个)来满足对输出y的要求,这就是常说的控制问
16、题。比如,如何控制自变量Xi,X2/ ,Xm的取值,使得因变量满足A y0 ::: B。当=0.05时,解不等式工yo 2? b, 刊(33?0 -2 ? A解此不等式(在有解的情况下),即得自变量x01,x02- ,x0m的控制范围。3. 非线性回归常见的非线性回归模型分为两种类型。第一类:形式上是非线性的,但是,经过变换以后可以转化为线性模型,称为第一类非线性回归。第二类:本质上是非线性的,称为第二类非线性回归。第一类非线性回归,又称为可化为线性模型的回归或者为化曲线为直的回归。常见的有:11双曲线型-;;yx'指数函数型 y = cP + £或者 y= eg*十名(c&
17、gt;0;幕函数型y = ex ; c 0;对数函数型 y - In x ;o第二类非线性回归模型的一般形式为(34)其中X二X1,%,Xm为可控制变量,V -片户2,户p为未知待估参数,;为一随机 变量,f为p m元非线性函数。此处,仅介绍一种常用的估计方法一一非线性最小二乘法。设进行了 n次随机试验,得到观察值为(x:y,xim,yi ),i =1,2,,n,即yf Ke i =1,2,n。(35)通常假定为独立同分布(i.i.d.)随机误差序列,并且为白噪声过程,即;i WN 0,;2 。令“ _ 2Q(日)=瓦y f (x, ),(36)i 二使得Q二达到最小值的?称为参数二的最小二乘
18、估计。称方程?= f X,?( 37)为非线性回归方程;?作为y的估计值,称为预测值(拟合值)。下面介绍求解?的一种迭代方法一一高斯-牛顿法。具体步骤如下: 给定初始值屮; 计算矩阵-戲(*,日0)冴(x0).f(Xif0 )曲叫f X20 )吋(X2®0).f X2,80 )X =a列2a叫;af人,日0)f Xn,e0).f Xn,e0)-胡1c92叫j 计算迭代值Y,二 XX XY,(38)其中丫* h" - f X/0 ,y2-f X2,d0 , ,%-f Xn 于。 以日*代替日0作为下一次迭代的初始值, 重复上述步骤,直到日*与日0或者Q(日* )与q于之差的绝
19、对值小于预先给定的精度为止。将最后所得的t作为参数二的最终估计值在求出M之后,可得非线性回归方程(37),然后,可类似于线性回归方程进行预测和控制。三、判别分析、聚类分析、主成分分析与因子分析由于这部分内容庞杂繁多,况且教学时间有限,所以,该节讲义暂时略去这部分内容的知识梳理与讲解。虽然如此,但是,在下面的应用分析中还是选择了一个实例(例3)加以分析说明,这是因为该部分内容在历年的数学建模竞赛中时有出现和应用,不能掉以轻心。四、应用分析例1( 1992年A题 施肥效果分析)具体问题参见题目“1992年A题 施肥效果分析.pdf ”。 分析:该题是中国大学生首届数学模型竞赛试题, 也是美国199
20、2年数学模型竞赛 A题。在上述问题中,N, P, K的施用量是三个回归变量,土豆和生菜的产量是因变量,利用所给 数据建立产量与 N, P, K的施用量之间的函数关系,然后通过这个函数关系去分析合理的施 肥效果等,这就是回归方法建模。先看钾肥K的施用量与生菜产量 W之间的关系。由所给数据描出经验曲线,并结合农学原理知,钾肥的施用量对生菜产量的增加表现为直线形式,故可用一元线性回归。所建立的钾肥对生菜的效应方程(回归方程)为W =16.27 0.004657k。(39)由于F拓6.575a5.32 = Foq5(1,8 ),所以,效应方程(回归方程)(39)有意义。另外,由所给数据描出的经验曲线,
21、并结合英国科学家博伊德的理论可知,磷肥P的施用量 W的增加表现为分段直线形式,运用一元线性回归,可得磷肥对土豆的效应方程为32.077 +0.0849,(0 兰 p 兰101.04 )W°(40)39.960.00599, (101.04 兰 p 兰 342 )磷肥对生菜的效应方程为 6. 6 990. 0 53 6 9,兰P 兰 0)2 7 6. 0 4W°(41)(2 0. 196 0. 0 0 4(7 2 9, 环7 區 0 4685考查氮肥N的施用量与土豆和生菜产量W之间的关系。由所给数据描出的经验曲线,结合Nicklas和Miller的理论可知,氮肥的施用量对土豆
22、和生菜产量的增加可用下述描述:2 . 2y =b0 dx b2x;, ; N 0,匚°(42)令 =X,X2 =X2,则上述模型(42)转化为二元线性回归模型II】2y =bo 0X1 ax?亠:,;N 0,二 °(43)经过计算,氮肥对土豆的效应方程为2W =14.80 0.197n - 0.00034n °(44)由于F =192.9 >9.55= Foe(2,7 ),所以,效应方程(回归方程)(44)有意义。类似地,可求得氮肥对生菜的效应方程为2W =10.23 0.101 n -0.00024n °(45) 同时,可以检验上述回归方程(45)有意义。注意:(44)和(45)式中的n表示氮肥N的 施用量。再考察钾肥K的施用量与土豆产量 W之间的关系。由所给的数据绘出经验曲线,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《信威集团海外关联方交易审计风险控制案研究》
- 《6分钟步行试验(6MWT)、BMI及MMRC对评价COPD病情严重程度的意义》
- 《健骨丸防治糖皮质激素性骨质疏松症临床观察》
- 2024年度个人借款合同标的为00万元人民币
- 《冠心病患者血清胱抑素C水平与冠状动脉病变支数相关性研究》
- 《论后现代主义戏剧舞台呈现中的结构处理与写意美学》
- 2024年度报关代理及售后服务合同
- 《泰安市煤矿工人尘肺病现状及其防治对策》
- 2024年度技术转让合同的技术转让价格
- 三明教育医疗高端人才专项招聘笔试真题2023
- 腹壁的解剖课件
- 正规的公司报案材料范文共8篇
- 汽车起重机基本结构、工作原理课件
- 实验室内部、外部风险源分析
- 辐射温度计校准规范
- 积累运用表示动作的词语课件
- 人教版小学一年级上册10以内加减法口诀表
- 化学品安全技术说明书 MSDS( 酚醛树脂)
- 中国华电集团公司组织结构
- 08S305-小型潜水泵选用及安装图集
- 校舍、活动设施设备安全安全定期检查记录表
评论
0/150
提交评论