基于数据分析的建模方法_第1页
基于数据分析的建模方法_第2页
基于数据分析的建模方法_第3页
基于数据分析的建模方法_第4页
基于数据分析的建模方法_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1 * 在建立数学模型的过程中在建立数学模型的过程中, ,经常需要建立经常需要建立变量之间的关系变量之间的关系. . * *由于对研究对象的内部机理不甚了解由于对研究对象的内部机理不甚了解, ,不不能通过合理的假设能通过合理的假设, ,或根据物理定律、原理或根据物理定律、原理, , 经过机理分析法而得到经过机理分析法而得到. .问题问题解决思路解决思路2*选择适当的数学式对变量间的关系进行拟合选择适当的数学式对变量间的关系进行拟合.*通过对数据充分观察和分析通过对数据充分观察和分析, 获得数据所含获得数据所含 信息信息;*揭示变量间的内在联系揭示变量间的内在联系;xoy* 借助于由实验或测量得

2、到的一批离散数据借助于由实验或测量得到的一批离散数据.3两类变量关系两类变量关系 确定性关系确定性关系 确定的函数关系确定的函数关系相关关系相关关系 存在相依关系存在相依关系,但未达到相但未达到相互确定的程度互确定的程度.两类数据两类数据已知规律已知规律(函数函数)的测试数据的测试数据(在特定时在特定时间点或距离上的数据间点或距离上的数据)呈现随机性的数据呈现随机性的数据,可看成具有某种概可看成具有某种概率分布的随机样本值率分布的随机样本值.4 针对两种不同类型的数据针对两种不同类型的数据, 有不同的建立模有不同的建立模型方法型方法:1. 数据拟合法数据拟合法(适用于第一类数据适用于第一类数据

3、)基本思想基本思想 已知函数已知函数 y= f(x) 的一组测试数据的一组测试数据 (xi , yi), (i=1,2,n),寻求一个函数寻求一个函数(x),使,使(x)对上述测试数据对上述测试数据的误差较小,即的误差较小,即(xi)yi,于是可以用,于是可以用(x)来近似替代来近似替代f (x).常用的数据拟合方法常用的数据拟合方法:一般插值法、最小二一般插值法、最小二乘法、样条函数光顺法等乘法、样条函数光顺法等.5 插值法的基本思想插值法的基本思想 寻找寻找 f(x)的近似替代函数的近似替代函数(x), 在插值节点在插值节点xi 上满足上满足 ( xi )=yi, (i=1,2,,n),其

4、余点用其余点用(x)近似替代近似替代f (x ), 称称(x)为为f (x)的的插值函数插值函数.)(xfxixiy6 最小二乘法基本思想最小二乘法基本思想 寻找寻找 f (x)的近似替代的近似替代函数函数(x), 使使 niiixxf12)()(.min2. 随机分析方法随机分析方法 对于随机数据进行拟合对于随机数据进行拟合, ,可用统计学中的可用统计学中的回归分析方法或时间序列分析方法回归分析方法或时间序列分析方法. . 以上两种建模方法都是建立在对数据进行以上两种建模方法都是建立在对数据进行充分分析的基础上充分分析的基础上.7 寻找或选择适当的函数拟合变量之间的关系寻找或选择适当的函数拟

5、合变量之间的关系(函数关系或回归关系函数关系或回归关系)是重要的环节是重要的环节.一般步骤一般步骤 1)绘制数据散点图;)绘制数据散点图; 2)分析数据散点图;)分析数据散点图; 3)选择函数关系形式)选择函数关系形式. 1) 通过分析数据散点图可以获得对变量通过分析数据散点图可以获得对变量间关系的感性认识间关系的感性认识, 形成初步的看法形成初步的看法, 以便以便于对问题做进一步的分析于对问题做进一步的分析.8氮施肥量氮施肥量N 土豆产量数据散点图土豆产量数据散点图9磷施肥量磷施肥量 土豆产量数据散点图土豆产量数据散点图102)分析数据散布图;)分析数据散布图; 对数据散布图进行分析对数据散

6、布图进行分析,可以分析出变量的可以分析出变量的关系是:关系是:1)线性的还是非线性的?)线性的还是非线性的?2)有无周期性?)有无周期性?3)呈现何种变化趋势?变化率如何?)呈现何种变化趋势?变化率如何?,等等有用的初步结论等等有用的初步结论.11 例例6.2.1 建立一个简洁的函数关系式来描述建立一个简洁的函数关系式来描述某个地区人的身高和体重的对应关系某个地区人的身高和体重的对应关系, 数据数据见表见表7.4(p156). 曲线特征是体重曲线特征是体重W 随身高随身高H 的增长的增长而单调增长,但可而单调增长,但可以观察到是非线性以观察到是非线性增长增长.身高身高体重数据散点图体重数据散点

7、图12练习练习试分析以下问题试分析以下问题 1. 氮施肥量氮施肥量N、磷施肥量磷施肥量 P 关于土豆产量关于土豆产量的数据散点图的数据散点图. 2. 海浪潮高度海浪潮高度x 随时间随时间t 的数据散点图的数据散点图.133)选择函数关系形式)选择函数关系形式 1. 形式尽可能简洁形式尽可能简洁, 尽可能线性化;尽可能线性化;原原则则2. 依据实际问题的精度要求依据实际问题的精度要求,合乎实际规律合乎实际规律. 续例续例6.2.1 选择幂函数选择幂函数 W= , 描述身描述身高体重关系高体重关系.acH优点优点 此函数可以线性化此函数可以线性化.两边取对数两边取对数, 有有cHaWlnlnln

8、14cbHxWyln,ln,ln 令令 变换为线性函数变换为线性函数. baxy 例例6.2.2 可选二次函数可选二次函数 注:注:其中其中 b0= y(0) = 15.18. 描述氮肥施肥量与土豆产量间的变量关系描述氮肥施肥量与土豆产量间的变量关系.2210 xbxbby 关于磷肥施肥量和土豆产量的变量关系可关于磷肥施肥量和土豆产量的变量关系可选择威布尔模型:选择威布尔模型:15合理性合理性?;,. 1Ayx 当当有有0, xBeAyKx;)0(. 2BAy 3. y 是单调升函数是单调升函数. 也可以选择也可以选择S 函数函数: 0,1 xbeayx16S函数也满足:函数也满足: ;1,.

9、1ayx 当当;1)0(. 2bay 3. y 是单调升函数;是单调升函数; 哪个模哪个模型更好?型更好?分析分析 S 模型所含参数更少模型所含参数更少, 另外若令另外若令,1xexyy .xbay 可得线性模型可得线性模型17回归模型是用回归模型是用统计分析方法建立的最常用的一类模型统计分析方法建立的最常用的一类模型 数学建模的基本方法数学建模的基本方法机理分析机理分析测试分析测试分析通过对数据的统计分析,找出与数据拟合最好的模型通过对数据的统计分析,找出与数据拟合最好的模型 不涉及回归分析的数学原理和方法不涉及回归分析的数学原理和方法 通过实例讨论如何选择不同类型的模型通过实例讨论如何选择

10、不同类型的模型 对软件得到的结果进行分析,对模型进行改进对软件得到的结果进行分析,对模型进行改进 由于客观事物内部规律的复杂及人们认识程度的限制由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。律的数学模型。 18牙膏的销售量牙膏的销售量 问问题题建立牙膏销售量与价格、广告投入之间的模型建立牙膏销售量与价格、广告投入之间的模型 预测在不同价格和广告费用下的牙膏销售量预测在不同价格和广告费用下的牙膏销售量 收集了收集了30个销售周期本公司牙膏销售量、价格、个销售周期本公司牙膏销售量、价格、广告

11、费用,及同期其它厂家同类牙膏的平均售价广告费用,及同期其它厂家同类牙膏的平均售价 9.260.556.804.253.70307.930.055.803.853.80298.510.256.754.003.7527.38-0.055.503.803.851销售量销售量(百万支百万支)价格差价格差(元)(元)广告费用广告费用(百万元百万元)其它厂家其它厂家价格价格(元元)本公司价本公司价格格(元元)销售销售周期周期19基本模型基本模型y 公司牙膏销售量公司牙膏销售量x1其它厂家与本公司其它厂家与本公司价格差价格差x2公司广告费用公司广告费用110 xy222210 xxy55.566.577.5

12、77.588.599.510 x2y-0.200.20.40.677.588.599.510 x1y22322110 xxxyx1, x2解释变量解释变量(回归变量回归变量, 自变量自变量) y被解释变量(因变量)被解释变量(因变量) 0, 1 , 2 , 3 回归系数回归系数 随机随机误差(误差(均值为零的均值为零的正态分布随机变量)正态分布随机变量)20MATLAB 统计工具箱统计工具箱 模型求解模型求解b,bint,r,rint,stats=regress(y,x,alpha) 输入输入 x= n 4数数据矩阵据矩阵, 第第1列为全列为全1向量向量1 2221xxxalpha(置信置信水

13、平水平,0.05) 22322110 xxxyb 的的估计值估计值 bintb的置信区间的置信区间 r 残差向量残差向量y-xb rintr的置信区间的置信区间 Stats检验统计量检验统计量 R2,F, p yn维数据向量维数据向量输出输出 由数据由数据 y,x1,x2估计估计 参数参数参数估计值参数估计值置信区间置信区间17.32445.7282 28.92061.30700.6829 1.9311 -3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p=0.0000 0 1 2 321结果分析结果分析y的的90.54

14、%可由模型确定可由模型确定 参数参数参数估计值参数估计值置信区间置信区间17.32445.7282 28.92061.30700.6829 1.9311 -3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p=0.0000 0 1 2 322322110 xxxyF远超过远超过F检验的临界值检验的临界值 p远小于远小于 =0.05 2的置信区间包含零点的置信区间包含零点(右端点距零点很近右端点距零点很近) x2对因变量对因变量y 的的影响不太显著影响不太显著x22项显著项显著 可将可将x2保留在模型中保留在模型中 模型从整

15、体上看成立模型从整体上看成立2222322110 xxxy销售量预测销售量预测 价格差价格差x1=其它厂家其它厂家价格价格x3-本公司本公司价格价格x4估计估计x3调整调整x4控制价格差控制价格差x1=0.2元,投入广告费元,投入广告费x2=650万元万元销售量预测区间为销售量预测区间为 7.8230,8.7636(置信度(置信度95%)上限用作库存管理的目标值上限用作库存管理的目标值 下限用来把握公司的现金流下限用来把握公司的现金流 若估计若估计x3=3.9,设定,设定x4=3.7,则可以,则可以95%的把握的把握知道销售额在知道销售额在 7.8320 3.7 29(百万元)以上(百万元)以

16、上控制控制x1通过通过x1, x2预测预测y2933.822322110 xxxy(百万支百万支)23模型改进模型改进x1和和x2对对y的的影响独立影响独立 22322110 xxxy21422322110 xxxxxy参数参数参数估计值参数估计值置信区间置信区间17.32445.7282 28.92061.30700.6829 1.9311 -3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p=0.0000 0 1 2 3参数参数参数估计值参数估计值置信区间置信区间29.113313.7013 44.525211.13

17、421.9778 20.2906 -7.6080-12.6932 -2.5228 0.67120.2538 1.0887 -1.4777-2.8518 -0.1037 R2=0.9209 F=72.7771 p=0.0000 3 0 1 2 4x1和和x2对对y的影响有的影响有交互作用交互作用24两模型销售量预测两模型销售量预测比较比较21422322110 xxxxxy22322110 xxxy2933. 8 y(百万支百万支)区间区间 7.8230,8.7636区间区间 7.8953,8.7592 3272. 8 y(百万支百万支)控制价格差控制价格差x1=0.2元,投入广告费元,投入广告费x2=6.5百万元百万元预测区间长度更短预测区间长度更短 略有增加略有增加 y 25x2=6.5x1=0.2 -0.200.20.40.67.588.59x1y -0.200.20.40.67.588.59x1y 56787.588.599.510 x2y 567888.599.51010.5x2y 22322110 xxxy21422322110 xxxxxy两模型两模型 与与x1, ,x2关系的关系的比较比较y 26交互作用影响的讨论交互作用影响的讨论2221 . 06712. 07558. 72267

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论