版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、6.1 数据的收集与整理,建立数学模型是为了利用它有效地分析、 解决现实问题, 真实世界的背景不容忽视.,通过观察、测量等手段收集的数据来自于 现实世界, 带有关注的研究对象的大量信息.,数据作用于模型的形式:,建立数学模型的初始研究阶段,对数据的 分析有助于寻求变量间的关系;,部分模型完全建立 在数据的基础上.,如数据拟合 以及经验模型,2.利用数据来估计模型中出现的参数值, 称 为模型参数估计.,3.利用数据进行模型检验,通常用实际数据 与模型运算出的相应理论值进行比较.,数据是建立数学模型的重要依据!,各种类型的数据为我们认识事物的内在规律、研 究事物之间的关系、预测事物今后的可能 发展
2、等一 系列问题, 提供了丰富的材料和科学依据.,如何收集、整理和分析数据, 挖掘有用结果?,着手建立模型时, 关于数据需考虑以下问题:,1. 需要哪些以及何种形式的数据?,2.如何去获得数据? 怎样表达数据?,3. 如何对数据进行整理、分析?,获取方式,图书馆文件检索,网上资料检索,询问相关部门人员,试验、观察并记录,例6.1.1开水房拥挤成因分析数据采集 有人想分析出一所大学开水房拥挤的原因, 并提出解决方案.,在连续一周的中午11:4012:20进行实地观 测,得到开水房人到达情况的数据,表6.1 每10秒到达人数及相应频数,猜测可能是管道阻塞造成拥挤,记录下两组 数据,用于比较分析.,表
3、6.2 管道通畅时顾客打水时间及相应频数,表6.2 管道阻塞时顾客打水时间及相应频数,*需要什么形式的数据, 与建模目的和所选择 的模型的特点有关.,分析数据就初步可找到开水房拥挤的原因.,例6.1.2 渡口模型数据性质,船主收集到的有一组数据是:需要摆渡的车 辆中“平均40的车为轿车,55的车为卡车, 5的车为摩托车.”,其中“平均”两字至关重要,因一次摆渡 各类车所占百分比是无意义的.,需做较多次数的观察得到一大批数据,并求 相应的平均值得到上述数据.,*收集数据并非多多益善 ,要善于剔除冗余数据.,平均值更具有代表性,更如实地反映了渡口 的实际情况,用数学模型描述现实问题,模型中参数的估
4、 计、模型的求解以及模型的合理性很大程度 取决于数据的准确可信.,实验数据中总存在实验误差,在建模工作的各个环节,实验数据误差都可 能造成失之毫厘, 谬之千里的失误.,实 验 误 差,随机误差,系统误差,过失误差,由一系列偶然因素引起的 一类不易控制的测量误差.,实验观察过程中服从确定性 规律的误差.,明显歪曲实验结果的误差.,无法避免, 可增加试验次数, 取算术平均 来减小.,不能通过增加实验次数求算术平均值来消除. 可用一定方法识别、消除.,可以识别、并加以处理.,* 在实验数据中, 三类实验误差常常同时 错综复杂的存在着.,控制实验数据的质量,整理实验数据,消除实验误差,重要工作,方法:
5、,1. 用统计检验方法检验出异常数据;,2. 尽可能寻找产生异常点的技术上或物理 上的 原因, 作为处理异常值的依据.,3. 根据经验和实际背景知识做出实验数据 的检查修正, 异常数据的舍弃处理.,例6.1.3 施肥效果分析,某地区作物生长所需的营养素主要是氮(N)、钾(K)、磷(P).某作物研究所在某地区对土豆与生菜做了一定数量的实验,实验数据如下列表所示, 其中ha表示公顷,t表示吨,kg表示公斤.当一个营养素的施肥量变化时,总将另两个营养素的施肥量保持在第七个水平上,如对土豆产量关于 N的施肥量做实验时,P与 K的施肥量分别取为 196kgha与372kgha.,试分析施肥量与产量之间关
6、系,并对所得 结果从应用价值与如何改进等方面做出估 价.,N P K,经查阅农业资料可知: 1)氮(N)的施肥量在一定范围内,土豆产量 随施肥量的增加而增长,施肥量超过一定范围 后,土豆产量反而会降低.对氮施肥量一土豆 产量的实验数据进行分析,可认为其中没有明 显的异常点.,2)在一定范围的磷施肥量可以促使土豆产量 增长,过多的施磷肥对土豆产量不起作用.,记 x为磷施肥量,y(x)为土豆产量,磷施 肥量土豆产量实验数据中有,可以认为y(0)、y(24)是病态数据,并可取y(0) 与y(49)的一次线性插值,来取代.,6.2 经 验 模 型,一.基于数据分析的建模方法,* 在建立数学模型的过程中
7、,经常需要建立 变量之间的关系.,*由于对研究对象的内部机理不甚了解,不 能通过合理的假设,或根据物理定律、原理, 经过机理分析法而得到.,问题,解决思路,*选择适当的数学式对变量间的关系进行拟合.,*通过对数据充分观察和分析, 获得数据所含 信息;,*揭示变量间的内在联系;,x,o,y,* 借助于由实验或测量得到的一批离散数据.,两类变量关系,确定性关系 确定的函数关系,相关关系 存在相依关系,但未达到相互确定的程度.,两类数据,已知规律(函数)的测试数据(在特定时间点或距离上的数据),呈现随机性的数据,可看成具有某种概率分布的随机样本值.,针对两种不同类型的数据, 有不同的建立模型方法:,
8、1. 数据拟合法(适用于第一类数据),基本思想 已知函数 y= f(x) 的一组测试数据 (xi , yi), (i=1,2,n),,寻求一个函数(x),使(x)对上述测试数据 的误差较小,即(xi)yi,于是可以用(x) 来近似替代f (x).,常用的数据拟合方法:一般插值法、最小二乘法、样条函数光顺法等.,插值法的基本思想 寻找 f(x)的近似替代函数 (x), 在插值节点xi 上满足 ( xi )=yi, (i=1,2,,n),,其余点用(x)近似替代f (x ), 称(x)为f (x)的 插值函数.,最小二乘法基本思想 寻找 f (x)的近似替代 函数(x), 使,2. 随机分析方法,
9、对于随机数据进行拟合,可用统计学中的 回归分析方法或时间序列分析方法.,二经验模型的建立,以上两种建模方法都是建立在对数据进行充 分分析的基础上.,寻找或选择适当的函数拟合变量之间的关系 (函数关系或回归关系)是重要的环节.,一般步骤,1)绘制数据散布图;,2)分析数据散布图;,3)选择函数关系形式.,1) 通过分析数据散布图可以获得对变量间 关系的感性认识, 形成初步的看法, 以便于对 问题做进一步的分析.,见p156,2)分析数据散布图;,对数据散布图进行分析,可以分析出变量的 关系是:,1)线性的还是非线性的?,2)有无周期性?,3)呈现何种变化趋势?变化率如何?,,等等有用的初步结论.
10、,例6.2.1 建立一个简洁的函数关系式来描述 某个地区人的身高和体重的对应关系, 数据见 表7.4(p156).,曲线特征是体重W 随身高H 的增长而单调增 长,但可以观察到是非线性增长.,练习,试分析以下问题,1. 氮施肥量N、磷施肥量 P 关于土豆产量的 数据散布图(P153例7.1.1). 2. 海浪潮高度x 随时间t 的数据散布图.,3)选择函数关系形式,1. 形式尽可能简洁, 尽可能线性化;,原则,2. 依据实际问题的精度要求,合乎实际规律.,续例6.2.1 选择幂函数 W= , 描述身高体重关系.,优点 此函数可以线性化.,两边取对数, 有,变换为线性函数,例6.2.2 可选二次
11、函数,注:其中 b0= y(0) = 15.18.,关于磷肥施肥量和土豆产量的变量关系可 选择威布尔模型:,描述氮肥施肥量与土豆产量间的变量关系.,合理性?,3. y 是单调升函数.,也可以选择S 函数:,S函数也满足:,3. y 是单调升函数;,哪个模型更好?,分析:S 模型所含参数更少, 另外若令,可得线性模型,重要定律(维尔斯脱拉斯 ) 若函数f(x)在有限 闭区间上连续, 则存在一个多项式序列Pn(x) 在有限闭区间a , b上一致收敛于f(x).,称 f(x) 在 a ,b 上可由多项式函数逼近.,例6.2.3 估计供水塔的水流量,试用以下数据估计任意时刻(包括水泵正在 输水的时间内
12、)从水塔流出的流量f(t),并估计 一天的总用水量.,某小镇某天水塔水位,时间(秒) 水位(0.01英尺) 时间(秒) 水位(英尺) 0 3175 46636 3350 3316 3110 49953 3260 6635 3054 53936 3167 10619 2994 57254 3087 13937 2947 60574 3012 17921 2892 64554 2927 21240 2850 68535 2842 25223 2795 71854 2767 28543 2752 75021 2697 32284 2697 79254 水泵开动 35932 水泵开动 82649 水泵
13、开动 39332 水泵开动 85968 3475 39435 3550 89953 3397 43318 3445 92370 3340,思考 为什么考虑用多项式函数?有什么优点?,假设 水位高度(或水塔的水容量)是连续变化的.,可以选择n 次多项式Pn(x),来近似描述水位随时间的变化规律.,问题归结为选择足够大的n 及估计各个系数值.,6.3 模型的参数估计,数学建模的一个重要工作是建立变量间的 数学关系式, 但公式中几乎总是涉及一些参数.,如用下面三个数学式描述肥素的施肥水平对 土豆产量的影响:,要得到最终可应用于实际的经验模型, 必须确定公式中的各个参数,求模型中参数的估计值有三种常用
14、方法: 图解法、统计法、机理分析法。,对经验模型的精度要求不高, 只需对参数做出粗略估计时可采用图解法.,例6.3.1 磷施肥量与土豆产量的关系式,需估计三个参数A、B、C, 观察图7.3,数据 点都位于直线 y=43的下方,并且数据点越来越靠近这条直线,可以估计A=43 .,1图解法,例6.2.2(见P158例7.2.1)表中给出了12月1日 (星期二)和12月2日(星期三)两天内的海浪潮 高度值(相对于海堤上的零标尺记号,以米为 单位),能依据此表来预测12月5日(星期六)下 午1:00的海浪高度值吗?,分析 根据对数据散布图的分析, 采用函数,需估计振幅 a 和 频率b.,解决方法:直接
15、量出高低浪之间的高度差为6.6米,,量出海浪变化周期约为12.3小时,得经验模型,将频率的估计代入(2)式, 有,代入x(0)=c=2.4 及 x(23)=3.6,得关于海浪潮随时间变化的另一经验模型,模型应用,预测12月5日下午1:00的海浪潮高度为,x(109) = 2.4cos(5.11109) 2.7sin(5.11109),=2.4cos(55.7)2.7sin(55.7),=2.4cos(5.4302.7sin(55.7)3.6(米).,误差分析 这一时刻潮位的实际观察值为4.1米,相对误差大约是12%, 请考虑一下成因.,仔细分析图5.5, 可发觉图中,(1 ) x=0似乎不是海
16、浪高低潮位的中值;,(2) 振幅随时间的延续似乎在轻微地增大.,思考 怎样考虑这些细节来修改模型,以获得更准确的预报呢?,2. 统计法,参数估计的统计处理, 往往运用最小二乘法估计.,设有一组样本值:,对选定的一元回归函数 ,回归模型为,N(0,2),为模型的残差平方和.,应选取(x)中的未知参数, 使S达最小值,当回归函数为(x)=a +bx,回归模型,N(0,2),称为一元线性回归模型, 其残差平方和为,对S 分别求关于 a, b 的偏导数, 并令其等于零,得线性方程组如下:,整理得正规方程(组)如下:,求得解,其中,一元线性回归模型参数估计公式,部分非线性回归函数经变量代换可化为线性 函
17、数,利用线性参数估计公式进行估计,如,例6.3.1 磷施肥量和土豆产量 的回归函数选为,对数据进行相应变换, 可估计出,得到磷施肥量和土豆产量的经验公式,分析 有,例6.3.2 若用威布尔函数作为磷施肥量和土豆产量的回归函数,与目测法的结论 惊人一致.,相对于新变量x,lnz , 这是一元线性函数.,特点:统计分析法应用于变量间存在相关关系的情形, 并且需要较多数据为基础.,3. 机理分析法,通过对问题的内部机理进行分析,找出变量间 的因果关系,从而确定出参数.,两边取对数,有,例6.3.3 录像机磁带计数器模型,在一台录像机上有一个四位数字的记数器. 1.在磁带开始运行时设置为“0000”,
18、“180分 钟”结束时显示读数为“1849”,实际所花的 时间为185分20秒.,2.记数器从“0084”转到“0147”时用了3分21 秒的时间.,现在记数器上显示为“1428”,问余下的磁带 是否足够再记录60分钟长的节目?,已建立经验公式,其中 w 录象带的厚度;r 转动轴半径; v转动速度;k显示读数和旋转周 数的比例系数.,通过进一步分析简化模型,使所含的未知参 数尽可量少,用很少的几个数据求得参数的 估计值.,上式化为,可利用的数据如下,t=0,n=0是模型的初始条件,将后三组数据 代入 得关于t1,与的三元方程组,注,1.由于数据个数太少,不能用统计法估计参数;,2. 这里采用机
19、理分析法求参数的估计值,可 利用的数据个数已是允许的最少个数了.,6.4 模型误差分析,希望建立的模型尽善尽美:,能“逼真”地模拟现实系统;,能“精确”地预测系统的未来情况;,能“准确”地控制系统;,得到问题的“最优”解 ;,逼真、精确、准确、最优、,良好愿望,数学模型是对现实世界的理想化, 不可能是真实世界的再现,任何数学模型在建立和使用的过程中, 不可避免的产生模型误差.,如:附加进数据测量误差,舍入误差和截断误差等.,有必要对模型误差进行分析,并给出估计.,常用“绝对误差”和“相对误差”来衡量误差的 大小程度:,绝对误差=测量值近似值,相对误差=绝对误差/测量值,与数量级有关,例6.4.
20、1 用经验公式,作为土豆产量的近似估计公式, 其误差数值 列表如下(参见p168表7.6),问题 如何评价误差数据,?,二误差分析,各类误差,数据测量误差,截断误差,模型假设误差,1数据测量误差,* 在建立模型之前应该尽量控制实验数据的 质量, 使之测量准确可靠.,* 数据带有无法消除的测量误差时, 应分析 它对模型造成的影响, 并对模型误差进行估计.,例6.4.2 有高为100厘米的半球形容器中装满 了水。从某一时刻开始,水从底部一个横截 面积为1平方厘米的小孔流出,可以随时测出 水面高度h。由水力学知,水从孔口流出的流 量(即通过孔口横截面的水的体积V对时间t 的变化率)Q,有关系式,其中
21、0.62为流量系数, S 是小孔口横截面积, g 为重力加速度.,由测出的水面高度h,可算得水流量, 由于仪 器所限,测出的高度值有 0.1厘米的误差, 这 会引起水流量Q的多大误差?,100,h,水面高度h有误差h,分析 水面高度误差为h ,水流量误差则为,在 h=50厘米处,代入h=0.1厘米,可算得绝对 误差为,相对误差为,在h=50 厘米处的相对误差为,约为1 .,截断误差的来源:,1. 用数值方法近似求解会产生截断误差;,2. 函数近似产生截断误差;,3. 计算机运算的精度误差;,应分析截断误差对模型的影响,例6.4.3 广义生日问题,一个班有30名学生, 他们中至少有两名同一 天生
22、日的概率 p=?,他们生日均不同日的概率为,则 p =1q.,2. 截断误差,一般化后,考虑下问题:,求最小的整数 n,使 f(n)q (给定),对于给定的 x, f(n)是单调下降函数(序列),解:可采用求根方法对分法,q,当q=0.5时, 对不同的x, 可以算出n 的最小值n*,见表(P170表7.7)的前两列.,建立满足f(n)q 的最小值 n* 与x 之间的关系式.,方法一(最小二乘法)建立经验公式为,方法二 泰勒近似,将,改写为,因,利用近似式,令g(n)=q,解出,n2n+2x lnq=0,方程的正根为,当 q=0.5,建立泰勒 近似公式为,n=0.5+,练习 对两种近似求解方法, 计算各个近似值的 绝对误差和相对误差.,泰勒 近似式的误差控制函数,因,其中,注意到f(n)和g(n)都是单调下降函数, 选择n*使 g(n*) q g(n*+1) f(n*+1), 又若f(n*)q,则n*或n*1就是整数n满足
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度医疗器械采购合同技术规格与验收标准3篇
- 2024年度租赁终止协议:含有报刊亭经营权终止、违约责任及赔偿3篇
- 二零二四年度智能家居系统定制协议2篇
- 蜂蜜原料出口合同(二零二四年度)3篇
- 2024年度云安全服务-防火墙租赁协议3篇
- 二零二四年服务器软件许可及技术支持合同
- 2024年市场拓展品牌授权协议
- 2023-2024学年上海市静安区高三(上)期末地理试卷(一模)
- 2024年度专利许可使用合同专利名称与许可范围3篇
- 2024年度广告策划制作合同3篇
- 专题05 说明文阅读(必考题型梳理)50题-2023-2024学年八年级语文下学期期中专题复习(上海专用)(原卷版)
- 部编版七年级语文上册第五单元任务一体会人与动物的关系《猫》课件
- 医科大学2024年12月急危重症护理学作业考核试题答卷
- 提高脓毒性休克患者1h集束化措施落实率
- 环保设施运行维护方案
- 2024年贵州省高考生物真题试卷(含答案解析)
- 2024年新版人教精通版三年级英语上册单词带音标
- 辽宁省大连市2023-2024学年高三上学期双基测试(期末考试) 物理 含解析
- 期中测试卷-2024-2025学年统编版语文六年级上册
- 初中语文2024届中考修改病句选择题练习(共15道-附参考答案和解析)
- 中国大百科全书出版社 心理健康教育 五年级下册 15 成长中的我 教案
评论
0/150
提交评论