工业数据建模_第1页
工业数据建模_第2页
工业数据建模_第3页
工业数据建模_第4页
工业数据建模_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

导读:这是我正在撰写的新书中的一节。从某种意义上说,是我在宝钢20年实践的总结。相对系统地阐述了我对工业数据建模的认识。全文约4500字。工业界使用的模型本质上有两种类型:一种是研发设计阶段的建模,目的是生产出与模型一致的物理产品。这时,一般是先有数字世界中的模型后有物理世界中的实体。另外一种是针对特定客观对象的建模,目的是让模型与客观对象吻合。这时,往往是先有物理世界中的对象,后有数字世界的模型。本节讨论的是后一种建模。这种模型是参照实际数据建立的,人们希望模型的结果与实际数据吻合。针对特定物理对象的数据建模有两个层次的用途:一种是模型的正向应用,用于预测或计算某个变量;一种是模型的反向应用,用于优化和控制。前一种用途的模型不一定采用因果关系,而后一种用途的模型则要符合因果关系。模型应用的场景完整地理解模型的重要性,就要理解模型的局限性。我们前面曾经谈到,模型都是有误差的,这很大程度上限制了模型的应用。在维纳的理论中,通过反馈来应对模型的误差问题。传统控制论的模型,往往针对线性系统。线性系统往往适合用参数变动比较小的场景下。但智能时代的模型,往往针对的是变化范围变化较大的场景。这样的场景,往往是非线性的。所以,基于工业数据的建模,往往面对的是大范围和高精度的矛盾。下面我们会讨论:这样的矛盾是如何产生的,又是如何解决的。数据建模的基础很多人认为,工业数据建模的原因是“原理不清楚”。事实上,工业对象都是物理对象,都符合自然科学的规律。工业对象是人造对象。人们建立物理的工业对象时,往往也都是在科学原理的指导下做成的。有些人不明白:既然科学原理清楚了,为什么还要建立模型。工业人建立模型的原因有两个:首先是科学模型是抽象的、工业模型是具体的。从抽象走到具体,需要给出若干参数。而这些参数并不一定容易获得。其次,科学原理针对的都是简单对象,工业对象却往往是复杂的系统,需要大量的参数。参数多的问题是:如果参数准确度不高,理论模型的精确度就会低到难以忍受的程度,无法满足工业生产的需要下面给出一个形象的说法:某个工业对象可以用函数Y=F(X)描述,假设它的理论模型是。应用模型时必须依靠现实中能够获得的数据。现实中,X往往是无法准确、及时获得。这时,人们要设法在可以得到的数据中,寻找一些与X相关的变量,如Z。于是,现实的数据模型往往就变成Y=H(Z)。某厂发现:一种材料的合格率与生产这种材料的班组有关。事实上,合格率与某个工艺参数有关,不同班组采用的工艺参数不一样。但每个班组采用的参数不同、也没有记录。所以,人们看到的是合格率与班组有关。在这个例子里,工艺参数就是X,而班组就是Z。人们经常发现:材料的性能与生产的季节相关。本质上,材料的性能与生产材料时的温度、湿度、空气流动的综合情况有关。在这里,温度、湿度、空气流动情况是人们需要的X,而生产季节就是Z。人们预报钢水温度时,采用了一个经验做法:如果盛放钢水的钢包是第一次使用,则钢水温度降低5度。真正的原因是:钢包第一次盛放钢水时,钢包壁是比较冷的,钢水温度降低得更快。但是,人们容易得到使用次数的参数,却不容易得到钢包壁温度相关的参数。变量的选取是非常重要的。变量的选择不同,最终的模型就不一样。其中,一个重要的差别是:模型的精度和适用范围不一样。对科学理论模型来说,模型的精度高往往意味着适用范围大,而现实的模型则不一定。从这种意义上说,模型精度未必是是越高越好。工业企业追求稳定,而模型往往用来应对不稳定的工况。工况稳定的时候,参数波动的范围往往较小,简单的线性模型往往就可以奏效。复杂模型往往用于不稳定的场合。用于不稳定的场合时,对模型适用范围的要求就会比较大。有些人开发的模型精度比较高,却不能得到生产厂的认可。背后的原因是:模型在生产稳定的时候精度很高,在生产不稳定的时候精度较低。由于多数时间的生产是稳定的,模型的平均精度往往较高。但是,生产稳定的时候,工人对模型没有需求;工人对模型有需求的时候,往往是生产不稳定的时候。模型精度和适用范围的矛盾,是建模时最常见的问题之一。工业大数据时代的机会大数据时代的重要机会,就是可以用简单的方法建立好的模型。从A地到B地时,要找到一条速度最快的路径。理论上讲,建立相关模型时需要给出许多参数,如距离、行驶速度等。而行驶速度,受到各种不确定因素的影响。在大数据的背景下,这个问题就容易解决了:看看其他人怎么走的、花了多少时间。找到合适的走法,按照他们的路子走就是了。为了提高精度,还可以根据日期、时段和道路事情情况做些修正。事实上,工业大数据的方法,早已出现在前人的实践中。这类方法的基本思路就是:找一个类似的做法,在此基础上进行修订。钢水冶炼前,需要给出合适的工艺参数。计算过程涉及到很多参数,不容易算对。解决这个问题的思路:先从历史数据中找类似的成功案例。以此为基础,根据案例炉与本炉次的参数差异进行修正。热轧带钢轧制结束后,需要确定冷却水阀门的打开组数,以便冷却到特定的目标温度。在冷却过程中,冷却速度受钢种、厚度、起始温度、冷却目标温度、冷却水温度等多个因素的影响,纯粹的机理模型很难准确计算。解决问题的办法是对带钢进行分组,在每个分组内确定一组与冷却速度有关的参数。在此基础上,对具体带钢参数进行变换、得到对于的冷却制度,并根据实测结果对参数进行修订。在某些钢铁企业,响应的分组有几万个。我们注意到:上述方法其实解决了模型的应用范围大和精度要求高之间的矛盾。外表上看,模型适合于各种产品、应用范围很大。在这个范围内,模型本质上可能是非线性关系。但是,通过寻找类似的案例,就自然地回避了非线性问题。而历史的案例,本质上是实践积累的结果。具体地看,非线性模型本质上是由若干个小模型组成的,每个模型的应用范围很小。这样,就可以在每一个小的范围内设法提高模型的精度。在这个小的范围内,参数的影响往往可以用线性模型或者广义线性模型近似。在范围足够小的时候,人们就可以采用反馈调节等手段,进一步提升模型的精度。我们曾经提到:工业对象复杂、对精度要求高的时候,知识往往来自于实践。上述办法本质上就是把实践中行之有效的做法记下来,用于指导下次的实践。从本质上讲,这种办法与PDCA持续改进的思想是一致的。但这种持续改进是由计算机自动完成的。对从事算法研究的人来讲,上面的思想其实并不新颖。所谓近邻方法、CBR方法、模式识别、R2R等方法,基本上就是这个思路。但是,在过去数据基础有限的条件下,这些方法不一定能用好。比如,人们可能找不到相同或者类似的案例。在笔者看来,工业大数据的根本优势是数据的质量好。质量好的一个方面,就是数据分布范围大,覆盖了各种可能发生的情况。这就是所谓“样本等于全体”。在这样的前提下,就总能从历史上找到类似的案例。所以,大数据的本质优势是数据来源全面,而不是数量多到什么程度。如果数据存储得足够久、场景存储得足够多,新问题就会越来越少,这类方法就容易走向实用了。以设备故障诊断为例。针对单台设备研究问题时,故障样本就少,甚至每次都不一样。但是,如果把成千上万台设备的信息收集起来,情况就不一样了:每次出现问题,都容易在历史数据库中找到类似的案例。这时,人们研究的重点,往往是如何利用理论的指导,更加准确地寻找类似案例、更加准确地修正。“戒烟最容易了:我都戒过100多次了”。从事数据建模工作时,往往就会遇到这样的问题:用一批数据建立数学模型,结果非常理想。但不久以后,精度却很快降低下去、无法继续使用。所以,许多结果很好的学术论文,在现实中却是没有用的。为什么会出现这样的问题呢?有个小朋友说:穿红裙子的人是我的妈妈。在特定的时间、特定的地点,小朋友的话是正确的。但如果换了一个场景、换一个日子,这个判别标准可能就错了:妈妈可能不穿红裙子了,穿红裙子的女士也可能有很多个。数据建模的失效常常也是类似原因导致的:当场景变化时,模型很容易失效。要解决这样的问题,必须综合运用多个方面的特征。许多人脸识别算法非常成功。有的算法在人脸上找到了一百多个特征。识别时综合考虑这些特征,就不容易出错了。有些罪犯过了几十年、相貌发生了很大变化,机器仍然能识别出来。在大数据时代,数据的完整性很好。人们有可能找到若干独立的特征进行综合。这样,模型识别的准确率就大大提高了。第四范式与科学规律发现自然科学规律本质上也是用数学模型描述的。自然科学规律的特点是:模型精度高、适用范围大。我们前面曾经提到,经典科学原理往往有个特点:变量的数目非常少。这背后有个重要的原因:科学结论都是需要经过严格检验和论证的。按照科学哲学的观点,科学理论的基本特征是可证伪性。所谓的可证伪性,就是理论上存在一种验证办法,如果验证结果与理论不符,就可以证明理论是错的。如果一个理论涉及到的因素少,就容易证伪。复杂问题的影响因素多,不容易严格论证。例如,新药的开发困难,就与此有关。在大数据时代,这类问题可能得到改变。图灵奖得主吉姆·格雷(JimGray)将科学研究分为四类范式(Paradigm)即实验归纳,模型推演,仿真模拟和数据密集型科学发现。其中,最后一种就是通过大数据发现科学知识。理论上讲,许多工业过程都可以用科学公式来描述。但现实的影响因素太多。化工、冶金等行业的一种典型的现象是:在同一个生产过程中同时存在着几十种化学反应。每个化学反应都可以用简单的化学反应方程来描述。但反应之间互相影响,许多参数会动态变化、无法准确确定,整体的化学反应过程就很难准确描述。钢铁材料中的很多物理和化学变化是在固体中进行的、反应过程不充分、不彻底。故而导致产品质量与工艺过程密切相关。钢铁产品的力学性能是多种元素的含量和工艺参数综合影响的结果。力学性能与影响因素都是可以测量的物理量,而成分和工艺可以决定性能。理论上讲,存在一个科学的公式来描述性能与成分、工艺的关系。对于这样的情况,传统的办法很难建立准确的模型。除了问题本身复杂外,一个重要的原因就是许多干扰是不可见的。这就会对模型的验证带来巨大的困难。在大数据的背景下,为解决这类困难提供了可能。一个重要的原因是:当数据量足够大的时候,随机干扰是可以通过平均的方法滤除的。这相当于数据的精度可以大大提高。同时,大数据还可能为人们提供较好的样本分布,有助于复杂问题的解耦,即把复杂的、变量多的模型简化成若干变量数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论