




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于数据挖掘方法的热轧带钢表面质量缺陷分析摘 要钢铁产品的一半以上是板材,其中最主要的产品是热轧带钢,宝钢热轧产品最大的质量问题之一是表面缺陷。统计结果显示:由表面质量缺陷所引起的带钢不合格产品已经占总的不合格产品 60%以上。由于表面缺陷的产生可以由很多中间生产环节的问题所导致,而且每次发生问题的环节也未必一样,所以如不能及时定位缺陷产生的环节并解决问题,缺陷会随生产过程持续产生出来。因此,快速分析和定位缺陷发生的环节和原因,对减少缺陷的产生数量至关重要。另一方面,随着信息技术的迅速发展,信息收集、传递和存储等限制已大大缓解,宝钢已经积累了大量相关数据。但是,由于缺少适当的方法和工具,现在只
2、能通过人工分析的方式进行发现问题,信息的有效使用及分析效率已经成为解决问题的难题和瓶颈。为此,本论文开展了表面质量分析的研究工作,提供分析方法与分析工具,提高现场的表面质量管理水平,及时发现缺陷的发生趋势,减少批量缺陷,快速分析和定位发生原因,真正做到早发现和早采取措施。本文首先对热轧带钢表面质量缺陷发生的特点及数据挖掘理论进行了简单介绍。在此基础上,根据热轧带钢表面质量缺陷种类繁多、形成机理复杂的特点,选择了决策树算法对其进行分析。为此,本文I分析了几种典型的决策树算法,比较了它们在解决实际问题时的优缺点。基于上述认识,开发了决策树生成系统,并对经典算法进行了改进。在该系统的开发中运用了面向
3、对象开发的技术,并在底层的数据组织方面运用了标准模板库和通用工具,为模型的扩展提供了良好的接口,也为以后的软件维护工作提供了很大的方便。与决策树的商业软件相比,本系统更容易嵌入到在线系统中,实现更大范围的功能集成。最后,运用该决策树生成系统,对热轧带钢表面的边部线状缺陷进行了初步分析,量化地给出了各环节中实际缺陷的产生和工艺因素之间的相关性,为进一步的因果分析提供了参考,并为缺陷定位技术的研发奠定了初步的基础。关键词:数据挖掘,分类,决策树,表面质量缺陷IIANALYSIS ON THE SURFACE DEFECTS OF HOTSTRIPS BASED ON DATA MINING MET
4、HODSAbstractMore than one half of the steel products are plates and main of themare hot strips. But one of the biggest quality problems in hot production inBaosteel is surface defects. Statistical results showed that the rejectcaused by surface defects had already taken up 60% of total reject.As the
5、 surface defects can be caused by many problems in differentlocations and the locations may not always be the same, the defects willcontinue to happen if we cant locate the defects and solve the problem.So its vital to analyze and locate the location and cause quickly to reducethe quantity of defect
6、s. At the same time, with the development ofinformation technology the restriction of collecting, transferring, storinginformation and etc is loosed much more and Baosteel has accumulatedmuch related data. But because of lacking proper methods and analysistools, we have to find out the problem by ma
7、nual analysis now. Theeffective use of information and efficiency of analysis have been thebottleneck to solve the problem.So this paper started the research work about surface defects. Its aimwas to provide proper methods and tools for factories, improve surfaceIIIquality management, find out the t
8、rend of surface defects in time, reducethe mass of defective products, perform quick analysis, find out the causeand accomplish the aim of discovering and taking measures early indeed.This paper introduced the characters of surface defects of hot stripsand data mining thesis briefly at first. Based
9、on this, we selected decisiontree algorithm to analyze surface defects according to their multiform andcomplicated characters. So this paper analyzed some classic decision treealgorithm, compared their use when solving problems.Based on above we developed a decision tree system and improvedsome clas
10、sic algorithms. During the software development we had usedobject-oriented technology and used standard template library andcommon tools to manipulate the data which had provided good interfacesfor extending the model and facilitation for software maintenance.Compared with decision tree of business
11、software, the system could beembedded into on-line system easily and used in much larger scope.At last we used the decision tree system to perform preparatoryanalysis on the line surface defect on the edge of hot strips and had givenout the relationship between defects and technical factors in quant
12、itywhich provided reference for further causal analysis and formed anelementary base for the research work of locating the defects.IVKey words: Data mining,Classification,Decision tree algorithm,Surfacequality defectV目录第一章第二章2.1绪论.1研究背景及意义.1数据挖掘在企业中的应用.2本文内容与组织.4热轧带钢表面质量缺陷及数据挖掘技术.5热轧带钢表面质量缺
13、陷 ...4热轧带钢表面质量缺陷的种类.5热轧带钢表面缺陷检测处理过程.6缺陷发生情况及对企业的影响.7常见缺陷及产生的原因.82.2数据挖掘技术..22.2.3知识获取与数据挖掘.11数据挖掘的一般流程.12数据挖掘常用技术.132.3第三章本章小结.15决策树分类算法研究.17决策树分类算法典型应用.17决策树分类算法研究.193.2.1 ID3 算法 .193.2.2 C4.5 算法 .213.2.3 CART 算法 .24选择划分属性的统计度量方法..23.3.3信息增益.26基尼指数(Gin
14、i Index).27用数值型属性划分节点方法.283.4第四章第五章本章小结.28决策树生成系统开发.29基于 ADO 的数据库访问 .29基于面向对象技术的决策树生成.31基于 STL 的数据组织 .42开发工具及应用平台.44系统界面.45本章小结.47热轧带钢表面质量缺陷初探分析.48建立分析数据源.48数据筛选.51数据预处理.53VI第六章数据挖掘.54结果分析.58本章小结.60总结与展望.61参考文献.63致 谢.67攻读硕士学位期间发表的学术论文.68VII图片目录图 2-1图 2-2图 3-1图 4-1
15、图 4-2图 4-3图 4-4图 4-5图 4-6图 4-7图 4-8图 4-9图 4-10图 4-11图 4-12图 4-13图 4-14图 4-15图 4-16图 4-17图 4-18图 5-1图 5-2图 5-3图 5-4检测处理系统图 .7数据挖掘的基本过程 .12树状结构的分类模型 .18访问不同的数据源 .30使用 ADO 访问数据资源 .31数据源连接文件 .31决策树模型 .33面向对象的决策树模型 .34建模数据类 .35节点信息类 .35规则类 .36预测属性类 .37节点类 .37决策树类 .38决策树生成过程 .39离散型属性分裂图 .41树形图 .43树的容器表示 .
16、44系统的主界面 .45决策树参数设置 .46决策树参数设置 .47建立分析数据源 .49变量选择 .54决策树参数设置 .55SAS 建模图 .58VIII表格目录表表表表表表3-15-15-25-35-45-5是否打网球的训练集 .18边部线状缺陷变量表 .50选取的变量 .53建模数据中目标变量统计信息.56分裂变量重要性 .56分裂信息表 .57IX第一章绪论1.1研究背景及意义随着我国国民经济的进一步快速发展,各行业对钢铁的需求量越来越大,同时对钢铁的质量要求也越来越高。与带钢的力学性能一样,产品的表面质量也是产品质量的一项重要指标,是提高热轧带钢总体质量水平的重要、也是最难以控制的
17、质量指标之一。分析国内钢铁企业板钢产品质量异议,表面类异议理赔额占板钢产品总异议理赔额的 60。而从热轧板卷产品内部质量损失发生情况来看,表面缺陷导致的产品降级、改判、返修量占其产品内部质量损失的 61。正是由于表面质量的严峻形势,国内各大钢铁企业纷纷成立专门的项目组对板钢表面质量管理进行推进,并有统一的规划,并为各主要产线的主要机组布置了先进的表面质量检测装置,并计划重新布置更多的先进装置或提高现有装置的检测水平,这为表面质量的管理提供了强有力的支撑,它解决了一个“看”的问题,是基础的基础。但是,应该看到,检测出表面质量缺陷只是表面质量管理的第一步,表面质量缺陷管理还包括表面质量缺陷判定、表
18、面质量缺陷监控、表面质量缺陷原因分析等等很多方面。总的来说,目前国内钢铁企业的表面质量管理水平还有待提高,突出的表现在管理的手段还不多,缺少适当的方法和工具,绝大部分工作还是通过天天读报表和人工管理的方式进行,有必要开展表面质量一贯制管理的研究工作,为现场提供工具和方法,提高现场的质量管理水平,及时发现缺陷的发生趋势,减少批量缺陷,并快速分析和定位发生原因,真正做到早发现和早采取措施。作为国内最先进的现代化特大型国有企业并在国际上有重要影响的宝钢尚且没有适当的方法和工具来快速分析和定位热轧带钢表面质量缺陷问题发生原因,其他国内钢铁企业的状况可想而知。所以找到适当的方法和工具来分析并解决热轧带钢
19、表面质量缺陷问题就有其深远的意义。宝钢作为国内最先进的现代化特大型国有企业,有着覆盖全厂的、非常成熟的各级计算机系统,在长期的生产经营活动中积累了大量的生产数据,这些为我们进行热轧带钢表面质量缺陷分析1提供了数据基础。但是由于热轧带钢表面缺陷产生的原因是极其复杂的,重技术如宝钢也还没有制定出判别带钢表面缺陷种类的一套标准,所以在判别某个具体缺陷时有很多人为因素的干扰,这一切都给数据的精确分析带来了很大的困难,所以分析方法常常是粗略的。而数据挖掘则正好提供了进行这种数据库分析的方法。利用数据挖掘技术,可以从数据中探索未知的或以往没有注意到的规律,可以揭示有价值的知识,可以发现表面不相干的事物间的
20、联系,可以掌握发展趋势从而预测未来等等。数据挖掘技术可以在热轧带钢表面质量缺陷分析中发挥实际的作用。1.2数据挖掘在企业中的应用数据挖掘是上世纪六十年代发展起来的一项新兴学科,也是一个新兴的边缘学科,它汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及管理信息系统等各学科的成果1。它的基本含义指的是,综合利用统计学方法、模式识别技术、人工智能方法、人工神经网络技术、运筹学方法以及相关信息技术等,对各行各业的生产数据、管理数据和经营数据等进行处理、组织、分析、综合和解释,以期从这些数据中挖掘出揭示客观规律、反映内在联系和预测发展趋势的知识,形成企业的技术秘密,提供技术决策与管理决策的依据
21、,使企业在激烈的市场竞争中,点子早想到,规律先发现,技术常创新,决策更正确,从而永远立于不败之地。数据挖掘虽然是一个很新的研究领域,但它所固有的为企业创造巨大经济效益的潜力,已使其很快有了许多成功的应用,具有当前数据挖掘代表性的应用领域主要集中在电信(客户分析),零售(销售预测),农业 (行业数据预测),网络日志(网页定制),银行(客户欺诈),电力(客户呼叫),生物(基因),天体(星体分类),制造业,化工,医药等方面。当前它能解决的问题典型在于:数据 库 营 销2( Database Marketing ) 、 客 户 群 体 划 分3(Customer Segmentation & Clas
22、sification)、背景分析4(Profile Analysis)、交叉销售5(Cross-selling)等市场分析行为,以及客户流失性分析6 (Churn Analysis)、客户信用记分7 (Credit Scoring)、欺诈发现8(Fraud Detection)等客户行为分析,2以及质量控制(Quality Control)、质量改进(Quality Invocation)等生产过程分析等,在许多领域得到了成功的应用。美国钢铁公司和神户钢铁公司利用基于数据挖掘技术的 ISPA 系统,研究分析产品性能规律和进行质量控制,取得了显著效果。通用电器公司(GE)与法国飞机发动机制造公司
23、(SNECMA),利用数据挖掘技术研制了 CASSIOPEE 质量控制系统,被三家欧洲航空公司用于诊断和预测波音 737 的故障,带来了可观的经济效益。该系统于 1996 年获欧洲一等创造性应用奖。享有盛誉的市场研究公司,如美国的 A.C.Nielson 和 Information Resources,欧洲的 GFK 和 Infratest Burk 等纷纷开始使用数据挖掘工具来应付迅速增长的销售和市场信息数据。商家的激烈竞争导致了市场快速饱和,产品的迅速更新,使得经营者对市场信息的需求格外强烈。利用数据挖掘所形成的市场预测能力和服务,使这些市场研究公司取得了巨大收益。英国广播公司(BBC)也
24、应用数据挖掘技术来预测电视收视率,以便合理安排电视节目时刻表。信用卡公司 American Express 自采用数据挖掘技术后,信用卡使用率增加了 10%15%。AT&T 公司凭借数据挖掘技术侦探国际电话欺诈行为,可以尽快发现国际电话使用中的不正常现象。在国内,数据挖掘的应用相对来说比较滞后,研究数据挖掘技术本身的多9-13,应用的少,这可能与数据基础差有关。近几年情况有好转,也有一部分企业已经意识到它的巨大作用,开始将数据挖掘技术与各自领域相结合,并且取得了很多成绩。天津联通根据其业务需要与企业的实际情况,利用数据挖掘技术根据用户给公司带来的利润对用户进行细分,并根据预测结果制订了更精细的
25、营销策略,留住了利润贡献最高的客户,并开发了更有针对性的新业务,提高了每用户平均收入(ARPU-Average Revenue Per User),增强了赢利能力。宝钢开工已有十几年的历史,随着众多计算机生产控制和管理系统的开发与运行,特别是宝钢管理信息系统的开发,已基本形成了企业数据的计算机化管理。从八十年代末开始,宝钢开始着手解决不同工序计算机系统的信息整合问题,以此为基础,宝钢在世界钢铁企业中第一个建成了涵盖全公司信息的数据仓库。该3系统汇集了从投产开始到现在所有的生产、管理、质量和经营等方面的数据,数据不但全面,而且按照主题进行组织,非常方便使用。它的建立为宝钢开展数据挖掘研究创造了扎
26、实的条件。所有这些都表明,通过数据挖掘方法发现企业内在的知识,建立企业的预测模型,已经在各行各业中发挥巨大作用,带来巨大的直接经济效益。近十年来,数据挖掘研究不仅取得了许多成果,而且大多数研究成果转化为实际应用,并有大量数据挖掘技术成功应用的例子。1.3本文内容与组织本文针对宝钢的表面质量管理缺少应有的分析技术与分析工具的问题,根据热轧带钢表面质量缺陷的种类及产生原因,运用决策树分类方法对热轧带钢表面质量缺陷进行分析。在研究了决策树分类算法后,基于 VC+及 SQL-Server 实现了一个决策树生成系统,详细介绍了该系统的主要开发过程。在此基础上按照数据挖掘方法论对现场收集的热轧带钢表面质量
27、线状缺陷数据进行数据预处理并构造决策树,并且对建模结果进行了初步的分析研究。论文具体组织如下:第一章主要介绍了课题的研究背景及意义及数据挖掘技术在企业中的应用状况。第二章主要对相关领域知识进行介绍。首先介绍了热轧带钢表面质量缺陷的基本情况,包括表面缺陷的种类及发生原因;接着介绍了数据挖掘技术的相关知识。 第三章则对决策树分类算法进行了研究,主要研究了几种比较典型的决策树分类算法,分析了它们的优缺点。第四章和第五章是本文的重点,第四章根据第三章的决策树分类算法研究开发了一个决策树生成系统,重点介绍了该系统的开发过程及所使用的技术。第五章主要利用开发的决策树生产系统按照数据挖掘方法对热轧带钢表面线
28、状缺陷进行初步的分析研究。第六章对全文进行了总结并提出对未来的展望。4第二章热轧带钢表面质量缺陷及数据挖掘技术作为本文的研究基础,本章主要对相关领域知识进行介绍。首先介绍了热轧带钢表面质量缺陷的基本情况,包括它的种类、检测过程、对企业的影响及产生原因。接着介绍了数据挖掘技术的相关知识,包括它的概念,数据挖掘的一般流程以及在数据挖掘的过程中常用的一些技术及适用场合。2.1热轧带钢表面质量缺陷热轧带钢产品质量指标主要包括尺寸与形状精度、表面质量、力学性能三个方面14。随着厚度自动控制系统、宽度自动控制系统和板形自动控制系统的实用化,尺寸与形状精度日益提高;在力学性能方面,通过炼钢的成分控制和热轧控
29、轧工艺的研究,其各项性能指标也已得到很大提高。目前,困扰热轧带钢产品质量进一步提高的问题之一是表面质量问题,特别是随着热轧带钢产品直接应用于结构件外表面,如轿车的外覆件等,对其表面质量提出了更为苛刻的要求。从宝钢热轧带钢厂的情况看,钢卷封锁量有 60 %以上是由于带钢表面质量问题造成的。2.1.1热轧带钢表面质量缺陷的种类热轧带钢表面质量缺陷共有八类,即气体夹杂、夹层、裂纹、穿裂、氧化皮压入、其它压入类缺陷、机械损伤、边部缺陷和其它缺陷15。以上各类可细分如下:气体夹杂:气泡和针孔、气孔;夹层:表面夹层、带状表面夹层、飞翅、折叠;裂纹:纵裂、横裂、龟裂、边裂、M 形缺陷;穿裂;氧化皮压入:一次
30、和二次氧化皮压入、红锈、粉状氧化皮压入;5其它压入类缺陷;机械损伤:划痕(刮伤、擦伤)、凹坑和凸起;边部缺陷:边部裂纹、边部刮伤、折边、边部剪切缺陷、边部气割缺陷、边部过烧;其它缺陷:纵向麻点、边部粗糙、热轧重叠、横折印。其中一些缺陷有时会“延续”到下游工序的产品上。即由于漏检、酸洗未能去除或经冷轧暴露在表面而形成冷轧产品表面缺陷的有:气体夹杂类:气泡;夹层类:表面夹层、带状表面夹层;氧化皮压入类:氧化皮压入;机械损伤类:划痕。不仅如此,部分热轧带钢的表面缺陷甚至会一直残留到热镀锌产品的表面。它们是:夹层类:表面夹层、带状表面夹层,形成热镀产品表面的表面夹层和纵向发裂 / 裂纹。氧化皮压入类:
31、在热镀产品表面形成氧化铁皮坑 / 疤。机械损伤类:划痕,在热镀产品表面形成原板擦伤和热擦伤缺陷。因此,热轧带钢的表面质量缺陷不仅直接恶化其自身的表面质量,而且还会给后步工序的产品带来严重的影响。其中,最值得重视的是夹层类、氧化皮压入类和机械损伤类缺陷,因为它们可能一直残留到热镀产品的表面上。防止这些缺陷出现将是控制热轧带钢表面质量的重点任务。2.1.2热轧带钢表面缺陷检测处理过程热轧带钢表面缺陷检测及处理过程16如图 2-1 所示:表面检测系统通过设置在热轧辊道上、下方的面扫描 CCD 高速摄像系统,将移动带钢表面质量数据输入图像处理系统。如遇带钢表面质量异常时,系统进入缺陷识别程序。通过采用
32、图像处理和模式识别技术,自动识别带钢上、下表面缺陷,并按照系统定义的分类,且经现场工人师傅确认后,将缺陷归类至其所属6类型,根据其严重程度,将带钢产品分别作脱合同、修理、报废处理。检测系统可在多台终端上显示和记录带钢的缺陷图像和数据。表面检测系统通过热轧基础自动化系统和过程计算机系统,获取带钢的代码、状态、钢种、速度、宽度和长度等数据,结合表面质量检测结果,最终形成每卷带钢完整的质量信息。图像处理判定缺陷缺陷带钢处理带钢辊道辅助控制单元热轧 BA PLC辅助设备图 2-1检测处理系统图上表面检测小房上表面检测单元下表面检测单元下表面检测小房Fig 2-1Flow chart of the su
33、rface inspection and disposal2.1.3缺陷发生情况及对企业的影响近几年来,国内各钢铁厂由热轧带钢表面质量缺陷引发的产品质量异议频频发生,给企业造成了巨大的损失。下面是国内各主要钢铁厂的情况。从鞍钢热轧带钢厂的情况看17,1780 机组的钢卷封锁量有 80 %以上是由于带钢表面质量问题造成的,给企业造成了巨大的经济损失。其存在的主要问题有翘皮、辊压痕、麻点、划伤等,其中表面麻点缺陷是 1780 机组投产以来始终未解决的质量问题之一。为此,鞍钢新钢铁公司 2001 年成立了课题组,对热轧带7钢表面麻点缺陷进行攻关。从武钢热轧带钢厂的情况看18,板钢产品质量异议由表面类
34、异议理赔额占板钢产品总异议理赔额的 60。而从热轧板卷产品内部质量损失发生情况来看,表面缺陷导致的产品降级、改判、返修量占其产品内部质量损失的 60。特别是在近几年几次发生批量缺陷,给公司带来了很大经济损失。正是由于表面质量的严峻形势,武钢也成立了专门的项目组对热轧带钢表面质量缺陷进行攻关。从国内最大的钢铁企业宝钢来看,表面质量缺陷也是频频发生,给宝钢带来很大的损失。分析宝钢分公司 05 年板钢产品质量异议,表面类异议理赔额占板钢产品总异议理赔额的 67。而从冷轧板卷产品内部质量损失发生情况来看,06 年 1 至 5 月,表面缺陷导致的产品降级、改判、返修量占其产品内部质量损失的 61.47。
35、特别是在 06 年几次发生批量缺陷,给分公司带来了很大经济损失。正是由于表面质量的严峻形势,公司成立专门的项目组对板钢表面质量管理进行推进,并有统一的规划。2.1.4常见缺陷及产生的原因通常热轧带钢存在的缺陷和原因19如下:裂纹钢板表面存在不同形状的破裂,其方向是任意的。中厚规格的带钢经常出现的是纵向顺裂,最严重时深度可达 3mm ,长 1m 以上,一般产生在钢板的两端侧面。比如某大钢厂生产的连铸连轧板,裂纹的现象表现为横断面开裂,严重时,其开口宽可达 3mm ,深 2mm ,长 50mm 左右,部位在钢板横断面中间。侧面顺裂的原因有:123钢锭的头部缺陷没有切干净,在横轧状况下,缺陷经变形分
36、布在板侧面,形成侧裂。钢坯轧制时,钢坯的上、下表面变形比中间部位快,导致边部形成压合状态,经剪边机剪切后,钢板侧边出现剪切未净的压力裂纹。钢板通过剪边机时,因圆盘剪的啮合尺寸不当,钢板受力不均,出现撕8裂。横断面开裂的原因有:12连铸连轧的板坯在凝固过程中,若铸速过快,并且冷却速度也较快时,使板坯中心产生裂纹,当连铸机的夹辊开口度过大时,也易出现板坯中心裂纹,轧制过程中,中心裂纹保留至成品。模式剪切机剪切时,若剪刀刀刃的间隙调整不当,钢板在剪切时,受到撕力作用,当钢板中心面强度较低时,易造成横断面撕裂。结疤分布在钢板的表面,形状不规则,是大小不一的舌状或条片状金属薄片,有的压合在钢材表面上,有
37、的粘附在表面。产生原因有:炼钢浇铸时操作不当,铸速过大,钢液飞溅粘在模壁上,造成钢锭的表面结疤。当这种缺陷在轧制前未被清理干净时,经轧制后就易在钢板表面被压合或拉长粘附,脱落后形成凹坑。折迭连续或断续地发生在钢材表面,形成局部互相折合的双层金属。钢板多出现在下表面,球扁钢在两端出现得较多。产生原因有:钢材在加热炉滑道上被磨损,若滑道积有熔融皮焊在上面,使之出现棱角,在堆钢过程中划伤钢坯下表面,轧制后钢板下表面形成折迭。球扁钢的折迭是因当轧辊辊型严重磨损或车削不当时,在轧制过程中,钢材产生局部耳子,下一道轧制时,耳子被压歪压入钢表面,从而形成折迭。分层其特征是在钢材的端部和两侧面上出现连续或断裂
38、的裂缝,破坏钢板内部的连续性,使钢板分为两层或多层,分层处肉眼不见夹杂物。分层随产生的原因不同,表现的部位也不同。产生原因有:1由缩孔产生的分层。浇铸时铸温较低,或钢锭脱模过早,或冒口端浇铸温度不够等原因所致。上述原因能使钢锭冷却后留在冒口内的缩孔增大,若钢锭在开坯时缩孔未能剪切干净,在所切断面中间将出现不规则的孔洞,甚至伴有流渣流出,冷却后断面上出现粒状的钢渣,这些缺陷经再9轧制成材,在钢板断面上就形成分层。234尾孔引起的分层。钢锭加热温度过低,加热不均匀,初轧时的前几道次压下量较小,钢锭会出现内外变形不均,形成燕尾式端部。若剪切不净,在板坯的尾端断面上形成尾孔。由于尾孔一般分布在断面中间
39、部位,此缺陷经再轧制成材时,易在钢板断面上形成分层。低熔点元素或夹杂物集中分布导致的分层。这是因冶炼操作不当或浇铸不当,造成低熔点元素和夹杂物严重偏析,使钢材的金相组织形成分层。气泡引起的分层。浇铸时产生的气泡保留在钢坯中,若轧制过程中未被焊合,在钢材断面也形成分层。铁皮压入钢板粘附着一层以铁为主的氧化铁皮,是钢坯或钢板在加热炉或热处理炉内氧化产生的。若轧制前或矫直前这些氧化铁皮清除不净,易被压入钢材表面。其铁皮形状不规则,压入深度也不同,未脱落前它们呈棕红色或灰黑色,不易被发现,经喷丸处理,则出现凹坑。产生原因有:钢材经加热后产生氧化铁皮,其厚度取决于加热条件和钢质。加热时间越长,温度越高,
40、炉中氧化气氛越浓,生成的铁皮就越厚。某大钢厂轧板厂生产的船板,经热处理后,易出现大面积的氧化铁皮压入,其原因就是为防止钢板在热处理炉中产生辊印,在钢板下面再垫一钢板一起加热,由于垫板的反复使用,垫板的氧化铁皮比较多,当这些铁皮粘附在热处理船板上通过矫直机前未能清除,就压入了船板表面,形成缺陷。划伤钢材表面存在低于轧制面的纵向或横向划沟,连续或断续地分布在钢材的全长或局部。划伤处若有薄层的氧化铁皮,称为热划伤,若划伤处是金属光泽,呈黄锈,称为冷划伤。产生原因有:轧制设备上存在尖角或突出部分,易造成钢的纵向划伤,钢板的横向划伤一般是在冷床上横移时产生的。边裂在钢板表面距边 2 至 3mm 处,呈现
41、长短不一的小裂纹。在检验中发现,边裂与钢板表面的硬脆性有关。102.2数据挖掘技术在数据库中进行知识发现是当今国际人工智能和数据库研究的一个十分活跃的新领域。本节主要对它的一些基本知识进行介绍。2.2.1知识获取与数据挖掘知识在智能系统中扮演着非常重要的角色,在实际工作中发挥着巨大的作用。但是,实际应用表明,获取知识的方法却一直是一个非常困难的事情,它是人工智能和智能控制研究的难点之一20- 22。由于获取知识的过程往往不能自动进行,故其一直被公认为是构造智能系统的“瓶颈”。传统的获取知识的方式是通过与领域专家交流,由知识工程师整理专家经验,然后变成计算机可以利用的形式化语言进入计算机,在实际
42、工作中发挥作用。这种方法发挥了人的主观能动性,但是,由于多方面原因的限制,这种方法的实际应用领域非常有限。上个世纪九十年代,以数据存储为目的的联机分析处理系统(OLTP)已经发展得相当成熟,随着关系型数据库的应用已经非常普及,大型企业或部门积累了大量原始数据。后来的数据仓库技术的出现使企业存储数据和访问数据变得更加方便。另一方面,随着互连网技术的大量使用和 ERP 系统的进一步普及,在越来越廉价的存储设备配合下,各行各业产生了大量的新的数据。数据挖掘就是近年来信息爆炸推动下的新兴产物,是从海量数据中提取有用知识的技术,从九十年代以来它已经成为国际上的热门话题23-29。目前在国际上对数据挖掘还
43、没有统一的定义,比较有代表性的观点认为24:数据挖掘就是识别出存在于数据中的有效的、新颖的、具有潜在效用的乃至最终可理解的模式的非平凡的过程。也就是从大量数据中发现潜在规律、提取有用知识的方法和技术。数据挖掘不但能够学习已有的知识,而且能够发现未知的知识。它得到的知识往往是“显式”的,既能为人所理解,为人所接受,又便于计算机的存储和应用,可以非常方便地挖掘的知识转化成指导生产的“知识”,从而发挥其巨大的应用价值。目前数据挖掘技术已经在很多行业和领域得到了应用。112.2.2数据挖掘的一般流程广义的数据挖掘是一个复杂的过程,其基本过程如下图 2-2 所示,它更侧重于流程,描述了数据挖掘的几个主要
44、阶段和需要完成的主要功能。“数据整合”是将物理上分布在不同地方、以各种形式(数据库或数据文件等)存放的数据,按照数据挖掘目标的需求,以统一规范的形式集中存放。目前看来,最理想的规范形式是数据仓库或由其派生出来的数据集市。“数据筛选”的功能则是根据数据挖掘问题的要求,缩小数据处理范围,选择适当的和典型的相关数据进行处理。在这个阶段,数据采样的策略和方法是最重要的问题之一。“预处理”是数据挖掘中比较重要的一个环节,主要是利用统计分析方法对数据进行整理和变换,如数据平滑,滤波,数据归一化,主成分分析等,以提高数据分析和挖掘的质量。“数据挖掘”阶段则是数据挖掘的关键阶段,是狭义的数据挖掘,也是形成知识
45、的关键环节,解决所有数据挖掘工作的核心问题。在这个阶段,通过统计方法建立预测模型是其中的一个主要方法。“结果解释”指的是根据设定的目标,利用领域知识或者专家经验,对数据挖掘的结果(模型等)进行评估和解释等,经过专家确认后的结果就作为知识储存下来,反之,则开始一个新的数据挖掘循环,重新进行组织、分析、评估。清理与集成数据筛选与预处理数据挖掘结果解释数据库数据仓库数据集市建模数据模 型知识图 1-2Fig 2-2数据挖掘的基本过程The process of data mining从图 2-2 我们可以看出,数据挖掘形成知识的过程与传统的决策支持系统或专家系统截然不同。传统的方法是由专家和信息技术
46、人员总结和表述知识与规则,从外部输入系统,形成知识库。由于知识的复杂性、模糊性和难以表达性,12传统的方法往往会碰到严重的困难;许多决策支持系统或专家系统的失败,主要由此引起。而数据挖掘技术主要采用机器学习的办法,从大量数据中寻找尚未被发现的知识,所以这是一个从系统内部自动获取知识的过程。可以说,这类技术的出现,给决策支持系统或专家系统的研究与应用注入了新的生命力。2.2.3数据挖掘常用技术数据挖掘获取的知识有很多种形式,如规则,模型等等。与此相对应,获取知识的数据挖掘方法也有很多种,适宜于各种方法的应用场合并不完全一样。一般情况下,知识形式的不同决定了获取知识的方法。如在银行卡信用欺诈分析中
47、,往往希望得到普通的表格式的知识,这时决策树的优点非常大,非常适合于这种知识的挖掘。在实际数据挖掘工作中,很多时候不仅仅需要得到 KOV(Key outputvariable,关键输出变量)与 KIV(Key input variable,关键输入变量)之间的定性知识(如某个输入变量的增加引起输出变量的正向增加),有时还需要知道KOV 与 KIV 之间的定量知识,也就是某个输入变量的变化将引起输出多大的变化。这时就需要建立 KOV 与 KIV 之间的定量模型。常用的数据挖掘技术大致包括:统计学方法,聚类分析和模式识别,决策树分类技术,人工神经网络和遗传基因算法,规则归纳(如关联规则、顺序规律等
48、),以及可视化技术等等,不同的方法侧重点并不一样,使用的场合和作用也不相同。(1)统计学方法统计学虽然是一门“古老的”学科,是一种传统的数据分析的基本方法,但它依然是最基本的数据挖掘技术,常用的统计方法包括:方差分析、假设检验、主成分分析、因子分析、相关分析、多元回归分析等30-33。(2)聚类分析和模式识别聚类分析主要是根据事物的特征对其进行聚类或分类,即所谓物以类聚,以期从中发现规律和典型模式。这类技术是数据挖掘的最重要的技术之一。除传统的基于多元统计分析的聚类方法外,近些年来模糊聚类和神经网络聚类方法也有了长足的发展。(3)决策树分类技术13决策树是一树状结构,它从根节点开始,对数据样本
49、(由实例集组成,实例有若干属性)进行测试,根据不同的结果将数据样本划分成不同的数据样本子集,每个数据样本子集构成一子节点。它是通过一系列规则对数据进行分类的过程。它提供一种在什么条件下会得到什么值的类似规则的方法。决策树是被研究最多的数据挖掘方法之一,目前有很多种算法。1986 年,Quinlan 在机器学习杂志上发文介绍了 ID3 算法34。增益率的使用是多年前用于ID3 的许多进展之一,尽管有实际的结果,但它牺牲了一些精度。C4.5 算法35是机器学习中一个有影响的、广泛使用的算法。在归纳学习中,它代表着基于决策树的方法的里程碑。决策树方法的实用效果好,影响较大。决策树可高度自动化地建立起
50、易于为用户所理解的模型,而且,系统具有较好地处理缺省数据及带有噪声数据等能力。决策树学习算法的一个最大的优点就是它在学习过程中不需要使用者了解很多背景知识。这样只要训练事例能够用“属性-值”的方式表达出来,就能使用该算法来进行学习。研究大数据集分类问题,常用决策树方法。决策树方法速度较快,可被转换成简捷易懂的分类规则,也可转换成对数据库查询的 SQL 语句。另外,决策树分类与其他分类方法比较,具有相同而且有时有更高的精度。决策树分类的最大优势是计算的复杂度低,而挖掘出来的知识非常易于理解。(4)人工神经网络和遗传基因算法人工神经网络是一个迅速发展的前沿研究领域,对计算机科学、人工智能、认知科学
51、以及信息技术等产生了重要而深远的影响,而它在数据挖掘中也扮演着非常重要的角色。人工神经网络可通过示例学习,形成描述复杂非线性系统的非线性函数,这实际上是得到了客观规律的定量描述,有了这个基础,预测的难题就会迎刃而解。目前在数据挖掘中,最常使用的两种神经网络是 BP 网络和 RBF网络36。不过,由于人工神经网络还是一个新兴学科,一些重要的理论问题尚未解决,比如收敛性、稳定性、局部最小值以及参数调整问题等等,这一状况,使得人工神经网络的应用具有极鲜明的“具体问题具体分析”的特点;一般来讲,学习和掌握神经网络的概念与算法并不困难,但是对于一个具体的应用,却往往14有一些难题需要针对它的特点,认真研
52、究和耐心解决。譬如对于 MLP 网络,最大的问题通常是训练速度慢,有可能陷入局部最小,以及网络参数(如中间层神经元的个数)和训练参数(如学习率、误差阈值等)难以确定等等。尤其对于输入变量多(比如 50100 个),系统复杂且非线性程度大等情况,上述问题就愈发突出。遗传算法是一种借鉴生物界自然选择和自然遗传机制的随机搜索算法和优化算法37,主要用于处理最优化问题和机器学习,一般与其他方法结合使用。如:近年来,有人采用人工神经网络与遗传基因算法相结合的办法,优化网络连接强度和网络参数,取得了一些较好的成果。(5)规则归纳规则归纳相对来讲是数据挖掘特有的技术。它指的是在大型数据库或数据仓库中搜索和挖
53、掘以往不知道的规则和规律,这大致包括以下几种形式:关联规则、顺序规则、IF-THEN 规则等。其中以关联规则是数据挖掘研究的主要内容。关联规则:例如,“买了牛奶的顾客,55%也购买其它乳制品,且 42%同时也购买面包。”顺序规则:例如,“出现过故障 A 的某类设备,65%在一个月内也出现故障B。”(6)可视化技术可视化技术是数据挖掘不可忽视的辅助技术。数据挖掘通常会涉及较复杂的数学方法和信息技术,为了方便用户理解和使用这类技术,必须借助图形、图象、动画等手段形象地指导操作、引导挖掘和表达结果等,否则很难推广普及数据挖掘技术。2.3本章小结本章主要对热轧带钢表面质量缺陷的基本情况及数据挖掘技术进
54、行了介绍。虽然国内的钢铁企业在热轧带钢表面质量缺陷的研究中取得了一些经验,但是分析方法往往局限于物理化学的方法,耗时费力。与此同时,随着计算机技术的发展,各钢铁企业在生产过程中都积累了大量表面缺陷数据,怎样利用这些数据进15行快速分析和定位发生原因对企业来说就具有极为重要的意义。在常用的数据挖掘方法的介绍中我们看到决策树分类方法可高度自动化地建立起易于为用户所理解的模型,不需要使用者了解很多背景知识。这样只要训练事例能够用“属性-值”的方式表达出来,就能使用该算法来进行学习。而且决策树方法速度较快,可被转换成简捷易懂的分类规则。所以决策树分类方法特别适合用来对热轧带钢表面质量缺陷的发生规律进行
55、分析。16第三章决策树分类算法研究决策树分类算法是一种归纳分类算法。在过去十几年里,决策树分类算法在机器学习和数据挖掘领域一直受到广泛的重视。决策树分类算法可设计成具有很好地与超大型数据库结合,并能处理相关的多种数据类型(连续、离散、布尔)的能力。决策树分类算法的另一个优点是其结果容易被人理解,其分类模式容易转化成分类规则。目前有多种形式的决策树分类算法,其中最值得注意的是 ID3、C4.5 和 CART38,许多其它的算法都是由它们演变而来。本章主要对决策树分类算法进行研究。3.1 决策树分类算法典型应用决策树分类算法以树状结构表示数据分类的结果。树的非叶结点表示对数据属性的测试。每个分枝代
56、表一个测试输出,而每个叶结点代表一个分类。由根结点到各个叶结点的路径描述可得到各种分类规则。下面说明决策树的一个典型应用。下面是一个根据天气情况确定是否打网球的训练集,见表 3-1。其中每行数据就是一个事例。某天的天气情况、温度、湿度、风速等特征是事例的各种属性。将是否打网球作为分析预测的目标,则该属性就是预测属性,或称为挖掘属性,所对应的列称为预测列。本例中预测属性有两个属性值 YES,NO。处理这个训练集创建分类模型。分类模式用树状结构表示如图 3-1 所示。这个决策树有 5个叶结点,代表 5 个分类。由根结点到各个叶结点的路径描述可得到 5 条分类规则:17DayOutlookTempe
57、ratureHumidityWindPlay TennisD1SunnyHotHighWeakNoD2SunnyHotHighStrongNo表 3-1是否打网球的训练集HumidityTable 3-1Sunnya train dataset of whether to play tennisOutlookRainOvercastWindYesHighNoNormalYes图 3-1StrongNo树状结构的分类模型WeakYesFig 3-1classification model of tree structure规则 1 如果 Outlook 是 Sunny and Humidity
58、是 High 则 不出去打球规则 2 如果 Outlook 是 Sunny and Humidity 是 Normal 则 出去打球18D3OvercastHotHighWeakYesD4RainMildHighWeakYesD5RainCoolNormalWeakYesD6RainCoolNormalStrongNoD7OvercastCoolNormalStrongYesD8SunnyMildHighWeakNoD9SunnyCoolNormalWeakYesD10RainMildNormalWeakYesD11SunnyMildNormalStrongYesD12OvercastMild
59、HighStrongYesD13OvercastHotNormalWeakYesD14RainMildHighStrongNo规则 3 如果 Outlook 是 Overcast 则 出去打球规则 4 如果 Outlook 是 Rain and Wind 是 Strong 则 不出去打球规则 5 如果 Outlook 是 Rain and Wind 是 Weak 则 出去打球决策树分类算法研究ID3 算法早期著名的决策树算法是 1986 年由 Quinlan 提出的 ID3 算法。ID3 算法的具体描述由下面的伪代码给出。其中,假设用 T 代表当前样本集,当前的候选属性集用 T
60、_attributelist 表示,候选属性集中的所有属性皆为离散型,连续值属性必须事先经过预处理转化为离散型。(1)创建根节点 N;(2)IF T 都属于同一类 C,则返回 N 为叶节点,标记为类 C;(3)IF T_attributelist 为空 则返回 N 为叶节点,标记 N 为 T 中出现最多的类;(4)FOR EACH T_attributelist 中的属性计算信息增益 gain;(5)N 的测试属性 test_attribute=T_attributelist 中具有最高 gain 值的属性;(6)FOR EACH test_attribute 的取值由节点 N 长出一个新叶子节点;IF 新叶
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论