基于工业大数据平台的TFT_LCD不良现象的分析_第1页
基于工业大数据平台的TFT_LCD不良现象的分析_第2页
基于工业大数据平台的TFT_LCD不良现象的分析_第3页
基于工业大数据平台的TFT_LCD不良现象的分析_第4页
基于工业大数据平台的TFT_LCD不良现象的分析_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中文图书分类号:TP311 密级:公开UDC: 004. 4学校代码:10005BEIJING UNIVERSITY OF TECHNOLOGY硕士专业学位论文PROFESSIONAL MASTER DISSERTATION论文题目:基于工业大数据平台的TFT-LCD不良现象的分析论文作者:柴栋专业类别/领域:软件工程指导教师:赛景波张锁 论文提交日期:2018年10月UDC: 004.4中文图书分类号:TP311学校代码:10005学 号:G2013202012密 级:公开北京工业大学硕士专业学位论文(非全日制)题 目基于工业大数据平台的TFT-LCD不良现象的分析英文题目 ANALYSIS

2、 OF TFT-LCD DEFECT BASED ON INDUSTRIAL BIGDATA PLATFORM论文作者 :柴栋专1亿类;别/奇5域 :软件工程研究方向 :软件开发申请学位 :工程硕士专业学位指导教师 ;赛景波张锁所在单位 :信息学部答辩0期 :2018年12月8日授予学位单位 : 北京工业大学独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 页献

3、均已在论文中作了明确的说明并表示了谢意。签 名:柴栋日 期:2018年12月8日关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有 权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)签 名: 柴栋导师签名:赛景波日期:2018年12月8日日期:2018年12月8日摘要随着大数据与工业融合创新,工业4.0时代的到来,工业大数据技术及机器 学习已成为提升制造业生产力、竞争力、创新能力的关键要素,是驱动产品智能 化、生产过程智能化、管理智能化、服务智能化、新

4、业态新模式智能化,支撑制 造业转型和构建开放、共享、协作的智能制造产业生态的重要基础。本课题着眼于工业大数据平台技术及数据分析技术的研究,对工业大数据平 台技术进行了详细调研,并对比了工业大数据与互联网/商业大数据的特性,提出 一套基于Hadoop体系的完整工业大数据平台建设思路,包括数据采集中心、数 据存储中心、数据计算中心、数据应用中心,并对各中心的功能架构、技术架构、 部署架构进行了规划设计及实施。基于工业大数据平台,导入TFT-LCD生产数据,使用大数据分析、机器学 习等方式对TFT-LCD生产过程中的不良现象进行分析。本次分析过程中,使用 了 XGBoost、聚类等算法,并创新性地提

5、出了一种分层向下分析的大数据分析方 法,先定位异常step,然后检索异常线体,最后分析导致线体产生异常的根本原 因,对线体的一系列设备参数进行整合分析,找出核心影响因子,最后对异常参 数进行深入分析,发掘参数区间和产品不良的关联关系,并给出参数建议区间, 提升产量、降低良率,此方法后续可以推广至其他的工业应用场景。关键词:工业大数据,TFT-LCD,不良现象,机器学习AbstractWith the integration of big data and industry, the era of intelligent manufacturing, industrial big data te

6、chnology and data analysis applications have become the key elements to enhance manufacturing productivity, competitiveness, and innovation capabilities. They are driving product intelligence and intelligent production processes. Intelligent management, intelligent service, new business model and ne

7、w model, supporting the transformation of manufacturing industry and building an important foundation fbr the open, shared and collaborative intelligent manufacturing industry ecology.Focusing on the research of industrial big data platform technology and data analysis technology, this topic conduct

8、s a detailed investigation of industrial big data platform technology, and compares the characteristics of industrial big data and Internet/commercial big data, and proposes a complete set based on Hadoop system. The construction of industrial big data platform, including data collection center, dat

9、a storage center, data computing center, data application center, and the design, implementation and implementation of the functional architecture, technical architecture and deployment architecture of each center.Based on the industrial big data platform, the relevant production data is imported, a

10、nd the intractable defects in the TFT-LCD production process are analyzed using big data analysis and machine learning. In this analysis process, XGBoost, clustering and other algorithms are used, and a big data analysis method of hierarchical downward analysis is proposed innovatively. First, the a

11、bnormal step is located, then the abnormal line body is retrieved, and finally the line body is analyzed. The root cause of the anomaly is integrated, and a series of equipment parameters of the line body are integrated and analyzed to find out the core influence factors. Finally, the abnormal param

12、eters are analyzed in depth, and the relationship between the parameter interval and the product defect is explored, and the parameter suggestion interval is given. Yield, lower yield, this method can be extended to other industrial applications.Keywords: Industrial big data, TFT-LCD, defect, machin

13、e learning目录目 录 TOC o 1-5 h z HYPERLINK l bookmark26 o Current Document 摘要I HYPERLINK l bookmark29 o Current Document AbstractII HYPERLINK l bookmark72 o Current Document 第1章绪论1 HYPERLINK l bookmark75 o Current Document 1.1课题技术背景1 HYPERLINK l bookmark78 o Current Document 工业大数据技术进展1 HYPERLINK l book

14、mark81 o Current Document TFT-LCD国内外研究进展2 HYPERLINK l bookmark85 o Current Document 研究意义4 HYPERLINK l bookmark91 o Current Document 1.3课题的工作简介5 HYPERLINK l bookmark111 o Current Document 第2章工业大数据及数据挖掘综述7 HYPERLINK l bookmark114 o Current Document 工业大数据定义7 HYPERLINK l bookmark117 o Current Document 工

15、业大数据特性7 HYPERLINK l bookmark122 o Current Document 数据来源8 HYPERLINK l bookmark125 o Current Document 工业大数据技术8 HYPERLINK l bookmark129 o Current Document 大数据核心组件8 HYPERLINK l bookmark145 o Current Document 2.2.2大数据技术10 HYPERLINK l bookmark148 o Current Document 数据挖掘12 HYPERLINK l bookmark157 o Current

16、 Document 2.3.1聚类分析算法14 HYPERLINK l bookmark172 o Current Document Boosting 方法18 HYPERLINK l bookmark183 o Current Document GBDT迭代决策树算法20 HYPERLINK l bookmark196 o Current Document 本章小结22 HYPERLINK l bookmark199 o Current Document 第3章TFT-LCD常见不良现象的分析方法23 HYPERLINK l bookmark202 o Current Document 基于

17、设备的不良现象分析23 HYPERLINK l bookmark205 o Current Document 屏幕点灯23 HYPERLINK l bookmark208 o Current Document 日镜观察24 HYPERLINK l bookmark211 o Current Document 显微镜观察25 HYPERLINK l bookmark214 o Current Document 电子显微镜观察25基于数据的不良现象分析26读取 panel ID26 HYPERLINK l bookmark221 o Current Document 设备履历信息27 HYPERL

18、INK l bookmark224 o Current Document 本章小结28 HYPERLINK l bookmark228 o Current Document 第4章工业大数据平台搭建29 HYPERLINK l bookmark231 o Current Document TFT-LCD工业数据类型29 HYPERLINK l bookmark235 o Current Document 生产过程数据29ill TOC o 1-5 h z HYPERLINK l bookmark243 o Current Document 缺陷检测数据31 HYPERLINK l bookma

19、rk246 o Current Document 参数运行数据324.2大数据平台架构设计344.2.1功能架构34 HYPERLINK l bookmark253 o Current Document 4.2.2技术架构35 HYPERLINK l bookmark256 o Current Document 4.2.3部署架构36 HYPERLINK l bookmark266 o Current Document 大数据平台安装37 HYPERLINK l bookmark269 o Current Document 4.3.1服务器配置37 HYPERLINK l bookmark27

20、9 o Current Document 4.3.2依赖软件安装39 HYPERLINK l bookmark285 o Current Document Hadoop 安装40 HYPERLINK l bookmark308 o Current Document TFT-LCD工业数据导入51 HYPERLINK l bookmark311 o Current Document Sqoop安装52 HYPERLINK l bookmark321 o Current Document 4.4.2批量导入工业数据52 HYPERLINK l bookmark327 o Current Docum

21、ent 本章小结53 HYPERLINK l bookmark331 o Current Document 第5章不良现象的分析算法设计及实现55 HYPERLINK l bookmark334 o Current Document 不良现象的分析思路及方法55 HYPERLINK l bookmark344 o Current Document 不良现象的分析算法设计57 HYPERLINK l bookmark347 o Current Document 不良现象的分析算法实现59 HYPERLINK l bookmark357 o Current Document 5.4不良现象的分析算

22、法应用62 HYPERLINK l bookmark372 o Current Document 本章小结69 HYPERLINK l bookmark375 o Current Document 结论71 HYPERLINK l bookmark381 o Current Document 参考文献73 HYPERLINK l bookmark431 o Current Document 致谢77第1章绪论1.1课题技术背景当前社会已进入大数据时代,大数据时代的到来,极大地影响着社会各行各 业的发展,数据在实际生产中的应用已成为各行各业发展的必然趋势。作为现代 社会的重要产业,大数据的应用对

23、促进工业制造业的发展起着非常重要的作用, 因此在工业制造中应用大数据是非常必要的。随着大数据与工业融合创新,工业4.0时代的到来,工业大数据技术和机器 学习已成为提高制造业生产力、竞争力和创新能力的关键因素,加快产品、生产 过程、管理、服务和新型商业模式的智能化,支持中国制造业转型,构建开放、共 享、协作的智能系统,成为制造业生态的重要基础。为此,国家出台了中国制 造2025、国务院关于深化制造业与互联网发展一体化的指导意见等一系列 与大型工业数据有关的文件。据21世纪经济报道,2017年中国工业大数据规模预计将达到212亿元,2020 年,中国工业大数据规模将突破800亿元,工业大数据已被认

24、为是智能制造或工 业4.0的核心基础能力。在IT技术快速发展的今天,工业研究人员一方面要不断思考如何构建适合 企业自身的大数据平台,如何使用Hadoop Spark等技术为大数据应用等奠定IT 软硬件基础,另一方面也要研究如何基于大数据平台进行应用开发,如何使用机 器学习等算法提高生产良率、提高设备稼动率、提高设备运转效率。因此,本文将Hadoop大数据平台技术与大数据分析技术、机器学习算法结合 起来,实现工业大数据平台的构建,并基于工业大数据平台进行TFT-LCD不良现 象分析算法模型的构建。1.1.1工业大数据技术进展全球金融危机之后,工业化国家又开始重视制造业的发展。在战略上,德国最 先

25、提出工业4. 0战略I关国提出先进制造业战略,中国提出中国制造2025战略 等一系列工业战略。这些国家战略的聚焦点就是把互联网技术和制造技术更紧密 的结合,突出工业大数据的重要性。从各个国家竞争的制高点来看,基于平台的标 准化和智能化是全球竞争的重要领域,例如德国工业4. 0,以及关国的先进制造 业,均是在建立一个平台来制定相关规则、标准,意味着相关的工业标准均会发 生颠覆性的变化。在制高点的竞争中,对我们国家既是挑战也是机会,对于我国在 工业2. 0和3. 0上的缺陷,我们需要抓住工业大数据的机会,实现弯道超越。日 前,我国发展工业大数据尚存在如下几方面问题:数据标准化不足、数据格式不统 一

26、、规范缺乏,数据交换与融合困难;集成贯通困难,平台技术架构复杂、资源 整合困难;信息化战略、业务战略不一致;信息安全、软件安全、数据安全等安全 问题突出。从当前我国工业制造业发展实际情况来看,我国已经有了一些国际知名企业, 但与世界发达国家相比,大数据在工业制造业中的应用还比较落后。就目前的实 际情况而言,虽然大数据的应用比较广泛,但是现阶段比较成熟的应用大多是一 些电子商务公司和企业。对于电子商务企业和企业来说,他们可以有效地利用大 数据来分析实际的生产经营状况,并通过大数据的应用来引导消费者,从而在消 费过程中产生一定的倾向。然而,大数据在工业制造业中的应用还相对落后,对 于目前的工业制造

27、企业来说,他们的产品生产通常是单一类别的,对于企业以外 的其他产品往往了解甚少。一些工业制造企业收购其他企业后,没有更加重视企 业的整合,事实上,很多企业基本上没有整合。大多数企业本身和并购企业在实 际运作过程中仍然有自己原有的机制,这势必导致信息孤岛的出现,这种情况也 不可避免地发生,但是,它对企业的发展有着非常不利的影响。在工业制造发展 过程中,有效应用大数据及相关技术,可以促进整个工业制造过程的变革,包括产 品开发、供应链、生产和销售等有效地缩短产品生命周期,有效地提高产品质量, 有效地提高客户满意度。就工业制造业而言,它属于传统产业,但大数据的创新和 智能化已经深深地影响了工业的发展,

28、因此我们应该尽快改变传统的生产观念。 加快工业制造业大数据的应用。TFT-LCD国内外研究进展近几十年间,显示技术的进步正在深刻地影响着人们的生活,而薄膜晶体管 液晶显示器(Thin Film Transistor Liquid Crystal Display, TFT-LCD)在显 示行业占据着至关重要的地位。1888年,奥地利植物学家F. Reinitzer发现了液晶。1968年,美国RCA公 司发明了基于动态散射模式(Dynamic Scattering, DS)的LCD显示装置,世界 上第一代液晶显示器由此诞生。1971年,瑞士 M. Schadt等发明了扭曲向列型 (Twist Ne

29、matic, TN) LCD显示技术。随后,1973年,日本推出了基于TN型 LCD的电子手表,标志着LCD显示技术进入了第二代。1985年,瑞士 Brown Boveri 公司推出扫描线数量达到135条的超扭曲向列(Super Twist Nematic, STN)LCD, LCD显示技术进入了第三代。20世纪80年代末,STN-LCD的商业化迅速发展。1993年前后,日本掌握了 TFT-LCD的大规模生产技术,克服了 TFT-LCD尺寸难以做大的瓶颈,在笔记本电 脑领域中崭露头角。与此同时,面内转换模式(In-plane Switching, IPS)、垂 直取向模式(Verticle A

30、lignment, VA)等技术也渐渐被开发出来,它们克服了 TN模式视角窄的缺点,在各自领域得到了广泛发展。早在20世纪80年代,我国开始大力发展阴极射线管显示器(Cathode Ray Tube, CRT),并取得巨大成功,极大地提升了人民的生活水平;但是在TFT-LCD 取代CRT的第二次显示革命中,我国却比其他国家起步晚了近十年,经历了 “缺 芯少屏”之痛。直到2003年以来,京东方、天马、华星光电等中国显示器件制 造企业逐渐发展起来,进入了半导体显示产业领域,渐渐拥有了 4. 5代、5代、 6代、8. 5代TFT-LCD生产线,京东方已经拥有了 10. 5代生产线。在国家和政府 的大

31、力支持发展下,我国显示产业的全球影响力和竞争力不断提高,已经成为全 球半导体显示产业领域的一支重要力量。随着TFT-LCD I艺、设备、材料等技术的不断发展,其尺寸越来越大,成本 越来越低,品质越来越高,且在轻量化、紧凑化等方面都有很大改进。TFT-LCD为现代电子产品中必不可少的组成部分,由于其低压低功耗、被动 显示、信息量大、使用寿命长等特点,广泛应用在计算机、手机、手表、掌上游 戏机、电子词典、笔记本电脑等等诸多领域,已经成为当前显示行业的主流。随 着近年来电子技术的迅速发展及其广泛应用,对高科技产品的需求迅速而多样地 增加,这促进了 TFT-LCD制造业持续性的发展。一系列的TFT-L

32、CD制造工厂应运 而生,制造商的增多也导致了 TFT-LCD制造技术的不断发展和完善,在市场竞争 的压力下,随着自动化生产技术的逐步发展,TFT-LCD制造商在产量方面已经基 本上可以满足市场所需了。制造商为了进一步提升各自的商品竞争力,逐渐把重 心转移到TFT-LCD的生产成本上,降低生产所需的成本成为了 TFT-LCD生产工厂 的核心任务之一,在相同的生产条件下,相同时间能够生产出更多的合格产品, 从而降低TFT-LCD的生产成本以至售价。目前,LCD在中小尺寸(约10寸以下)的显示市场已经确立了几乎不可动 摇的地位,在大尺寸(约10. 4寸以上)的显示市场也有举足轻重的地位。但是, 在电

33、视市场上还存在着CRT、PDP (等离子体显示器,Plasma Display Panel)等 强大竞争对手。未来,TFT- LCD技术将要朝着低成本、高解析度、高亮度、宽视角以及低 功耗等方面的技术发展。采用低温加工技术,TFT-LCD可以用塑料衬底取代玻璃 衬底,从而使TFT-LCD更薄。这种技术已经应用于手提电话显示器。采用低温多 晶硅技术制做TFT器件,可以实现大面积周边电路集成在TFT-LCD显示屏上。将 触控电路制作在TFT基板上,使工艺更简化,操作更便捷。除此之外,具有节能 效果的反射式TFT-LCD、具有画面立体效果的三维TFT-LCD等都将成为未来TFT- LCD发展趋势。基

34、于LTPS技术,TFT-LCD将进一步发展为TFT-OLED,有更高的 分辨率、更薄的厚度,还可以做成可弯曲的柔性显示器。1.2研究意义TFT-LCD产业化已经接近二十年,技术构成已经日趋成熟,目前正在朝着大 尺寸、高画质、更节能等方向发展。在这个过程中,不断有新的工艺、设备、材 料投入生产实践,各种不良现象也随之而来。另一方面,TFT-LCD的市场竞争日趋激烈,降低成本,提高利润是企业生产 发展的必然选择。所以减少不良现象产生、提高良率对企业生产有至关重要的意 义。TFT-LCD的生产过程可以划分为以下三个阶段:阵列制程(array process)、 成盒制程(cell process)、

35、模组制程(module process)。Array制程的任务在 于生产TFT和CF (color filter)两种玻璃基板。Cell制程把阵列制程生产的 TFT基板和CF基板进行结合,根据基板的配对信息,把二者整合一起,并且在 两片玻璃基板之间滴上液晶之后再贴合,再将大片的玻璃切割成为面板。后段 模组的组装制程则是将Cell制程之后的玻璃面板和其他的如电路、外框、背光 板等多种零组件进行组装。以上三个阶段是串行进行的,当其中任何一个阶段出 现问题,都会造成TFT-LCD的最终不良产品率提升,影响产量。在TFT-LCD行业的长期发展过程中,已经积累一整套的不良分析的方法论, 通常是根据最终成

36、品的不良表现,初步判断是由哪段制程造成(如array, cell, module),然后根据成品唯一编码,在制程内查找生产此成品时所经过的所有生 产设备及设备参数,工程师根据经验判断是由哪一参数造成,进而修改相关设备 参数去调整后续产品良率。此方法耗时较长,具有如下缺点:1、分析周期长:工程师分析时,需要手工在数十个不同生产系统、设备工控 系统中查找相关设备信息、设备参数等,整个分析过程至少耗时数天,待 根据分析结果调整设备参数时,已经又生产了一大批TFT-LCD屏幕,可 能造成数千万产品的不良产生。2、分析准确率低:由于数据散落在不同生产系统,工程师导出数据时可能会 发生导出数据不全、数据错

37、误等意外情况,造成分析结果不准确,若将分 析结果直接反馈至生产系统,将造成更大量的不良产品被生产。3、严重依赖现有工程师的经验:由于中国制造2025政策的实行,国内半导 体行业快速发展,TFT-LCD、OLED等工厂建设速度较快。据显示网报道, 2019年底,国内TFT-LCD X厂将达到29家,比现有工厂增加一倍。由于 新增工厂数量较多,核心人才较少,后续无可避免会发生人才争夺战,经 验丰富的人员流动率增加,造成不良产品分析能力降低。基于工业大数据技术的快速发展和TFT-LCD行业的发展,本课题将重点研究 如何基于工业大数据技术,将工程师不良分析经验固化至程序中,并通过机器学 习等算法部分替

38、代现有人员进行不良分析,缩短分析周期、提高分析准确率,快 速减少不良产品的发生,提高产品良率。1.3课题的工作简介本课题首先对Hadoop技术进行了研究和分析,详细阐述了 Hadoop及其生态 软件,如Spark MapReduce Hive等。其次,基于Hadoop建构工业大数据平台, 导入生产系统相关数据,并对数据进行分析,构建数学分析模型。在本课题中,本 人完成了以下的工作:1)调研工业大数据技术相关内容,详细了解了 Hadoop及其生态软件,并对 各软件的用途进行了研究;2)调研数据挖掘相关算法,针对聚类分析、Boosting、GBDT迭代决策树算 法进行了深入研究3)分析了 TFT-

39、LCD现有常见不良现象分析方法,如基于设备的不良现象分 析、基于数据的不良现象分析方法4)利用Hadoop及机器学习算法对TFT-LCD的不良数据进行分析,构建数学 模型;5)基于数据模型,找出产生TFT-LCD不良因子,进而对工艺进行指导,减少 不良现象产生,提高产品良率。第2章工业大数据及数据挖掘综述2.1工业大数据定义工业大数据是指在工业领域中,围绕智能制造模式,从客户需求到销售、订 单、计划、研发、设计、工艺、制造、采购、供应、库存、发货和交付、售后服 务、运维、报废或回收再制造等整个产品全生命周期各个环节所产生的各类数 据及相关技术和应用的总称。其以产品数据为核心,极大延展了传统工业

40、数据范 围,同时还包括工业大数据相关技术和应用巡。2.1.1工业大数据特性Comparison (比较性)从比较过程中获取洞察,既包括比较相似性,也包括比较差异性。比较的维度既可以是在时间维度上与自身状态的比较,也 可以是在集群维度上与其他个体的比较。这种比较分析能够蒂助我们将庞大 的个体信息进行分类,为接下来寻找相似中的普适性规律和差异中的因果关 系奠定基础用。Correlation (相关性)一一如果说物联网是可见世界的连接,那么所连 接对象之间的相关性就是不可见世界的连接质。对相关性的挖掘是形成记忆 和知识的基础,简单地将信息存储下来并不能称之为记忆,通过信息之间的关 联性对信息进行管理

41、和启发式的联想才是记忆的本质用。相关性同时也促进 了人脑在管理和调用信息时的效率,我们在回想起一个画面或是情节的时候, 往往并不是去回忆每一个细节,而是有一个如线头一样的线索,你去牵它一下 就能够引出整个场景。这样的类似记忆式的信息管理方式运用在工业智能中, 就是一种更加灵活高效的数据管理方式。, Consequence (因果性) 进行决策支持是数据分析的重要目的,制定 一个特定的决策,其所带来的结果和影响需被同等地分析和预测。这是控制 系统所不具备的特性,更是智能化的本质。工业系统中的大部分活动均具有 很强的目的性,是把目标精度最大化,把破坏度最小化的“结果管理”。结 果管理的基础是预测,

42、如制造系统中我们可以预测到设备的衰退对质量的影 响,以及对下一个工序质量的影响,就可以在后续的制造过程中对质量风险 进行补偿和管理,制造系统的坚韧性和弹性就会增加。2.1.2数据来源工业大数据的主要来源有三类:第一类是生产经营相关业务数据。主要来自传统企业信息化范围,被收集存 储在企业信息系统内部,包括传统工业设计和制造类软件、企业资源计划(ERP)、 产品生命周期管理(PLM)、供应链管理(SCM)、客户关系管理(CRM)和环 境管理系统(EMS)等。通过这些企业信息系统已累计大量的产品研发数据、生 产性数据、经营性数据、客户信息数据、物流供应数据及环境数据。此类数据是 工业领域传统的数据资

43、产,在移动互联网等新技术应用环境下正在逐步扩大范围 20O第二类是设备物联数据。主要指目标产品和工业生产设备在物联网运行模式 下,实时产生收集的覆盖操作和运行情况、工况状态、环境参数等体现设备和产 品运行状态的相关数据,此类数据是工业大数据增长最快的来源。狭义的工业大 数据指的就是此类数据,即工业设备和产品快速产生的、存在时间序列差异的大 量数据。第三类是外部数据,是指与工业企业生产活动和产品相关的企业外部互联网 来源数据,包括第二方、第三方数据,例如,上下游合作伙伴的产品数据、评价 企业环境绩效的环境法规、预测产品市场的宏观社会经济数据等。2工业大数据技术工业大数据技术是使工业大数据中所蕴含

44、的价值得以挖掘的一系列技术与 方法,包括数据采集、数据预处理、数据存储、数据分析挖掘、数据可视化和智 能控制等。工业大数据应用,则是对特定的工业大数据,使用工业大数据相关技 术与方法,获得有价值信息的过程。工业大数据技术的研究与突破,其本质目标 就是从复杂的数据集中发现新的模式与知识,挖掘得到有价值的新信息,从而促 进工业企业的产品创新、提升经营水平和生产运作效率以及拓展新型商业模式 25O现阶段所使用的工业大数据技术实现主要为Hadoop及其生态圈内的软件。2.2.1大数据核心组件随着时间的推移,Hadoop生态圈越来越大,图2-1给出了 Hadoop核心组件。WorkflowCoordin

45、ationZookeeperHigh-Level AbstractionsHiveEnterprise DataIntegrationSqoopFlumeNoSQL DatabaseHBaseProgramming ModelMapReduceDistributed, Reliable StorageHDFS图2T Hadoop核心组件Figure 2-1 Hadoop Core Component从图2-1的底部开始,Hadoop生态圈由以下内容组成:HDFS是Hadoop生态系统的基本组成部分,是Hadoop分布式文件系统 (HDFS) o HDFS是一种分布式数据存储机制,数据存储在一个

46、计算机集群上。数据 一次写入,多次读取。HDFS为诸如HBASE这样的工具提供了基础。MapReduce是Hadoop的主要执行框架,是一个分布式并行编程模型。开 发人员使用存储在HDFS中的MapReduce数据(用于快速存储)来编写Hadoopo由 于MapReduce的工作原理性质,Hadoop可以并行方式访问数据,从而实现对数据 的快速访问。HBASE是一种高可靠性、高性能、分布式和面向列的结构化数据动态模 式数据库。Zookeeper用于Hadoop的分布式协同服务。Hadoop的许多组件依赖于 ZooKeeper守护,它运行在一组计算机上以管理Hadoop操作。00ZIE是一种可扩

47、展的工作体系结构,集成到Hadoop技术栈中,协调多个 MapReduce作业的执行。它可以管理一个复杂的系统。基于外部事件来执行,外 部事件包括数据的定时和数据的出现。 Pig是MapReduce编程的复杂性的抽象。Pig平台包括运行环境和用于分 析Hadoop数据集的脚本语言(Pig Latin) o其编译器将Pig Latin翻译成 MapReduce程序进行执行。Hive用于运行存储在Hadoop 的查询语句,类似于SQL高级语言,使 得不了解MapReduce编程模型的开发人员也能编写数据查询语句,Hadoop系统 自动将这些语句被翻译为Hadoop上面的MapReduce任务。Hi

48、ve作为一个抽象层 工具,吸引了大量非Java工程师。Hadoop的生态圈还包括以下几个框架,用来与其它企业融合:Sqoop是一个连接工具,用于在数据仓库、关系数据库和Hadoop之间转 移数据o Sqoop利用数据库技术描述架构,进行数据的导入/导出;利用MapReduce 实现容错和并行化运行。Flume提供了可靠、分布式、高效的服务,用于收集、汇总非结构化大数 据,并将单台计算机的数据传输至HDFSo Flume是一个简单而灵活的架构,并提 供了对数据流的操作方式。除了在图2-1所示的核心部件外,Hadoop生态圈正在不断增长,以提供更 新功能和组件,如以下内容:Whirr是可以运行云服

49、务的Java类库,使用户能够轻松在Amazon EC2、 Rackspace等虚拟云计算平台上运行Hadoop集群。Mahout是机器学习和数据挖掘库,提供聚类、回归测试、统计建模等算 法的MapReduce实现。BigTop作为Hadoop子项目和相关组件,是一个用于互用性测试和打包 的程序和框架。Ambari与Cloudera Manager简化了 Hadoop的管理,支持通过可视化界 面对Hadoop机器进行配置、管理和监控。Spark是一个快速、通用的类似于MapReduce的大规模数据处理引擎, 相对于MapReduce, Spark具有其可伸缩、基于内存计算、低延迟、可直 接读写H

50、adoop上任何格式数据等特点。2.2.2大数据技术虽然Hadoop是开源的Apache项目,但是在大数据行业,仍然出现了大量的 新兴公司,蒂助人们更方便地使用Hadoopo这些公司将Hadoop发行版进行打包、 改进,以确保所有的软件一起工作,并提供技术支持和售后服务。尽管所有这些 公司都基于Apache Hadoop发行版,但是他们都与Hadoop的愿景有了细微的不 同应该选取哪个方向,怎样完成它。这些公司之间最大的区别是:Apache源代码的使用。除了 MapR公司之外, 都认为Hadoop应该由Apache项目的代码定义。相反,MapR认为可以基于Apache 提供的API来实现自己的

51、需求,Apache的代码只是实施参考。MapR的做法使得 MapR做出了很大的创新,特别是在HDFS和HBase方面,使得HDFS和HBase的 存储机制更加可靠、更加高性能。MapR还推出了高速网络文件系统(NFS),可以 访问HDFS,从而大大简化了一些企业级应用的集成。有两个关注度较高的Hadoop发行版,分别由亚马逊和微软发布。两者都提 供Hadoop的预安装版本,运行于相应的云服务平台(Amazon or Azure),提供 PaaS服务。它们都提供了扩展服务,允许开发人员不仅能够利用Hadoop的本地 HDFS,也可以通过HDFS映射利用微软和雅虎的数据存储机制(Amazon的S3

52、,和 Azure的Windows Azure存储机制)。亚马逊还提供了在S3上面保存和恢复HBase 内容的功能。表2-1 Hadoop发行版对比Table 2-1 Hadoop Release供应商HADOOP特性ClouderaCDH 基于 Hadoop2,包括 HDFS, YARN, MapReduce,CDH,个人版和企业Hive, HBase, Pig, Zookeeper, Oozie, Mahout, Hue 以及其他版开源工具(包括实时查询引擎Impala)o Cloudera的个人免费版 包括所有CDH工具,并最多支持50个节点的集群管理。Cloudera 企业版支持无限数量

53、的集群节点,提供了更复杂的管理器,能够 主动监控,并额外提供了数据分析工具Hortonworks 数基于 Hadoop2,包括 HDFS, YARN, HBase, MapReduce, Hive,据平台Pig, HCatalog, Zookeeper, Oozie, Mahout, Hue, Ambari,实时 版Hive (Stinger)和其他开源工具。Hortonworks提供了高可用 性支持,并提高ive ODBC驱动和针对大数据的Talend Open StudiooMapR基于 Hadoop 1,发包括 HDFS, HBase, MapReduce, Hive, Mahout,

54、Oozie, Pig, ZooKeeper, Hue 以及其他开源工具,提供 NFS直接访问、快照、“高实用性”镜像、专有的HBase实现, 与Apache完全兼容的API和一个MapR管理控制台。IBM基于HadoopL提供了两个版本。基本版包括HDFS, Hbase,InfoSphereBiginsightsMapReduce, Hive, Mahout, Oozie, ZooKeeper, Hue 以及其他一 些开源工具,并提供IBM的安装程序和数据访问工具的基本版 本。企业版集成了数据源的数据访问层和BigSheets (类似电子 表格的界面,用来操作集群中的数据)、增加了复杂的作业管

55、理工 具。GreenPlum 的Pivotal HD最新版基于 Hadoop2,包括 HDFS, MapReduce, Hive, Pig, HBase, Zookeeper, Flume 和其他开源工具。Pivotal HD 企业版 增加了先进的HAWQ数据库服务(ADS)和成熟、丰富、并行的 SQL处理工具。亚马逊弹性MapReduce (EMR)最新版基于Hadooplo亚马逊EMR是一个web服务,能够使 用户方便且经济高效地处理海量的数据,运行在亚马逊弹性计算 云EC2和简单存储服务S3之上,包括HDFS (S3支持),HBase (专有的备份恢复),MapReduce, Hive

56、Pig, and Zookeeper 等 组件。Windows Azure 的 HDlnsightHDlnsight基于Hortonworks数据平台,运行在Azure云 上,集成了微软管理控制台,提供Hive开放式数据库连接 (ODBC)驱动程序。Windows Azure Marketplace从受信任的第 三方供应商中,提供了数百个数据集。2. 3数据挖掘数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机 的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的 信息和知识的过程。数据挖掘主要基于人工智能、机器学习、模式识别、统计学、 数据摩、

57、可视化技术等,自动分析企业的数据,做出归纳性的推理,挖掘出潜在 的模式,蒂助决策者调整市场策略,减少风险,做出正确的决策。数据挖掘是一 种多学科的方法,用于发现存储在数据库、数据仓库或其他信息库中的大量数据 中的潜在有用的模式I。在众多的应用中,大量的数据被记录,为数据库中的数 据挖掘和知识发现提供了丰富的资源。决策者可能会潜在地使用隐藏在原始数据 中的信息通过数据挖掘来辅助他们的决策,从而可能识别数据中的特定模式,特 别是提取的信息和知识,有助于工程师作为故障定位和故障诊断的基础。数据挖 掘的方法是多种多样的,因为在大型数据库中存在多种类型的模式。数据挖掘在 许多领域得到了广泛的应用,可以分

58、为四个基本问题类型。这些包括分类、预测、 聚类和关联。分类派生函数、模型或规则,这些函数或模型或规则基于对象的属 性来标识对象的分类,这些属性可能对类产生影响。分类模型通常是通过分析训 练数据集中对象的属性和类之间的关系来构建的。预测是一种预测连续价值或未 来数据趋势的模型。聚类是根据确定的相似性将数据集划分成若干不同组的过程。 集群中的对象彼此相似,而与其他集群中的对象不相同。关联的一个流行应用是 市场篮子分析,它通过搜索一组经常一起购买的物品来发现顾客的购买习惯。随着的自动化生产技术的不断发展,大量的生产过程信息数据被收集,为了 提高生产产量,挖掘出数据中隐藏的关联模式,数据挖掘技术也逐渐

59、应用到工业 生产当中。数据挖掘主要使用的机器学习算法分为监督学习和非监督学习两种,具体如 下:监督学习是从给定的训练数据集学习模型参数。当输入新的数据时,可以根据 模型参数预测结果。监督学习的训练集必须包括输入和输出,即特征和目标(Y)。 训练集的目标是提前标记。监督学习(SL)通过对现有训练样本(已知数据及其相 应输出)进行训练,得到最优模型,解决了最常用的分类问题。该模型属于一组函数, 在一定的评价准则下,最优表示是最好的。然后,模型将所有输入映射到输出,以判 断输出。分类的目的是实现的。实现了对未知数据分类的能力。监督学习的目标 是让计算机去创建分类模型。监督学习是神经网络和决策树的常用

60、训练技术。神经网络和决策树很大程度 上依赖于由预先确定的分类系统给出的结果。对于神经网络,分类系统利用信息 判断网络的错误,不断调整网络参数。对于决策树,分类系统使用它来判断哪些属 性提供最多的信息。最常用的监督学习算法是回归分析和统计分类。最典型的算 法是KNN和SVM。如果输入数据未被标记,即没有确定的结果,并且样本数据类别未知,则需要根 据样本之间的相似性对样本集进行分类,以便最小化样本类中的间隙,最大化类之 间的间隙。通俗讲,就是实际应用中,在许多情况下,样本标签是不可能预测的,也就 是说,没有相应的训练样本类别,所以分类器的设计只能从原始样本集中学习而不 需要样本标签。无监督学习的目

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论