版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
面向烟草业研发应用大数据分析平研究摘要烟草研发体系具有业务广泛、数据庞杂等特点,影响大数据分析技术在烟草研发领域的推广应用建面向烟草行业研发应用的大数据分析平台循全局数据应用的整合思维装多源异构的烟草研发数据的采集与存储过程用应用场景驱动与数据分层融合策略成数据主题化规范化管理计并开发数据分析过程可视化编排器化数据资产价值挖掘过程平台能够非数据专家用户专注于烟草研发业务利于推动大数据分析技术在烟草研发体系中的应用。关键词烟草研发体系数据自动汇聚数据血缘分析数据主题分析可视化编排器0引言大数据背景下,数据驱动烟草业务发展已成为普遍共识,大数据分析技术在烟草研发领域的应用已成为研究热点,诸多理论研究成果应运而生。同时,也产生了许多应用于烟草领域的数据云平台的研究与开发。例:邹暾等针对烟草业务特点,设计灵活可快速部署的烟草企业云平台架构;陈力等构建私有云平台草企业相关软源务系统分散独立的问题;张君等借助云平台构烟草企业创新流程益文利用云平台服务现通省级烟草基础资源的多层级、统一管理调度。上述研究是大数据分析技术在烟草领域应用的有益探索目前行业内合烟草研发业务多源异构数据进行烟草研发业务分析的成功案例较少因,烟草研发业务广泛的特点致烟草研发数据体量大型繁杂储分散的问
题通卷烟研发业务的行业专家难以利用上述庞杂的数据有效挖掘价值终影响大数据分析技术在研发体系中的应用成效。针对烟草研发体系的业务、数据、用户的特点,采用分层技术架构,构建面向用户的烟草研发体系大数据云平台装数据采集与存储范数据管理化数据分析流程烟草研发体系非数据专家用户专注于烟草研发业务本身免用户直面复杂的大数据分析技术和庞杂的烟草研发原始数据低用户大数据分析技术要求草研发人员实现利用数据驱动烟草研发业务的重要探索和尝试。1平台架构要实现让烟草研发体系非数据专家用户够便捷地使用数据驱动烟草研发业务要大数据平台向下能够汇聚理繁杂的研发体系数据上能够提供简便的数据分析应用与接口服务体采用分层架构数据专家用户的数据分析应用与接口服务底层的数据汇聚、数据存储题数据服务等功能模块以及算法库与分析服务此免用户直面繁杂的研发体系数据,同时降低用户对大数据分析的技术要求。平台分层结构设计如图1示。
1平平台的总体分层架构包含如下特征:1)基础资源层采用Hadoop开源分布式架构业现有硬件资产。2)中间服务层包括数据自动汇聚、数据存储管理、主题数据服务、数据分析服务4大模块动采集烟草研发相关数据现繁杂数据的存储管理理数据间血缘关系与提供主题化规范数据服务,提供机器学习算法库与分析服务。3)应用服务层灵活组合下层数据服务与分析服务,设计拖拽式的数据分析工具数据分析与挖掘服务全面restful口数据支撑和服务。4)平台采用分层模式,通过上层应用对底层服务的封装,避免用户直面复杂的大数据分析技术和繁杂的烟草研发数据,降低用户的大数据分析技术要求。基于上述分层架构,实现面向业务用户的数据分析需求。2平台主要数据自动汇聚服务与数据分析编排器数据采集自动化、数据管理规范化与数据分析操作简便化用户大数据分析操作的关键功能。2.1数据自汇聚平台管理员可根据数据源据类型特点择全量与增量接入的方式创建数据采集任务的调度管理服务会根据每个任务所设计好的处理过程和计划时间按规则分别进行调度,将数据接入平台。数据自动汇聚功能的技术架构如图2示。
数该平台利用Airflow为整体的流程调度引擎通过下发的方式注册到zookeeper在多个节点上监听Spark服务进行实际的ETL操作。待抽取任务结束再次推送一个统计任务给Spark务,以供后续分析和BI接使用。其中是一款由Airbnb司开源的Python写的可编程、调度和监控的工作流平台(/)是Apache基金会的顶级项目(Hadoop等都在其列。实际部署中,平台针对云南中烟技术中心的实际需求Airflow行了定制化开发进行了汉化和本地时区转化,新增了部分适配服务以便能更好地和数据中心进行整合。数据抽取的过程支持全量同步和增量更新。利用Spark的资源优势和针对不同数据源的自适配平台可以高效地进行数据的抽取工作据所开发的统一且可配置的抽取流程逻辑以简便地配置一个或批量新增多个接入流程。数据抽取规则如下:
当全量接入时台从内部自行进行当前数据和已有数据的比对而获取本次抽取数据的增量情况时量数据并入已有的数据集量抽取规则流程如图3所示。全量当增量接入时,根据原始数据的时间/序列号获取新数据,并接入到当前数据集内。增量抽取规则流程如图4示。增量数据抽取的结果以parquet的格式存储在Hive内,存储媒介采用hudihudi是由Uber公司开源并在2019年年初成为Apache基金会孵化项目的一个Spark\Hive件库(/)。利用hudi特性,该平台可以针对存储在Hive上的数据进行可靠并且高效的更新、删除操作。同时也让这些数据支持了回滚和存储点等一些关系型数据库的特性。与此同时,也源生支持SparkSQL这让整个平台中数据的使用更加便捷。
其中hudi存储采用了名为模式。它是一种注重读取效率的数据存储模式,其具体的实现机理是针对存储在HDFS上的每个Parquet件以“文件_顺序号_间戳.parquet”的形式命名。数据在存储时已排好序新数据到来时会先检索文件的位置后复制原始文件的数据并与新数据做整合成的新文件的文件名一致间戳更新为当前时间样便保留了更新前数据的快照和更新后的新文件。读取数据的时候,hudi会根据指定的时间来筛选过滤所需要的文件,从而达到获取指定时间数据快照的目的。通过上述设计和技术实现够便捷地设置采集任务制化地设置采集方式和采集计划时可通过不同时间的数据快照实现数据比对功能而能够实时查看数据采集情况。对于云南中烟研发数据多源异构、来源繁杂的特点,可以通过上述功能实时查看不同来源的数据采集情况制化地设定采集任务。除进行比对外通过统计任务对抽取数据的结果增量进行多维度的统计,包括数据的增量情况、空值每个空值行数占当前列总行数的比率)、健康度所有列非空值率的字段饱和一个表列都有值的个数所有列的个数)、数据集中度总数排名前20表的总数占总体的比率等。相应的统计数据可提供到云南中烟其他业务系统中进行展现图6所示。
5统6统2.2主题数服务主题数据服务功能可自动梳理不同源数据间血缘始数据至主题数据的映射关系,避免“业务专家”用户直面繁杂的原始数据,便于用户理解、使用和管理繁杂的烟草研发数据。主题数据服务功能技术架构如图7示。主
血缘梳理模块根据用户选定主题于数据表字段信息数据库和数据表两个层次梳理不同源数据间血缘关系,构建分层数据血缘关系拓扑图。逻辑映射模块根据数据血缘关系的烟草研发体系原始数据映射至紧扣主题、关系清晰的主题数据,将原始数据权限规则转换为主题数据权限规则。在数据权限上用了为整个大数据平台的权限管理服务平台的构建过程中,Hive数据库与平台的用户体系认证挂钩,利用Ranger数据权限的功能(可针对到库、表、字段甚至行一级)管理者可以很好地控制平台用户的数据使用权限,对应用户只能看到被分配的数据且可对敏感数据进行加密或者去除障了数据资产的安全性。通过数据主题服务够将烟草研发业务中的如原料方辅料等某一主题相关的数据从来源繁杂、多源异构的状态,转化为标准、统一的主题数据,从而便于“非数据专家用户”理解及使用。2.3数据分编排器平台提供了可视化的数据编排工具以根据自己的需求以及逻辑使用编排器提供的组件自由组合和处理数据设计可以有效地降低用户对大数据分析技术的要求,简化大数据分析过程的操作,使得“非数据专家用户”也能便捷地使用该服务。图8为通过编排器生成的一个主题数据的流程图。编排器上的每个节点为针对数据进行的一个细粒度的操作在执行时会将这些节点组合起来形成一个有向无环的流程图,并发送给Spark成为各自的算子。在编排器的任务执
行时调用相应数据与分析算法运行数据分析处理逻辑回分析处理结果在可视化编辑层展示。数据经过分析处理后的结果会以Parquet的形式回存到数据平台内部,并可以在前台构建成为数据缓存或者可视化组件的数据源供后续再编排或者实际用户的分析使用。数据分析编排器整体技术框架如图9示。数数据编排器与前置的功能紧密结合时建编排来源的输入节点与来源数据的变化直接挂钩了可以自己制定任务编排的执行计划时间以外某个数据汇聚的任务结束或者已有的主题数据重新生成的时候对任何引用了
对应数据的编排任务进行自动更新重启该任务刷新已有的输出结果据分析编排工具的底层在输出到主题数据的同时也会自动构建主题的血缘关系到自动化构建映射关系的目的。数据分析编排器可非数据专家用户捷地实现数据的分析及图形化编排,对于云南中烟的研发数据体系,用户即可对原料、配方、材辅料等某一主题的数据进行编排分析可实现对多个主题数据的交叉编排分析而为真正实现数据驱动研发业务提供了应用基础。3平台应用以云南中烟烟草研发体系数据为例足上述功能的大数据分析云平台,自动汇聚原料综管、精益研发、烟叶配方、主数据管理等信息系统,共计259余条数据理物料管理室管理等主题业务的数据血缘关系并构建相应主题数据库,完室数据分析化构优化”等多个业务场景的大数据分析应用。3.1实例概实验室数据分析用为例面向用户的云南中烟烟草研发体系大数据云平台的应用流程与应用结果进行实例验证。“实验室数据分析”应用实简称“应用实例,综合各类型实验室监测数据分析析卷烟生产质量及其监控现状解卷烟质量监控实际情况时分析实验室设备的使用情况、使用饱和度等,以保障卷烟产品质量、风格稳定,是一个典型的大数据分析应用场景。
3.2实例实3.21数据自动汇聚“实验室数据分析用实例的数据来源主要为实验室信息管理系统据自动汇聚方案设计如表1示。实3.22血缘关系分析卷烟及其原料精香料料等相关的理化实验检测结果数据通过实验分析过程获取,为此,以“实验编号”集合为主题“源”数据,自动梳理应用实例相关的数据后所得到的血缘关系如图10所示。10数3.23流程编排运行
采用数据分析编排器拽的方式如图所示的应用实例的数据分析处理逻辑图9所示的应用实例中的各项数据编排处理后过平台内可视化组件形成如图11示的可视化表达结果。具体地,通过可视化呈现了实验室的各类统计数据,如人员统计、设备统计、生产报告、承接任务统计等。另外以进一步查看实验室设备的使用饱和度及贡献度时各项检测指标进行分析,可以得到各卷烟厂产品的物理指标稳定性及化学指标稳定性情况。11可3.3结果与论本文以“实验室数据分析”为实例,自动汇LIMS统中的卷烟原料、香精香料的理化实验检测数据验相关的人数据,以“实验编号”集合为主题源数据,自动梳理应用实例相关数据血缘关系,采用数据分析编排器建并自动执行应用实例的数据分析处理逻辑到应用实例的大数据分析结果。应用实例的分析过程与分析结果表明户的烟草研发体系大数据分析云平台,采用分层架构,实现上层应用对底层服务的封装。其中,上层应用使用拖拽式数据分析处理流程编排杂的大数据分析算法技术和繁杂的烟草研
发体系数据,降低用户使用大数据分析技术驱动烟草研发业务发展的技术要求。底层服务的数据自动汇聚方案根据预设数据采集模式聚烟草研发原始数据须用户主动干预题数据服务根据用户指定主题动梳理主题数据血缘关系,构建主题数据库,为用户提供规范化的数据管理与应用服务。4结语烟草研发业务环节众多,涵盖配方、原料、烟用材料、调香、工艺、消费行为等方面业务平台系统复杂多样据异构异质何梳理研发业务中所产生的海量数据,盘活数据资产,是行业内目前面临的一个课题。本文所构建的面向烟草行业研发应用的大数据分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学年级组长个人工作计划
- 大班下学期社会教案《户外活动计划及总结》
- 计划生育家庭奖励扶助年终总结
- 化工企业2025年上半年工作总结及下半年年工作计划
- 员工年度工作总结及明年工作计划的内容
- 妇幼医院某年年度工作计划
- 学校2025年消防安全工作计划
- 《大学英语听力应用教程(第1册)》课件-Unit 2 Private Schools
- 工会劳动合同法题目
- 《ERP的成本管理》课件
- 娱乐行业虚拟现实主题公园建设方案
- 公路工程合同纠纷处理与法律适用考核试卷
- 股权合作协议范本三篇
- 2023年四川省眉山市公开招聘警务辅助人员(辅警)笔试专项训练题试卷(2)含答案
- CFA固定收益证券知到智慧树期末考试答案题库2024年秋首都经济贸易大学
- 2024-2030年中国成品油行业深度调查及投资可行性研究报告
- 光伏项目达标投产实施细则-施工
- 2023年黑龙江省齐齐哈尔市龙沙区烟草专卖局公务员考试《行政职业能力测验》历年真题及详解
- 喷涂质量协议书(2篇)
- 事故隐患内部举报奖励制度
- 入团志愿书(2016版本)(可编辑打印标准A4) (1)
评论
0/150
提交评论