


版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 基于Hadoop和Spark的可扩展性化工类大数据分析系统设计 摘 要:针对易制毒化学品数据的海量增长问题,如何对这些数据进行分析,进而为易制毒化学品交易提供参考,是当前思考的重点。对此基于易制毒化学品海量增长的数据,结合Hadoop和Spark各自的优缺点,提出一种基于Hadoop+Spark的易制毒化学品数据分析系统。为实现该系统,首先采用Hadoop+Spark的框架对系统进行搭建;将系统功能模块分为数据分析模块、ETL模块、可视化模块3个主要模块,并对上述功能模块进行详细设计与实现;提出用于易制毒化学品价格预测的保序回归模型。最后搭建集群服务器和系统运行环境,运行上述预测模型,得到价
2、格预测的误差值较小,能较准确预测易制毒化学品价格。Key:Hadoop框架;易制毒化学品;大数据分析;保序回归模型:TP311.13 :A :1001-5922(2021)06-0081-03Abstract:In view of the massive growth of precursor chemicals data, how to analyze these data and provide reference for precursor chemicals trading is the focus of current thinking. Based on the huge grow
3、th data of precursor chemicals, combined with the advantages and disadvantages of Hadoop and Spark, a data analysis system of precursor chemicals based on Hadoop + Spark is proposed. In order to realize the system, Hadoop + Spark framework is used to build the system; the system function module is d
4、ivided into three main modules: data analysis module, ETL module and visualization module, and the above functional modules are designed and implemented in detail; the ordinal regression model for price prediction of precursor chemicals is proposed. Finally, the cluster server and system operating e
5、nvironment are built, and the above prediction model is run. The error value of price prediction is small, which can accurately predict the price of precursor chemicals.Key words:Hadoop framework; precursor chemicals; big data analysis; ordinal regression model要想對易制毒化学品交易过程进行多角度、全方位的监控,就必须对相关数据进行实时分
6、析处理,包括实时采集、数据流缓存、数据处理等环节,可是,现有研究主要关注于数据采集和数据处理等工作,反而忽略了数据清洗、数据缓存、数据布局等内容,这在一定程度上影响了实时数据的分析处理效率及效果。对此,一是基于Hadoop平台进行实时数据的分析处理。在实操中,利用HDFS系统进行数据储存,利用Map Reduce工具对实时数据进行快速处理,这为数据流的高效处置提供了技术支持。但HDFS对于实时数据流的适应性差,Map Reduce在分析实时数据流的过程中可能出现数据丢失、分析延迟等问题,导致Hadoop系统对于实时数据的处理效能不佳。二是构建统一的云计算平台,它集成了Hadoop和Spark的
7、应用优势,即Hadoop能够进行数据批量操作,Spark善于进行数据收集。因此,本研究结合两种并行处理框架的优势,对海量的化工类交易数据进行处理。1 系统整体架构设计本文系统选用Spark和HBase框架,引用Flume、Kafka等技术进行数据传输,能够对易制毒化学品交易数据进行采集及分析,并利用可视化工具来展示数据分析结果。系统整体架构展示,如图1所示。2 系统功能模块设计本文开发的易制毒化学品数据分析系统包含数据分析模块,ETL模块,可视化模块,等3个功能模块,这3个功能能够对易制毒化学品交易数据进行提取、存储及分析,从而为用户提供信息支持,包括化学品价格走势、化学品交易现状等。具体如图
8、2所示。在图2的模块中,ETL模块是由数据采集子模块、数据转换子模块、数据存储子模块构成的,它整合了Spark Streaming、Kafka、Flume等多个组件,围绕用户的业务需求,利用Spark Streaming组件对交易数据进行筛选、转化等处理,最后将处理结果转存至HBase内。数据分析模块是由离线分析模块和实时分析模块构成的,前者从HBase中提取出历史交易数据,然后利用Spark ML对其进行模型训练,最终实现了价格预测的功能;后者遵循面向场景的原则,对ETL模块的处理数据进行更深层次的数据分析。3 功能模块详细设计3.1 ETL模块设计易制毒化学品数据分析系统不仅要处理传统事务
9、性数据,而且对接于多种类型的数据源,在系统运作过程中面向大量的数据流。另外,出于现实应用的考虑,用户对于ETL模块的数据分析速度提出了更高要求,“准实时服务”已然成为ETL模块的设计目标。因此,将ETL模块分为数据采集,数据转换,数据存储,等3个子模块,具体技术架构如图3所示。在抽取过程中,由数据采集模块对Oracle存储的易制毒化学品交易数据进行处理,Flume与Kafka对接,Spark Streaming直接对接于Kafka。Spark内置了针对不同数据源的reader,用于对接收到的数据流进行连接和采集,然后将它们发送至数据转換层,Spark内置了多样化的数据转换操作算子,尤其在Sca
10、la库的配合下,可以实现数据清洗、数据转换等功能。在完成数据格式转换以后,数据输出层内置的writer将转换后的数据传输至HBase。3.2 数据分析模块设计数据分析模块的主要功能是对ETL模块输出的数据信息进行分析和统计,这一过程并不会影响系统整体的运算效率,也不会对系统稳定性造成干扰。因此,本文在设计中,首先设定了实时数据统计分析的时间间隔,从而为用户提供具有时效性的当期统计结果。Spark Streaming是实时分析模块的内核,它集成了基于Scala语言的数据清洗、统计、转换等代码,能够对Kafka输出的实时数据流进行处理分析,并将分析结果经由maven传输给集群服务器,相关信息被存储
11、于HBase内,可以为用户提供查询服务。具体步骤如图4所示。3.3 回归预测模型构建3.3.1 预测流程易制毒化学品数据分析系统具备短期预测和结果展示的功能。围绕价格预测的目标,首先调用ETL模块数据进行训练,然后将训练得到的结果存储在非结构化数据库中,以此为后续的查询等奠定基础。具体预测训练流程如图5所示。3.3.2 基于保序回归的预测模型构建保序回归指的是对单调函数空间内给定数据的回归分析过程,其优势在于拟合误差最小化。保序回归算法是:4 实验验证4.1 环境搭建与参数设置为验证回归预测算法的应用成效,通过试验的方式进行验证。在本次实验中,首先采集某市在2018.03.012018.12.
12、31期间的丙酮交易数据,然后按照交易时间对原始数据集进行划分,包括312月、512月、712月、912月、1012月、1112月等6个批次,然后分批进行测试。另外,依据“80/20法则”,将前80%的数据集选做训练集,将后20%的数据集充当测试集。考虑到丙酮价格的整体走势是递减的,据此对保序回归模型进行参数设定,如表1所示。实验步骤如表2所示。本次实验是在3节点的分布式Spark集群环境下进行的,集群节点配置条件如表3所示。系统开发环境:Javal.8.0-172+Scala2.11.8+Spark2.2.0。4.2 仿真结果实验结果展示如图6所示。根据图6可知,相较于基于线性回归的价格预测模
13、型和基于逻辑回归的价格预测模型,本文提出的基于保序回归的价格预测模型的评估结果MSE值更小,尤其在数据集数量不足的情况下,保序回归算法仍然能够实现较小的均方误差,这充分证明了本文模型的应用优势。5 结语通过上述的研究,文章搭建的大数据算法能很好的运行和利用当前的易制毒化学品数据,并能较好的预测易制毒化学品的价格,从而为更好的利用这些易制毒化学品交易数据提供了参考和建议。但本研究的设计还只是初步构建,更多系统功能还有待进一步完善。Reference1刘昕林,邓巍,黄萍,等.基于Hadoop和Spark的可扩展性大数据分析系统设计J.自动化与仪器仪表,2020(03):132-136.2陈彬.基于
14、Hadoop框架的海量数据运营系统研究J.自动化技术与应用,2020,39(03):178-181.3陈家宇,胡建军.MobiWay应用中基于Hadoop的多目标多任务调度算法J.计算机应用与软件,2020,37(02):240-247.4韩德志,陈旭光,雷雨馨,等.基于Spark Streaming的实时数据分析系统及其应用J. 计算机应用,2017,37(05):1263-1269.5袁泉,常伟鹏.基于Hadoop平台的图书推荐服务Apriori优化算法J.现代电子技术,2019,42(01):180-182.6李爽,陈瑞瑞,林楠.面向大数据挖掘的Hadoop框架K均值聚类算法J.计算机工程与设计,2018,39(12):3734-3738.7晏依,徐苏.Ha
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年水喷射真空泵项目建议书
- 2025年醋酐项目建设总纲及方案
- 2025年南瓜籽仁项目建设方案
- 护理用药剂量错误
- 陕西警官职业学院《矩阵计算》2023-2024学年第一学期期末试卷
- 雅安职业技术学院《学前教育专业英语》2023-2024学年第二学期期末试卷
- 2025年综合零售服务合作协议书
- 青岛城市学院《酒店泰语》2023-2024学年第二学期期末试卷
- 青岛工程职业学院《建筑与家居木制品》2023-2024学年第二学期期末试卷
- 青岛恒星科技学院《动画设计与制作》2023-2024学年第二学期期末试卷
- 【道法】做自强不息的中国人课件+-2024-2025学年统编版道德与法治七年级下册
- 山东省济宁市2025届高三下学期3月一模试题 地理 含解析
- 标准田径场地租赁合同样本2025
- 外研版(三起)(2024)三年级下册英语Unit 3 单元测试卷(含答案)
- 河北省石家庄市2025届普通高中教学质量检测一(石家庄一模)高三英语试卷 含答案
- 重点营业线施工方案
- 2025年西安印钞有限公司招聘(16人)笔试参考题库附带答案详解
- 第11课《山地回忆》公开课一等奖创新教学设计
- 医院培训课件:《静脉中等长度导管临床应用专家共识》
- 自然辩证法智慧树知到课后章节答案2023年下浙江大学
- 铝合金化学成分表
评论
0/150
提交评论