


版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 基于一卡通业务系统建设的大数据平台 苏浩伟 邓志 程世勇 何子登 杜星Summary:本文在分析国内外研究的基础上,针对一卡通IC卡的特点,结合现状以及未来发展的需要,介绍一卡通大数据平台的系统的结构、系统功能等,研究了一卡通大数据平台的设计与实现过程。Key:大数据;公交出行;用户画像;数据分析:TP311.13 :A :1007-9416(2019)09-0047-020 引言随着社会经济和城镇化快速发展,人们对于公共交通出行的需求日益强烈,当前主要的公共出行工具以公交、地铁为主,近几年随着共享经济的发展,如滴滴一类的共享汽车,摩拜、ofo一类的共享单车也成为人们出行的选择。现在公共交通
2、追求的不仅仅只是出行,同时对于出行方式的安全性、可靠性、便捷性、舒适性也有了更多需求。公共交通离不开公交支付,随着移动支付的流行,公交支付也逐渐从传统的实体卡转向移动支付,移动支付解决了传统卡的押金、充值、挂失、退卡的痛点,实体卡运营提升、产品优化也成为当前亟待解决的问题。为了提升实体一卡通的运营,各通卡公司根据自身业务特点建立了相应数据分析系统,期望通过管理优化,从而进一步提升服务质量。目前通卡公司的各个系统中保存着客户、卡片、账户及交易等信息,这些信息在各类系统中都相互独立,为了更加有效的、合理的利用这些数据,急需把各个系统中存在的客户、卡片、账户及交易信息进行关联分析。1 背景与现状一卡
3、通大数据平台通过收集公交路线地理信息、公交站点地理信息、支付站点地理信息以及支付交易信息,统计出的公交路线交易量、公交站点交易量及公交企业交易量,生成相应的报表,为企业运营决策、公交调度提供有力的支持。近几年,互联网发展迅速,随之而来也带来数据的爆发,当下各个行业对于数据的挖掘与分析都极为重视,合理的利用数据对于行业有着极大积极的推动作用。自公交一卡通应用以来,为了支撑一卡通的运营,通卡公司根据各类业务建立相关系统,各类系统中保存著客户、卡片、账户及交易等信息,这些信息在各业务系统中都相互独立,关联性差、可利用率低。随着近两年移动支付的兴起,移动支付方式很好的解决了实体卡押金、充值、丢卡、退卡
4、等痛点,传统的公交实体卡受到一定程度的冲击,需要寻求合理的运营方式、优化产品。当前数据来源丰富、量大,但是分散、关联性差使得这些数据无法得到合理利用,无法产生充分的价值1-3。2 平台设计平台技术架构图1所示,平台以Spark技术为框架,开发一卡通大数据平台,数据存储在大数据集群的分布式文件系统中。使用Hadoop、 Kettle、Sqoop、Kafka、Hive、Redis等技术,对使用一卡通、二维码的各种用户行为进行用户画像,利用分析的数据,为公司运营、企业经营、政府和行业管理、用户个性化服务提供服务。通过数据支撑,达到优化产品和服务,优化资源分配。Lambda架构是一种可以实时处理海量高
5、并发数据的架构,其主要思想是将传统的大数据系统架构分为批处理层(batch layer)实时处理层(speed layer)和服务层(serving layer)三个层次,然后分别对这三个层次进行操作支持高速流式处理和海量批量处理,以便缓解数据库的读写压力和隔离实时数据处理的复杂性,故采用Lambda架构作为计算框架,真正做到海量数据的实时分析挖掘和实时应用,集成了社区版本的Spark和Hadoop两种计算框架,以及HDFS、Hbase、MySQL、Redis、kafka数据存储服务。3 详细架构设计我们将整个大数据平台分为七层结构,从下往上依次为:(1)数据源层:是平台的数据来源,包括各类卡
6、片交易数据,卡片发卡数据,各类系统中用户的信息数据,商户信息等等。(2)接口层:负责将数据源的数据抽取进入存储层,接口层同步完成数据的筛选、清洗等工作。(3)存储层:存储层存储平台的各类数据。通过分布式存储模式将海量数据以高效的方式进行存储、使用。(4)计算层:完成对数据的整合,分析,统计。(5)引擎层:通过对计算层提供的数据进行处理,提供各类决策应用数据。(6)数据服务层:提供规范统一的数据使用环境,提供对外统一的数据服务。(7)应用层:提供可视化的展示,一般以网页形式实现输出。4 平台逻辑架构设计一卡通大数据平台在逻辑上分为三层,分别为数据处理层、数据服务层、数据应用层。(1)数据处理层:
7、该层主要是对通卡公司各个系统数据进行清洗、整合处理,以保证后续数据使用的数据精准性。(2)数据服务层:针对不用业务需求,获取适宜的业务标签,从已处理清洗的数据中分析、提取标签需求。(3)数据应用层:数据平台整合了多个系统的数据,可应对多业务场景,通卡公司各大应用皆可在一卡通大数据平台针对自己的业务提取数据以及进行数据接口的开发。5 平台相关系统网络拓扑大数据平台数据来源主要有清算系统、各业务系统数据库以及互联网公共数据,平台相关系统网络拓扑如图2所示。6 系统功能(1)数据抽取接口。使用Kettle定时从各个业务系统数据库中抽取相关业务数据(个人信息、卡片信息、账户信息等等),并把数据汇聚到关
8、系数据库表中。利用Sqoop从关系数据库表中把已汇聚的业务数据推送到大数据环境下的分布式文件系统(HDFS)。(2)数据清洗接口。在大数据环境下进行源数据的去重、过滤筛选并把筛选后的结果数据保存到大数据平台。(3)数据整合接口。进行清洗后的数据属于孤立的单元源数据,通过对象关系模型对各个孤立的单元数据进行整合,以使它们建立起关联关系。对于已存在的单元数据或者关联数据随着时间的推移,数据状态或者关联关系有所改变,通过对新的单元源数据进行综合判断来更新现存的数据信息。(4)集群性能监控模块。平台通过专门的监控服务Ganglia对集群的状态进行监控,Ganglia主要的目的是对集群有效的监控。平台使
9、用Ganglia对集群的状态进行监控,包括服务器CPU、内存、网络和磁盘的利用率和健康状态,以及分布式应用系统的状态,并在故障发生或者某项指标超过预设阀值时提供告警功能。(5)平台任务调度模块。平台采用Azkaban作为任务调度器,操作简单,可直接在Web界面进行所有操作,可进行定时任务调度,以及任务顺序执行配置。(6)数据展示。用户画像主题,通过对一卡通用户类别、年龄、消费习惯、优惠情况、出行轨迹、活跃商圈等特征进行数据挖掘分析,形成一整套可视化的用户大数据平台。Reference1 罗琛峰,郭淑娟.大数据在公共交通方面的应用J.山西建筑,2017(23):35-36.2 韩嫣.Lambda
10、架构在处理海量高并发数据中的应用J.现代电视技术,2016(12):70-72.3 曹东航.基于Ganglia的云平台监控的研究与实现D.电子科技大学,2016.Abstract:Based on the analysis of the domestic and foreign research, according to the characteristics of IC card, combined with the current situation and future development needs, this paper introduces the system structure and system functions of the big card d
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 种鸡本交笼饲养高效生产技术
- 辣椒秋延后多层覆盖活体保鲜栽培技术
- 国际物流标准化试题及答案
- 2024年CPMM逆袭成功路径试题及答案
- 生物钟对生物体的影响研究试题
- 跨境电商网站的设计挑战试题及答案
- 运输环节中的风险辨识试题及答案
- 细胞间相互作用的机制分析试题及答案
- 江西省抚州市临川实验学校2025届高三第一次模拟考试化学试卷含解析
- 班组长安全管理培训教材
- 2024年财政部会计法律法规答题活动题目及答案一
- 小学五年级语文上册我爱你汉字课件ppt
- 中学生安全教育优质实用课件(共54张PPT)
- 右室流出道室早的心电图定位和消融供参考
- T∕CSPSTC 72-2021 隧道衬砌脱空注浆治理技术规程
- 陈氏十八式太极拳教案
- 红色卡通风区三好学生竞选演讲图文PPT教学课件
- 导向系统设计(课堂PPT)
- 六年级下第三单元圆柱与圆锥集体备课思维导图(课堂PPT)
- 海员简历模版
- 各种纸类中英对照
评论
0/150
提交评论