版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第集团大数据平台项目案例分析目 录 TOC o 1-3 f 1综述 PAGEREF _Toc508651671 h 21.1项目背景 PAGEREF _Toc508651672 h 21.2建设目标 PAGEREF _Toc508651673 h 21.3相关案例介绍 PAGEREF _Toc508651674 h 31.3.1四川移动经分系统云化 PAGEREF _Toc508651675 h 31.3.2重庆移动大数据平台 PAGEREF _Toc508651676 h 71.3.3江苏电信2014年大数据基础平台项目 PAGEREF _Toc508651677 h 81.3.4江苏电信2
2、014年大数据经营支撑平台项目 PAGEREF _Toc508651678 h 121.3.5浙江联通大数据能力平台 PAGEREF _Toc508651679 h 191.3.6湖北移动大数据平台 PAGEREF _Toc508651680 h 231.3.7山东移动2015年大数据平台项目 PAGEREF _Toc508651681 h 261.3.8上海移动2015年大数据平台管控项目 PAGEREF _Toc508651682 h 281.3.9中信银行股份有限公司电子银行实时风险监控系统 PAGEREF _Toc508651683 h 301.3.10中信银行集团数据共享应用项目 P
3、AGEREF _Toc508651684 h 321.3.11成都农商行大数据操作平台项目 PAGEREF _Toc508651685 h 331.3.12恒丰银行数据标准实施案例 PAGEREF _Toc508651686 h 361.3.13CNTV(中国网络电视台)用户画像案例 PAGEREF _Toc508651687 h 371.3.14泰康人寿家族关系图谱案例 PAGEREF _Toc508651688 h 39综述项目背景互联网、云计算、物联网、及时通讯工具和社交网络的兴起和普及,特别是大数据技术的应用,正深刻改变着当前市场格局。2012年1月,达沃斯世界经济论坛发布的大数据,大
4、影响:国际发展的新可能的报告宜称,大数据已成为与货币和黄金一样的一种新的经济资产类别。2012年3月29日,美国总统办事室(EOP)公布了大数据研究和发展规划,把大数据研发应用从商业行为提升到国家战略层面。在这种新形式下,大数据项目将会作为整个集团的跨公司、跨部门、跨内外的数据综合服务平台,承载着互联网+业务的核心枢纽。该平台的主要建设目标是为集团及其全部相关机构提供全栈大数据服务,包括技术平台、数据应用及产品、数据服务。该平台的建设目标并不仅仅局限于使用大数据技术构建数据分析系统,而是基于云计算、云服务的理念,打造集团“数据即服务”的平台理念。通过整合集团、子公司、互联网+平台、第三方等数据
5、,通过授权机制为集团本部、各子公司、合作伙伴、投资方等提供经营、决策等所需的相关大数据能力和数据服务。建设目标本期项目建设目标:为集团及其全部相关机构提供全栈式大数据服务,包括技术平台、数据应用及产品、数据服务;基于云计算、云服务的理念,打造集团“能力、数据即服务”的平台理念;为集团本部、各子公司、合作伙伴、投资方等提供经营、决策等所需的相关大数据基础能力和数据服务。相关案例介绍四川移动经分系统云化场景描述通过大量的X86服务器,构建计算能力、存储能力比较大的云平台,将BASS平台的营帐、详单接口全面云化,并对ODS层进行汇总,形成DWD层,屏蔽将来ODS层变化带来的影响,传统仓库仅仅存储部分
6、常用数据,并提供部分应用访问层。建设内容:1、数据模型部分重构分析新旧接口,建立DWD轻度汇总层;汇总层模型重构;设计用户统一视图、标签库。2、云平台建设详单数据存储在云平台中;详单数据按应用进行处理和存储;涉及到访问详单明细的应用向云平台迁移的改造;详单数据处理后的以用户中心使用行为指标汇总层数据输送至传统仓库;3、统一调度平台建设支撑云平台相关作业及云ETL调度;数据量:每天总共500G左右,共17种Boss详单每天2-3亿条语音详单,文件总大小约100G;每天6-7亿条短信详单,文件总大小约300G其它总共100G左右技术方案图 四川经分云化系统技术架构图1、Hadoop平台承担所有数据
7、源的ETL;2、ETL后的详单不需要入库,直接存放在Hadoop平台上;3、存放在Hadoop平台的详单类直接进行汇总;4、各类BASS,VGOP,ESOP的模型计算迁移到Hadoop平台实现。实施效果已上线应用:云化业务启动时间上线试用时间正式运行时间区县动态划分2012年4月2012年6月2012年8月电子渠道朋友圈业务推荐分析2012年7月2012年7月2012年9月双机双卡用户分析2012年8月2012年8月2012年10月长号活性短号非活性用户分析2012年9月2012年9月2012年10月交往圈汇总2012年9月2012年9月2012年10月新增用户的来源分析2012年10月201
8、2年11月2012年12月离网用户的去向分析2012年10月2012年11月2012年12月成都宽表22013年4月2013年5月2013年6月成都宽表32013年4月2013年5月2013年6月成都宽表42013年4月2013年5月2013年6月 表 四川移动经分云化已上线应用列表正在实施:17类详单数据的加载,完成ODSDWDDW的转换、汇总区县动态划分中的详单汇总部分实施效果:云化业务数据量传统模式云平台模式区县动态划分先清洗、汇总当天的语音话单,2.5亿条左右,100G;汇总结果再同月初到前一天的结果集进行再次汇总,数据量每天增加,从第一天的8000W到最后一天的3亿左右,数据量大约5
9、0G(字段少一些)传统模式下,两次汇总都不能在仓库或集市中一次全量执行,只能分地市执行,两个操作在月末分析时需要3个小时左右通过云平台,可以全省一次性进行,在目前9台服务器的情况下,可以半个小时完成所有的汇总操作;电子渠道朋友圈业务推荐分析先清洗、汇总语音、短信详单,得出用户的交往圈,1个月有75亿语音详单,25亿短信详单,在清洗出需要字段的情况下,仍然达到1.5T的数据量;再挖掘出朋友圈,查询朋友圈的业务开通情况,关联的营帐数据量大概2G;当时是新需求,基于传统模式进行评估,只能在数据集市分地市、分天进行汇总聚会,预计时间同双卡用户分析大致一样,需要8-10天基于云平台进行一次汇总出交往圈、
10、再挖掘出朋友圈,再关联业务办理情况,得出目标数据,目前只需要8-10小时,效率提升10倍以上;此分析全部通过云平台实现;双机双卡用户分析提取统计基准月的联调、电信的新增用户数据;这个只有10M左右;提取基准月前一月和后一月的详单数据,总共2.5T数据;进行数据清洗、挖掘、匹配,得出结果数据,100M以内在3个集市上分地市、分天进行数据汇总、分析,分析过程中,容易造成回滚、日志、临时表空间满,需要人工干预,最终得到分析结果,一般需要8-10天;基于云平台可以一次性全省汇总分析,目前每个月只需要8-10小时;长号活性短号非活性用户分析提取当前月1-18日语音和短信详单记录,大约800G;分析出10
11、0W左右条记录,50M左右数据以前需要在仓库上分天进行统计汇总,大约需要3天时间;基于云一次性汇总,耗时6小时左右交往圈模型基于1个月的语音详单数据,大约1.2T数据;结果数据大约20亿记录,200G仓库无法分析出通过平台汇总分析,大约8小时新增来源分析基于3个月交往圈的汇总数据,大约600G;结果数据100M以内仓库无法分析出通过平台汇总分析,大约10小时离网去向分析基于3个月交往圈的汇总数据,大约600G;结果数据100M以内仓库无法分析出通过平台汇总分析,大约10小时成都宽表2基于1个月的语音详单数据,大约1.2T数据;基于1个月的GPRS详单,大约3T数据;基于1个月短信、彩信数据,大
12、约100G输出4个汇总中间表,共大约5G数据仓库和成都数据集市无法汇出,该宽表最近半年一直无法上线;大约4小时成都宽表3基于1个月的语音详单数据,大约1.2T数据;基于1个月的GPRS详单,大约3T数据;输出1个汇总中间表,数据每天都在增加,月初1-2G,月末接近10G 仓库和成都数据集市无法汇出,该宽表最近半年一直无法上线;每天大约1小时成都宽表4基于1个月的语音详单数据,大约1.2T数据;基于1个月的GPRS详单,大约3T数据;基于1个月短信、彩信数据,大约100G输出1个汇总中间表,数据每天都在增加,月初3-5G,月末接近15G仓库和成都数据集市无法汇出,该宽表最近半年一直无法上线;每天
13、大约2小时表:四川移动经分云化实施效果表重庆移动大数据平台整体架构构建基于HADOOP的,统一数据接入、统一数据存储计算、统一数据开放共享的,服务于重庆移动全公司的企业级大数据平台。统一数据接口:实现数据接入的统一管理,可扩展 统一数据计算和存储:科学部署热、冷、快、慢数据的计算和存储要求;并实现结构化、半结构化、非结构化的数据处理和存储要求。 统一数据开放共享:通过统一数据封装和数据开发服务,对外提供开放的数据共享服务。 统一平台管控:提供数据的统一管理、数据服务的统一管控。 平台部署图 平台部署图江苏电信2014年大数据基础平台项目整体建设方案建设统一的大数据平台,实现对江苏电信所有数据的
14、统一管控和运营。对平台进行统一的规划,对数据进行集约式管理,整合平台资源,提高资源利用率,减少重复功能建设,优化并创新系统架构,实现数据存储量与效益的同步提升。 图 功能架构图整体技术架构图 技术架构图大数据采集平台:实现海量原始数据的安全、高效的采集、传输和存储大数据基础平台:大数据基础设施:基于X86和开源软件提供海量数据的存储和计算能力基础平台管控系统:实现基础平台和应用的隔离,无需访问基础平台即可实现应用的开发、测试、运行和维护大数据数据平台数据处理平台:对数据进行加工处理,生成应用所需要的结果数据数据开放平台:提供多种方式访问应用所需要的结果数据数据平台管理系统:提供全流程、全生命周
15、期的数据管理能力;支持大数据中心的经营管理大数据管理功能架构图 大数据管理功能架构图以大数据基础平台提供的底层管理功能为基础,向应用提供开发、测试、运行、运维全生命周期的管理功能,实现平台的集中管理和应用多租户部署。安全管理:针对每个应用创建不同用户账号,设置其对HDFS、M/R、Hbase、Hive等数据和服务的访问权限,并在基础平台上进行自动化部署;应用管理:通过图形化界面提供应用程序的提交、测试、部署和运行管理等功能资源管理:针对每个应用设置其可使用的存储和计算资源,并实时采集、监控应用对资源的使用情况;当资源不足时自动调整资源分配策略保证平台的平稳运行任务管理:提供统一的任务定义、执行
16、和监控机制,支持任务依赖、异常处理、账期管理等功能;向外部应用提供任务管理API接口以创建、删除、更新任务;数据管理:对平台存储的各种数据提供创建/删除、导入/导出、备份/恢复、查询/统计等功能;系统管理:提供图形化的安装、配置、监控和告警功能;支持在线扩容、关键服务的启停;提供统一的升级和补丁管理大数据核心平台架构图 大数据核心平台架构图Hadoop集群主要由以下部分组成:HDFS:基于X86和本地磁盘的分布式文件系统;HBase:支持实时I/O操作的海量K/V数据库;Yarn资源管理:集群的资源管理者;M/R并行计算:提供Map/Reduce编程模型;Hive:提供基于SQL语句的编程模型
17、;Spark:基于内存的实时计算模型;非结构化、半结构的数据存入企业级大数据平台的HDFS;海量需要大规模并行计算的结构化数据也需要存储在HDFS上。存放数据主要包括:清单级DPI数据,信令数据,以及各个业务系统处理汇总后的相关数据等。HDFS文件系统实现基于权限分配的数据共享。平台对业务使用数据的目的不同提供不同的存储方式,以提高资源的利用和整个平台的性能,最终体现为业务的高性能。生产查询类生产查询类数据对平台有较高的实时响应能力,要能够在规定时间范围内返回查询结果,建议规划此类数据建立主键后存入:HBase。HBase能够按照主键,对外提供快速的查询服务。生产分析类此类数据属于统计类数据,
18、对平台资源有着较高的要求,此类业务对平台资源占有时间长,因此,可将此类数据规划入Hive,便于进行分析及相关数据的统计。Storm实时流计算集群Storm集群用于对实时性要求比较高的数据计算,包括:位置信令数据的实时处理等基于X86的关系数据库集群基于X86的关系数据库集群主要用于关系型数据的存储,主要是业务系统需要直接访问的计算后的结果数据。大数据平台元数据以及配置文件等信息存入此数据库,业务系统的统计要素以及业务系统的配置文件亦可存入此数据库,平台提供指导,业务侧根据需要进行规划。江苏电信2014年大数据经营支撑平台项目整体建设方案江苏电信大数据中心由以下部分组成:图 功能架构图大数据采集
19、平台:原始数据安全、高效的采集、传输和存储;大数据基础平台:大数据基础设施:基于X86和开源软件提供存储和计算能力;基础平台管理系统:平台集中管控;基础平台和应用的隔离;应用的多租户部署;大数据数据平台数据处理平台:为安全、效率、管理的目的,由公共数据处理和应用特定处理组成;数据开放平台:提供批量、实时的数据开放接口和标签服务;数据平台管理系统:数据处理平台和开放平台的管理;支持大数据中心的经营管理;本项目建设目标大数据经营支撑平台的建设目标是:数据的安全:数据的脱敏/加密、访问控制和批量导出、实时访问等进行统一的配置、执行和监控处理的高效和灵活:避免重复性计算以节省硬件资源,又要确保对数据处
20、理具有足够的灵活性大数据经营支撑平台由数据处理平台、数据开放平台和数据管控系统三部分组成。其中:数据处理平台:公共数据处理+应用特定处理公共数据处理程序:向应用系统开放数据处理规则,满足各个应用对底层数据特定的处理需求应用特定处理程序:通过“基础平台管理系统”实现应用程序的部署和调度执行数据开放平台:批量数据共享:定时和一次性的批量数据的分发,支持导出到FTP服务器、关系数据库、hadoop集群等实时数据服务:提供API调用框架,支持API接口的动态注册、自动化部署和调用控制标签服务:提供图形化操作界面,实现标签生命周期管理和基于标签的统计、查询数据平台管理系统:提供处理平台和开放平台的管理能
21、力;支持大数据中心的经营管理图:数据平台管理系统构成图系统的数据架构大数据中心的数据架构如下图所示:图 大数据中心数据架构图DPI数据:互联网企业只能分析自身流量数据,行为分析准确;DPI数据记录用户所有上网行为数据,但分析用户的搜索、浏览、评价、收藏、购买等行为的难度大AAA数据:公网IP地址和宽带账号、手机号码的实时映射关系,准确性高;电信运营商独有的用户ID识别能力,以公网IP作为查询条件对外提供数据服务,既方便外部用户的访问,又因为公网IP的时效性避免泄露电信数据资产信令数据:实时采集、分析网络位置信令数据定位手机用户位置,支持位置营销、O2O营销等;通过通话、短信接通率等可以辅助评估
22、用户的状态互联网数据:通过微博等APP账号关联固网账号和手机号码,实现用户跨终端行为跟踪;爬取用户浏览、撰写的互联网内容,深入了解用户的喜好和产品、行业的舆情状况数据仓库数据:用户资料、通话/短信详单、交往圈等数据,也有助对用户的深度洞察系统部署方案图 系统部署方案图平台建设整体部署如上图所示,包括接口机、大数据平台、Web服务器、学习系统、K-V数据库以及应用程序服务器。接口机Ftp服务器:文件接口机,支持FTP服务器获取批量数据,消息中间件:消息接口机传输实时消息数据,保证消息的实时可靠传输。大数据平台大数据平台核心层包含三部分内容:Hadoop集群:Hadoop集群是分布式的、易扩展的大
23、数据存储、管理、监控平台,是所有业务数据以及应用的支撑平台。Storm集群Storm集群是分布式的、可靠的实时消息传输、分析、计算平台。它以拓扑的形式对不同的业务数据进行处理。基于X86关系数据库用于存放元数据、配置文件数据以及统计要素,也作为存放客户标签/规则的数据库。爬虫服务器爬虫服务器主要用于部署爬虫模块,通过抓取URL的技术,从Internet网络抓取海量URL,并进行简单的处理后用于文本分析。学习系统学习系统即算法系统,包含两部分内容:文本分析通过文本分析算法对从外网获取的URL的文本内容进行挖掘,进而获取能代表文本内容类别的关键词句。机器学习基于平台资源,通过已有数据以及机器学习算
24、法,构建文本分类模型,实现对网页内容的快速分类。数据挖掘深度分析电信数据,提炼和优化用户模型。多维分析对电信数据从多角度关联分析,挖掘有用信息。K-V数据库K-V数据库属于大数据平台的扩展部分,能够快速响应外部请求,并实时对外提供数据。 应用程序服务器支撑运行于大数据平台的所有业务,是所有应用程序的载体。平台技术架构图 平台技术架构图1、大数据基础平台基于X86和开源软件的互联网化技术路线,实现企业方位内共享数据中心,构建大数据基础平台,使用Hadoop集群技术和Storm实时计算技术实现对海量数据的批量和实时处理。2、算法库算法库中引入多维分析、数据挖掘、文本分析、机器学习等实现对数据的深度
25、挖掘和分析。3、对外服务由K-V数据库、消息接口、Web服务器等构成对外服务接口,提供实时查询、报表输出以及数据可视化功能,对内、对外实现数据运营。K-V数据库:保存人群数据库(即用户标签信息),采用内存数据库,实现高并发查询;消息接口:实现事件消息触发,为营销推广提供接口;Web服务器:提供访问接口,实现数据查询、配置等应用;报表展示:实现对数据直观形象的展示;数据可视化:用于用户行为轨迹展示。浙江联通大数据能力平台建设目的浙江联通大数据运能力平台建设目标是实现对浙江联通所有数据的统一管控和运营。对平台进行统一的规划,对数据进行集约式管理,整合平台资源,提高资源利用率,减少重复功能建设,优化
26、并创新系统架构,实现数据存储量与效益的同步提升。开放实现平台对所有业务开放,包括对内业务和对外业务,但对内业务和对外业务有区别的进行管理。开源系统架构采用开源软件,减少软件成本,提高系统的技术先进行和可维护性。共享平台只有一个,采用统一的分布式管理架构,所有业务系统共享此平台,包括系统资源和平台存储数据。独立于应用平台建设不依赖任何应用,但平台能够支撑多种应用,对应用实现统一的管理和监控。超前于应用平台建设考虑可扩展性和对未来可能业务的支撑。整体架构产品整体架构如下图:图 产品整体架构图目前已经接入的数据源包括:互联网日志:内容: Gn口数据,用户上网url记录源系统:永鼎致远统一提供(同总部
27、)接口规范:已获得总部统一规范样例:已拿到进度:等主机到位后联调采集接口信令记录:内容:包括2G/3G用户的CS/PS域数据,覆盖了用户语音、短信、开关机、位置更新、基站切换、附着/去附着、PDP激活/去激活等信令源系统:永鼎致远统一提供(同总部)接口规范:已获得总部统一规范样例:已拿到进度:等主机到位后联调采集接口;等拿到样例后开始分析数据质量目前数据量的入库数据:图 数据入库情况维系挽留数据模型分析稳定度模型以宽表数据为基础,用不同分组、不同时间窗加载为三份数据集,数据集的定位如下:模型训练集:定位于模型初建,用已知的流失用户宽表数据建模,建立流失用户特征集;分组验证集:定位于模型优化,对
28、于值域过大的非错误数据进行数据去极值化处理,对于需要消除量纲来减少模型误差的变量进行标准化变换;时间窗平移验证集:定位于模型终验,用于稳定度模型应用前的最终验证。图 稳定度模型流程图针对2014年6月正常出账用户,利用模型预测在未来一段时间的流失情况 预测2G、3G、2、3融合用户中极不稳定的用户53.7万,在7月底真实离网22.5万,截至8月底真实离网24.5万,模型准确率为45.6%以用户语音、流量和短信详单数据为基础,从用户的消费能力、消费意愿、影响力、忠诚度、加减分设定观察维度,综合评估用户价值,输出用户价值清单,建立统一的用户价值评估方法。养卡模型目前没有明确的针对批量养卡用户的定义
29、规则,也没有已知的养卡群体可作为疑似养卡用户识别的对照组。批量养卡用户的识别更多是从养卡行为拆解出发,研究识别的规则图:养卡识别规则维系挽留鉴于目前集团对“用户价值”并无统一定义,用户价值评估模型不适合采用训练建模的方式进行。综合取数和用户定义的现状,决定采用APH德尔菲打分法形成用户价值的量化评估体系,并在此量化评估的基础上,对用户价值进行定性分级。图 价值用户维系挽留套餐适配度模型套餐适配度定义:根据集团针对3G用户套内语音、流量饱和度将用户分为7类套餐适配情况: 其中流量饱和度计算分别按照主套餐适配,主套餐+叠加流量包整体适配两种定义计算,分别统计全网用户饱和度分布情况模型选取6个月以上
30、3G用户开展,并剔除三无、极低、不出帐等异常用户将其中双零、双低、双高、高流量低语音、高语音低流量类客户定义为不适配用户图 .套餐适配度模型湖北移动大数据平台场景描述大数据平台的建设目标是实现跨专业、跨层级、跨主体、全过程的数据呈现、敏捷开发与能力嵌入,充分发挥企业大数据的核心资产能力与价值能力,持续推动透明管控、科学运营和价值创造目标最终实现。通过统一的技术平台框架,制定企业数据标准体系规范,在基础数据采集处理,加工汇总层,可以引入多家厂商进行标准化开发。通过整合B域、O域,实现企业有价值数据的集中存储,并对外围应用提供必要的数据计算、数据存储服务。平台层面:主要为企业级数据中心提供数据存储
31、和数据处理能力,提供统一的集成平台环境,将硬件和平台软件做有效的集成。搭建Hadoop计算框架,实现海量数据的分布式处理;通过新技术,降低系统总体拥有成本,本项目引入Spark技术, 验证大数据、准实时处理架构;增加数据源,丰富应用和数据价值能力;功能层面:主要为企业级数据中心提供数据整合、数据清洗&转换&加载、数据共享、数据分析与查询、数据挖掘、数据管理能力;提供新的IT功能架构,提供多租户的ETL、统一的数据计算与存储、数据共享、多租户的应用开发、数据平台管控。从硬件平台基础设施上,建立企业级的ETL平台,建立管控平台,简化运维,降低门槛,现有的运维开发知识能够顺利平移到新平台;业务层面:
32、主要为企业级数据中心提供多域的数据模型、标准的元数据、数据处理调度任务、后台处理程序和前台应用程序,以及数据产品。实现对环境中系统资源、软件资源、业务应用、参与人员等各种资源统一管理,综合监控。技术方案图 湖北移动企业级数据中心架构图系统功能框架分为企业级ETL平台、存储与计算中心、服务层、应用层、统一门户、统一平台管控。企业级ETL平台:负责企业大数据平台数据采集、加工、汇总、分发的过程,完成企业级数据标准化、集中化,实现数据脉络化、关系化,实现统一的数据处理加工,包括:非实时数据处理和实时数据处理,提供数据抽取、数据转换、数据加载、数据汇总、数据分发、数据挖掘等能力。存储与计算中心:建立统
33、一的大数据平台数据模型,以及统一的数据存储与计算,具体提供关系数据库、分布式非关系数据库、分布式文件、分布式计算,实现统一的数据存储与计算。数据共享服务:通过数据服务标准化开放访问,帮助企业IT建设中,应用和数据分离,引入更多的应用开发商,促进应用的百花齐放和应用的专业性;基于标准化接口,实现对标签、客户视图、指标等数据查询API封装,实现与周边系统实时互动,体现数据价值,减少数据冗余,保证数据安全,保证数据的一致性。应用层:应用层的应用使用服务层提供的各种数据服务。本期应用层包括:经分应用、流量运营、ESOP应用、VGOP应用、指标库、流量运营战略地图、掌上分析、自助业务分析、区域洞察、渠道
34、运营、自助分析、客户标签库、实时营销、LTE互联网管控策略。统一门户:提供统一域名分配、负载均衡、鉴权管理、统一管控平台接入、应用注册、应用发布、应用访问数据信息等功能,同时提供大数据平台被应用访问的频次,被应用访问的数据范围,提供数据资产的评估,为应用上下线和数据开放提供依据。统一平台管控:面向开发人员、运维人员实现数据、应用、资源的统一管控,包括:数据资产管控、开发管理、监控管理、调度管理、系统管理、安全管理。预计实施效果湖北移动数据中心项目建设是利用云化相关技术,按照统一的规范和标准,聚合各域(O域、B域、M域)IT系统中的运营数据,统一接入、管理、运算后,统一对外提供开放数据服务,并对
35、数据的访问进行安全控制;数据中心需要具备以下能力:1、数据聚合:统一数据接入:统一接入B域、O域、M域IT系统数据;统一数据模型:对数据的加工处理过程统一、模型统一;统一数据视图:实现统一数据视图,使企业在客户、产品、资源等视角获取到的信息是一致的。2、质量管控:数据质量校验:根据数据进行一致性、完整性、正确性的校验。数据质量管控:通过建立企业数据的质量标准、数据管控的组织、数据管控的流程、对数据质量进行统一管控,达到数据质量逐步完善。3、数据开放:将数据通过统一的开放标准为现有、以及未来将要建设的各类IT应用系统提供开放的大数据服务,支撑公司的运营生产,以及外来的对外数据共享服务;提供服务目
36、录、数据能力的可视化。4、平台架构易扩展:平台架构云化,具备线性扩展能力。山东移动2015年大数据平台项目山东移动采购了的数据资产管理平台,提高用户自身对数据资产的管理能力,并通过数据资产管理平台的数据开放平台对外进行开放。项目背景山东移动希望通过大量的X86服务器,构建计算能力、存储能力比较大的云平台,将BASS平台的营帐、详单接口全面云化,并对ODS层进行汇总,形成DWD层,屏蔽将来ODS层变化带来的影响,传统仓库仅仅存储部分常用数据,并提供部分应用访问层。建设内容:1、数据模型部分重构分析新旧接口,建立DWD轻度汇总层;汇总层模型重构;设计用户统一视图、标签库。2、云平台建设详单数据存储
37、在云平台中;详单数据按应用进行处理和存储;涉及到访问详单明细的应用向云平台迁移的改造;详单数据处理后的以用户中心使用行为指标汇总层数据输送至传统仓库;3、统一调度平台建设支撑云平台相关作业及云ETL调度;4、统一数据管控能力建设对数据进行统一的管控,提供前向元数据驱动的数据开发平台。技术方案图 山东移动大数据平台架构图该项目采用橘云Hadoop平台+GreenPlum+ORACLE集群混搭结构实现大数据平台建设项目使用到DACP-数据治理(负责元模型管理、元数据质量管理、生命周期管理),DACP-企业级ETL(负责处理平台开发环境);DACP-数据安全(负责数据去隐私化、访问鉴权)。实施效果效
38、率提升:跨平台,跨系统数据抽取分发。数据处理效率提升30%可视化的开发平台,建设周期缩短20%高效、灵活的报表展现工具,二次开发效率提升40%能力增强:计算速度提升120%,存储能力提升5倍,为过渡到企业级大数据中心奠定基础DACP投入使用还释放了仓库的高端存储25T;释放了仓库额外50%的计算能力;同时通过新平台将传统仓库的详单数据的存储周期从60天提升到210天。成本降低:整体性能差不多的情况下,采用DACP投资降低20%左右。上海移动2015年大数据平台管控项目在面向大数据的战略转型中,数据资产和数据服务的管控尤为重要。建设一套数据资产管理平台,实现对数据的从采集、处理、开发,最终形成数
39、据服务,用于支撑新的数字化服务和创新应用的建设。该平台集成Informatica,将该产品纳入到数据资产管控对象。项目背景围绕数据质量的总体业务目标,构建完整的大数据管控平台。新建分布式计算存储平台,提供高效的数据分析处理能力。集成Informatica,将该产品纳入到数据管控对象。引入分析模型管理,提升稽核比对效率。提供规则模板管理,提升规则配置的效率和准确性。引入流程管理,支撑应用数据稽核的全流程闭环管理。提供稽核流程监控管理,对数据进行风险防控。提供统一报表管理,对稽核进行便捷的问题分析定位技术方案图 系统技术方案基础平台:华为Hadoop平台、GBASE、ORACLE集群混搭数据平台:
40、DACP-数据治理;负责元模型管理、元数据质量管理、生命周期管理,DACP-DP负责处理平台开发管理环境;DACP-数据安全负责数据去隐私化、访问鉴权。实施效果构建完整的大数据管控平台实现对元数据的强制前向获取、规范性的数据加工方法、数据质量控制方法和技术管理手段;通过知识管理手段,降低对文档系统的依赖。实现应用的资源管理。完成ETL产品的集成工作集成ETL产品(Informatica),将ETL工具集成到大数据管控平台,将ETL产品纳入数据资产管控对象;集成调度产品,通过调度产品的集成,形成企业大数据管理一体化能力,通过统一管理视图展现数据调度关系。中信银行股份有限公司电子银行实时风险监控系
41、统由承建的实时交易风控系统是中信银行2016年十大重要战略项目之一,通过实时风险监控系统有效地识别、评估、监测和控制电子银行业务风险,从而加强风险交易实时、事中监控力度,提高风险控制的有效性,目前中信银行是第一家进行实时交易风控的银行。项目背景电子银行业务作为中信银行战略重点,始终面临层出不穷的交易风险、诈骗手段和系统攻击。根据中信银行“十三五”信息科技发展的主要任务:建立全面及时的风险管控支撑能力,建立实时交易、客户行为监测及预警阻断的操作风险防御能力。电子银行部提出启动电子银行实时风险监控系统。技术方案图 系统整体架构图图 整体功能架构图1)从业务范围上看,实时风控系统趋向于交易行为的风险
42、监控,根据其设计的特质,未来符合接入其他渠道交易的要求。2)从时效性上,实时风控系统为实时交易返回。3)从技术架构上,实时风控系统采用主路方式,实时获取交易报文,实时计算,与此同时,发起方交易系统等待结果返回。产品部署情况:DACP承担数据采集与数据管理功能的实施,橘云流处理平台产品承担数据处理的职能。实施效果该项目目前正在实施过程中,实时风控系统将通过风险规则引擎调用可配置化的风险规则,主动预警可疑交易,实时处置交易风险,形成风险防控的闭环,满足风险处理的实时要求,有效保护中信银行电子银行业务安全运营。未来,实时风控系统将支持横向扩展,统筹兼顾多维度风险指标,是中信银行科技兴行战略的贯彻实施
43、。中信银行集团数据共享应用项目项目背景近年来,为进一步贯彻落实集团协同战略,深入推进各子公司协同工作,加强子公司之间的业务联动,实现集团子公司合作共赢,需要一个整合的数据平台提供数据分析支持。基于集团数据平台,建立客户综合产品视图,深入挖掘客户潜在需求,实现交叉销售、产品创新。2007年,中信控股在主机平台上建设了控股CIF系统,整合了旗下各金融公司(中信银行、中信证券、信诚人寿、中信信托、信诚基金和中信基金)的客户、账户信息,初步形成了营销、服务、分析的共享平台。从系统运维的角度来看,控股CIF系统存在从我行老核心系统平台上迁出的内在需要;另一方面,随着集团内部各机构协同业务的开展,现有CI
44、F系统无法满足业务协同的需要。为此,需要规划建设集团数据共享系统。技术方案图: 功能架构图中信数据共享应用项目从中信银行数据仓库、中信证券大数据平台、中信信托综合账务管理系统、信诚保险业务系统以及信诚基金业务系统中获取共享数据。共享数据包括客户基础数据、客户指标、客户标签、事件四类数据。基础数据是客户身份信息、联系方式、开户信息等数据,涵盖老控股CIF中数据项。客户指标是客户在各业务系统中的统计汇总值,比如银行中的管理资产负债额。客户标签是指各业务系统对客户的分类和标注,包括签约标签、客户价值标签、风险标签,比如信用卡客户、三方存管户、银行客户、证券客户、保险客户、银行客户评级、免打扰户、行业
45、等。标签由各业务系统加工,这样的好处是客户明细数据隐藏、客户价值标准化。事件是客户近期发生过需要系统关注的事,包括风险违约事件、风险预警事件。实施效果该项目目前正在实施过程中,通过该项目,帮助集团丰富完善客户统一视图,提升子公司客户经营和管理水平;实现子公司之间产品交叉销售,增强获客能力,提高客户粘度;建立客户信用信息共享体系,提高客户信用风险防范能力,同时也促进基于大数据技术和分布式数据库进行业务创新探索。成都农商行大数据操作平台项目项目背景随着各项业务发展,行内数据量飞速增长,同时数据对业务的决策支持也越来越重要,另外从内外部环境的剧烈变化和互联网金融的迅速兴起,促使银行业向大数据转型势在
46、必行,在这样的大背景下,成都农商银行需要构建企业级大数据平台,通过引进新型技术提供对大数据的驾驭能力,未来可以向基于大数据的运营模式变革。大数据操作平台聚焦于大数据管理与处理功能,遵循行内统一管控标准与要求,进行一体化管控,建设目标如下:有机组合大数据平台的服务组件;提供大数据平台之上的操作规范;整合统一调度监控,提供统一服务接口,支撑规范要求的定义和发布,形成大数据平台的中间核心层;提供开发平台,用于可视化的开发,提供可视化监控。技术方案大数据基础平台层大数据操作层大数据应用层Hadoop基础平台数据处理数据治理数据挖掘客户画像及用户行为分析精准营销历史数据查询数据安全标准规范数据开放图:成
47、都农商行功能架构图大数据基础平台大数据基础平台定位于提供基础的数据存储和计算能力,比对传统的数据仓库架构,与数据库平台一致。建设的侧重点在于如何低成本高效益的满足数据存储和计算要求,如何更好的满足不同类型的数据存储,统一数据标准,解决贴源数据、过程数据、结果数据、历史数据的存储;如何更好的具备对不同类型的计算资源的适配,以及对多种计算能力的支持。大数据基础平台作为底层的、透明化的平台,主要的操作对象为受过专业培训的专业平台维护人员。大数据基础平台主要功能,应包括资源管理、存储管理、计算资源管理等应具备的基础功能,同时应提供相应的管理功能。相关的管理能力需要提供接口供统一管控使用。大数据基础平台
48、的架构演进方向,从大数据平台建设松耦合的建设思路出发,未来应支持多厂商产品、以混搭架构的方式,低成本高效的进行多种计算能力的支持和覆盖。即,未来可根据需要的计算能力引进多家厂商的产品,联合形成计算能力。如hadoop平台处理海量数据,Spark处理流式数据,关系型数据库处理结构化数据等。大数据操作平台大数据操作平台定位于整个大数据平台的操作系统,是整个大数据平台进行数据生产管理的统一平台。大数据操作平台作为中间层平台,是底层能力的整合者,同时也是上层应用的数据能力提供者。建设的侧重点在于如何建立数据采集、数据处理、数据访问、管理能力,支撑针对数据主动管理的过程策略能力;同时,为避免传统数据仓库
49、开发的问题,应重点考虑实现对数据管控、数据运维的全流程管理,保障数据服务的品质;另外,对上层应用而言,需要提供高质量的数据和功能服务保障。大数据操作平台作为中间层平台,是底层能力的整合者,同时也是上层应用的数据能力提供者。建设的侧重点在于如何建立数据采集、数据处理、数据访问、管理能力,支撑针对数据主动管理的过程策略能力;同时,为避免传统数据仓库开发的问题,应重点考虑实现对数据管控、数据运维的全流程管理,保障数据服务的品质;另外,对上层应用而言,需要提供高质量的数据和功能服务保障。大数据操作平台的主要功能应覆盖大数据平台数据管理和业务管理的需求,提供统一的ETL工具、统一的作业调度工具、统一的数
50、据管控和治理工具,以及统一的、元数据驱动的开发平台。同时,对专业的数据处理工具也应有效集成和有序扩展,如基于图计算的数据挖掘工具等。另外,支持上层应用的数据,需要开放为数据服务接口,功能需要开放为功能调用接口,以遵循松耦合的设计原则。大数据操作平台的使用对象,主要面向数管中心的业务管理、数据管理人员,以及在大数据平台上进行数据开发的厂商人员。大数据操作平台的演进方向,应向高度定制化的方向发展,充分吸收厂商产品的优势进行有效集成,遵循统一管控的要求,建立高度切合数管中心需要的管控一体平台,不断沉淀和积累数管中心的核心能力,固化为IT能力。大数据应用平台大数据应用平台本身应是多样化的大数据应用的聚合,是一个逻辑层。各应用根据实现方式进行部署。能力侧重点应侧重于多样化,有序建设,减少充分建设。应用应面向业务部门的使用需求提供更为丰富和有效的应用。对数据处理和使用的需求,统一对接管理加工平台的数据服务,对整个平台的控制需求,如高时效响应等,也统一对接管理加工平台的功能服
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 助听器产业链招商引资的调研报告
- 衬衫袖扣项目运营指导方案
- 区块链与人工智能融合行业市场调研分析报告
- 宠物用牙刷产品供应链分析
- 喷雾美黑服务行业市场调研分析报告
- 多处理器芯片产业链招商引资的调研报告
- 电耦合器项目营销计划书
- 电子香烟电池充电器市场发展前景分析及供需格局研究预测报告
- 羊毛剪市场发展前景分析及供需格局研究预测报告
- 乳罩产品供应链分析
- 《药品生产监督管理办法》知识考试题库及答案
- 幼教培训课件:《幼儿园如何有效组织幼儿户外自主游戏》
- 17《爬天都峰》第一课时 公开课一等奖创新教学设计
- “非遗”之首-昆曲经典艺术欣赏智慧树知到期末考试答案章节答案2024年北京大学
- 股权投资撤资通知书
- 2024年美国健身器材市场现状及上下游分析报告
- 非物质文化遗产介绍-剪纸文化
- 针灸防治老年病
- 新版手术室管理规范
- 《物流成本管理》(朱伟生 第六版)课件全套 第1-12章 绪论、物流成本计算 - 物流成本绩效考评
- 大学生数媒个人职业生涯规划
评论
0/150
提交评论