移动公司最佳实践案例申报-基于Spark核心架构的大数据平台技术研究和实践V2.0_第1页
移动公司最佳实践案例申报-基于Spark核心架构的大数据平台技术研究和实践V2.0_第2页
移动公司最佳实践案例申报-基于Spark核心架构的大数据平台技术研究和实践V2.0_第3页
移动公司最佳实践案例申报-基于Spark核心架构的大数据平台技术研究和实践V2.0_第4页
移动公司最佳实践案例申报-基于Spark核心架构的大数据平台技术研究和实践V2.0_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于Spark核心架构的大数据平台技术研究和实践目录

Spark核心架构应用效果常规业务

湖北大数据平台建设历程

基于Spark核心架构方案

Spark技术架构推广价值

湖北公司从2013年开始,经分系统停止IOE硬件投资,14年全面转向构建企业级省大数据平台,以便能够融合本省企业内部和外部相关数据,在技术上实现应用与平台的解耦,为多部门的多种平台提供可以水平扩展的存储及计算能力。

目前大数据平台已完成三个阶段建设,已经是全面hadoop(Spark)化、无MPP、无一体机技术方案。截至当前,大数据基础设施每年翻一番,目前已经有600余个节点,9PB存储;2017-2019年预计按照每年1000台的速度递增。湖北大数据平台建设历程2014.3-2014.12:形成了首个基于Hadoop技术框架的大数据应用--流量经营分析系统。但原有以Hadoop为主的大数据平台中主要存在三方面问题,迫切需要在构建数据中心平台时对原有的技术架构进行升级。2015.3-2015.12:深入研究Spark/YARN/Docker技术,证明其在解决效率问题和多租户动态资源调整等方面的优势,本次提出四项创新方案解决前期问题。并建立面向多租户开放式的大数据能力开放平台,实现IaaS、PaaS、DaaS、SaaS开放模式。。2016.4-2016年底:通过生产及服务集群合理划分解决资源相互占用问题,引入数据交换平台、数据目录管理、可视化运维工具,并初步建立平台、数据、应用全方位安全管理体系。第一阶段:基础平台搭建第二阶段:开放能力构建第三阶段:资源管控提升1调度任务优化困难-缺乏组件2HBase生产容易超时-效率低3硬件投资增加-多租户无法灵活动态调整资源已完成已完成建设中问题创新1引入基于Spark的大数据处理平台技术架构2引入SparkSQL透明数据访问组件3引入多手段全方位提高Spark计算速度,4引入基于Docker实现YARN之上的容器技术目录

Spark核心架构应用效果常规业务

湖北大数据平台建设历程

基于Spark核心架构方案

Spark技术架构推广价值Spark的优越性能通过测试得到验证运行效率测试我省将spark、Hive、DB2三种计算引擎适用业务场景的处理性能进行了充分测试,部分测试结论验证了spark在运行效率、稳定性、并发度、查询速度方面的优越性能。计算引擎100个字段以内的聚合运算超过100个字段聚合运算Hive17min17minspark6min可能引发计算节点异常结论:从运行效率来看,spark提升了2-10倍,可以高效处理各类关联查询稳定性测试计算引擎底层大表上层小表总时长集群资源消耗Hive20min5min25min无明显异常spark7min3min10min无明显异常结论:从单个任务来看,spark运行稳定性还比较可靠并发度测试计算引擎10个并发测试集群资源消耗Hive6min无明显异常spark3-9min无明显异常结论:Spark的并发度还需优化改进,需做好任务优先级的调度典型SQL场景测试计算引擎在RDB中执行较快的Sql程序在RDB中执行较慢的Sql程序集群资源消耗Hive4.2min12min无明显变化spark1min3min无明显变化结论:spark效率具有明显优势大数据平台Spark技术方案应用

基于2014年第一阶段基础平台搭建后反映出的问题,并经过对Spark性能的有效测试,发现Spark在解决效率方面、跨数据源查询数速度方面反映出优越的性能。2015年初计划部正式提出“基于Spark为核心的大数据平台技术研究和实践”创新课题,以此对湖北移动企业级大数据中心技术架构在已实现数据聚合能力的基础下进行升级。为解决前期存在的三个问题,本次提出以下具体解决目标:引入基于Spark的大数据处理平台技术架构,实现基于Spark的大数据处理平台技术架构升级.1、技术架构3、计算性能2、透明访问4、虚拟化技术引入多手段全方位提高Spark计算速度,解决数据处理和数据分发速度慢的问题.引入SparkSQL透明数据访问组件,构建基于SparkSQL的透明数据访问层,解决访问数据路径复杂问题.引入基于Docker实现YARN之上的容器技术,使得更多外围软件工具能够运行于YARN之上.打造基于Spark技术All-in-One的大数据中心处理平台HDFSYARN基于X86的高密度计算存储均衡型服务器Hive升级组件基础能力升级当前部署组件多租户管理支撑计算存储与服务层开放层SQL消息API文件MahoutPigMapReduceHBaseSpark

SQLSparkSparkScalaSparkMLlibSparkStreamingZooKeeperEsperDB2O12CDockerRkafkatomcatFTPmysqlredis121引入Spark大数据处理平台技术架构;引入SparkSQL透明数据访问组件;引入多种手段全方位提高Spark计算速度;2引入基于Docker实现YARN之上的容器技术,解决Redis、Kafka、Hbase的多租户管理问题1、搭建基于Spark大数据处理平台技术架构引入Spark的大数据处理平台技术架构如下:2、引入SparkSQL透明数据访问组件实现异构数据源间透明访问

在业界通用的大数据架构中,由于集中复制导致大量的重复数据,造成存储和网络带宽资源的巨大浪费,我省基于SparkSQL通过“透明访问”技术有效的解决该问题:在大数据中心内部实现各计算框架下的数据透明交互,节省存储开销,减少硬件投资,同时保证了大数据平台访问的可操作性。“透明访问”技术应用架构3、引入多手段全方位提高Spark计算速率风险建议(1)PCI-e接口的SSD卡(2)动态代价分析算法(3)Broadcast算法(4)动态分区算法首创引入PCI-e接口的SSD卡,实现Spark物理加速:在Spark节点上配置0.8TPCI-ESSD加速卡,服务于Spark计算框架据供Spark高速访问。首创使用“内存+SSD+HDD”三级缓存方案,使用SSD建立分布式内存列式缓存,并在缓存中建索引和过滤算法,加速了查询与统计分析性能。首创采用动态代价分析算法,加速Spark多表分析性能:根据相关表的大小,记录条数,数据分布情况,数据倾斜情况以及抽样数据计算情况,综合考虑智能选取最优的执行计划,较好的解决了数据倾斜问题,加速了数据处理性能Spark中创新Broadcast算法,提升Spark查询性能:优化SparkSQL表关联的执行效率,为每台机器上缓存一个只读变量,通过广播变量将一个大数据量输入数据的副本分配给每个节点,从而使SQL表关联的执行效率大幅提高。如ETL平台中即位查询1000万级数据源,效率平均提升30倍左右。创新Spark动态分区算法,提升Spark数据入库性能:原版的SparkSQL在导入数据时只能通过静态分区的语法进行向Spark表导入数据,这种方法需要人工预先对数据进行分区,耗时耗力。湖北移动创新改进Spark源码,实现SparkSQL支持动态分区,自动判断文件中的分区值,然后根据分区值创建或者找到对应的目录,把数据写到这个目录的文件里,提高大批量数据导入效率67%。4、引入基于Docker实现YARN之上的容器技术

湖北移动大数据中心率先采用YARN+Docker的资源控制技术,将Hadoop生态圈组件如Spark、Hbase等和非生态圈中间件如Tomcat、Kafka、Redis、Mysql等软件实现YARN的统一资源调度和分配。该方式不仅有效的提高资源的使用效率,同时基于YARN实现资源的自动容灾和在线动态扩缩容。在YARN上面使用Docker实现资源完全隔离的能力,实施后大数据中心的多个租户如需要使用相同组件,即可不用上多套同样组件(由YARN统一调配)又可实现隔离(由Docker提供),最终实现计算资源降低30%。

采用Docker+YARN完成对底层资源隔离,为应用提供“独占”Pass服务目录

Spark核心架构应用效果常规业务

湖北大数据平台建设历程

基于Spark核心架构方案

Spark技术架构推广价值应用成效1:我省数据中心集群规模全国第一梯队我省目前大数据集群规模约630台,处于全国第一梯队;预计2016年底,大数据中心规模在1200台左右。数据中心数据资产模型已经完成建设1205个。数据中心将计算资源和数据资源,作为一种基础设施,通过“平台化”的方式支撑内部应用系统,目前已经有22个系统/项目进行了入驻;我省性能管理平台作为集团唯一在三域融合大数据中心入驻的案例,已经上线生产5个月;我省经分云化已经完成70%的业务迁移和上线。分域租户名称租户网管dinglicom鼎利汇聚任务data_center网管入Hbase任务dxptp东信运行Spark任务design鼎利Spark租户XCZY_CSFB协成致远运行任务miaozhen东信分发任务数据中心hbase运行gn入Hbase任务dacp_test经分spark任务ocdc数据中心任务BASS经分云化任务hb001gn数据入hbase平行转换任务test_sql测试租户flow_map战略地图租户任务ltemr网优软采平台任务LBS杭研运行迹客微积分任务lycx一线应用平台任务vgopVGOP租户任务ultrapower神州泰岳广告任务bonc掌上经分租户任务CMMS荆州点点通租户任务SitechAdmin1实体渠道运营平台租户任务zjcoc互联网渠道运营系统租户任务01提升运行效率通过SparkSQL替换原有Hive作为标准统一SQL接口,使用提速后的Spark的RDD内存计算方式取代传统的MR运算,有效的提高了即席查询效率即席查询效率提升:提升300%以上消息处理时延缩短:由82秒缩短至28秒流量运营任务处理效率提升:2-10倍03节省硬件投资成本通过Spark的数据透明互访HBase与Hive的后,节省了流量运营应用DWD层数据的存储。节省存储资源:932TB减少磁盘数量:310块减少主机节点数量:30台减少的投资比例:23%02数据汇聚和共享服务每日数据量约60TB;1100余个数据源接口;940余个数据模型;2000个程序;B域1213张物理表,字段23079个;O域约600张物理表,字段约25000个服务11个合作伙伴开发团队,服务20余个专业应用系统。04发挥大数据价值旅游行业应用城市规划应用征信行业应用客户名称行业武汉市公安局公共安全武汉市国土资源局交通战略规划研究院交通武汉市国土资源局地理信息中心交通武当山旅游局旅游黄陂旅游局旅游中信银行武汉信用卡中心征信北京秒针信息咨询有限公司(联袂科技)互联网北京神州泰岳软件股份有限公司互联网长江大数据交易-光博会项目政府应用成效2:基于Spark核心技术架构--性能提升应用成效3:基于Spark核心架构—实现多租户统一资源调度与分配YARN+Docker的资源控制技术,实现多租户的统一资源调度和分配随着大数据平台的开放程度越来越高,用户对平台资源的需求也越来越多,租户资源之间的协调成为平台运维管理工作的重点;租户资源的使用统计管理可以为租户资源的设置提供良好的事实依据;后续数据变现的应用大多数需要依赖大数据平台的存储和计算能力实现,平台也有对该类应用按资源使用收费的需求,租户资源的使用统计可以作为计费的依据。租户Avcore:500memory:1500GB租户Bvcore:800memory:2400GB租户Cvcore:300memory:900GB租户Avcore:200memory:600GB租户Bvcore:900memory:2700GB租户Cvcore:500memory:1500GB租户Avcore:150memory:450GB租户Bvcore:700memory:2100GB租户Cvcore:280memory:840GB初始分配使用统计(平均/秒)根据使用统计调整后租户分配前vcore分配前memory调整后vcore调整后memory节省比例vcore节省比例memory网管700017TB800020TB业支400015TB300012TB25%

20%

互联网中心15003TB15003TB综合节省资源比例25%20%应用成效4:实现经济效益与社会效益双丰收广泛的社会效益显著的经济效益ABC社会效益省委专项文件中提出“大数据与维稳”的课题,目前已经与政府公共安全部门达成合作意向,目前正在项目实施阶段;根据大数据LBS位置信息输出的人流监控,可为社会稳定、治安管理带来巨大的应用价值城市规划和交通行业进行大数据研究,使得城市规划更有依托2015年-2016年春节保障期间,为武汉市相关部门提供技术服务,在热点时段热点景区除夕如归元寺等提供保障等,避免踩踏事件的重演媒体报道《湖北移动创“1+2+N”大数据资产管理模式》在2015年8月人民邮电报首发被在中国通信网C114、网易、中国信息产业网等互联网媒体转载在集团公司《中国移动每日舆情摘要》中被头条刊载专利和奖项中国湖北公司十佳管理创新奖《一种基于SparkStreaming流技术的伪基站定位方法及系统》专利《一种基于GPS位置信息的移动业务终端安全管控方法》专利《一种数据模糊化的存储方法》

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论