




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
“大云”大数据平台及应用中国移动通信研究院
郭磊涛2013年11月电信运营商具有更多的数据移动互联网服务商电信运营商SNS博客电商视频图片音乐签到问答点评优惠券专业SNS微博消息论坛2G、3G、4G、WIFI除了像移动互联网服务商那样关注“结果”,电信运营商还需要关注“过程”!新闻地图典型的应用场景之一:大数据批处理系统目标:针对海量结构化、非结构化数据的ETL操作。从各种数据源获取数据,并进行清洗、转换、去重、缺值补充等操作。通常采用MapReduce等并行计算技术。技术要求举例:针对海量数据实时离线批处理运算(ETL),通常时间要求较为宽松,如几个小时级别。数据ETL运算种类多,灵活性强,通常具有很强的定制化特征数据通常需要导出到数据库、数据仓库,提供报表能力需要灵活的调度的系统,便于系统需要和其他业务系统混合部署,提高资源利用水平例图:分时段汇总的业务场景典型的应用场景之二:大数据查询系统目标:针对海量结构化、半结构化数据的精确定位、区段扫描等条件查询操作,用于网络优化、帐详单查询、故障定位、搜索引擎等业务场景。采集预处理计算1计算2融合处理大数据库大数据库原始数据消息营业厅系统营业厅1营业厅2营业厅3营业厅4例图:帐详单查询系统技术要求举例:针对海量数据实施交互式查询,返回时间在1秒钟左右。针对海量大数据规模实施查询,数据规模可以达到100TB-10PB规模。数据插入通常采用批处理方式,而查询通常带有条件,通常返回结果数较少系统具备较高的并发性,支持大量用户同时查询,依然可以在给定时间出口返回结果数据具有很高的可靠性和可用性要求典型的应用场景之三:大数据挖掘系统目标:针对海量结构化、非结构化数据的进行深度挖掘。通常需要根据业务需求设计模型、训练集并选择算法(分类、聚类、关联、非结构化)。通常会使用各种分布式数据挖掘工具和算法人群1其它人群例图:客户分类识别应用技术要求举例:针对海量数据实施全量数据挖掘,规模达到10TB-PB规模。处理时间没有严格要求,通常达到几个小时,甚至更长时间需要支持各种并行计算模式,如MapReduce、BSP等数据挖掘系统需要较好的用户界面,用户通常具备业务知识,但是未必具备开发经验系统可以和其他系统混合部署数据具有一定的可靠性和可用性要求中国移动“大云”
云计算平台IT基础资源对象存储BC-oNest数据仓库系统HugeTable系统监控和管理CloudMaster平台安全管理CloudSecurity并行数据挖掘工具集BC-PDM文件中间件BC-NAS并行数据抽取转换BC-ETLEMailIDC服务…经分KPI集中运算结算系统云计算资源池系统搜索引擎BC-SE经分系统ETL/DM信令系统物联网应用弹性计算BC-EC弹性块存储BC-Blockstore商务智能平台数据管理/分析类计算/存储资源池BC-Hadoop数据存储和分析平台IaaS产品PaaS产品“大云”产品K-V数据库BC-kvDB消息队列BC-Queue实时交易类分布式内存引擎
BC-DME分布式SQL数据库BC-RDBBC-BSP数据并行框架能力开放平台其他平台中间件数据仓库系统HugeTable并行数据挖掘工具集BC-PDMBC-Hadoop数据存储和分析平台K-V数据库BC-kvDB分布式SQL数据库BC-RDBBC-BSP数据并行框架BC-Hadoop:对开源Hadoop/HBase进行扩展和增强,为大云其他组件提供基本的存储计算能力。基于Hadoop1.0的NameNode/JobTrackerHA,HBaseCoprocessor优化,管理工具整合等Hadoop数据存储与分析RS级别结果汇聚线程池管理ZookeeperJobTracker(VirtualIP)JT-0001JT-0002JT-0003基于Ambari的Hadoop监控管理工具ApacheAmbari是对Hadoop进行部署、监控和管理的开源项目Puppet部署hadoop服务Ganglia收集hadoop服务数据与生成图表Nagios监控集群服务状态并报警基于Ambari的Hadoop监控管理工具TODO:启用MRv1JT/HMasterHA删除节点节点异构配置(Ambari-3531)数据仓库系统(HugeTable)基于Hadoop的海量结构化数据存储系统,利用低成本硬件提供高性能的数据加载、索引查询和并行分析能力,对外提供易于应用集成的数据访问接口大容量:支持PB级别的数据存储能力低成本:基于PC架构,不需要外接集中存储设备高性能:秒级别索引查询、数据并行扫描可靠性:数据冗余备份永不丢失可定制:根据应用需求选择索引类型及存储引擎接口丰富:提供标准的JDBC/ODBC/SQL接口;提串行Scan接口和分布式MapReduce接口外围工具:支持数据、性能、故障、配置、日志管理功能;支持外部数据并行加载;支持数据快速备份、恢复单条查询等(少量数据)实时性要求高的分析查询SQL(数据量满足impala内存限制条件)
复杂SQL语句或者扫描大表全表(大规模数据聚合查询等占用空间超过了impala内存能力)图计算平台(BC-BSP)BC-BSP:针对社交网络分析、用户精准营销、搜索引擎PageRank计算等图计算领域的数据挖掘需求而研发的并行计算框架,针对迭代计算,计算效率优于MapReduce框架/cmri/并行数据挖掘工具集(BC-PDM)任务任务分解…M1M2MiR1Rj子任务block1数据分割block1block1block2block2block2block3block3block3M1M2MiR1R2…R2…RjBC-BSPHugeTableMapReduce并行数据挖掘各种海量数据处理、挖掘应用数据交换并行数据探索WebGUI/工作流引擎SQL脚本CLI命令行应用用户权限管理数据交换:支持与RDB直接交换数据、支持CSV格式数据数据ETL:支持数据清洗、转换、集成等7大类45种ETL数据探索:支持数据统计、变量分析、分布特征探索等数据挖掘算法:支持分类、聚类、关联分析等3大类共15种算法社交网络分析:支持网络特征分析、社团发现和演化、社团展示等支持SaaS服务模式:Web浏览器使用,并可支持应用共享支持丰富的用户UI:
支持Web图形化方式创建数据分析逻辑,支持SQL脚本方式,支持CLI命令行方式支持二次开发:JavaAPI、WebServiceBC-PDM:支持SaaS模式的海量数据并行处理、分析与挖掘系统。适用于经营决策、用户行为分析、精准营销、网络优化、移动互联网等领域的智能数据分析与挖掘应用主要特点并行数据ETL社交网络分析广域网K-V数据库(BC-KVDB)BC-KVDB:根据订购关系存储、用户个人信息存储等应用需求和相关规范,增强系统操作维护功能、优化性能并提高系统可靠性。提供一个高并发、高可扩展的键值对存储系统。数据连续范围分区,类似HBase不依赖DFS,数据直接读写本地多个磁盘QueryCache&BlockCache通过Region数据的多副本,保证数据的高可靠实现多个主节点的互备元数据与用户数据隔离存储实现用户认证和授权SQL数据库(BC-RDB)BC-RDB是基于MySQL的分布式数据库,系统由多个安全组(safegroup)和一个分布式事务管理器组成。采用“两阶段提交协议即2PC”来实现分布式事务“大云”应用案例之一:大数据ETL业务流程现网时间(min)云ETL时间(min)加速比例时间减少绝对值(小时)1465011534.0358.32270015711.7218.88210012931.6213.49180011501.5610.810150012251.224.6114903251.512.8现网3.2天,减少为0.8天节约近2.5天现网90分钟减少为10分钟仅为1/10现网时间(min)云ETL时间(min)MR时间云ETL脚本加速比例时间减少绝对值(小时)流程39010无9.001.3流程413059403.251.5流程56014无4.280.8流程68025无2.500.9流程713047无2.761.9滚详单类出月表类帐详单系统存储数量急剧膨胀,传统架构难以满足当前业务运营要求,系统面临扩容难题“大云”应用案例之二:大数据查询业务采集预处理计算1计算2融合处理HugeTable表2HugeTable表1原始数据消息营业厅系统营业厅1营业厅2营业厅3营业厅4某地市应用,每个月帐详单总体数据量10TB话单通过HTLoad工具批量加载帐详单查询通过SQL或Native
API接口进行复杂分析则通过MR接口进行HugeTable支持数据按照Joinkey预先进行数据划分,减少join过程中数据在节点间的拷贝应用效果:加载:支持数据并行加载,数据加载保证完整性和可靠性;查
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030冰晶石行业发展分析及投资价值研究咨询报告
- 2025-2030公墓管理软件行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030全球及中国零售运营软件行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030全球及中国消费信贷行业市场现状供需分析及市场深度研究发展前景及规划可行性分析研究报告
- 2025-2030全球及中国模块化洁净室系统行业市场现状供需分析及市场深度研究发展前景及规划可行性分析研究报告
- 2025-2030全球及中国智能平台管理接口(IPMI)行业市场现状供需分析及市场深度研究发展前景及规划可行性分析研究报告
- 2025-2030全球及中国数据目录行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030全球及中国干湿两用真空卡车服务行业市场现状供需分析及市场深度研究发展前景及规划可行性分析研究报告
- 2025-2030全球及中国发动机系统市场销售规模及发展趋势前景分析研究报告(-版)
- 2025-2030全球及中国丙泊酚中长链脂肪乳注射液行业市场现状供需分析及投资评估规划分析研究报告
- 男士衬衫工艺制作标准
- 医院扶梯应急预案
- 本科教学工作审核评估教学经费分项整改总结报告
- 债权债务转让三方协议
- 基于泛在电力物联网全过程基建管理智慧工地建设方案
- 2023年陕西省中考历史真题含答案
- 形势与政策(吉林大学)智慧树知到答案章节测试2023年
- 用户中心积分成长值体系需求文档
- 2021商超全年52周企划MD营销销售计划培训课件-96P
- 劳务派遣用工管理办法
- 初中数学人教七年级下册第七章 平面直角坐标系 平面直角坐标系中图形面积的求法PPT
评论
0/150
提交评论