版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、辽宁移动大数据平台方案-交流稿北京天云融创软件技术有限公司7/27/2022天云简介天云公司致力于云计算产品研发、云系统构建、云系统解决方案、大数据解决方案的提供。天云公司专注云计算领域,引入国内外的云计算的顶尖人才。总部设在北京云基地,在中国(包括香港、台湾)16个省市设有分支机构,在北京, 西安以及美国硅谷拥有自己的研发中心,共有核心研发人员:255名,首席云专家:5名。云基地担任云计算事业的先锋角色 :云计算知识产权创新联盟理事单位院士专家工作站科技企业孵化器博士后工作站天云公司客户主要集中于运营商、政府、能源、制造业等行业天云公司运营团队:由具有国际化背景和本地化经验的优秀人才构成,核
2、心成员均为从美国硅谷回国创业人员,曾分别服务于各大国际知名电信和网络运营商及跨国IT企业。公司大事记2010年4月,天云联合趋势科技,在中国移动通信研究院,成功搭建中国移动IaaS PoC平台第一期,实现与大云虚拟化平台对接,为中国移动IaaS业务的商业化运营奠定了基础2010年9月,天云携手趋势、友友天宇,与国网信息通信有限公司一起,创立了中国电力行业第一个“云计算仿真实验室”,共同为智能电网大规模数据处理进行预研和验证,这也是中国第一个产业云;2010年9月,中国科学院与云基地天云公司签署在云计算和移动互联网领域战略合作;2010年12月,天云公司与台湾电信龙头中华电信签署合作备忘录(MO
3、U),双方将致力于两岸云计算服务,云计算解决方案及ICT(信息技术与通信技术)智能产品解决方案展开全面合作。2011年12月,天云公司成功的完成了上海浦东软件园“汇智在线,IT服务云”项目,正式向园区企业提供云计算服务。2012年02月,天云公司中标首信电子商务云项目,以建设北京市级电子政务云平台互联网云,面向电子政务应用系统提供IAAS、PAAS、SAAS各级服务,以推动北京市电子政务向更高层次跃进。2012年05月,天云公司荣获中国通信行业云计算优秀解决方案奖、中国绿色IT服务与外包创新贡献奖。2012年-2013年,天云公司中标北京电视台、黑龙江移动业支云(二期、三期)、广东移动VDC云
4、二期建设、上海移动大数据共享平台、中国联通沃云、浙江移动存储管理平台等一系列云平台、大数据项目。2013年11月,天云软件荣获“2013年最佳云计算平台解决方案奖”,CEO张福波博士荣获“2013年中国行业信息化领军人物奖”天云案例运营商行业云应用落地案例黑龙江移动私有云项目黑龙江移动支撑云项目中国联通沃云-中国联通一级公众服务云项目中国联通云计算战略咨询项目中国电信中小企业云项目北京移动云应用技术服务项目中国移动南方基地云网管咨询项目中国移动南方基地经分Hadoop云项目广东移动VDC一期云平台项目广东移动VDC二期云平台项目广东移动SaaS咨询项目山东电信云平台项目上海移动数据平台项目浙江
5、移动统一存储云平台管理项目重庆移动GPRS话单查询项目行业案例涉及:深圳国家动漫基地云平台项目中国光大银行历史数据查询项目北京电视台云平台项目上海浦东软件园项目北京市电子政务云平台项目目录辽宁移动大数据项目技术需求 大数据平台分层建设方案大数据建设背景资源池规划与落地点探讨大数据平台顶层架构设计附件:案例介绍移动运营商面临的挑战环境变化能力提升,支撑业务规模发展和创新突破架构优化,支撑企业集中化与一体化、专业化的运营与服务数据共享,支撑企业科学决策和精确管理新的要求移动互联网迅速发展企业电子商务化云计算、大数据等新技术兴起跨行业产业链变革业务目标存量经营流量经营集客经营终端销售管理目标质量&服
6、务管理优化企业深化转型三大战略:移动互联网战略,四网协同战略,全业务战略新业务发展国际业务铁通协同数据应用面临的挑战准实时批处理应用非实时批处理应用每次请求处理的数据规模每次请求的处理时长OLTP在线事务处理应用OLAP在线分析应用表示各类系统的技术难点低高高技术难点:每次处理数据规模增大;要求处理完成时间却缩短!Scale OutorScale Up数据规模处理能力?批处理交互式大数据应用分析应用可能性电信政府(公共事业)交通金融医疗教育能源(电力/石油)纵轴契合度:表示该用户的IT应用特点与大数据特性的契合程度;横轴应用可能性:表示该用户出于主客观因素在短期内投资大数据的可能性;注:该位置
7、为分析师访谈的综合印象,为定性分析,图中位置不代表具体数值HighMidLowLowMidHigh优先关注行业用户应用特点与大数据技术有较高的契合度,在主客观条件上也有较高的应用可能性。值得关注行业用户应有特点与大数据的契合度及应用可能性综合较高适当关注行业用户两个维度暂时都不具备优势,可适当给予关注互联网(电子商务)契合度流通零售制造第三代业务支撑系统将向什么方向发展?IT支撑能力持续提升实现BOSS系统集中化改造,构建业务支撑网,支撑“服务与业务领先” 战略形成标准化客户运营和产品运营分离的支撑体系,支撑从“移动通信专家”到“移动信息”专家的转型借助先进的技术,采用基于云计算的新架构等,构
8、建更加高效、开放、灵活的适应移动互联网发展的业务支撑体系,完成一体化运营支撑模式的转变,支撑企业的全业务战略、四网协同战略、移动互联网战略2007201719982012BOSSNGBOSS3rd BOSS主要特征省级集中横向整合、纵向解耦、网状网络?目录 大数据平台分层建设方案大数据建设背景资源池规划与落地点探讨大数据平台顶层架构设计附件:案例介绍辽宁移动大数据项目技术需求项目技术需求建设规模:一期规模考虑数据总容量3.2P, 其中热数据2P,冷数据1.2P集成内容:数据项目选择HADOOP+MPP+RDBMS的模式软件开发与技术要求:需要针对具体数据种类格式等进行相应的软件开发,以实现数据
9、统一导入,对外统一接口,统一查询及开发服务,数据管理,资源分配和系统操作维护支撑等功能实现目标:四网协同、A+Abis、经分wapETL等已有Hadoop架构系统,及经营分析、详单查询、信令类分析系统、网管话单查询、位置类等多个系统利用统一的H+M+R大数据资源池,实现数据的统一管理及高效利用系统架构:采用X86架构,考虑H+M+R 除oracle考虑小机等环境外,H+M考虑规模配置可调,充分满足各种数据存储及分析需求双中心规划:按照公司规划,数据中心要实现浑南、沈北双中心的规划结构,在两个中心分别部署设备和系统,实现重要系统双活,保障生产安全,稳定运行,大数据平台也要考虑在两个中心的分别部署
10、其他:数据管理、工作界面划分、系统管理、维护接口等目录辽宁移动大数据项目技术需求 大数据平台分层建设方案大数据建设背景资源池规划与落地点探讨附件:案例介绍大数据平台顶层架构设计传统的数据仓库的架构数据源抽取、转换、加载业务数据集市企业数据仓库ETL元数据前端分析展现工具查询工具、应用OLTP传统数据仓库在大数据时代面临的挑战:成本居高不下,以Scale Up为主数据量,以GBTB为主扩展能力拥有成本处理数据的能力数据共享能力天云新一代数据平台定义企业数据平台是指建立在数据仓库与数据仓库之上的决策分析应用,应包括数据源、数据ETL、ODS数据库、数据仓库、数据集市、商务智能应用、数据管理等功能。
11、数据平台应该具备常见数据的处理与管理能力,具备对结构化、半结构化、非结构化等数据的处理能力,同时支持RDB、MPP、NoSQL,同时具备数据的通用管理能力,以数据为中心进行平台建设。数据平台数据平台在接口层要丰富又简单,可以提供各种应用所需接口,最大程度匹配已有接口,对应用改动需求力求最低。数据平台数据管理能力至少应包含:1.元数据管理,2.数据质量管理,3.数据安全管理,4.数据可视化管理,5.数据生命周期管理。数据平台必须针对数据提供完整方案,同时兼顾应用接口、其他平台接入,系统管理、系统调度等功能。任何一种单一技术都难以适应数据平台数据采集、存储、处理和对外服务的需求,多种技术并存才是发
12、展趋势。采集处理层数据抽取/加载/检查ETL调度数据交互、转换数据映射数据层数据存储数据聚合服务数据处理服务数据查询服务事件通知服务信息子层KPI报表统一视图知识库接口层服务管理资料类数据服务指标类数据服务配置类数据服务清单累数据服务日志类数据服务OPEN API数据管理功能数据生命周期管理数据可视化管理数据质量管理采集层数据质量管理数据质量规则、知识库数据质量稽核指标运维数据安全管理4A认证隐私信息保护权限管控、审计追踪元数据管理元数据获取管理元数据存储与模型管理元数据分析、展现、服务技术、业务元数据管理ODW-RDBODW-MPP分布式文件系统分布式关系数据库分布式计算数据分发同步处理用户
13、管理权限管理备份与恢复日志管理设备监控指标资源池指标数据库指标分布式系统指标指标汇总存储管理资源池管理设备管理作业调度管理事件自动化规则配置执行引擎性能预警调度异常控制北向接口管理数据采集接口管理数据共享配置通用接口配置平台管理功能数据服务功能综合分析系统A+ABIS应用无线网优综合监控系统信令监测系统日志上层应用其他应用大数据平台建设的功能层次需求数据服务接口业务协同数据查询服务、分析服务数据仓库、数据集市数据交换数据处理清洗、转换、加载异构数据源海量数据存储结构化与非结构化数据数据应用数据服务数据共享数据整合数据集中数据源数据源数据源数据源数据源大数据平台数据集中: 结构化/非结构化数据的
14、统一存储,“存得下” 节约存储成本,“存得起” 分布式存储架构,提高灵活性与可扩展性数据整合: 消除异构数据源的混杂性 采用云计算架构,提升处理速度与能力数据共享: 消除“数据孤岛”,实现系统间的数据交换与共享数据服务: 数据即服务,多类标准化的服务接口更易使用顶层架构平台逻辑架构数据源数据处理域半结构/非结构化数据流式数据结构化数据运行数据库(Oracle)数据存储域基础数据服务数据聚合服务数据处理服务数据查询服务事件通知服务分析挖掘数据库(MPP)分布式文件系统分布式计算框架非关系数据库NoSQL统一ETL管理传统技术ETLHadoopETL流式计算ETL数据分发同步处理话单业务类信令类网
15、管类数据集市A数据集市B数据集市C元数据管理元数据应用元数据服务封装元数据分析展现元数据基础管理元数据存储元数据获取平台管理接口管理调度管理监控管理数据质量管理新数据源稽核数据质量监控数据质量评估数据质量配置管理数据质量两级联动数据质量问题处理安全管理4A认证安全服务调用隐私管理审计追踪生命周期管理入库存储数据清理数据管理域ESB数据服务总线(webservice)应用层接口服务域资料类数据服务指标类数据服务清单类数据服务日志类数据服务事件类数据服务配置类数据服务查询类应用统计类应用分析类应用Open API审计类应用客服投诉综合监控无线网优经营分析客户感知数据门户域数据管理门户系统管理域大数
16、据平台建设的最终目标X86服务器 数据抽取转换ETL数据管理流式计算非关系数据库数据平台服务DAASBI展现及分析挖掘服务PAASESBAPP1创新应用应用层数据库个性化应用APP2应用层数据库个性化应用APP3应用层数据库个性化应用个性化应用OpenAPI完善数据平台功能,实现数据平台服务DAAS和BI展现及分析挖掘服务P所有信运基础服务和网运基础服务基于数据平台服务实现引入第三方基于基于OpenAPI的创新服务开发模式,优化管理新应用开发和上线运营信运基础服务网运基础服务 关系数据库分布式计算数据管理平台扩展 / 集成 / 管理 / 调度 / 维护 / 自动化 数据流 / 分布存储 / 数
17、据保护 / 管理视图数据平台引入大数据的意义与原则随着半结构化、非结构化数据、互联网数据等新型数据源的引入以及分析需求对分析深度和广度的增加,以移动运营商行业为例,越来越需要大数据。主要包括如下:1、数据规模方面:GPRS流量话单的条数和数据量已经超过了语音详单,而位置信令、Gn信令、客服语音、互联网外部数据等规模更大,且还处在不断增长的趋势。2、数据类型方面:逐步从OLTP系统中获得的结构化数据,过渡到结构化数据和互联网网页、上网日志等非结构化数据和半结构化数据共存。3、对数据的使用方面:不仅有批量的数据加工和前台界面的访问,临时统计、数据挖掘等访问需求也逐步增多。对历史明细数据的访问增多。
18、对数据访问的及时性增强。随着数据平台越来越具备大数据平台的特征,利用传统的单一数据仓库技术就难以满足高效低成本的需求,需要引入相应的大数据技术。新技术的引入不能影响原有的使用感知,需要按照分阶段逐步引入的方式。可以参考如下的几个引入原则:1、先增量后存量。现有的数据处理系统引入大数据处理技术,面临着模型改造、流程改造等一系列的问题,可以首先在新上线应用引入大数据处理技术。2、先边缘后核心。对于原有功能的迁移,可以先迁移非关键的应用。这些应用不涉及到关键生产任务,可以忍受数据处理延迟和故障修复时间较高等可能出现的风险。3、先简单后复杂。数据处理逻辑较简单的应用也可以首先尝试引入大数据处理技术,降
19、低实施的复杂度,积累运维经验。通过在大数据处理技术的规划、实施及运维过程中积累经验及教训,不断提升和完善大数据技术的应用水平,逐步拓展大数据技术应用领域。大数据在数据平台的应用场景大数据技术可以应用在以下场景(包括但不限于):1、原数据仓库底层结构化数据处理(ETL或ELT)。底层结构化数据处理计算任务重但复杂性不高,不涉及多表关联,适合引入大数据技术实现高效低成本。例如:对运营商的清单(语音详单、GPRS清单、WLAN清单等)的清洗、转换、汇总等。2、半结构和非结构数据处理与分析。例如对上网日志、网络信令、客服语音等数据的处理和分析,这些数据难以利用传统数据仓库技术进行处理和分析。3、数据集
20、市。地数据集市应用较为独立,且对可靠性的要求并不是十分严格,适合作为引入大数据技术形成资源池,以移动运营商为例,可实现各地市、各部门数据集市的云化、池化和虚拟化,最终实现资源动态调配,达到高效低成本。4、数据仓库数据分级存储。对低价值的细节数据以及长周期的历史数据(冷数据)访问频率较低,也能容忍相对较长的响应时间,可以存储在成本更低的平台上。5、数据挖掘。某些数据挖掘设计长周期的数据,计算时间很长(数天),占用很多数据仓库资源。还有一些数据挖掘算法超出了关系代数计算范畴,需要抽取数据到独立的计算平台(例如SAS统计分析系统)中进行计算。这些数据挖掘任务可以迁移到大数据平台之上进行计算。例如交往
21、圈的计算,因其仅涉及单一数据,但数据量非常大,且需要多次迭代计算。6、对外查询。数据平台不仅仅是数据处理,也需要将数据处理的结果对外提供查询,而这些查询一部分是海量的OLAP性质的查询,另外还有一部分OLTP性质的查询,即数量众多但每次查询量较少的。比如数据平台前端库、与生产系统互动的数据库以及提供流量详单查询的数据库。这些查询任务不能很好地运行在OLAP类数据库之上,可以迁移到大数据平台上。针对这些应用场景,可以看到,主要需要引入的是Hadoop和MPP技术,然后逐步考虑NoSQL、流计算和内存计算等技术的引入。Hadoop技术与MPP技术的比较HadoopMPP 传统数据仓库平台开放性高低
22、低运维复杂度高,与运维人员能力相关中中扩展能力高中低拥有成本低中高系统和数据管理成本高中中应用开发维护成本高中中SQL支持低高高数据规模PB级别部分PBTB级别计算性能对非关系型操作效率高对关系型操作效率高对关系型操作效率中数据结构结构化、半结构化和非结构数据结构化数据结构化数据Hadoop 在处理非结构数据和半结构数据上具备优势,尤其适合海量数据批处理等应用需求。当然随着Hadoop技术的成熟,基于Hadoop的即席查询技术也逐渐崭露头角。比如仿照Dremel的开源项目Apache Drill以及Cloudera Impala。MPP适合替代现有关系数据结构下的大数据处理,具有较高的效率,但
23、其在大规模集群(超过100个节点)下的可用性还有待试点证实。MPP数据库场景下经常需要扫描大量的数据,所以对磁盘存储系统的I/O性能要求非常高,在测试和日常运行中,I/O多大情况下是瓶颈,这点与Hadoop平台可以明显区分开来。目录辽宁移动大数据项目技术需求大数据建设背景资源池规划与落地点探讨附件:案例介绍大数据平台顶层架构设计 大数据平台分层建设方案大数据平台分层描述-数据采集、ETL层半结构化数据与海量半结构化数据非结构化数据与流式数据结构化数据常规ETL处理实时或准实时ETL处理采集层处理层传统技术ETL流式计算ETL海量数据ETL处理Hadoop ETLETL可视化管理统一ETL调度数
24、据采集根据需要进行数据采集,采集的数据包括结构化数据、半结构化数据、海量半结构化数据、非结构化数据以及流式数据数据处理根据数据结构特征分类,可分为结构化和半结构化数据以及非结构化数据。结构化数据主要采用传统ETL,半结构化以及非结构化数据主要采用Hadoop ETL;根据数据量级分类,分为海量数据和常规量级数据。海量数据主要包括话单、信令数据,采用Hadoop ETL处理;根据采用技术分类,分为常规技术ETL、Hadoop ETL和流式计算ETL。Hadoop主要处理海量数据和准实时需求数据,流式计算处理有实时需求的数据如实时营销需要的信令触点;根据处理时效分类,分为常规ETL,准实时ETL和
25、实时ETL。其中实时和准实时处理主要处理网管和信令数据。目的:对公司各项数据(经分、话单、业务类、信令类、网管类、财务类、企划类等)进行整合,整合到大数据存储平台;数据采集/ETL技术架构数据采集通过智能数据采集适配器,轻松支持各种数据源的接入,如FTP/SFTP、DB、Webservice,Scoket等数据处理数据ETL支持传统ETL、云化(Hadoop)ETL、流式ETL通过元数据可以定制ETL,对ETL流程进行实时监控全程ETL数据质量监控和管理大数据平台分层描述-数据存储层关系数据库(RDB)基础数据服务数据聚合服务数据处理引擎数据查询服务数据分发同步处理工具事件通知服务分布式关系数
26、据库(GBase)数据层处理规则管理分析引擎数据存储传统关系型数据库主要存储结构化数据;分布式关系数据主要存储对复杂数据的进行多表关联分析需要的从主库各表聚合的数据;分布式文件系统HDFS主要存储海量半结构化数据;分布式非关系数据库HBase主要存储海量原始数据经过ETL的汇总数据,主要用于海量数据查询和简单分析应用基础数据服务数据分发同步工具支持在各种不同存储间进行数据的交换、同步、分发;处理规则管理和数据处理引擎提供不同存储中的数据根据业务需求进行数据组合,转换,处理能力的支持;分析引擎主要支持业务分析,提供基础工具,算法等;数据聚合服务主要提供各种不同场景需要的数据集市和数据集市的构建数
27、据查询服务对上层业务提供灵活的数据查询,屏蔽下层不同存储处理方式的查询事件通知服务提供业务所需的实时事件通知,数据订阅通知等同时完成:对各项数据进行梳理,形成高效数据索引规范,便于数据查找、整合;分布式文件系统分布式计算系统分布式非关系数据库天云Hadoop体系架构1.处理客户端请求2.启动/监控ApplicationMaster3.监控NodeManager4.资源分配与调度1.单个节点的资源管理2.处理来自ResourceManager的命令3.处理来自ApplictionMaster的命令Container中封装了机器资源,每个任务会被分配一个容器,该任务只能在该容器中运行,并使用该容器
28、封装的资源。1.数据切分2.为应用申请资源,并分配给内部任务3.任务监控与容错部署在NameNode部署在DataNodeHadoop分布式文件系统设计目标错误检测和快速自动恢复; -硬件故障是常态而非异常支持大数据集 -单个文件大小有数GB或者TB -提供高聚合宽带访问 -可以扩展至数千个节点简化的一致性模型:一次写、多次读移动计算比移动数据更便宜;主要特点使用低成本存储和服务器构建;存放PB级的海量数据;高扩展性,实际生产环境中可以扩充到4000个节点;高可靠性和高容错性,提供7*24小时不间断服务,数据自动复制,可自我修复高带宽,高并发访问Hadoop MapReduce为离线数据分析而
29、设计,基本上是个利用数据并行性进行分布运算而后汇总结果的计算框架 分析问题能够被并行化,且输入数据集可以被切分 一个Map函数,在第一阶段计算对 一个Reduce函数,在第二阶段用于汇总Map函数的结果HBase分布式数据库HBase是一个分布式的、按列存储的、多维表结构的实时数据库, 为高速在线数据服务而设计表: (行,列族,列名,版本名) 值主要特点 NoSQL 面向列、可压缩,有效降低磁盘I/O,提高利用率。 多维表,四个维度,其中三个维度可变,适合描述复杂嵌套关系。 灵活的表结构,可动态改变和增加(包括行、列和时间戳)。 支持单行的ACID事务处理 分布式系统 高性能,支持高速并发写入
30、和高并发查询; 可扩展,数据自动切分和分布,可动态扩容,无需停机; 高可用性,建立在HDFS分布式文件系统之上Hbase配置建议Rowkey设计:HBase表的rowkey设计,一般是将关系数据库中的候选key拼接形成。但是要注意热点问题,比如rowkey开始的几位是时间排序,那么在插入的时候,最近几天的数据很可能是热点数据,这样所有的查询可能都指向了一个region server导致了HBase的性能瓶颈。尽量避免使用单调递增的rowkey,因为在添加数据的时候,所有的新数据都添加到最后一个region,前面的region没有或者很少有请求,也是热点问题。热点问题的处理方式一般是加盐,即在r
31、owkey前面添加hash数,来对数据进行hash划分。列簇设计:HBase表的Column Family最好少于4,一般少于3,对于一般数据放入一个列簇中即可。对于一些强关联,频繁访问的数据可以放一列,这样在取数据时,热点访问只用取这一列数据,可以节省IO。多个列簇有各自memstore,memstore 开销大,而且flush一个列簇,其他的类簇也会flush,会造成不必要的开销。Region划分:HBase在导入大量数据前最好预先划分region,这样可以加快导入效率。同时也要避免使用HBase自动划分region,在一种情况下,HBase面临大量写入或者scan请求,同时它的regio
32、n中的数据又达到了阀值,那么它会启动自动划分region,有可能导致region划分风暴,大量的请求会使region server和name node的压力过大而导致region dead或者name node dead。TTL设计:TTL(time to live),它一般可以用来控制数据的生存时间。一些数据比如客户几年以前的数据,几年以后已经不关心这些数据,可以使用TTL删除。如果数据没有这些要求,可以不使用。Hive数据仓库Hive是一个建立在hadoop之上的数据仓库,用于查询和分析结构化海量数据 采用HDFS进行数据存储 采用Map/Reduce基本特点: 提供类似于SQL的查询语言
33、 高扩展性(scale-out),动态扩容无须停机 针对海量数据的高性能查询和分析系统 提供灵活的扩展性复杂数据类型,扩展函数和脚本等数据平台透明访问HADOOP+MPP+RDB的混搭架构在解决大数据处理问题的同时也加大了上层应用的数据访问复杂度。主要问题体现在:多种数据实例:数据可能分布在关系型数据库、Hadoop分布式计算集群以及HBase库中。多种访问接口:不同类型的数据实例的技术实现方式差异大,如关系型数据提供了标准SQL,Hadoop、HBase提供开放API或Hive方式访问,这同样对上层访问增加了难度。跨数据实例的数据计算:不同类型的数据实例的底层数据存储结构不同,如关系型数据库
34、存储结构化数据,而Hadoop计算集群多存储半结构化数据,如果需要涉及到两种类型数据实例中的数据关联(join)计算,目前还难以直接实现,需要做一系列数据互通调度,然后在单实例上完成关联计算,整个过程复杂度高、工作量大。针对目前出现的这些问题,可以考虑构建数据透明访问能力。也就是提供统一的数据访问接口,对上层屏蔽底层数据处理实现细节,提升上层应用的开发效率。主要需要解决两个方面的问题:1、通过统一的语言或服务接口访问到不同的数据库实例,包括数据查询、数据处理操作等。2、针对跨数据实例的数据互通、关联操作等,可以通过统一的的语言、服务接口或管理工具等技术来实现。3、通过ESB封装数据服务,通过消
35、息路由进行访问呢大数据平台分层描述-大数据平台数据接口及服务事件类数据服务数据交换及应用接口服务数据交换提供独立、可重用的业务数据服务,所有数据服务通过ESB对外提供服务接口,同时为其他服务提供支持ESB需支持多种业务接口,比如MQ、Socket、SOAP、FTP、HTTP、JDBC/ODBC等应用层提供对第三方开发的Open API服务及其他各种应用, 应用使用接口层提供的各种数据服务;其中分析类应用可以使用独立的关系数据库来复杂的关联分析目的:实现大数据平台对外提供统一查询接口,便于数据进行并发的高速查询、提取;客户关系应用数据呈现应用指标监控类应用业务分析应用Open API质量保障应用
36、综合经营分析资料类数据服务指标类数据服务清单类数据服务配置类数据服务日志类数据服务数据总线性能类数据服务信令类数据服务ESB介绍功能丰富的协议适配器较强的数据格式转换能力简单易用的服务流程开发工具支持平台扩展的二次开发能力支持安全可靠的消息传输支持服务的动态部署、在线升级支持平台运行参数热生效支持服务调用记录的测量、监控和统计支持多级互联分布式部署技术特点基于高度可扩展的系统架构,具备热插件机制。支撑跨系统、跨编程语言的系统通讯。基于面向流程的服务集成思想。丰富的适配器并支持自定义适配器简单易用的自定义路由策略。基于无状态消息传输机制,高度支持平台横向扩展。支持业内标准通信技术、协议和标准,包
37、括Http(s),WebService,(S)FTP,TCP(s)等。支持同步和异步消息传递大数据平台分层描述-数据管理域数据管理元数据管理符合CWM规范及中国移动元数据管理技术规范元数据采集元模型管库可视化建模血缘分析一致性分析数据地图数据可视化元数据统计分析数据安全管理与4A系统对接,提供对应用、数据权限定义和支持,做到事前可管,事中可控、事后可查做到数据隐私保护对数据行为进行审计跟踪数据质量管理支持数据质量规则定义、数据质量监控预警、数据质量分析、数据质量报告、数据质量评估、数据质量问题处理、图形化指标运维等数据生命周期管理根据数据价值根据时间推移的演化关系,提供对数据的高效、低成本、安
38、全、访问便捷的管理架构元数据管理元数据应用元数据服务封装元数据分析展现元数据基础管理元数据存储元数据获取数据质量管理新数据源稽核数据质量监控数据质量评估数据质量配置管理数据质量两级联动数据质量问题处理数据安全管理4A认证安全服务调用隐私管理审计追踪生命周期管理入库存储数据清理数据管理域大数据平台分层描述-系统管理域Hadoop分布式文件系统统一ETL处理主库(RDB)数据层处理层传统技术ETLHadoopETL流式计算ETLHadoop 分布式非关系数据库系统管理平台应用管理平台接口管理数据管理指标监控平台管理系统调度管理以两库数据调度为例数据共享管理平台发起两库数据调度请求经分主库准备历史数
39、据,统一ETL调度层通过JDBC连接经分主库,根据分布式共享系统计算资源池根据输入条件,生成一个map-reduce的作业,进行历史数据传输,完成数据传输,返回传输结果。数据管理平台判断是否完成数据调度12345调度步骤Hadoop 分布式计算系统天云数据平台系统集成在引入Hadoop和MPP数据库后,数据平台建设将会在现有传统数据仓库平台与新技术之间形成混搭。经典数据仓库中的One Single View of Truth将难以维持。主要会面临如下的问题:数据互通:数据需要跨Hadoop和多个数据库进行交互,如何实现高效的数据同步或数据调用?透明访问:是否有必要对上层应用屏蔽底层不同数据平台
40、的细节,提供统一的数据访问方式?统一管理:如何进行多套数据平台的元数据、数据质量管理,如何实现统一的调度和运维监控?数据互通机制是多个数据库与Hadoop之间的桥梁。通过数据互通,我们可以将数据快速从一个平台迁移到另外一个平台或从一个平台方便地访问另外一个平台中的数据。数据互通机制的主要难点是要保障数据在两个平台间流转时的高效性和可靠性。数据平台系统互通的建议实现数据互通机制有2种方法:数据同步、数据调用数据同步:数据同步的主要是实现数据库与Hadoop之间双向数据复制功能,数据同步的目的包括这些的场景:不同系统上的数据需要进行关联分析、数据生命周期管理要求进行数据归档或备份、ETL分节点部署
41、需要同步数据等。可以采取如下数据同步方案:在Hadoop端发起的双向数据同步在数据库端发起的双向数据同步在第三方发起的双向数据同步数据调用:数据调用指的是:不移动数据,通过接口调用实现对另外一个平台上数据的访问,被调用平台承担运算任务。数据调用方法根据调用方的不同,又分为“从数据库侧调用Hadoop数据”及“从Hadoop侧调用数据库数据”两种情况。数据调用方法适用的场景原则:低频度(如:每月/季度/年一次)或临时(如:临时访问5次以下)需要使用其他平台中存储的数据。数据平台互通的技术实现连接器方式通过设计专用的软件或硬件连接器模块,实现数据库与Hadoop之间高速的数据传输,其一般具备以下特
42、点:双向连接器并行连接数据库节点到的Hadoop数据节点支持UTF-8编码和常见的数据类型通过动态工作负载管理的资源控制融合系统中的角色/用户提供认证为数据库域提供的数据节点,主要实现以下按照源表进行任务分工,可以为表间并行以及表内并行建立分区、索引及装载,根据分区原则以及索引等策略,装载节点将数据直接发送给相应的MPP数据库节点上 通过连接器的方式,可以实现数据库与Hadoop系统之间的高速和可靠的数据互通,非常适合数据同步的计算场景。外部表方式:数据库可以通过外部表的方式,直接访问存储在HDFS上的文件。在使用外部表时,数据库可以像访问内部数据一样,将文件当作表insert到数据库内其他表
43、中,或将HDFS上的文件和数据库内的表进行关联操作。同时也可以将RDBMS内的数据,通过外部表的形式,写入到HDFS上去。例如如下操作:Select count(*) from HDFS_data h, RDBMS_data g where h.key = g.key;Insert into HDFS_data select * from RDBMS_data;目前天云平台集成的数据互通工具工具HadoopAsterDataSQL-MapreduceGreenPlumHDFS-GreenPlumVerticaVertica-Hadoop集成适配器InfiniteDB双向对接SQL Server
44、HortonWorkIBM NetezzaHadoop-NetezzaTeradataTD-Hadoop适配器OracleOraHive OraOopSybaseSybase IQ15.4开始集成双中心规划形成大数据数据备份浑南数据中心江北数据中心在分布式文件存储层,采取DistCP方式:DistCP方式可以将一个分布式文件系统(集群)里的某个目录拷贝到另一个分布式文件系统(集群)。DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。在分布式非关系型数据库层,采取Hbase Replication方式大数据平台建设讨论工作界面划分?大数据平台维护人员如何设置?接口维护?天云大数
45、据平台亮点一句话定位:天云数据平台=“传统”+“现代”数据平台集大成者。传统=传统数据仓库/RDBMS,是基于传统基于结构化数据处理的关系型数据(仓)库,以Scale Up为特点现代=基于关系代数理论的MPP + Hadoop技术,以分布式处理为基础,以Scale out为特点,可处理海量数据适用场景:运营商跨域数据融合,智慧城市,智慧省份解决方案,公安,医疗等。放眼未来,更好支撑运营商互联网转型,更好的支撑数据黄金资源时代的到来。目录辽宁移动大数据项目技术需求大数据建设背景附件:案例介绍大数据平台顶层架构设计 大数据平台分层建设方案资源池规划与落地点探讨数据中心平台选型依据平台的选型首先要进
46、行规模评估,确定数据中心的容量;其次要进行需求评估,主要包括线性扩展、成本、稳定性、性能、运维等评估,据此选取合适的存储平台技术;最后,依据规模、需求评估,导出容量评估,确定建设方式,机房选址、服务器、存储、网络等物理资源规划。规模评估思路数据量(T)账单类数据指标类数据投诉类数据原始数据 首先针对汕头移动目前数据现状进行梳理,并进行标签分类,比如账单类数据、指标类数据、投诉类数据、原始数据等,如下图中的横坐标表示;其次针对梳理出来的数据类型,进行数据量统计,获取每种类型的数据量;再次,针对数据种类,依据数据增长趋势,进行数据量增长预测,确定数据中心平台未来一段时间内所需的规模。数据类型日增长
47、量(M)月增长量(M)年增长量(T)加权年增长量(T)账单类数据指标类数据投诉类数据原始数据其他类型数据示例需求评估、容量评估思路依据规模、需求评估,导出所需物理资源数量,确定建设方式,机房选址、服务器、存储、网络等物理资源规划;依据关系型数据库(以Oracle为例)容量情况,MPP分布式数据库容量情况(GreenPlum为例),分布式Hadoop系统容量情况,推出所需的服务器、存储、网络等物理资源数量;依据物理资源数量,导出所需的机房资源,包括机房面积、承重、电力、空调、维护人员等。示例共享平台Hadoop资源池服务器选型建议项目主节点配置建议数据处理(MR/hive)的数据节点数据查询(H
48、Base)的数据节点,可以与数据处理的数据节点合设zk节点CPU个数及核心数2路8核以上2路8核以上,如果压缩数据或者处理比较复杂,可以考虑更多路多核的2路6核以上2路8核以上硬盘数硬盘数可以不同太多,4-6块6、8或者12块,数据处理时IO一般不是瓶颈,但更多的磁盘可以存储更多的数据6、8或者12块,取决于存储量(主要靠缓存)硬盘数2-4块内存128G或更高48G或更高64G或更高,太高GC可能成为负担48G或更高网络双口万兆或千兆网卡双口万兆或千兆网卡,主要影响装载速度和节点间数据交换效率双口千兆网卡双口万兆或千兆网卡,对网络延时有高要求,如果可以,建议单独设立奇数个集群,3-5个如果执行
49、MapReduce,特别是在压缩文件上执行,其对CPU的消耗较高,CPU成为了瓶颈;而在运行Hbase的时候,更多的内存会缓存更多的数据,提高查询吞吐率并缩短响应时间。内存的选择:通常情况下,Hadoop处理任务每个CPU逻辑核(指超线程下,一般一个核对应两个逻辑核)对应2G内存即可。CPU的选择:实测表明:Hadoop处理性能与CPU性能密切相关,任务运行时间与SPEC值基本成反比关系,因此应该选择性能较高的CPU。服务器类型:一般的Hadoop项目选择2U的机架式服务器,试点中有公司选择了多节点服务器(2U四节点),也应用得比较好。服务器配置列表存储计算机器配置如下:CPU2*8核至强处理
50、器内存48-64G硬盘2T * 12,7200转网卡2 * 万兆接口 / 2 *千兆接口产品结构2U产品类型机架式管理节点服务器CPU2*8核至强处理器内存64-128G硬盘1T * 4(RIAD0)网卡2 * 万兆接口/ 2 * 千兆接口产品结构2U产品类型机架式CPU2*8核至强处理器内存8-16G硬盘2T * 12,5400转网卡2 * 万兆接口 / 2 *千兆接口产品结构2U产品类型机架式共享平台Hadoop组网建议主要关注点:节点与机架交换机使用L2连接。机架交换机与核心交换机使用L3连接。机架内部通讯延迟低于跨机架时延(Hadoop默认策略)。交换机 oversubscriptio
51、n(入出率)比率建议2.5:1(不能高于交换机最高值)。核心交换机与Rack数相关,Rack数量与核心交换机数量和端口数成正比,但交换机不应太多,会降低机架上传带宽。机架交换机方式的机柜交换机的上行链路会成为瓶颈,交换机数量多,设备管理复杂性增加。在核心交换机端口紧张情况下,可以从机架交换机接入外部网关,提供集群外部访问能力。共享平台MPP软硬件选型建议对比项目TeradataEMC南大通用IBMHPAster DataGreenPlumGBase 8ADB2 DPF Over GPFSVertica无共享MPP架构-无主控节点*无共享MPP架构-有主控节点支持行存储支持列存储(10.5版本发
52、布后)当前构建在X86平台上的新型MPP数据库产品众多,Garnter每年会发布一版数据仓库魔力象限可以供参考。在大陆地区可以获得技术支持的MPP产品及其特性如下不同架构的数据仓库各有优缺点。比如带主控节点(Master)的数据库会存在单点故障,但各节点分工明确;无主控节点的数据库不存在单点故障,但可能某各节点承担的任务不平均。行存储装载数据快、压缩率低、查询速度稍慢;列存储装载数据慢、压缩率高、查询速度快,但部分产品的列存储方式无法支持更新、删除数据。所以建议在引入MPP数据库前各公司应该根据预期的应用场景编写测试案例,用去隐私的实际数据作为测试数据,对可选的MPP产品进行评估,然后确定最适
53、合自身场景的产品。其数据节点一般按照如下要求来配置:CPU核数、内存(G)和磁盘个数的配比:一般情况下为1:8:1或1:8:2。同等情况下磁盘个数越多性能越高,但磁盘总个数受机架式服务器的空间限制,一般为12(3.5寸)到16个(2.5寸),少部分非集采服务器更多。磁盘:为了获得高可靠、高读写带宽和高IOPS,应选用SAS接口的企业级硬盘,转数一万及以上。RAID卡:虽然MPP数据库大多通过副本的机制来保证某个节点故障情况下的高可用,但是代价高:大部分数据库故障情况下当前应用需要中断,少部分数据库还需要重启来应对故障;且故障情况下理论的效率要下降50%而不是按故障节点比例下降。所以在选择硬件平
54、台的时候要有限选择高可靠的硬件,比如电源,更比如RAID卡。一般将通过RAID卡的PCI-E接口连接到主机上,通过RAID10或RAID5来保证单个磁盘出错不会触发节点故障。这点也与Hadoop明显区分出来。MPP组网建议MPP数据库中运算的特点是多节点并发计算,其间可能会出现节点间的装载、数据重分布、复制或数据广播(如非分区键关联等操作),最后各节点运算结果数据汇总,所以节点间互连网络的速度(包括带宽和时延)会直接影响到计算效率的高低,这就使得MPP数据库的架构会对内部互连网络有较高的要求。因此MPP数据库内部交换网络需要保证点到点的万兆以太网带宽,MPP数据库对网络的要求也与Hadoop有
55、较大差别。因此每台机器至少需要配置两个网口(当然配备两个的大多数原因是为了保证高可用,而不是绑定在一起负荷分担),推荐使用IB网卡(但是这种情况下,要注意PCI-E的版本应3.0以上才能和网卡速度匹配)或万兆网卡和交换机以保证内部数据高速传输。用于数据加载的ETL服务器也应处于内部网络内以保证大数据量的加载性能。为了实现点对点的万兆速度保障,在超过一个机柜的情况下,一般还需要通过核心交换机来实现FLAT TREE方式的一比一收敛,参见之前Hadoop的组网章节。目录辽宁移动大数据项目技术需求大数据建设背景附件:案例介绍大数据平台顶层架构设计 大数据平台分层建设方案资源池规划与落地点探讨案例1-
56、中国移动南方基地经分Hadoop云系统客户:中国移动南方基地 上线功能:目前已经上线的模块有数据清洗、转换、汇总模块、URL地址抓取模块、用户上网行为分析模块和网页分类模块,平台管理模块、权限控制模块和词库管理模块等。具体功能包括行业应用、行为分析、网页分类、抓取管理、词库管理、数据查询、平台部署、集群监控、异常预警、权限控制。目前系统稳定运行。经分Hadoop云系统项目背景:移动互联网如此普及的今天,因为以基于CDR为主的客户行为分析可能缺失了大量的客户行为有效信息。例如,两个通话行为相似的人可能是完全不同类型的客户,如果将之同等对待,客户的接受度必然很差,浪费大量资源,并且无法取得良好的效果。用户的上网行为中蕴含着大量的客户特征和客户需求信息,这些信息至关重要,而又是传统的CDR话单分析所不能提供的,因此对用户上网的内容进行解析对电信运营商实现精细化运营提供重要的营销依据,是泛互联网化精准营销的基础。功能实现: 项目基于Hadoop架构进行开发
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年螨无踪农药项目可行性研究报告
- 2024年白板刷项目可行性研究报告
- 2024至2030年中国野营炉行业投资前景及策略咨询研究报告
- 职业技能培训合同条款解析
- 法院与国际组织合作合同宣传方案
- 电力公司购售电合同审查
- 商业综合体结构加固施工合同
- 大型活动亮化工程合同
- 化验室人员培训管理制度
- 疫情时期零售店租金减免协议书
- 安全风险分级管控清单
- OBE理念与人才培养方案制定PPT课件
- 离任审计工作方案 样稿
- 四大名著称四大小说三国演义西游记水浒传红楼梦中国古典章回小说PPT资料课件
- 港珠澳大桥项目管理案例分析PPT课件
- 员工入职体检表
- GB∕T 12810-2021 实验室玻璃仪器 玻璃量器的容量校准和使用方法
- 一般跨越架搭设施工方案
- 小学体育《网球传统正手击球的原地抛球击球技术》教案
- RPG游戏概要设计文档
- 水泥混凝土路面施工验收规范(完整版)
评论
0/150
提交评论