




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、电信业务数据仓库前置系统项目方案目录1.项目背景21.1项目建设的可行性:22.项目需求:32.1.数据来源:32.2.数据量:32.3.本期重点用户:33.Greenplum解决方案:33.1.总体方案概述:33.1.1.项目投入可控:43.1.2.性能满足要求及后续扩展:43.1.3.功能满足要求:43.1.4.与现有技术并存:53.1.5.工作量可控:53.2.系统软硬件平台架构:53.3软件选型:63.3.1.选型标准:63.3.2.Greenplum软件:63.4.Greenplum技术架构:73.5.Greenplum性能说明:123.6.Greenplum管理维护:153.7.G
2、reenplum案例:173.7.1.华泰保险:173.7.2.中信银行:183.7.3.eBay:193.7.4.NYSE:204.项目实施方案:214.1.项目组组成:214.2.项目建设原则:214.3.项目实施内容:215.数据仓库前置系统后期展望:225.1.项目预期效果:225.2.数据集市项目后期展望:221.项目背景移动通信行业竞争日趋激烈的今天,如何通过高效费比EDI,实现精细化运营和精细化营销是通信运营商提升核心竞争力的关键所在。因此,总部领导希望在现有成熟可靠的技术条件下,通过可控的资金投入,逐步实现全网经分这一宏伟目标。以现有网络技术条件,把各省公司经营的明细数据直接上
3、传到总部实现难度较大,且投入巨大。而如果以现有省经分系统为基础,上传数据,又面临数据加工过多,可能无法反应运营的实际情况,容易导致决策层产生错误判断等问题。所以,目前可行的方式是实现省级数据仓库前置系统,实现省级数据仓库前置系统是实现全网经分这一宏伟目标的关键基础。1.1项目建设的可行性:· 技术条件成熟: 以现有网络技术条件,可以满足及时把各省公司经营的明细数据进行初步汇总后直接上传到总部,并且实现分析数据源单一化的目标。· 投入费用可控: 通过多方比较,以及考察了大量的实际案例。目前国内主流的几种BI数据库方案:Greenplum、Teradata、DB2、Oracle
4、等,架构最先进,性价比和扩展性最好的是Greeplum方案,其硬件采购成本非常低而且支持线性扩展和硬件利旧。相同规模的数据量下,Greenplum的项目投入是Teradata的20%,DB2的30%,Oracle的35%。所以从投资成本来看,采用Greenplum方案价格可控,风险可控,其投资回报率(ROI)是最高的。· 选型测试充分:为了保证充分了解Greenplum的性能和功能,除了考察行业内外相关的案例和资料外,Greenplum为现场模拟测试做好充分准备,在北方6省某省公司进行试点。2.项目需求: 省级数据仓库前置系统要求快速导入各业务系统数据后,进行轻度汇总后,提供给总部经
5、分系统和省级经分系统。作为未来总部经分和省级经分系统的最主要数据源之一,它可以保证分析口径单一化,最大程度减少报表不一致问题。 2.1.数据来源:初步规划,数据来源主要是省级BSS系统,未来应该包括各省业务子系统。2.2.数据量: 数据量测算,经压缩后,存储空间约为3TB2.3.本期重点用户:· 总部经分用户:· 北方六省经分用户:· 数据库运维部门:3.Greenplum解决方案:3.1.总体方案概述:省级BSS系统通过文件接口,周期性(初步定15分钟为一个周期)提供给省级数据仓库前置系统,省级数据仓库前置系统对这些文件进行快速导入,并迅速进行汇总,汇总结果再以
6、平面文件方式快速导出,提供给总部经分系统和省级经分系统。该项目的范围如蓝色部分所示:3.1.1.项目投入可控:Greenplum数据集市系统不绑定在特定的硬件系统上,硬件定位于主流厂商的服务器;总的原则是数据集市投入成本是可控的、架构稳定、扩充灵活;系统的硬件扩容应为线性扩容,增加一倍的硬件,就能提升接近一倍的性能;系统的软件扩费要低于线性比例费用;(如从3T的许可升到10T,应是小于原来7T的费用)3.1.2.性能满足要求及后续扩展:Greenplum采用主流的MPP架构,在项目建设中将采用2台master服务器加上4台segment服务器,共6台服务器就能完全满足要求,具有良好的线性扩展能
7、力,可保证今后随着数据量和应用的进一步迅速增长。3.1.3.功能满足要求:Greenplum是一个成熟的数据库产品,全球有众多的成功案例,由于架构先进,采用更为简单、实用的管理功能,即可满足DBA和业务部门的需求。 3.1.4.与现有技术并存:Greenplum既可以通过平面文件方式与现有系统数据库进行快速数据交换。也可以采用不落地方式直接对现有数据库中的数据进行访问。3.1.5.工作量可控:Greenplum支持各种主流开发语言,开发框架,开发工具。比如JAVA, .net,C,等等。3.2.系统软硬件平台架构:结合上面的系统总体架构,系统软硬件平台架构主要包括上述应用层面所涉及的软硬件平台
8、。包括数据仓库服务器:6台Greenplum数据仓库服务器,2台Master服务器,4台Segment服务器,2台连接master和segment的千兆网交换机。根据成本可控原则,参考配置如下 组件型号/配置数量/单位Master服务器双 CPU 12 CoreRAM 16 GB 6块千兆网卡(4块用于内联)6块系统盘(RAID10)2Segment服务器双CPU 12 CoreRAM 32 GB 4块千兆网卡4Segme服务器可用磁盘个数每台12磁盘容量规格SAS 15K rpm600 GB/块RAID类型57/8可用率合计存储性能7104IOPS合计存储可用容量25200 GBGP可用裸容
9、量(含mirror)10080 GB千兆交换机24口2台估算数据扫描率1.7 GB/STPC-H估算值124445QphH1000GB3.3软件选型:3.3.1.选型标准:· 高性能。系统要采用基于X86架构的多节点进行并行处理,这种MPP结构可以保证高性能。· 低成本。系统成本应该包括硬件、软件、开发、扩展和维护成本,综合项目成本要越低越好。· 开放性。系统要采用主流操作系统和数据库,支持主流的ETL、BI及开发工具。· 维护性。系统维护要简单易学,开发和运营都要比较容易。· 兼容性。系统要兼容主流的硬件、软件产品。3.3.2.Greenpl
10、um软件:EMC公司是世界领先的数据仓库基础平台供应商。它的杰出创新数据仓库软件产品技术,引领着数据仓库领域和数据分析领域的发展方向。EMC公司的BI数据库产品有Greenplum Database,每一天,全球有数亿级的用户在直接、间接用到Greenplum发明的数据仓库平台。Greenplum 是2003年成立的,核心技术团队成员来自各个顶级数据库公司和大规模并行计算公司的资深软件架构师,例如:Oracle, Teradata, Tandem, Microsoft SQL Server, Informix, Netezza, Amazon, eBay, S, Yahoo等.Greenplu
11、m 创新研发的产品有:· Greenplum DatabaseGreenplum数据库软件是业内首创的大规模并行处理massively parallel processing (MPP)的数据库软件产品,它包含大规模并行计算技术和数据库技术最新的研发成果:包括无共享/MPP,按列存储数据库,数据库内压缩,MapReduce,永不停机扩容,多级容错等等。该软件产品被业界认可为扩展能力最大的分析型(OLAP)数据库软件。已有100多家世界级重大客户采用该软件,例如:NYSE, NASDAQ, AIG, 德意志银行,美国联邦储备委员会,阿里巴巴,支付宝,NTT-DoCoMo, T-Mobi
12、le, Skype, Wal-Mart, 中国电信等。3.4.Greenplum技术架构:Greenplum数据仓库软件是业界首创将大规模并行计算技术,应用到了数据库软件领域。该类技术同样应用在Google搜索引擎的中。· 无共享/MPP核心架构Greenplum数据库软件将数据平均分布到系统的所有节点服务器上,所以节点存储每张表或表分区的部分行,所有数据加载和查询都是自动在各个节点服务器上并行运行,并且该架构支持扩展到上万个节点。· 混合的存储和执行(按列或按行)Greenplum发明支持混合按列或按行存储数据,每张表或表分区可以由管理员根据应用需要,分别指定存储和压缩方
13、式。基于这个功能,用户可以对任何表或表分区选择按行或按列存储数据和处理方式。这些是在建表或表分区的DDL语句中配置的,只需在建表或表分区时指定: 这个功能基于Greenplum的多态维数据存储技术。 · 多层次的容错能力Greenplum 数据仓库软件自己包含多层次容错和冗余能力,这是云计算架构软件的一个重要特征。该功能保证整个数据仓库系统在遇到硬件、软件的故障的情况下,任然自动继续运行。· 在线系统扩容(永不停机)在系统中增加节点服务器即可增加存储容量,处理性能和加载性能。当系统扩展时,数据仓库保持在线,并且完全可用,扩展进程在后台运行。增加节点服务器,性能和容量线性增加
14、。 · 负载管理(Workload Management) 具有系统资源管控能力,并且可控制给各个查询分配各自系统资源。允许管理员指派资源队列,从而管理数据仓库的队列进入执行情况。在运行的查询的优先级可以随时调整。· PB级的装载能力基于MPP Scatter/Gather 流技术的高性能并行加载功能。加载速度随着节点线性增加,实际超过4TB/小时。 · 灵活的外部数据访问数据仓库软件可在任意外部数据源上并行运行常规SQL,不论外部数据源的位置,格式或存储介质。· 数据库内压缩利用业界领先的压缩技术,进一步提高性能,并极大地节省了数据存储空间。用户可获得
15、3-10倍的空间节省,并且同时获得相应有效I/O性能提升。· 多层次表分区能力允许灵活地按照时间、范围、值域划分表分区。表分区由DDL设定,分区层级不限。数据仓库软件的查询优化器自动从查询执行计划中略去不涉及的表分区。 · 索引功能Greenplum 支持各种数据库索引技术,包括B-Tree,Bitmap等等。按列存储、按行存储数据库表都支持索引。· 完全遵从SQL最新标准 遵从SQL-92 , SQL-99 ,至SQL 2003标准,并包括SQL 2003 OLAP扩展项。所有SQL查询都是在系统上并行执行。· 原生MapReduce功能 MapRed
16、uce由Google发明,已被证实为一个高扩展性的文本非结构化数据分析的技术。Greenplum的并行数据库软件核心可原生运行MapReduce程序。 · 支持SQL 2003 OLAP 扩展标准对SQL语言包括其OLAP扩展标准,都是在Greenplum数据仓库软件实现并行执行。全面支持SQL 2003 OLAP标准,包括Window 函数,Rollup,Cube等等。· 现有的数据仓库产品技术对比· GreenplumTeradataNetezzaOracle ExadataDB2Sybase IQ无共享 MPP架构 YYY &
17、#160;支持开放硬件平台Y YY高级负载管理 YY YY 在线系统扩容 Y Y? 按列存储 Y Y Y按行存储YYYYYYIn-DB MapReduceY 支持SQL2003及OLAP选项YYY?Y?性能线性扩展YYY ? 加载能力线性扩展Y Pipelined interconnectY Y DA
18、S容错Y 表分区YY*YYY索引YY YYY最少的管理/调优Y Y 从以上的图表上,我们可以看到与Sybase IQ相比:· Sybase架构是完全共享(ShareEverything)架构,不是MPP无共享架构,性能和加载能力无法线性扩展;· Sybase不支持容错;· Sybase不支持在线扩容;· Sybase不支持MapReduce,不能像Greenplum可以管理非结构化数据;· Sybase调优和管理成本较高;我们还可以看
19、到与Teradata相比:· Teradata的硬件与软件绑定,而且费用昂贵;· Teradata的扩展升级费用昂贵且不可控制;· Teradata只支持按行存储,不能按列存储;· Teradata查询性能可以先行扩展,但是加载性能不能线性扩展;· Teradata的项目实施人员要求高,需要Teradata专业技术人员实施;我们还可以看到与Oracle Exadata相比:· Oracle Exadata的硬件与软件绑定,而且费用昂贵;· Oracle Exadata也是完全共享架构,不是MPP无共享架构,性能和加载能力不能
20、线性扩展;· Oracle Exadata扩展升级费用不可控制;3.5.Greenplum性能说明:Greenplum分析型数据库软件是为大规模数据和复杂查询功能所设计。Greenplum高性能的特性主要应用在客户管理,数据仓库, BI,ODS,数据集市,数据挖掘,经营分析,网络分析,知识库管理,成本效益分析等项目。· MPP/Share Nothing架构数据分布在所有的并行节点上,每个节点只处理其中一部分数据,所有的节点同时进行并行处理,同时由于所有节点之间完全无共享,无I/O冲突,所以可以做到最优化的I/O处理。· 按列存储在OLAP应用中,用户的查询都是基
21、于特定的列来选择的。数据按列存储,可以明显提升数据读取速度,提升查询性能。· 查询性能线性扩展由于具有MPP无共享的本质特性,所以当增加1倍的节点的时候,相当于每个节点上的数据量降低为原来的一半,计算量也是原来的一半,性能自然能够提升1倍,从而实现查询性能的线性增长。· 加载性能线性扩展Greenplum数据加载是直接和Segment通信加载数据。因此当增加1倍的节点的时候,相当于每个节点上的加载数据量降低为原来的一半,性能自然能够提升1倍,从而实现加载性能的线性增长。· 大表关联查询示例以太平洋保险要看每个月的客户的总保单价值为例,需要(1亿条记录)客户表和(1
22、亿条记录)保单表的关联查询:在做这2张大表的关联查询时,由于每个大表的数据都是均匀分布到每个Segment上,第一步是会把其中保单表中用于关联的那部分数据,根据客户ID的哈希(hash)值,重新分布到响应的Segment上;第二步是每个Segment只计算在属于自己的客户表和重分布过的保单表的小部分的关联关系;最后第三步是每个Segment把关联结果返回给Master,再返回给终端用户。3.6.Greenplum管理维护:· 并行处理由系统自动完成,无需人工干预所有数据均匀分布到所有节点,每个节点都计算自己的部分数据,所以并行处理无需人工干预,系统自动完成。· 无需复杂的调
23、优需求,只需要加载数据和查询DBA工作量极少,无需复杂的调优工作和维护工作。· 客户端访问及第三方工具支持完全支持数据库技术接口标准,例如: SQL, ODBC, JDBC, OLEDB等。同时,广泛地支持各个BI和ETL软件工具。· Greenplum 性能监控器 一个Web GUI的Greenplum数据仓库系统运行状态监控工具,可以监控操作系统级信息以及数据库软件SQL运行状态细节。它的仪表盘可以查看,在SQL运行时,数据仓库系统资源利用情况。并且,还可以深入显示当前或历史的SQL运行细节,帮助更深入理解某一SQL性能状况。3.7.Greenplum案例:Greenp
24、lum在短短4年中已经发展了全球数百家典型客户。在进入中国短短的2年多的时间也已经发展了40多家客户。3.7.1.华泰保险:华泰保险股份有限公司是中国第一家全国性股份制财产保险公司,公司注册资本金13.33亿人民币,在全国30个城市设有分支机构。· 功能和定位:华泰保险要建立全公司数据挖掘平台,实现数据创造价值的目标;建立反映公司整体经营情况的“立体式数据中心”;同时,对于保监会、各地保监局等监管报表进行统一数据出口支持。· 车险业务:包含承保分析、理赔分析、续保分析、保费分析、渠道分析、客户分析· 财务与绩效:包含财务管理分析、绩效管理分析、盈利能力分析、综合费
25、用分析、平衡积分卡等。· 风险管理:包含精算与产品、准备金仿真测量、偿付能力分析、巨灾分析等。· 解决方案:华泰保险最终采用4台SUN服务器和Greenplum软件构建了企业数据仓库。3.7.2.中信银行:中信银行为中国大陆第七大银行,其总资产为12000逾亿港元,共有13485名员工及416间分行。截至2009年底,累计发卡数量突破930万张,年交易额近800亿元,经中国银监会批准成为国内同行业为数不多的几家分行级信用卡专营机构之一,业务范围包括办理本外币信用卡的发卡业务。· 功能和定位:中信银行通过建立信用卡中心数据仓库,实现信息资源的集成、整合和共享;同时支
26、持防欺诈,营销支持等多种挖掘专题应用· 现有数据量:6TB 每日增长:40GB+· 集成第三方软件:ETL ToolBox、Cognos和SAS· 解决方案:中信银行最终采用6台SUN服务器和Greenplum软件构建了卡数据中心系统。3.7.3.eBay:· 业务需求:分析eBay整个系统采集的详细的历史事件数据,业绩分析,点击分析,欺诈监测等· 已有方案: Teradata· 解决方案:- 6.5 PB数据量, 每天增长18 TB- 2 Master 节点使用Sun x4540- 96 Segment节点使用72 Sun x4540 and 24 Sun x4500- 16 ETL 节点使用 Sun x4540- 采用1TB 7.2k rpm SATA硬盘- 使用Solaris OS 及 ZFS 、 RAID Z- 采用Greenplum 实时压缩 (1:4)- 启用Segment
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 装饰水电劳务合同范本
- 卖给车商的合同范本
- 小区大门改造合同范本
- 公交卡采购合同范本
- 建筑改造设计合同范本
- 餐饮空间设计合同范本
- 中小学期中期末家长会模板66
- 2025年新规定:合同变更法律依据详解
- 2025标准城市商业租赁合同模板
- 市政园林人工合同范本
- 复变函数与积分变换-西北工业大学中国大学mooc课后章节答案期末考试题库2023年
- SAP各模块常用表清单
- 天然气管道置换记录表
- 护士单人心肺复苏技术操作考核评分标准
- 2019年四川省广元市利州区万达中学小升初数学择校考试卷
- 高中生物奥赛辅导资料
- 人类行为与社会环境课件
- 搞好班组安全建设
- 富马酸伊布利特幻灯课件
- 陕西省潼关县潼峪-蒿岔峪金矿开采项目环评报告
- 高中化学常见晶体的结构及晶胞
评论
0/150
提交评论