阶段工作数据仓库产品调研_第1页
阶段工作数据仓库产品调研_第2页
阶段工作数据仓库产品调研_第3页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、城轨线网数据中心数据仓库产品调研文档 Q/GZMTR广州市地下铁道总公司调研文档 Q/GZMTR JXX-2014城轨线网数据中心数据仓库产品调研文档作者:唐忠诚小组审查:刘琼 2014-06-04 发布 华南理工大学编制广州市地下铁道总公司发目录 TOC o 1-3 h z u HYPERLINK l _Toc390446402 1 概述 PAGEREF _Toc390446402 h 3 HYPERLINK l _Toc390446403 2 不同数据仓库产品 PAGEREF _Toc390446403 h 3 HYPERLINK l _Toc390446404 2.1 Oracle PA

2、GEREF _Toc390446404 h 3 HYPERLINK l _Toc390446405 2.2 Teradata PAGEREF _Toc390446405 h 4 HYPERLINK l _Toc390446406 2.3 Sybase PAGEREF _Toc390446406 h 5 HYPERLINK l _Toc390446407 2.4 对比分析 PAGEREF _Toc390446407 h 5 HYPERLINK l _Toc390446408 3 Teradata详述 PAGEREF _Toc390446408 h 71 概述广州地铁自成立以来,经过十多年来的运营

3、,各业务系统积累了大量的运营数据,而且随着城轨线网规模日益扩大;客流数据、设备点数据、视频数据等的急剧增长;新型数据源的不断增加,如更多的设备状态信息、城轨环境情景感知信息的引入、相关的事件和问题的数据化,等等。城轨线网需要充分利用、挖掘这一宝贵财富,将业务数据加工整理成有价值的信息进行综合处理,同时需要做到将各个时期、各条线路、各个车站的业务信息能够有机、有序联系起来,为线网指挥中心提供科学指挥决策。因此广州城轨交通公司拟建立一个独立于生产系统的数据仓库,为公司的宏观决策人员提供及时、准确、一致和全面的运营信息。目前,市场上提供全方位解决方案的数据仓库产品供应商有Oracle、Teradat

4、a和Sybase等。这些公司提供的数据仓库产品各有各的特色。2 不同数据仓库产品2.1 OracleOracle的硬件架构是开放式的,可以运行在各种硬件上。开放式硬件则需要企业具备很强大的技术实力,能够有一定具备硬件、存储、操作系统综合知识和能力的团队。Oracle公司在数据仓库建设的每一个环节上都提供了相应的技术手段及工具来保障数据仓库的顺利实现。数据获取层:Oracle Warehouse Builder(OWB)在同一个软件中实现了从数据模型设计、ETL 流程设计和元数据管理的全部功能。Oracle提供数据获取脚本的运行平台。Oracle Warehouse Builder 生成的 ET

5、L 脚本存储在 Oracle数据库中执行,按照数据仓库系统的要求,定时地完成数据的抽取并加载到数据仓库系统中。由于 ETL 的执行是在 Oracle数据库中,可以充分利用 Oracle数据库提供的强大并行处理能力,保证数据获取的高效、可靠执行。 数据存储层:Oracle数据库实现对数据仓库系统各种类型数据的集中存储和管理,包括各种结构化数据和非结构化数据。Oracle数据库内置 OLAP 和数据挖掘功能,不需要进行复杂的数据迁移,就可以直接在关系数据库中完成复杂的统计分析功能。Oracle数据库可以支持海量数据的存储,一个数据库最大数据量为8000PB(1PB=1024TB)。Oracle提供

6、强大的并行处理能力,满足数据仓库系统对于性能和扩展性方面的要求。系统并通过网格控制台(Grid Control)进行数据仓库统一管理。 数据展现层:Oracle提供多种数据分析的工具,包括标准报表工具(Reports)、即席查询工具(Discoverer)、OLAP分析开发工具(JDeveloperBI Beans)和数据挖掘工具(Oracle Data Miner),将统计分析的结果通过各种方式展现。同时,Oracle 的数据展现工具支持通过门户(Portal)技术进行集成,为不同类型的用户提供一致的访问界面。 2.2 TeradataTeradata的硬件架构是专属的,必须使用特殊的硬件才

7、能运行。封闭式硬件的好处是开箱即用,经过厂商的严格测试,保障性比较高,即买即用。Teradata是高端数据仓库市场最有力的竞争者,主要运行在NCR WorldMark SMP硬件的Unix操作系统平台上。Teradata数据仓库的体系架构分为:源数据层、数据导入层、数据服务层和中间服务层。源数据层:包括核心业务系统的镜像系统(Informix 平台)、数据汇集平台(SQL SERVER 2000 平台和Sybase平台)和SAP 系统(SQL SERVER 2000平台)。核心业务系统通过数据库镜像提供对核心业务数据的访问, 数据汇集平台通过数据库Snapshot来获取对相关源系统业务数据的访

8、问,SAP系统直接提供对业务数据的访问。数据导入层:从源数据层的数据抽取采用DataStage,向数据仓库中央数据库的数据加载采用Teradata的数据加载工具或DS插件。整个ETL流程管理采用Teradata的DW Automation工具。数据服务层:作为数据仓库系统的核心部分,负责存储和管理来自各种源数据系统的数据,并未访问用户提供数据服务。数据按照逻辑数据模型(LDM)分主题存放,LDM采用Teradata的FS-LDM作为设计的基础,数据存储体系是由专业数据仓库引擎Teradata以及Teradata MPP硬件平台组成。中间服务层:向用户提供包括OLAP服务、报表服务、查询服务、数

9、据挖掘服务和中间件服务等多种服务应用,从而实现访问方式的多样化和信息存取的透明化。2.3 Sybase硬件架构上,Sybase与oracle相似,也是开放式的。Sybase提供的数据仓库解决方案称为Warehouse Studio,包括数据仓库的建模、数据抽取与转换、数据存储与管理、元数据管理以及可视化数据分析等工具。其中,Warehouse Architect是PowerDesigner中的一个设计模块,它支持星形模型、雪花模型和ER模型;数据抽取与转换工具包括PowerStage、Replication Server、Carleton PASSPORT,PowerStage是Sybase提

10、供的可视化数据迁移工具。Adaptive Server IQ是Sybase公司专为数据仓库设计的关系数据库,它为高性能决策支持系统和数据仓库的建立作了优化处理,Sybase IQ支持各种流行的前端展现工具(如Cognos Impromptu、Business Objects、Brio Query等);数据分析与展现工具包括PowerDimensions、EnglishWizard、InfoMaker、PowerDynamo等,PowerDimensions是图形化的OLAP分析工具,它支持SMP和多维缓存技术,能够集成异构的关系型数据仓库和分布式数据集市,从而形成单一的、新型的多维模式;数据仓

11、库的维护与管理工具包括Warehouse Control Center、Sybase Central、Distribution Director,其中Warehouse Control Center是为数据仓库开发人员提供的元数据管理工具。2.4 对比分析表格 SEQ 表格 * ARABIC 1 数据仓库产品对比OracleTeradataSybase硬件架构开放式的专用平台开放式系统架构SMP/Cluster架构MPPSMP/Cluser数据库采用行存储专门为数据仓库模型设计的采用列存储产品特点事物处理性能较好混合负载控制较好兼容Oracle产品和工具,易于使用大数据处理性能较强可线性扩展数

12、据库易于管理和维护混合负载控制较好并行查询机扩展能力强集成数据挖掘工具,适合实时分析Oracle数据仓库引擎从本质来上说就是数据库引擎,其是在数据库引擎的基础上,针对OLAP进行了相应的优化。这种方式给带来的好处是,其数据仓库解决方案很自然地从数据库技术拓展和延伸而来,集成性、延续性比较突出,但是在注重海量数据高效查询的OLAP中,性能就不及Sybase和Teradata。Oracle采用Cluster体系结构,多个节点共享硬盘,存在磁盘I/0瓶颈,可伸缩性较差,少见超过4个节点的实例。Oracle基本上没有真正TB级的数据仓库,客户往往被要求将其海量数据分解到多个数据库中。与Oracle相比

13、,虽然Sybase也同时提供数据库和数据仓库产品,但是,其Sybase的数据仓库引擎却走了一条与Oracle完全不同的技术路线,其中最大的不同就是Sybase在数据仓库引擎中采用列存储架构,而其它所有关系型数据库引擎采用的则是行存储。列存储技术具有很多优点:压缩比高、占用空间少、在频繁读取的应用中效率比行存储高,但是写入性能,则不如行存储。Sybase支持多种索引类型,可根据应用灵活选择。由于Sybase也是采用Cluster体系结构,所以在扩展性方面(效率随着硬件的扩展将得到提高)上不如Teradata。Teradata数据仓库主要运行在NCR WorldMark SMP硬件的Unix操作系

14、统平台上,通过Teradata与NCR硬件平台海量并行处理服务器(Massively Parallel Processing, MPP)结合,以及采用特有BYNET协议和查询优化等技术实现并行等机制来保证效率,并且teradata除了提供较为强大的数据仓库平台之外,也有针对不同行业的数据模型、有丰富的咨询服务经验、在金融、电线等众多行业有着部署数据仓库的最佳实践,是高端数据仓库市场最有力竞争者。综合各方面来考虑,选择Teradata 数据仓库产品。相较于其它公司的数据仓库,Teradata的特点如下:表格 SEQ 表格 * ARABIC 2 Teradata特点性能大数据量复杂运算的效率快,适

15、合企业数据仓库系统的数据规模和应用场景Teradata是为数据仓库处理设计的专业数据库,无条件的并行处理提供成熟的混合负载管理和优先级调度能力,能够很好的支持各种复杂应用对资源的使用不浪费CPU资源,利用更少的CPU提供相同的计算能力高可用性硬件软件双重数据保护(RAID,Clique,热备节点,Fallback等支持双活系统(Dual Active)整体拥有成本投资保护更低的系统管理成本一体机,装机即可使用卓越的多值压缩技术,更高的压缩比率无需额外系统空间损耗易用性数据库完全自管理,空间、数据分布和管理无需人工干预更少的DBA可扩展性节点和存储与性能线性扩展最大可支持到4096个节点,50+

16、PB数据规模案列及最佳实践全球多个超PB级客户案例超过200个从竞争对手平台迁移至Teradata平台的成功案例3 Teradata详述Teradata数据仓库拥有全球领先的技术,其软件和硬件产品包括:Teradata数据库、Teradata数据仓库软件、企业数据仓库、动态企业数据仓库、数据仓库专用平台。Teradata数据仓库配备性能最高、最可靠的大规模并行处理 (MPP) 平台,能够高速处理海量数据,它使得企业可以专注于业务,无需花费大量精力管理技术,因而可以更加快速地做出明智的决策,实现 ROI最大化。Teradata数据仓库系列产品包括:表格 SEQ 表格 * ARABIC 3 Ter

17、adata产品列表小型数据集市(5XX)极大容量数据仓库(1XXX)企业级数据仓库(2XXX)极高性能主机(4XXX)企业级动态数据仓库(5XXX)目标定位应用数据集市应用开发环境巨量数据的存储与分析企业级数据仓库超高性能实时分析平台企业级数据仓库EDW 动态数据仓库ADW可扩展能力(节点数量)1节点1024节点45节点24节点4096节点可扩展能力(驱动数据量)7TB50PB275TB24TB86PB适用于部门级、地市级分析平台,入门级数据仓库分析型备份环境,超长历史周期数据分析战略性商务智能,决策支持,快速扫描操作型商务智能,较少数据量,超高性能动态混合负载管理,实时数据更新Teradat

18、a数据仓库平台从诞生之日开始,就是专门针对OLAP应用设计的,它的专长不在于OLTP,而在于OLAP,其内部的并行处理机制被设计的十分完善。Teradata最显著的特色是其海量并行处理(MPP)服务器架构,Teradata采用无共享的架构体系,通常在联系分析处理系统中使用。单机的Teradata数据仓库系统很少见,即使是单机系统,也建议使用SMP结构以尽可能地提供更好的数据库性能。根据无共享(shared nothing)并行结构的组成结构特点,物理上Teradata系统主要包括三个组成部分:处理节点(Node)、用于节点间通信的内部高速互联网络(BYNET)和数据存储介质(通常是磁盘阵列)。

19、各个节点都是SMP结构的单机,单节点的软件结构图如下图所示,多个节点一起构成海量并行处理服务器(MPP)系统,多个节点之间的内部高速互联网络是通过单独的硬件和软件共同实现,系统整体架构如图所示: 图 SEQ 图表 * ARABIC 1 Teradata 系统整体结构图在软件结构上,每个节点自下向上包括操作系统软件、Teradata并行数据库扩展(PDE)和相关数据库应用程序,其中PDE的主要职责是管理和运行虚拟处理器,其中主要包括PE和AMPs。(1)Teradata并行数据库扩展(PDE),是直接构架在操作系统之上的一个接口层,用于为Teradata提供并行环境,并保证这个并行环境的可运行性和健壮性。PDE的主要功能是执行虚拟处理器、进行Teradata并行任务调度、进行操作系统内核和Teradata数据库的运行时故障处理。(2)解析引擎

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论