数据仓库解决方案概述(最终版)_第1页
数据仓库解决方案概述(最终版)_第2页
数据仓库解决方案概述(最终版)_第3页
数据仓库解决方案概述(最终版)_第4页
数据仓库解决方案概述(最终版)_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库解决方案学 习 公 约空杯心态积极参与真诚建议掌声鼓励保持秩序手机调整全情投入随时互动课 程 要 求议程数据仓库解决方案概述Sybase数据仓库技术解决方案数据仓库设计工具抽取、转换、清洗和装载工具数据存储、管理服务器数据分析和展现工具数据字典(元数据)的管理工具“数据仓库是在企业管理和决策中面向主题的,集成的, 与时间相关的和不可修改的数据集合”数据仓库定义OLTP系统财务系统业务系统计费系统5-10 年过去详细数据当前详细数据轻度汇总数据高度汇总数据数据集市用户分析网络资源分析数据仓库数据仓库/决策分析系统网管系统数据仓库是完全不同的数据库系统操作(业务)系统特性 事务处理性能是第

2、一位的 支持日常的业务 事务驱动 数据是当前的并在不断变化 存储详细数据 (每一个事件或事务) 面向应用 针对快速预定义的事务优化设计 可预见的使用模式 支持办事人员或行政人员信息(分析)系统特性 支持长远的业务战略决策 分析驱动 数据是历史的 数据是静态的,除数据刷新外 数据反映某个时间点或一段时间 数据是汇总的 面向主题 优化是针对查询而不是更新 支持管理人员和执行主管人员DW/BI 在电信行业的应用 - How ?立足于现有的OLTP系统当前数据和历史数据集中整合之后,构建一个庞大的数据仓库面向业务分析和决策层运用多维分析方法,充分挖掘数据中的信息应用DW/BI的三步曲数据抽取数据管理数

3、据分析INFORMATION 信 息数据仓库(Data Warehouse)是一种专为联机分析应用和决策支持系统提供数据源的结构化的数据环境数据仓库要解决的问题是从数据库中获取信息的问题。 信 息INFORMATION DW/BI 在电信行业的应用 - 小结什么是数据仓库(Data Warehouse) ?业务系统外部数据财务计费网管Information Access Infrastructure通用信息访问、处理层(基础数据库)企业级数据仓库Global Catalog集成的信息管理设计和元数据维护决策支持应用Data MartsData MartsData MartsData Marts

4、Data MartsData Marts数据仓库的实际构造示意图议程数据仓库解决方案概述Sybase数据仓库技术解决方案数据仓库设计工具抽取、转换、清洗和装载工具数据存储、管理服务器数据分析和展现工具数据字典(元数据)的管理工具Sybase数据仓库相关产品的技术构成RelationalPackageLegacyExternalsourceDataCleanToolSource DataDataStagingWareHouseAdmin. ToolsEnterprise DataWarehouse Data Extraction,Transformationand loadDatamartDat

5、amartEnterprise/Central DataWarehouseRDBMSROLAPRDBMSRDBMS, Star SchemaArchitectedDatamartsCentralMetadata Data Modeling ToolEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserToolLocal MetadataLocal MetadataSybase数据仓库相关产品介绍一个集成化的产品集集成的主要产品IntegrateEnterprise ConnectReplication ServerPowerMartDesignWareh

6、ouse ArchitectManageSybase ASIQVisualizeBrioCognosAdministerWarehouse Control CenterWarehouseControlCentre议程数据仓库解决方案概述Sybase数据仓库技术解决方案数据仓库设计工具抽取、转换、清洗和装载工具数据存储、管理服务器数据分析和展现工具数据字典(元数据)的管理工具设计: 成功的关键数据库的设计对数据仓库系统的整体性能、装载和建立索引的时间以及数据量的增长等的影响超过任何其它方面。数据仓库设计工具WarehouseArchitect为数据仓库的设计提供三大功能:多维建模度量、维、属性事

7、实表,维表维层次表,事实层次表设计向导聚合(Aggregation Wizard)分区(Partitioning Wizard)逆向工程数据源优化代码生成目标数据仓库引擎(IQ,RDBMS)OLAP分析环境Time identifier = Time identifierProduct identifier = Product identifierCustomer identifier = Customer identifierStore identifier = Store identifierCustomerCustomer identifierdoubleCustomer namecha

8、r(30)Sales FactProduct identifierdoubleTime identifierdoubleCustomer identifierdoubleStore identifierdoubleSales totalrealProfitsrealStoreStore identifierdoubleStore namechar(50)TimeTime identifierdoubleDatetimestampMonthchar(50)QuarterdoubleYeardoubleProductProduct identifierdoubleProduct descripti

9、onchar(80)设计:WarehouseArchitect议程数据仓库解决方案概述Sybase数据仓库技术解决方案数据仓库设计工具抽取、转换、清洗和装载工具数据存储、管理服务器数据分析和展现工具数据字典(元数据)的管理工具数据抽取、转换、清洗、集成挑战多个、多种异构数据源硬件,OS,RDBMS,文件数据不规范,需要做大量的清洗和整合转换规则复杂,繁多繁琐的日常性工作,占80%工作量数据质量保证数据增量抽取抽取工作过程化,自动化数据抽取、转换、清洗、集成成功的关键支持多个、多种异构数据源轻松方便地设计数据的清洗,转换和整合规则日常事务性工作自动化完成有完善的数据质量保证体系有完备的数据增量抽

10、取直观,面向过程化设计;自动化的执行开放性,可扩展性,易于实施和维护数据抽取、转换、清洗、集成解决的方案手工编程实现使用工具设计和实施PowerMart/PowerCenter开发环境,一系列工具用于设计、执行和维护数据的抽取、转换和装载流程抽取转换引擎(服务器),自动执行集成: PowerMartSourceDatabasesTargetDatabaseDesignerServer ManagerRepository ManagerWarehouseDesignerMappingDesignerTransformationDeveloperSourceAnalyzerRepositorySe

11、rver EngineSybaseInformixOracleMicrosoftIBM/UDBODBCDB2SAPPeopleSoftVSAMFlat FilesWeb LogsXMLIBM MQ GatewaysSybaseInformixOracleMicrosoftODBCIBM/UDBSAP BWPeopleSoft EPMFlat FilesGateways议程数据仓库解决方案概述Sybase数据仓库技术解决方案数据仓库设计工具抽取、转换、清洗和装载工具数据存储、管理服务器数据分析和展现工具数据字典(元数据)的管理工具数据存储、管理挑战数据规模查询性能装载速度易于管理存取访问成功的关

12、键快速,高效数据存储技术出色的查询性能 - 特殊的索引技术,并行查询可伸缩性 - GB 到 TB 级易于管理 - 方便,灵活,GUI存取访问 - 数据随时可用数据管理解决的方案通用的关系数据库系统专门的数据仓库服务器Sybase IQ专门为数据仓库/数据集市设计的关系型数据库专门针对OLAP/DSS而优化的索引和查询处理技术Adaptive Server IQ数据存储: Adaptive Server IQ无处不索引(Index EVERYWHERE)数据压缩(通常达到原始数据的 70 - 75%)垂直存储技术(Vertical Partitioning)专利的Bit Wise索引技术跨越Bi

13、tmap的限制多种索引类型:FP,LF,HNG,HG低级数的限制从100扩充到1000预连接的索引提供额外的显著提高性能手段(Join Index)支持任意设计模式星型、雪花、雪暴、星座模式普通关系模式支持任意加载方式文件、内部数据、外部数据库直接加载开放的接口计算“NY”州A类商店的平均销售额当表的记录数从几万条变为千万和上亿条时,传统RDBMS技术面对的问题:表扫描的性能极端低下冗余设计代价高昂、查询读取的无效字段过多低级数类型数据上索引的失效普通索引加载和空间代价,造成不能任意建造即席查询的SQL顺序对性能有显著影响数值型比较和运算,无恰当手段加速处理传统RDBMS不适合数据仓库IQ的特

14、殊存储方式-垂直存储(按列存储)Sybase IQ: 数据是按列存储的,而不是按行存储好处: 只存取查询所需的数据数据类型是一致的,因而可以很容易被压缩数据库易于修改和管理Sybase IQ: 只读完成查询所 涉及到的列计算在纽约的“A”类商店的平均销售额好处: 无须使用其他的技术,Sybase IQ 就可以减少I/O 超过 90%IQ的特殊存储方式-垂直存储(按列存储)“How many MALES are NOT INSURED in CALIFORNIA?GenderMMFMM-800 Bytes/Row10MROWSStateNYCACTMACA-RDBMSInsuredYYNYNMY

15、CAMNCAFYNYMNCA1243GenderInsuredState+11011101010110MBits10M Bits x 3 col / 816K Page = 235 I/Os800 Bytes x 10M 16K Page= 500,000 I/Os基本上只能使用表扫描查询过程读取了太多的无效数据IQExample: I/O 的明显减少IQ的索引特点索引即是数据没有索引和数据的分别任何一列可以建立多个索引系统保证至少会存在一个索引(FP)索引的选择和设计主要基于:数据的级数(离散值的个数)在查询中的使用方式和SQL语句的顺序无关索引的种类Fast Projection(FP)数

16、据压缩存储根据数据的特点会自动使用三种方式中的一种Low Fast (LF)Bit map 索引High Non Group (HNG)Bit-wise 索引High Group (HG)G-Array (包括一个改进的B-tree)FP Index normal FP级数(取值个数) 65536数据被压缩存储ColorRedBlueGreenRedFP Index - FFP级数 256内建一个1-byte的参照表Data ValuesRedBlueGreenRedColorRedBlueGreen12311123332Lookup TableDataLF Index传统的 Bit Map

17、索引级数小于1000 可以唯一使用的可能性JoinsGroup byMIN, MAX, SUM, AVG functionsWhere clause predicatesEquality / Inequality, Ranges, IN lists.冗余设计时数据量比想象中要小得多每一个取值都有一个相应的位可以适应新的取值出现和行的增加查询:select count(*) from customers where state =ALLF IndexHNG IndexBit-Wise Index数据按照二进制存储垂直分布和处理Sybase的专利技术cannot be used with cert

18、ain data types使用最佳范围range searches for high cardinality columns运算 (sum and average functions)适合大量二进制的存储数据垂直分片 即每一个位都可以在内部被独立操作由于肯定存在大量的位同时为1或0,因此IQ在内部处理时会自动做数据压缩HNG - High Card Bit-Wise IndexSales in binary form8 bit4 bit2 bit1 bit01101001010110111001001101111100Sales in binary form8 bit4 bit2 bit1

19、bit01101001010110111001001101111100HG Index在Bit-Wise的基础上增加一个B-Tree,并保证树在加载时不会重建最佳使用场合:JoinsSelect Distinct, Count DistinctGroup ByDateZipStateClassSales3/16NYA64/19MAA95/15NYB56/111CTA117/16NYB99/23RIB38/37CTA72/26NYA121 104 64 5 61,5,8,.10001001突破性的速度 闪电般的快速查询 快速装载无限的灵活性 任何查询 任何模式非常经济 压缩的数据存储 支持多用户

20、查询Sybase IQAdaptive Server IQ 12:专门设计的数据仓库服务器IQ12的技术参数Column limit - now 16,000 per table (up from 255 - Great for SAS & SPSS customers)Row limit - now 281,474,976,710,700 (thats 281 Trillion Rows and change)Device size - up to 128GB (depending on OS)Device limit - now 65,524 (up from 2,000) Databas

21、e Size limit - 8.4 PetabytesSybase IQ 真正的数据仓库AndyneBrioBusinessObjectsGentiaInformationAdvantageInformationDiscoveryInfoSpaceLinguisticTechnologyTeleranTechnologySeagateSoftwareMathsoftAny Data, Any Time, AnywhereCognosAdaptiveServerIQ议程数据仓库解决方案概述Sybase数据仓库技术解决方案数据仓库设计工具抽取、转换、清洗和装载工具数据存储、管理服务器数据分析和展

22、现工具数据字典(元数据)的管理工具信息生产者信息消费者BrioQuery DesignerBrioQuery ExplorerBrioQuery NavigatorBrio.InsightBrio.QuickviewBrio Enterprise Server客户机服务器Web/Intranet高级用户活跃的分析人员报表查阅者信息技术人员Brio.Enterprise 6.0 产品家族Brio Enterprise 功能服务功能服务BrioQuery查询OLAP 查询在线分析 (OLAP)报表EIS/脚本制图审核两层安全防护Broadcast Server信息发布作业调度批处理查询/报表事件驱

23、动处理 报表广播OnDemand Server零管理客户端Web查询适应型报表多层安全防护集群服务器支持SSL (安全套接层加密)OnDemand ServerWeb ServerBrioQueryIQ数据仓库Brio.InsightBrio.QuickviewBrio.FreeViewBroadcastServerEmail ServerFile Server数据源-IQ数据仓库TransformerImpromptu*.iqd任何数据源(关系型、平面型,数据仓库) 自动生成PowerCube 用户定义的业务规则和维度 10:1的数据压缩图形化的浏览多维数据 完全交互式的报表探察PowerP

24、lay: OLAP 环境Cognos BI 产品结构Data WarehousePC DatabaseOracle,Sybase,Informix,SQL Server,ODBC GatewayImpromptu.DBF.DB.DBF, .DB, .XLS,.WKS, .CSVPortfolioTransformerAuthenticator.MDCPowerCubes.PBBPowerPlay.PYH .MDL.IQD.PPR.IMR议程数据仓库解决方案概述Sybase数据仓库技术解决方案数据仓库设计工具抽取、转换、清洗和装载工具数据存储、管理服务器数据分析和展现工具数据字典(元数据)的管理工具元数据管理:什么是元数据提供数据对象的准确、全面、一致的定义:什么是 “customer”的定义,其内容是什么?提供物理数据到企业模型的映射关系,如:“customer number” 的正确格式是什么“product status”有哪些取值?不同系统中相似数据的合并使用规则是什么?提供数据源和抽取信息提供数据项的定义和相关描述数据的使用规则Logical Design Tools CorporateData WarehouseOracle, SybaseSQL/

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论