版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、BI/DW IntroductionJames ChenPSO Sr. Consultant程序=算法+数据结构构-NiklausWirth数据结构构离散结构构线形结构构-数组链表表栈队列列树图算法空间复杂杂度时间复杂杂度用户内存中数数据结构构物理数据据结构E-R业务流程程二者相辅辅相成,不同应应用侧重重不同经典业务务系统模模型Skillset数据库C+/J2EE/.netPowerDesignerER_WINOOUML面向过程程OODesignWorkflowDevelop Business TypeModelIdentifyBusinessInterfacesIdentifySystemI
2、nterfaces& OpsCreateInitialComp Specs &ArchitectureDiscoverBusinessOperationsRefineInterfaces& OpsRefineComponent Specs &ArchitectureDefineInterface Information ModelsSpecify OperationPre/PostconditionsSpecify ComponentInterfaceConstraintsBusinessConcept ModelUseCaseModelBusinessInterfacesSystemInte
3、rfacesInterfacesInterfacesComponentSpecs&ArchitectureComponentSpecs&ArchitectureComponentSpecs&ArchitectureBusinessType ModelArchitecturePatternsExistingInterfacesExistingAssetsComponentIdentificationComponentInteractionComponentSpecification笑一笑数据仓库库初学者者:数据据仓库与与数据库库有什么么区别?某专家:一个有有仓一个个没仓!BI/DW的引出统计报表
4、表需求数字越来来越重要要报表越来来越多效率越来来越差数据仓库库的定义义“数据仓库库是在企企业管理理和决策策中面向主题的的,集成的,与时间相相关的和不可修修改的数数据集合合”Bill Inmon数据仓库库(DataWarehouse)是一种专专为联机机分析应应用和决决策支持持系统提提供数据据源的结结构化的的数据环环境数据仓库库要解决决的问题题是从数数据库中中获取信信息的问问题。数据信息INFORMATIONINFORMATIONINFORMATIONINFORMATION影响数据据仓库的的几个人人物Bill Inmon-数据仓库库RalphKimball -数据仓库库工具箱箱Bernard Li
5、autaud- 商业智能能OLTP与数据仓仓库系统统RDBMS关系数据据库SAP/ERPVSAM主机系统统EXCELWeb/XMLOLTP业务系统统数据仓库库系统 数据是当前的数据总在实时变化中存储明细数据优化是针对即时更新的事务处理支持日常的业务支持办事人员或行政人员 数据是历史的数据是静态的,除数据刷新外数据是汇总的优化是针对大批量查询而不是更新支持长远的业务战略决策支持决策人员和管理人员面向事务面向决策5-10 年数据集市分析型CRM业务指标分析数据仓库BI系统建设设方法(1)直接建立立BI应用OLTP数据源 各种前端应用KPI指标报表多维分析析即席查询询数据挖掘掘数据仓库环境 业务智能
6、层中央数据仓库数据仓库数据集结数据源 公司数据源外部数据源BIW数据集市数据仓库管理子系统 数据仓库元数据目录信息访问和 引用部件 BI系统建设设方法(2)企业数据据仓库体体系架构构RelationalPackageLegacyExternalsourceDataCleanToolSource DataDataStagingWareHouseAdmin. ToolsEnterprise DataWarehouse Data Extraction,Transformationand loadDatamartDatamartEnterprise/Central DataWarehouseRDBMS
7、ROLAPRDBMSRDBMSArchitectedDatamartsCentralMetadata Data Modeling ToolEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserToolLocal MetadataLocal Metadata典型物理理架构ETL_DM1ETL_DM2BAS_DW1BAS_DW2BAS_OP1BAS_OP2Bas_sw01Bas_sw02Dx_sp01Dx_sp02Dx_sp03元数据管管理服务务器BAS_SM1BAS_SM270T!企业数据据仓库的的目的数据整合合-建立一个个企业统统一的信信息平台台建立统一
8、一的业务务数据定定义建立唯一一的统计计分析数数据源快速访问问采用适合合企业BI应用的数数据组织织方式新需求的的开发快快数据获取取的效率率快业务管理层业务操作层战略层底层数据据低粒度汇汇总高粒度汇汇总建设数据据仓库的的主要任任务数据仓库库建模ETL前端展现现组数据挖掘掘元数据数据仓库库引擎NCRTeredataORACLE9以上DB2EEESybaseIQMSSQLServer维模型的的设计每个维可以由一个或多个维层次或聚合路径组成Dimension 1事实Dimension 2Dimension 4measure 1measure 2.supportive attributes.Dimensi
9、on 3aggregation path or dimension hierarchydimension key 1dimension key 2.aggregation levelsIWS模型的特特点简单视图图实例仓库底层层设计考考量(一一)慢速变化化维问题题快速变化化和慢速速变化仓库底层层设计考考量(二二)粒度问题题一天变化化多次入库时间间仓库中间间层设计计考量基于用户户标识多个粒度度汇总综合各个个数据集集市效率考虑虑仓库集市市层设计计考量面向应用用报表集市市挖掘集市市主题集市市KPI集市维模型以最细粒粒度数据据为主表加物化化视图数据仓库库与数据据集市数据源CUBE报表事实表维表维表维表维
10、表数据仓库库事实视图图维视图维视图维视图维视图业务驱动动数据驱动动数据集市市设计技巧巧星型还是是雪花?组合代理理键慢速变化化维维度的不不同层次次处理聚合表的的设计.ETL过程源表结构构-目标结构构工具?自自己编码码?-业务逻辑辑的任务务已经很很大实时任务务和批量量任务CDC的处理ODS的处理?BODate IntegratorInformaticaPowerCenterDatastageSagent数据源大数据量量变化数据据关联数据据手工数据据抽取时机机和最迟迟到达时时间!数据源考考量-大数据量量二十余种种清单上万个文文件,大大小不一一一天几十十GB的数据数据源考考量-变化数据据实时变化化未存
11、历史史数据源考考量-关联数据据没有transaction几个文件件不一致致怎么办办?数据源考考量-手工数据据外部录入入?OLTP系统?天气社会指标标集团客户户信息操作型CRM数据源考考量-历史数据据更新修改昨日日数据批错价/延迟话单单等ETL抽取/转换/加载源数据的的理解加载时间间4小时ETL实现工具Loader汇总(数数据库汇汇总还是是文件汇汇总)调度ETL-调度一天几十十GB的数据并行度/任务大小小/资源/优先级调度清单类(大数据据量)-文件的拆拆分和合合并/实时处理理业务类(实体之之间的关关系复杂杂)-稽合帐务类(数据准准确)-验证参数类(变化影影响其他他实体)-告警/事先处理理其他任务
12、务月末处理理前端展现现固定报表表多维分析析即席查询询仪表盘数据挖据据BO(CR)Hyperion(Brio)CognosMicrostrategy仪表盘OLAP分析报表,即即席查询询固定报表表格式灵活活多变Crystal ReportMSTRBrioReportNet多维分析析MOLAP-Cognos PowerPlay,HyperionEssbaseROLAP-BOE,MSTRHOLAP-BO - MS OLAP切片旋转切块钻取OLAP分析多角度、多层次次对同一一主题进进行分析析通过旋转转、钻取取、切片片等技术术探察数数据旋转:按按不同顺顺序组织织各个维维,对结结果进行行考察钻取:在在一个维
13、维内部沿沿着从高高到低或或从低到到高的方方向考察察数据(有上钻和和下钻两两种)切片:在在确定某某些维数数据的情情况下对对其他维维进行观观察有MOLAP、ROLAP、HOLAP三种实现现方式OLAP设计-指标还是是维度性别年龄长途类型通话时段客户数通话时长性别年龄客户数通话时长 长途类型通话时长 通话时段通话时长 1-2点通话时长即席查询询语义层效率很关关键BO语义层仪表盘仪表盘、KPI-EPM整合了企企业的整整个绩效效、把告告警、报报表、分分析穿在在了一起起BOEPMHyperionBPM数据挖掘掘机器学习习数理统计计数据库预测、特特征分析析、客户户分类SASSPSS数据挖掘掘实施的的体系结结
14、构数据仓库数据挖掘引擎算法数据选择知识库评价修改知识建模分析员领域知识元数据元数据管管理什么是元元数据?元数据和和开发文文档有何何区别?为什么单单单在数数据仓库库中如此此重视元元数据?文档语音计费费GPRS计费文档帐务文档结算营业文档文档客服文档MIS网管HR文档文档文档元数据管管理(续)业务元数数据业务元数数据用业业务名称称、定义义、描述述和别名名来表示示数据仓仓库和业业务系统统中的各各种属性性,直接接供业务务分析人人员使用用。技术元数数据技术元数数据描述述了数据据源、数数据转换换、抽取取过程、加载策策略以及及目标数数据库的的定义等等。元数据管管理(续)CWM1.0数据源ETL数据仓库库数据集市市OLAP CUBE元数据管管理(续)能分析什什么?WhereUsed
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度专业安保劳务派遣协议样本
- 2024幼教人员劳动协议样本
- 安装项目承揽协议范本2024年
- 2024年企业间合作联营协议
- 2024年度保安职位劳动协议模板
- 2024年软件开发项目合作协议
- 课件的封面教学课件
- 小熊孵蛋课件教学课件
- 仓库安全管理规范化守则
- 企业并购咨询合作协议
- 化学检验员考试试题含答案
- 潜在失效模式(FMEA)
- 设备运行分析报告(模板01)
- 中移建设有限公司招聘试题
- 公司科技创新管理办法
- 浙江某体育馆模板高支撑施工方案
- 颈动脉产品介绍 - 支架-in service
- GB/T 26572-2011电子电气产品中限用物质的限量要求
- GB/T 20631.1-2006电气用压敏胶粘带第1部分:一般要求
- 老年慢性肾功能不全
- 劳务承包协议
评论
0/150
提交评论