版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库及ETL介绍 数据集成事业部 周欣欣 zhouxinxin 2016.09目录基础概念Informatica 组件详解Informatica KB介绍ETL系统介绍1、数据仓库数据仓库是一个:面向主题的(Subject Oriented)集成的(Integrate)相对稳定的(Non-Volatile)反映历史变化(Time Variant)的数据集合1、数据仓库数据仓库是一个:面向主题的(Subject Oriented)集成的(Integrate)相对稳定的(Non-Volatile)反映历史变化(Time Variant)的数据集合1、数据仓库的特点面向主题的(Subject O
2、riented)数据是面向应用程序事务的,而数据仓库中数据的是按商业主题存放的,商业主题会随着企业的不同而不同。集成的(Integrate)在将不同来源的数据存入数据仓库中之前,必须把这些不同的数据元素标准化,对数据进行清洗、转换等集成操作。相对稳定的(Non-Volatile)一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。反映历史变化(Time Variant)数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到目前的各个阶段的信。主题与主题域主题面向主题的数据组织方式,就是在较高层次
3、上对分析对象数据的一个完整并且一致的描述,能刻画各个分析对象所涉及的企业各项数据,以及数据之间的联系。主题域主题域是对某个主题进行分析后确定的主题的边界主题与主题域主题与主题域:财务:资金筹集、资金配置、资本结构、现金创造、现金管理资产质量、盈利能力、债务风险、成本、费用、差旅人力资源:人员、薪酬、职位、员工关怀、人员流动、技能提升资产:固定资产、资产使用、资产维护、折旧、残值经营分析:流量、生产保障、精细化管理、运营效率、设施效率主题与主题域维度建模维度建模:其最简单的描述就是,按照事实表、维度表来构建数据仓库、数据集市。维度表:维度表可以看作是用户来分析数据的窗口,纬度表中包含事实数据表中
4、事实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实数据表数据,以便为分析者提供有用的信息,维度表包含帮助汇总数据的特性的层次结构。事实表:在多维数据仓库中,保存度量值的详细值或事实的表称为“事实表”。维度建模简单的说:1、事实表就是你要关注的内容;2、维表就是你观察该事务的角度,是从哪个角度去观察这个内容的。 星形模型与雪花模型雪花模型星形模型与雪花模型星形模型 一种使用关系数据库实现多维分析空间的模式,称为星型模式。星型模式的基本形式必须实现多维空间(常常被称为方块),以使用关系数据库的基本功能。雪花模式不管什么原因,当星型模式的维度需要进行规范化时,星型模式就演进为雪花模式。
5、星形模型缺点Benefits:Simpler queriesSimplified business reporting logicQuery performance gainsExpansibilityDisadvantagesredundancy dataHarder Complex Queries缓慢变化维Supplier_KeySupplier_CodeSupplier_NameSupplier_State123ABCAcme Supply CoCASupplier_KeySupplier_CodeSupplier_NameSupplier_State123ABCAcme Supply
6、CoILoriginalNow缓慢变化维处理方式Type 0: retain originalType 1: overwriteType 2: add new rowType 3: add new attributeType 4: add history tableType 6: hybridType 2 & TYPE 3Supplier_KeySupplier_CodeSupplier_NameSupplier_StateStart_DateEnd_Date123ABCAcme Supply CoCA01-Jan-200021-Dec-2004124ABCAcme Supply CoIL22
7、-Dec-2004NULLSupplier_KeySupplier_CodeSupplier_NameOriginal_Supplier_StateEffective_DateCurrent_Supplier_State123ABCAcme Supply CoCA22-Dec-2004ILType 4: add history tableSupplier_keySupplier_CodeSupplier_NameSupplier_State124ABCAcme & Johnson Supply CoILSupplier_keySupplier_CodeSupplier_NameSupplier
8、_StateCreate_Date123ABCAcme Supply CoCA14-June-2003124ABCAcme & Johnson Supply CoIL22-Dec-2004Type 6 Supplier_KeySupplier_CodeSupplier_NameCurrent_StateHistorical_StateStart_DateEnd_DateCurrent_Flag123ABCAcme Supply CoNYCA01-Jan-200021-Dec-2004N124ABCAcme Supply CoNYIL22-Dec-200403-Feb-2008N125ABCAc
9、me Supply CoNYNY04-Feb-200831-Dec-2009Y代理主键代理主键: 维度建模理论中,维表里使用原业务中的主键作为主键就是业务键(Business Key);建立新的主键就是代理键(Surrogate Key)为什么使用代理主键:性能主键重复一致性维度一致性维度:当不同的维度表的属性具有相同列名和领域内容时,称维度表具有一致性。利用一致性维度属性与每个事实表关联,可将来自不同事实表的信息合并到同一报表中。建模四步骤:总线架构数据仓库架构快速判断数据仓库水平有没有带缓慢变化维度一致性维度有没有跨层取数的现象ETL 34个子系统抽取在ETL环境中从源系统收集原始数据并且
10、在任何对数据的重要重构发生之前都将数据写入磁盘。子系统1到子系统3都支持抽取过程。清洗和一致化通过ETL系统中的一系列处理步骤发送源数据,这些步骤提高了从源系统接收数据的质量,并且对两个或多个源系统中的数据进行了合并,创建并强化了一致性维度和一致性度量。子系统4到子系统8描述了支持清洗和一致化过程所需的架构。ETL 34个子系统提交从物理上将数据组织和装载到呈现服务器的目标维度模型中。子系统9到子系统21提供了若干种将数据提交到服务器上的功能。管理用一致的方式来管理ETL环境中的相关系统和过程。子系统22到子系统34都描述了支持ETL系统现行管理所需的组件。抽取子系统1-数据探查子系统2-变化
11、数据捕捉系统审计列定时抽取完全差异比较数据库日志刮取消息队列监视抽取子系统3-抽取系统文件FTPWEB SERVICE数据库接口数据的清洗和一致化子系统4-数据清洗系统对数据质量问题的早期诊断和鉴别分类: 完整性、一致性、准确性、及时性让源系统和集成工作提供更优质的数据具有为ETL过程中遇到的数据错误提供特定描述的功能具有能够随着时间推移捕捉所有数据质量错误和度量数据质量的框架对最终数据的质量可信度进行度量的附加功能数据的清洗和一致化子系统5-错误事件模式子系统6-审计维装配器数据的清洗和一致化子系统7-重复数据删除系统子系统8-一致化系统子系统9-向呈现层交付数据子系统9-缓慢变化维管理器子
12、系统10-代理键生成器子系统11-层次管理器数据的清洗和一致化子系统12-专用维度管理器日期/时间维杂项维微型维(视图维度)小型静态维用户维护的维度子系统13-事实表构建器事务处理粒度事实表装载器周期快照事实表装载器累积快照事实表装载器数据的清洗和一致化子系统14-代理键管道子系统15-多值维度桥接表构建器子系统16-延迟到达数据处理器子系统17-维度管理系统子系统18-事实提供系统子系统19-聚集构建器子系统20-OLAP多维数据集构建器子系统21-数据传播管理器管理ETL环境子系统22-作业调度器子系统23-备份系统子系统24-恢复和重启系统子系统25-版本控制系统子系统26-版本迁移系统
13、子系统27-工作流监视器子系统28-排序系统?子系统29-沿袭和依赖分析器子系统30-问题自动调整系统子系统31-并行/管道系统子系统32-安全系统子系统33-合规性管理器管理ETL环境子系统34-元数据知识库管理器技术元数据业务元数据运行元数据Informatica整体架构两个服务器端和五个客户端组件服务器端Repository ServerInformatca Server客户端Repository ManagerDesignerWorkflow Manager Workflow MonitorRepository Server Administration Console 五个客户端组件
14、的作用Repository Manager 元数据资料库,依赖分析,安全性管理等。Designer 定义源和目标数据结构,设计转换规则,生成ETL映射。Workflow Manager 合理地实现复杂的ETL工作流,基于时间或事件的作业调度。Workflow Monitor 监控workflow和session,生成工作日志及报告。Repository Server Administration Console Repository的建立与维护INFA安装配置依赖:Oracle DB2 或SQL SERVER的DBA权限安装配置过程:点击Server软件包 setup.exe 完成安装登录控制
15、台创建RS,IS,把RS由独占模式改为普通模式点击Client软件包setup.exe配置连接信息,连接到服务器端客户端和服务端端组件服务器端Repository ServerInformatca Server客户端Repository ManagerDesignerWorkflow Manager Workflow MonitorRepository Server Administration Console INFA组件组件源、目标SQ qualifierExpressionJoinerSorterFilterINFA组件Sequence GeneratorAggregatorRouter
16、UnionSQLUpdate StrategyLOOPUP其他MappletworkflowWorklet谢 谢!谢 谢!激励学生学习的名言格言220、每一个成功者都有一个开始。勇于开始,才能找到成功的路。221、世界会向那些有目标和远见的人让路(冯两努香港著名推销商)222、绊脚石乃是进身之阶。223、销售世界上第一号的产品不是汽车,而是自己。在你成功地把自己推销给别人之前,你必须百分之百的把自己推销给自己。224、即使爬到最高的山上,一次也只能脚踏实地地迈一步。225、积极思考造成积极人生,消极思考造成消极人生。226、人之所以有一张嘴,而有两只耳朵,原因是听的要比说的多一倍。227、别想
17、一下造出大海,必须先由小河川开始。228、有事者,事竟成;破釜沉舟,百二秦关终归楚;苦心人,天不负;卧薪尝胆,三千越甲可吞吴。229、以诚感人者,人亦诚而应。230、积极的人在每一次忧患中都看到一个机会,而消极的人则在每个机会都看到某种忧患。231、出门走好路,出口说好话,出手做好事。232、旁观者的姓名永远爬不到比赛的计分板上。233、怠惰是贫穷的制造厂。234、莫找借口失败,只找理由成功。(不为失败找理由,要为成功找方法)235、如果我们想要更多的玫瑰花,就必须种植更多的玫瑰树。236、伟人之所以伟大,是因为他与别人共处逆境时,别人失去了信心,他却下决心实现自己的目标。237、世上没有绝望的处境,只有对处境绝望的人。238、回避现实的人,未来将更不理想。239、当你感到悲哀痛苦时,最好是去学些什么东西。学习会使你永远立于不败之地。240、伟人所达到并保持着的高处,并不是一飞就到的,而是他们在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024丙方提供融资服务合同
- 2024年度个人物品搬迁合同
- 电子病历标准化研究
- 天然气与可再生能源的协同供应机制考核试卷
- 2024年度国际物流与货物运输合同
- 农业大数据分析应用
- 2024健身教练与健身房劳动合同
- 2024双方关于城市轨道交通控制系统升级合同
- 高校创新创业教育“五育并举”方案
- 2024年度二手通讯设备买卖合同
- 电力工程施工售后保障方案
- 2024年小学心理咨询室管理制度(五篇)
- 第16讲 国家出路的探索与挽救民族危亡的斗争 课件高三统编版(2019)必修中外历史纲要上一轮复习
- 机器学习 课件 第10、11章 人工神经网络、强化学习
- 北京市人民大学附属中学2025届高二生物第一学期期末学业水平测试试题含解析
- 书籍小兵张嘎课件
- 氢气中卤化物、甲酸的测定 离子色谱法-编制说明
- 2024秋期国家开放大学专科《机械制图》一平台在线形考(形成性任务四)试题及答案
- 2024年黑龙江哈尔滨市通河县所属事业单位招聘74人(第二批)易考易错模拟试题(共500题)试卷后附参考答案
- 私募基金管理人-廉洁从业管理准则
- 房地产估价机构内部管理制度
评论
0/150
提交评论