




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、目录Contents课程概念应用现状技术Datastage 开发课程-学习体系共享屏幕和在线互动 课下复习离线练习经验 提供课程配套练习 经验方法课程-课程计划Day 1Day 2Day 3Day 4Day 5Day 6 BI基础知识讲解、BI方法论实施 ETL基础知识 DS DS部署方式 DataStage Designer使用 Stage、Link、Job Sequence 等概念 Job的开发流程 实验 经验 DS文件类型介绍 DS数据库 拒绝 link 使用File Pattern方法Sequential 数据 使用Multiple Readers Sequential 文件中数据 数
2、据(DataSet) 空值处理 Connector Stage 介绍 ODBC Connector Stage 实验 经验 使用Lookup Stage关联数据 使用Join Stage 关联数据 使用Merge Stage关联数据 使用Funnel Stage关联数据 使用Sort Stage 对数据排序 使用Removing Duplicate Stage实现数据去重处理 使用Aggregate Stage 对数据进行汇总 实验 经验 在并行JOB中使用Transformer Stage 定义Constraints和Derivations 定义Loops 使用Stage 变量 实验 案例
3、经验 DataStage 并行处理架构 、DataStage并处处理机制(Pipeline、Partition) DataStage 分区和聚集算法 相关配置文件 创建一个空值作业运行的作业 使用DataStage Sequencer Links 使用DataStage Sequencer 触发器调度JOB运行 在主控JOB和被控制JOB间传递参数 实验 经验 DB2 客户端安装配置 ORACLE 客户端安装配置 ODBC驱动安装配置 缓慢变化维处理 分组排序处理 dsjob命令使用 ETL开发流程 ETL开发规范 BI相关面试题目课程-案例商业智能(Business Intelligence
4、,BI),又称商业智慧或商务智能,指用现代数据仓库技术、联机分析处理技术、数据挖掘和数据展现技术进行数据分 析以实现商业价值。数据仓库(Data Warehouse,DW)数据仓库之父(Bill Inmon)在1991年建立数据仓库一书中所提出的定义被广泛接受,数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。联机分析处理 (On-Line Analytical Processing, OLAP)支持复杂的分析操作、侧重决策支持,提供的概念视图
5、数据挖掘( Data mining, DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先有潜在价值的信息的非平凡过程的并BI 从数据到信息 战略决策 行动 交叉分析 数据挖掘决策数据分析数据仓库/数据集市 集成 稳定 生产业务系统 外部数据数据源数据仓库 不同阶段第五阶段:敏 捷型数据仓库, 能够回答“我 需要发生什么” 问题。 这是数据仓库发展希 望达到的理想 境界。第一阶段(又称初级阶段): 报告型数据 仓库,能够回答第二阶段:分 析型数据仓库,
6、 能够回答“为 什么发生变化” 问题。第三阶段:预 测型数据仓库, 能够回答“将 要发生什么” 问题。第四阶段:操 作型数据仓库, 能够回答“正 在发生什么” 问题。“”问题。商业智能应用领域Ø商业智能是一种整体化的解决方案,他可以帮助企业做出明智的业务经营决策,而依据则是企业内部的各种数据,例如订单、库存、账目、客户和供应商资料、行业数据和竞争对手信息等等。商业智能其实是一种将企业信息数据转化为决策的重要工具。Ø商业智能的应用是需要一定的基础的。实施商业智能的企业至少应该具备以下几个条件:用户的数据已达到一定的规模;用户激烈的市场竞争:用户在IT方面的资金能得到保障。满足
7、以上几点的行业集中在重要的售等)、大型现代化的业(如中国电信、中机构(如财务、税务、审计、工商、等)、零售业(连锁店、网上零业(如宝钢、上汽等)、金融(包括、保险等)、电信通、中国移动等)、能源业(电力)、等,这也是目前国内急需要数据仓库和商业智能技术来提升企业竞争力的主要行业。Ø金融、电信行业是BI应用最集中的行业,约占40%的市场分额,保险、能源、烟草、政务行业约占30%的市场份额,、零售行业约占30%的市场份额,是BI应用最具潜力的行业。Ø金融:随着国内五大商业其中BI 已经不仅局限于的信息化不断发展,在BI 领域投资稳步增长,每年均有大量的BI 需求, 管理者的决策
8、,操作型BI 应用越来越广泛,尤其是信贷评审领域。中小型BI需求也不断涌现,未来将是金融行业BI市场的主要增长点。Ø电信:电信行业信息化程度很高,对信息化依赖很强,积累了大量的数据,具有实施商业智能项目 的基础条件和资金实力。电信行业对于BI 深入应用是最渴望的,在话费套餐设置、客户潜力分析等都需要数据挖掘技术来提供决策依据发展趋势移动商业智能商业智能系统会把大量数据转变成可视化形式(如图形和表格),以便使用者详细深入地分析潜在商业趋势。因此如果为这种分析赋予移动性通常利用功能强大的智能终端,许多公司就能与客户和商业合作伙伴进行实时互动,从而服务、提高工作效率。SaaS BI将得到快
9、速发展SaaS是基于互联网提供软件服务的软件应用模式,企业根据实际需要,从SaaS提供商租赁软件服务。SaaS 模式在CRM 领域获得了,不论是国外还是国内具有成,并取得了不错的。SAAS 在BI领域的应用的是应用于互联网上的SAAS软件无法处理BI所需的海量数据。商业智能日渐与业务融合业务分析作为商业智能领域中最贴近业务的层面,在2010年成为业界关注的重点,不管是SAP还是IBM,都将业务分析作为今年的业务发展重点。企业希望由BI系统带来的和洞察力能够帮助企业降低成本,提高生产率和业务敏捷性。通过商业智能,企业能更清晰更深刻的了解包括公司管理、利润分析、市场竞争、财务状况等信息,而未来商业
10、智能的这种特性还将继续加强。操作型BI应用得到发展目前商业智能技术不仅仅应用于企业管理者的决策分析,越来越多的商业智能分析结果正被用于普通员工的日常工作流程中,直接推动业务的执行。例如:在家乐福购物时,收银员已经可以根据顾客的购物篮进行推荐。发展趋势数据集成应用得到重视在一些大型企业中往往有几十个甚至几百个信息系统,将这些数据整合到数据仓库中,一般采取ETL 工具抽取多个厂商数据库的数据,有些甚至还包含非结构化数据,例如XML、EXCEL、文本等。这些数据往往需要和整理放入ODS(中间库),最后以规范、标准的格式到数据仓库。在这个数据集成的过程中,要做到系统兼容性好、开发效率高、处理性能好,而
11、且能够捕捉数据的变化处理增量数据。数据集成是建立实用的数据仓库的关键,而且数据集成的过程占商业智能应用中一半以上的工作量,因此越是大型企业越是重视数据集成。中小企业BI应用逐渐扩大市场份额中国中小企业逐渐呈现对管理软件旺盛的需求态势,很多厂商发布了专门中小企业的BI套件,例如Cognos Express等。中小企业在实施ERP、CRM要的组成部分。后,必将应用商业智能,中小企业市场是BI应用非常重BI企业将在中不断新生中国商业智能市场两极竞争趋势日益加剧。在高端市场,由国际厂商与竞争的局面是2010 年的主流,其中IBM、Oracle、SAP、Microsoft 拥有完整的BI线,将占据70%
12、以上的市场份额。剩余的30%市场将由其他企业和国内企业。随着国内企业的成长与并购,国内厂商的实力不断壮大,但是主要集中于中低端市场,在2010年优秀的国产BI 漫长的。将开始不断向四大国际厂商发起,但是竞争的过程将是极其商业智能主要厂商1) 国际BI厂商,如BO公司(SAP)、Hyperion公司(Oracle)、微软公司、SAS公司等。这些国际厂商的品牌与规模优势非常突出, 是国内大部分BI厂商难以与之匹敌的。2) 起步比较早的国内BI 厂商,如(成立于1995 年10 月,从菲1997 年开始进入BI领域)、先进数通公司(成立于2000 年)、吉公司(成立于2002 年)等。这些国内BI
13、厂商凭借本土化的优势以及对国内BI 用户所需要的应用的独特见解, 也在国内的BI市场上占有超过30的市场份额。3) 非专业BI 厂商,主要有以下几类:一、从事某些行业业务系统建设的公司;二、从事系统集成的公司;三、从事专业财务系统及个别ERP 厂商。厂商及简介IBMDB2 以及Cognos、SPSS、DataStage,覆盖BI全部领域。数据仓库结合了DB2数据服务器的长处和IBM的商业智能基础设施,集成了用于仓库管理、数据转换、数据挖掘以及OLAP分析和报告的组件,提供了一套基于可视数据仓库的商业智能解决方案。OracleOracle、Hyperion,覆盖BI全部领域,数据挖掘领域有待加强
14、。数据仓库解决 方案包含了业界领先的数据库平台、开发工具和应用系统,能够提供一系列的 数据仓库工具集和服务,具有多用户数据仓库管理能力,多种分区方式,较强 的与OLAP工具的交互能力及快速和便捷的数据移 制等特性。SAPBusiness Objects、Crystal Reports,主要是OLAP和报表领域。Sybase(SAP) 提供了称为Warehouse Studio的一整套覆盖整个数据仓库建立周期的包, 包括数据仓库的建模、数据集成和转换、数据和管理、元数据管理和数据可视化分析等。Business Objects(SAP)是集、报表和OLAP技术为一 身的智能决策支持系统,具有较好的
15、和报表功能,提供分析技术,支持多种数据库,同时它还支持基于Web浏览器的、报表和分析决策。MicrosoftSQL Server ,覆盖BI全部领域,适合中小型企业,性价比高。它提供了三大服务和一个工具来实现数据仓库系统的整合,为用户提供了可用于构建典型和 创新的分析应用程序所需的各种特性、工具和功能,可以实现建模、ETL、建立分析或图表、定制KPI、建立报表和构造数据挖掘应用及发布等功能。TeradataTeradata,主要是数据仓库领域。它提出了可扩展数据仓库基本架构,包括数 据装载、数据管理和信息 几个部分,是高端数据仓库市场最 竞争者, 主要运行在基于Unix操作系统平台的NCR硬件
16、设备上。SASSAS,数据挖掘领域领先。SAS公司的数据仓库解决方案是一个由30多个模块的架构体系,适应于对企业级的数据进行重新整合,支持、快速查 询,提供服务于OLAP操作和决策支持的、管理、处理和展现功能。国内其他菲(BI office)、和勤(Hinge)、奥威智动(Power-BI)、科(QlikView)、(BlueQuery),润乾、探智(Tri)。商业智能体系架构Core bankingODS(操作数管理仪表板credit据)ebank记分卡CRMteller交互分析文件报表数据管理.市场管理零售EDW(数据仓库)资产风险权重管理会计分绩效数据集市关系数据模型数据模型管理门户信息
17、发布数据抽取数据加载数据质量管理数据转换源数据数据抽取转换数据仓库数据集市分析展现DataStageETL技术概念商业智能的内容是从许多来自企业不同的业务处理系统的数据(分布的、异构的源数据)中,提取出有用的数据,进行以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程(本质上是样本提取的过程),整合到一个企业级的数据仓库里,从而得到企业信息的一个全局视图,在此基础上利用合适的和分析工具、数据挖掘工具等对数据仓库里的数据进行分析和处理,形成信息,甚至进一步把信息提炼出辅助决策的知识,最后把知识呈现给管理者, 为管理者的决
18、策过程提供支持。ETL技术功能17. 拆分;18. 抽取的字段是否可以动态修改;19. 行、列变换;20. 排序;21. 统计;22. 度量衡等常用的转换函数;23. 主键的生成;24. 调试功能;25. 抽取数据;26. 增量抽取的处理方式;27. 样品数据;28. 在转换过程中是否支持数据比较的功能;29. 数据预览;30. 性能;31. 数据及标准化;32. 按行、按列的分组聚合等1. 字段;2. 的自动匹配;3. 字段的拆分;4. 多字段的混合运算;5. 跨异构数据库的关联;6. 自定义函数;7. 多数据类型支持;8. 复杂条件过滤;9. 支持脏读;10. 数据的批量装载;11. 时间
19、类型的转换;12. 对各种码表的支持;13. 环境变量是否可以动态修改;14. 去重复;15. 抽取断点;16. 间合并或计算;DS历史12345 2008年更名InfoSphere DataStage属于IBM information server套件一部分 2005年3月IBM收购Ascential Software(11亿美金)放在IBM websphere产品线下 2001年4月informix被IBM以10亿美金收购,但是数据集成这部分单独出来一个公司叫Ascential Software 1997年10月Vmark被informix收购 1996年DS最早由Vmark软件公司研发D
20、S特点ØIBM InfoSphere DataStage (简称DS)是IBM公司的ETL开发工具,属于IBM套件和IBM InfoSphere 的一部分,利用图形和符号来 完成数据集成工作。解决方案ØDS为整个 ETL 过程提供了一个图形化的开发环境,它是一套专门对多数据源、异构数据的抽取、转换和维护过程进行简化和自动化,并将其输入数据集或数据仓库的集成工具Ø传统的数据整合方式需要大量的手工编码(如过程,pro*c, shell 等),而采用 DS进行数据整合可以大大的减少手工编码的数量,而且更加容易维护。数据整合的内容是从数据源中抽取数据,然后对这些数据进行转
21、化,形成一致、统一的数据视图加载到目标数据库或者数据仓库中去,这也就是我们通常所说的ETL过程ØDS 的开发环境是基于 C/S 模式的,通过 DataStage Client 连接到DataStage Server 上进行开发。这里有一点需要注意,DataStage Client 只能安装在 Windows 平台上面。而 DataStage Server 则支持多种平台,比如 Windows、Redhat Linux、AIX、HP-UNIXETL竞争对手分析其他常见ETL工具有:ØØØInformatica 公司的PowerCenterSAP 公司的DS
22、(Data Service) ORACLE 公司的ODI( Oracle Data Integrator )MS公司的的(SSIS)Kettle(开源的ETL工具)ØØETL客户分布在全球很多行业拥有广泛地客户群客户主要分布在如下行业u 前20名快速消费品企业中的19位u 前30名制药企业中有25位u 金融 (服务)u 制药u 汽车u 零售、保险、投资公司及金融u 全球前10名的汽车u 美国及欧洲前20位商中的19位u及教育机构u 全球5大保险公司中的4家u 全球超过325家的零售企业u 通信及无线服务u 高科技u 超过1500个及教育机构u业u 高科技公司前10名中的9家
23、u 全球最大的前5位电信公司中的4组成DSu Client: DataStage and Information Server clientsuEngine: DataStage engine andother componentsServices: Hosts common and product-specific services Repository: Database serveruuand databaseu Documentation客户端层DS项目的项目管理(项目的添加、删除、修改配置等)JOB的设计和执行(JOB创建、删除、编译、执行等)JOB运行的Ø DataSta
24、ge DirectorØ DataStage DesignerØ DataStage Administrator引擎层负责抽取、转换、装载和标准化数据的JOB运行Application Service Backbone简称,ASB基于JAVA运行的进程,负责服务层和引擎层的通信Ø ASB agentsØ Server engine服务层WEB容器相关的服务、服务Information server 相关的介绍、开档等信心中心文档相关服务Ø Websphere Application Server元数据层pppp包含information server 和组件的元数据信息支持数据平台:DB2、ORACLE、MSSQL默认选择DB2,可以选择已安装好的DB2实例如果选择其他数据库如oracle,在安装information server的时候需要通过提供的创建元数据库数据源DataStage 能够直接连接多种数据源,应用范围非常大,可连接的数据源包括:u 文本文件u XML 文件u
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2022-2023学年安徽省十校联盟高二下学期开年考英语试题(解析版)
- 墙体安装广告画面协议
- 山林出租合同范本
- 父子关系房屋赠与合同书
- 股权抵押借款合同
- 住宅小区物联网项目合作协议书范本
- 二零二五年度房产抵押个人借款合同税务处理说明
- 2025年度绿色建筑项目股东股份转让及绿色环保协议
- 二零二五年度房屋租赁合同(房屋维修责任及租赁保证金退还条件)
- 二零二五年度地下综合管廊施工合同
- 光催化分解水制氢
- 工程勘察设计收费标准使用手册
- 高速铁路设计规范(最新版)
- 25种全球最流行的管理工具
- 道德与法治-五年级(下册)-《建立良好的公共秩序》教学课件
- 初中英语教学设计Its-time-to-watch-a-cartoon
- 2022年安徽高校教师岗前培训结业统考试题及参考答案
- 城市社区建设概论资料
- 数学-九宫数独100题(附答案)
- 苏教版四年级下册科学全册知识点总结
- 第三方单位考核管理办法
评论
0/150
提交评论