




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Informatica PowerCenter 培训,刘 姝 2012-05,电话Mail:liushu-,目录,产品体系介绍 产品安装配置 系统管理介绍 开发六大步骤 组件介绍,INFA产品线,INFA支持情况,PowerCenter选件,丰富的ETL功能,Real-Time 实时功能 Partitioning 分区功能 High Availability 高可靠性功能 Enterprise Grid网格功能 Team-based Development 团队开发功能 Metadata Exchange 元数据交换功能 Unstructured Data 非结构化数
2、据功能 Visio 模板Mapping生成器功能 Data Federation 数据联邦功能 Data Profiling 数据质量探查功能,异构数据源,异构目标 全局变量及参数,参数文件 局部变量,前后记录比较 条件汇总 异构数据源关联 行/列转换 静态、动态Lookup支持 ETL事务处理 自定义SQL Pre SQL和Post SQL 复用组件 复用Mapping 调用存储过程 调用外部用户自定义过程 可视化Debug 实现多种缓慢变化维 强大函数支持、丰富转换语言,数据源为文件列表 Session Recovery 基于多目标表约束装载 错误数量控制 FTP 源和FTP目标 ETL任
3、务分区 增量汇总 测试装载 Bulk Loading External Loader (Oracle、DB2.) 复用Workflow 功能丰富的Workflow控制 任务串行、并行控制 基于时间、事件和指示文件触发 任务 Workflow中调用OS外部命令 Workflow中调用Email 多ETL Server协同工作 ,Informatica PowerCenter应用架构,PowerCenter Server和数据移动,PowerCenter Server、资料库、源和目标之间的处理路径,PowerCenter产品组件,服务端组件 客户端组件,目录,产品体系介绍 产品安装配置 系统管理
4、介绍 开发六大步骤 组件介绍,产品安装与样例安装,产品安装 服务器安装 客户端安装 详见安装手册 样例安装 数据库准备 Infa_rep (资料库数据库) SDBU (样例源数据库) TDBU (样例目标数据库) 样例数据准备 样例参考导入,目录,产品体系介绍 产品安装配置 系统管理介绍 开发六大步骤 组件介绍,系统管理,Informatica Server管理 http:/hostname:6008 Domain Manager Node Manager Repository Service Manager Integration Service Manager License Manage
5、r 资料库内容管理 Repository Manager Folder Manager Privilege Manager ,目录,产品体系介绍 产品安装配置 系统管理介绍 开发六大步骤 组件介绍,开发六大步骤示意图,定义源 定义目标 创建映射 定义任务 创建工作流 工作流调度监控,Designer: Workflow Manager: Workflow Monitor: ,第一步:定义源,引入源的类型 Relational database Flat file COBOL file XML object Application,源分析器,Informatica Service,ODBC Ma
6、pped Drive NFS Mounting Local Directory,Save Meta Data of Sources: OPB_SRC OPB_SRC_ OPB_SRC_FLD OPB_SRC_FLD_ ,第二步:定义目标,引入目标的类型 Relational database Flat file COBOL file XML object Application,目标分析器,Save Meta Data of Targets: OPB_TARG OPB_TARG_ OPB_TARG_FLD OPB_TARG_FLD_ ,第三步:创建映射,第四步:定义任务,第五步:定义工作流,第
7、六步:工作流调度监控,目录,产品体系介绍 产品安装配置 系统管理介绍 开发六大步骤 组件介绍,组件列表,Source Qualifier: 从数据源读取数据 Expression: 行级转换 Filter: 数据过滤 Sorter: 数据排序 Aggregator: 聚合 Joiner: 异构数据关接连接 Lookup: 查询连接 Update Strategy: 对目标编辑 insert, update, delete, reject Router: 条件分发 Sequence Generator: 序列号生成器,组件列表,Normalizer: 记录规范化 Rank: 对记录进行TOPx
8、Union: 数据合并 Transaction Control: 对装载数据按条件进行事务控制 Stored Procedure: 存储过程组件 Custom: 用户自定义组件 HTTP: WWW组件 Java: Java自编程组件,其它应用组件,组件类型,Passive组件 流入流出组件的行数不发生变化 例如:Expression、Lookup、HTTP组件 Active组件 流入流出组件的行数会发生变化 例如:Aggregator、Router、Filter组件,P,A,函数分类,聚合函数 字符串函数 转换函数 数据清洗函数 日期函数 编码函数 财务函数 数值函数 数学函数 特有函数 判断
9、函数 用户自定义函数,函数列表,Expression组件 Source Qualifier、 Filter与Router Joiner与Lookup,组件讲解,Expression组件,组件功能 基于行级的数据项赋值、修改、计算 在同行记录中可新增、减少数据项 组件类型 Passive组件 应用范围 数据类型转换,例如Expression:to_date(Port1,yyyymmdd) 数据项计算,例如Expression:(Port1+Port2)/Port3 新增变量,例如Expression: i=i+1,Expression组件,练习一:Expression组件,描述 将原始客户信息记
10、录转换成合格标准的数据导入到暂存区。 源表: customer_east.txt customer_west.txt customer_central.txt 目标: TDBU.STG_CUSTOMERS 要点 姓与名合并为姓名; 电话号码转换成易读格式的电话号码,如:(466)766-283; 性别转换,将F 转换成FEMALE、M 转换成MALE、其它转换成UNK; 年龄分段,20 岁以下29、3039、4049、5060、60 岁以上; 解决方案 详见m_LAB_01,Expression组件 Source Qualifier、 Filter与Router Joiner与Lookup,组
11、件讲解,Source Qualifier、Filter组件,组件功能 对流入组件中的记录数据进行过滤 类似于关系型数据库Where应用 与Source Qualifier的过滤功能区别在执行位置上 组件类型 Active组件 应用范围 数据过滤,Source Qualifier、Filter组件,注意: 在Source Qualifier中的 User Defined Join、 Source Filter、 Number of Sorted Ports中定义了SQL条件,那么,在Sql Query中就不要在重写相关的SQL条件,否则,将不会生效。,练习二,描述 将暂存区的客户信息按照性别分别
12、导入到男、女、性别不明三张表内。 源表: TDBU.STG_CUSTOMERS 目标: TDBU.STG_CUSTOMERS_FEMALE TDBU.STG_CUSTOMERS_MALE TDBU.STG_CUSTOMERS_UNK 要点 偿试用Filter组件多种方法对目标进行装载 解决方案 详见m_LAB_02,Router组件,组件功能 对流入组件中的记录数据按照条件进行分发 类似于Java语言中的Switch语句 组件类型 Active组件 应用范围 数据分发,Router组件,练习三,描述 将暂存区的客户信息按照性别分别导入到男、女、性别不明三张表内。 源表: TDBU.STG_CU
13、STOMERS 目标: TDBU.STG_CUSTOMERS_FEMALE TDBU.STG_CUSTOMERS_MALE TDBU.STG_CUSTOMERS_UNK 要点 使用Router组件对数据进行分发 比较Filter与Router各种方法的应用特点、性能 解决方案 详见m_LAB_03,Expression组件 Source Qualifier、 Filter与Router Joiner组件,组件讲解,Joiner组件,组件功能 对异构数据进行关联(同构关联用Source Qualify组件) 类似于SQL 中的Join语句 组件类型 Active组件 应用范围 2个异构数据类型的
14、表关联,同构Joins与异构Joins,同构Joins,同种结构数据 Source Qualify组件 从源直接Joins n个源可用1个SQ组件 在源中先定义连接关系,异构Joins,不同DB或Flat与Flat之间 Joiner组件 在PowerCenter中Joins n-1个Joiner组件 在Joiner中定义连接条件,Joiner组件,Join类型,练习四,描述 将员工信息与员工工资2个异构表关联后,将关联结果数据倒入到暂存区。 源表: Employees_layout结构 Employees_list.txt文件目录 Employees_east.txt Employees_we
15、st.txt Employees_central.txt Salary.txt 目标: TDBU.STG_EMPLOYEES 要点 用Joiner组件进行Mapping设计 注意Master与Detail的设置选择(关联时建议将数据量少的设置为Master.) 解决方案 详见m_LAB_04,练习五,描述 将员工信息与员工工资2个同构表关联后,将关联结果数据倒入到暂存区。 源表: SDBU.EMPLOYEES SDBU.SALARY 目标: TDBU.STG_ EMPLOYEES 要点 用Source Qualify组件进行Mapping设计 注意关联关系设置 建议 N个同构数据源只需用1个S
16、ource Qualifier组件关联,关联时建议将在Source设计区将需要关联的源表手工用连线关联起来,在Mapping设计区删除各个源所带的Source Qualifier组件,用一个新的Source Qualifier组件包含所有源的字段内容。 解决方案 详见m_LAB_05,Lookup组件 Sorter组件 Aggregator组件 Update Strategy组件 Sequence Generator 其他组件简介,组件讲解,Lookup组件,组件功能 对Flat File或数据库根据关联的条件进行查询 返回符合条件的值,否则为空 连接关联与非连接关联 类似于SQL 中的Joi
17、n语句 组件类型 Passive组件 应用范围 查询文本文件的关联数据 查询数据库的关联数据,连接Lookup与非连接Lookup,Lookup源,Lookup组件,查询条件:ITEM_ID = IN_ITEM_ID PRICE = IN_PRICE,流入值,查询输出值,流入值,查询到的值,Lookup组件,组件,查询条件:IIF(ISNULL(customer_id), :lkp.MYLOOKUP(order_no),customer_id),是否查询 Y,返回查询到的值,Lookup组件,练习六,描述 将员工信息去员工工资文本文件查询员工工资信息,未查到的工资默认为0,最后将结果数据倒入到
18、暂存区。 源表: Employees_layout结构 Employees_list.txt文件目录 Employees_east.txt Employees_west.txt Employees_central.txt Salary.txt 目标: TDBU.STG_EMPLOYEES 要点 用连接Lookup组件进行Mapping设计 注意Salary(Flat File)的设置 解决方案 详见m_LAB_06,练习七,描述 将合格的员工信息去员工工资文本文件查询员工工资信息,未查到的工资默认为0,最后将结果数据倒入到暂存区。 源表: Employees_layout结构 Employee
19、s_list.txt文件目录 Employees_east.txt Employees_west.txt Employees_central.txt Salary.txt 目标: TDBU.STG_EMPLOYEES 要点 用非连接Lookup组件进行Mapping设计 注意Salary(Flat File)的设置 注意数据查询的条件 解决方案 详见m_LAB_07,Lookup组件 Sorter组件 Aggregator组件 Update Strategy组件 Sequence Generator 其他组件简介,组件讲解,Sorter组件,组件功能 根据关键字段对记录进行升序或者降序排序 P
20、assive组件 应用范围 一般用在joiner组件和聚合组件组件类型,提高性能,Sorter组件,Lookup组件 Sorter组件 Aggregator组件 Update Strategy组件 Sequence Generator 其他组件简介,组件讲解,Aggregator组件,组件功能 对数据集进行聚合 聚合分有SUM、AVG、Count、Max、Min 组件类型 Active组件 应用范围 分组汇总 平均值、最大值,Aggregator组件,Aggregator组件函数,Aggregator组件属性,Aggregator组件排序的区别,不对流入到Aggregator组件的数据进行排序
21、,练习八,描述 将采购清单按照数据仓库星型设计原则进行标准化存储,对货物库存量、订单量和货物费用按照采购编号、货物品名、代理商、订单日期、接收日期和发货日期进行汇总。 源表: TDBU.STG_INVENTORY 目标: TDBU.FACT_INVENTORY LOOKUP表: 产品维表为DIM_PRODUCT 日期维表为DIM_DATE 要点 订单文本文件与产品表的关联 汇总前排序 分组汇总 解决方案 详见m_LAB_08,Lookup组件 Sorter组件 Aggregator组件 Update Strategy组件 Sequence Generator 其他组件简介,组件讲解,Updat
22、e Strategy组件,组件功能 对流过组件的每一条记录赋一个操作标志 根据操作标志对目标关系型数据库表生成SQL操作 操作标志有DD_INSERT、DD_DELETE、DD_UPDATE、DD_REJECT 组件类型 Active组件 应用范围 数据增量更新 对目标编辑,Update Strategy组件,练习九,描述 将暂存区的发生变更了的员工信息倒入到员工维表中。 源表: TDBU.STG_EMPLOYEES 目标: TDBU.DIM_EMPLOYEES 要点 使用Router组件对数据按不同要求进行编辑操作 偿试用一个Update Strategy组件完成上述功能 解决方案 详见m_
23、LAB_09,Lookup组件 Sorter组件 Aggregator组件 Update Strategy组件 Sequence Generator 其他组件简介,组件讲解,Sequence Generator组件,Sequence Generator组件,练习一 多个目标,要生成重复和不重复的代理主键 Incresement by 10 current value 1001 1、 从SEQ_1中出来的nextval不经过任何组件直接到目标表,源表的num字段也直接到目标表 2、从SEQ_2中出来的nextval和currval经过Expression组件直接到目标表,源表的num字段不经过任
24、何组件直接到目标表 3、从SEQ_3中出来的nextval和currval经过Expression组件直接到目标表,源表的num字段也经过Expression组件到目标表 4、从SEQ_4出来的currval直接连到目标表,nextval没有输出 参照:m_SequenceGenerator,解决方案功能实例,增量抽取实例 参数文件控制 断点续传实例 存储过程实例 行列转换实例,增量抽取实例,实例描述 对流过组件的每一条记录赋一个操作标志 根据操作标志对目标关系型数据库表生成SQL操作 操作标志有DD_INSERT、DD_DELETE、DD_UPDATE、DD_REJECT 解决方案 全表比较
25、方法 时间戳方法详见m_LAB_10 字段压缩比较 PowerExchange,解决方案功能实例,增量抽取实例 参数文件控制 断点续传实例 存储过程实例 行列转换实例,参数与变量存在的三种形式,系统级变量 SYSDATE系统日期 SESSSTARTTIMESESSION启动时间 Mapping级参数与变量 SETMAXVARIABLE($Variable,value)设置最大值变量 SETMINVARIABLE($Variable,value)设置最小值变量 SETVARIABLE($Variable,value)设置变量值 SETCOUNTVARIABLE($Variable)设置递增、减变
26、量 文件级参数与变量 固定格式,Mapping参数与变量形式,从Designer 中的Mappings/Mapplets 菜单中进行定义 在相应的Mapping或Mapplet中进行引用即可,参数文件形式,全局变量,域级服务变量,节点级服务处理变量,Workflow级变量 优先于前几级定义的变量,参数文件设置,Workflow参数文件设置,参数文件的级别规则,GLOBAL,SERVICE,SERVICE PROCESS,WORKFLOW,SESSION,使用范围,执行优先权,高,低,低,高,Mapping与Workflow/Worklet之间进行变量传递,使用不同参数文件并行运行同一个Work
27、flow,参数文件实例,实例描述 对源文本文件名进行参数化 对源表名进行参数化 对目标输出文本文件名进行参数化 对源与目标的数据库连接进行参数化 对日志文件及路径进行参数化 解决方案 详见m_LAB_11 注意事项 注意变量的命名规则:特别是固定的前缀,解决方案功能实例,增量抽取实例 参数文件控制 断点续传实例 存储过程实例 行列转换实例,断点续传实例,实例描述 当在数据抽取时,因意外致使数据抽取发生中断,重新启动服务时仍可从断点执行数据抽取 解决方案 通过表pm_recovery和PM_TGT_RUN_ID记载最近提交点的位置,当session失败(或停止)后可从断点处接着装载数据,在mon
28、itor中,recover task。 在源表数据未发生变化的前提下 详见m_LAB_12 监控脚本 select * from pm_recovery ; select row_count from pm_recovery ; select * from PM_TGT_RUN_ID; select count(*) from SessionRecovery_Target ; truncate table SessionRecovery_Target ;,断点续传实例,解决方案功能实例,增量抽取实例 参数文件控制 断点续传实例 存储过程实例 行列转换实例,存储过程实例,实例描述 将原始客户信息
29、记录转换成合格标准的数据倒入到暂存区,转换处理在存储过程中完成 源表: customer_east.txt customer_west.txt customer_central.txt 目标: TDBU.STG_CUSTOMERS 解决方案 见存储过程EMP_INFA_TRANSFORM 详见m_LAB_13,解决方案功能实例,增量抽取实例 参数文件控制 断点续传实例 存储过程实例 行列转换实例,列行转换实例,实例描述 源数据一条记录有多个字段格式一样,经过格式化,到目标生成多条记录,并且只保留一个该格式字段。 解决方案 使用Normalizer组件,实现列/行转变 详见m_LAB_14_1
30、行列转转用Aggregator组件实现, 详见m_LAB_14_2,Workflow组件讲解,Assignment组件 Decision组件 EventRaise组件和EventWait组件 Timer组件 FailedControl组件 Command组件 Email组件,Assignment组件功能,Assignment组件,通过workflow级别定义的变量来实现累加计数的功能,最终实现阶段性的运行任务的能力案例:每天running任务1,每周running任务2,Assignment组件设置,Workflow组件讲解,Assignment组件 Decision组件 EventRaise
31、组件和EventWait组件 Timer组件 FailedControl组件 Command组件 Email组件,Decision组件功能,决策组件,通过前方组件任务返回的结果对后续任务加以控制结合Decision的Link condition值进行流程控制,Decision组件函数,任务的返回值类型,Workflow组件讲解,Assignment组件 Decision组件 EventRaise组件和EventWait组件 Timer组件 FailedControl组件 Command组件 Email组件,EventRaise组件和EventWait组件功能,EventRaise组件和Even
32、tWait组件成对出现事件触发由workflow中定义的任意一个event事件来触发,用以发布事件等待负责接受捕获被发布的event,进而出发下一个任务S_3何时执行结束与EventWait组件是否运行无关,EventRaise组件设置,EventWait组件设置,EventWait组件特殊用法,EventWait组件也可以等待指示文件,此时不于事件触发组件成对出现,Workflow组件讲解,Assignment组件 Decision组件 EventRaise组件和EventWait组件 Timer组件 FailedControl组件 Command组件 Email组件,Timer组件功能,T
33、imer组件控制时间触发下一个任务,有两种方式绝对时间触发:定义固定时间触发相对时间触发:定义间隔时间触发,Timer组件绝对时间触发,Timer组件相对时间触发,Workflow组件讲解,Assignment组件 Decision组件 EventRaise组件和EventWait组件 Timer组件 FailedControl组件 Command组件 Email组件,FailedControl组件功能,失败控制用于组件控制未进行的任务的状态,Workflow组件讲解,Assignment组件 Decision组件 EventRaise组件和EventWait组件 Timer组件 FailedControl组件 Command组件 Email组件,Command组件功能,调用系统中的shell脚本,可添加多个,Command组件脚本添加,Workflow组件讲解,Assignment组件 Decision组件 EventRaise组件和EventWait组件 Timer组件 FailedControl组件 Command组件 Email组件,Email组件功能,发送mail,可在组件内部编辑mail信息,Email组件添加附件,在文本框的左边是内置的一些变量,比如直接输入%d就是指存储库的名称,%a就是发送附件,直接跟附件的绝对地址。,性能调优,瓶颈类型,Source
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 土地承包整地协议书
- 家庭水管改造协议书
- 库存杂货收购协议书
- 摄影基地挂牌协议书
- 维修住户协议书模板
- 缩减工时协议书范本
- 孕妇工作免责协议书
- 员工劳务赔偿协议书
- 无偿实习协议书范本
- 销售绩效顾问协议书
- JJF 1603-2016(0.1~2.5)THz太赫兹光谱仪校准规范
- 医药卫生病原微生物检测技术知识与技能比武竞赛题库
- 《民法典》-第二编 物权编-案例分析,解读-3
- 膜片钳常见问题汇总(人人都会膜片钳)
- 讲故事技能培训
- 海岸动力学全册配套完整课件
- 工作面防飞矸封闭式管理规定
- 干部人事档案管理岗位培训的讲义课件
- 财务人员廉政谈话记录 财务个人谈话记录3篇
- 沪教牛津版小学三至六年级英语单词表
- 质量整改通知单(样板)
评论
0/150
提交评论