ETL DataService_第1页
ETL DataService_第2页
ETL DataService_第3页
ETL DataService_第4页
ETL DataService_第5页
已阅读5页,还剩90页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、议程n理解Data Service结构和安装n数据仓库概念n定义源数据库和目标数据库n创建批作业(Batch Job)n使用内置的Transformsn使用内置函数(Functions)n变化数据获取(Change Data Capture)n管理工具(Web Administration)n练习(Exercises)nQ&A环境准备1.DS的使用经验2.项目中承担的角色3.是否有DS环境和客户端4.拷贝安装介质Data Service 安装n硬件nCPU Pentium processorn1024M RAMn2G free DSsk space (or above)n软件nWind

2、ows XP/WIN7/2003/2008nDatabase oracle/db2/sqlserver/mysqlDataService ETL 架构ETL = Extract, Transform and Load 商务智能系统逻辑架构数据整合数据整合SAP Data Service 报表管理员报表管理员浏览用户浏览用户前端展现前端展现SAP BIP平台平台SAP BIP资资料库料库分析分析数据库数据库业务数据库管理者管理者数据仓库构成n关系型数据库关系型数据库n数据库设计规范化数据库设计规范化 范式(范式(3NF)nOLTPnOLAPn数据仓库数据仓库n数据集市数据集市n星型结构(多星型模

3、型)星型结构(多星型模型)n事实表事实表n维表维表n雪花型结构雪花型结构nSCD数据整合良好的数据基础提升BI应用价值优秀的工具n单一的环境下实现萃取单一的环境下实现萃取, 转换和加转换和加载载 (ETL)n易于使用易于使用, 拖拽式界面拖拽式界面n内到数据预览内到数据预览,数据描绘数据描绘(profiling), 和排错和排错(debugging)n丰富的转换函数丰富的转换函数n基于基于Web的管理,方便部署的管理,方便部署n强大的强大的ETL引擎引擎n高性能的并行架构高性能的并行架构n实时处理和批处理实时处理和批处理端到端的BI应用n易于管理易于管理n影响分析影响分析n从数据源到报表的数据

4、体系从数据源到报表的数据体系Data Service 构成Data Service 构成Local RepoDesignerWeb AdminBrowserProfile ServerEngineEngineEngineSourceTargetAdaptersJob ServerData Service管理工具nDS 管理工具(management tools)n资料库管理(Repository Manager)创建, 升级, 检查资料库版本n服务器管理(Server Manager)添加, 删除, 或者编辑作业服务器的属性(properties of Job Servers)将作业服务器和资

5、料库关联起来(Link between Job Server and repositories)nWeb administrator(Web admin)添加, 删除, 或者编辑作业,高级管理Data Service 原理Repository Manager资源库管理DS Repository支持:SQL Server;DB2OracleMy SQLSybase ASERepository种类:Local;Central;Profiler练习: 创建资料库Server Manager服务器管理Job Server:将Job Server与Local Repository关联起来练习:建立一个S

6、erver问题Job Server应与哪一种资料库关联:Local RepositoryCentral RepositoryProfiler RepositoryQuestion哪种说法正确:每个开发人员均需建立一个Local Repository一个Job Server可关联多个Local Repository一个Local Repository可与多个Job Server关联DS DesignerData Service ObjectsnProjectsnJobsnWork flowsnData FlowsnScriptsnTransformsJob由什么组成?Job中可以包含:Scrip

7、t;WorkFlow;DataFlowJob是DS的可执行对象WorkFlowWorkflow中包含:Script;Dataflow;WorkflowWorkFlow这样的Workflow执行时有什么特点?JOB可否这样?如果我需要执行逻辑,怎么办?DataFlowDataflow中包含:Source;Target;TransformsSub Dataflow不能包含:Workflow;ScriptSource和Target代表源和目标TransformsSource DataTables;Files;XMLs;Target DataTables;Files;XMLs;Transform转换O

8、DSDWETL1ETL2ETL1:数据迁移细节数据代码转换数据拆分、合并ETL2:数据汇总数据关联星型模型数据质量控制数据质量控制定义源与目标数据库nDatastoresn什么是Datastore:Datastore是DS到数据库、application的连接对于本次培训来讲,Datastore就是数据库nDatastore连接DB2, Informix, SQL Server, Oracle, Sybase, Teradata (native connections)Other DB (ODBC)IMS, VSAM.练习 :定义源与目标nCreate a source datastore O

9、DSnCreate a target datastore - Target什么是元数据nImporting Metadatan什么是MetadataMetadata包括Table NameColumn namesData typePKIndexTable attributesDescriptionRDBMS functions练习:导入元数据可以直接搜索名称练习请在本机上的数据库中附加两个数据库ODS和Target在DS Designer中创建两个Datastore,分别命名为:DS_ODS(作为源);DS_Target(作为目标)定义文件格式n分隔符格式文件n固定宽度格式文件nSAP R3

10、format练习nDefine a File format Employees创建一个批处理JOBnCreate a projectnCreate a jobnCreate a work flownCreate a Data flownAdd source and target objects to a data flownExecute the job迁移QUERY创建Target表使用Template表创建目标文件格式直接创建Target文件格式Query的利用:过滤Query的利用:Join和Outer JoinQuery:Multi-source和Multi-target练习:Quer

11、y1.创建两个DataStore:Source/Target2.导入Employee/Customers/Orders/Order_details表3.创建Project,DF4.将Customers表从Source迁移到Target表(使用Template表)5.将Customers表中的按照Country分成US_Cust和Intl_Cust两部分,分别存放到两个表内6.将Customer表同时写入数据库和文本文件(创建文件格式)思考:如果Source和Target是不同的数据库类型,应注意什么问题?迁移过程一样需格外注意数据类型转换源是否可以是多个异构数据库?目标是否可以是多个异构数据库

12、?问题:哪些说法是正确的:一个Project可以包含多个JOB可以直接在JOB上加入Dataflow而不必使用Workflow可以直接运行某个Dataflow而不是整个JOB一个Dataflow可以在多个Job或者Workflow中使用问题:关于Query说法正确的是:能够实现数据抽取能够进行数据过滤能够进行汇总议程:n使用Query Transform 聚合与排序n使用 SQL Transform 作为一个源n快速导入n使用CASE/MERGE 转换n使用Validation 控制数据质量n其他transformsn使用Web AdministrationAggregate任务:Query使

13、用Query进行汇总综合使用排序、过滤等:Query练习:从Customer和Orders以及Orders Detail三个表中对每个国家购买的产品数量和金额进行汇总SQL作为源Fast Load-理解目标表常规的DataFlow使用SQL加载数据高效的加载则使用Bulk Load加载数据目标表设置将Template Table变成Normal Table练习:使用SQL和Bulk Load使用SQL从Customer表中提取美国客户数据使用Bulk Load将其加载到目标表测试Bulk Load,使用Row_Generation创建大数据集Bulk Load参数问题:关于加载说法正确的是:I

14、nsert比Bulk Load速度更快在执行数据加载之前或加载完毕后可以自动执行设定的SQLTemplate表可以使用Bulk Load选项文本文件作为目标时可以使用Bulk Load目标表的其他属性拆分- Case合并- Merge练习使用CASE将Customer客户分成US客户和INTL客户两部分,分别装入US_CUST表和INTL_CUST表用MERGE将US_CUST和INTL_CUST合并成ALL_CUST表展平- Hierachy_Flattening8BusinessNew Joes97StreetPearl86CityBoulder7StateBusinessStreetCi

15、tyStateCountryGeo_type1CO64Original Joes5321Geo_parent4321Geo_keyHaightSan FranciscoCAUSAGeo_nameInput:BoulderSan FranciscoCityCOCAStateUSAUSACountryPearlHaightStreet95Geo_keyNew JoesOriginal JoesBusinessOutput: (one row per leaf node)1. Bob3. Frank7. Louise6. Annie2. Linda5. James4. David9. Ben8. E

16、ric使用 Hierachy_Flattening使用 Hierachy_Flattening使用 Pivot使用 Reverse Pivot使用 Date_GenerationnFor Create time DSmension table.n练习: create date DSmensionDate Transform进阶:使用代理键什么是代理键?在数据仓库中代理键有何用处?使用代理键数据质量特性数据质量的管理流程Data Profiling同时比较两个数据集n源表、目的表或文件n中间处理的输出内带数据预览和结构分析7 0 10000 809622 05/09/037 0 0.160 0.

17、970 05/09/03在同样的面板上进行结构分析内带数据预览和结构分析数据清洗和校验:分拣和校正使用 Validationn验证输入数据是否有效,如日期,数字,业务规则n练习: Validation数据校验易于定义和充用业务规则去校验每字段数据的正确性识别任何拒绝或纠正错误的数据确保每个字段每条记录数据的正确性Validate数据校验 例子数据审计:AuDSt数据审查在整个etl过程中校验审查统计操作规则n收集校验统计例如行数、汇总,平均和校验码n维护审计统计的历史信息在行级的标准下校验数据仓库的完整性AuDSt数据审查 - 例子练习:1.选择一个表进行剖析2.自定义一些业务规则实现数据分拣

18、3.试用相关功能问题:关于数据质量说法正确的是:1.Data Profiling必须使用Profiling服务器2.通过Profiling可以了解数据源的干净程度3.DS内置分拣和清洗规则进行数据分离如何使用AuDSt?使用内置FunctionsnFunction vs. TransformnFunctions operate on single values, such as values in specific columns in a data set.nTransforms operate on data sets, creating, updating, and deleting r

19、oes of data.nFunctions categorynAggregate sum, avg, max nConversionnDatabasenDate add_months, date_DSff, date_part nEnvironment get_env nMath abs, sin, floornMiscellaneous hostname, dataflow_name, sleep nStringnSystem exec, mail_tonValidation is_valid_date, is_valid_decimal nCustom functions使用内置Func

20、tionsnWith Smart EDStornWith Function wizard使用内置FunctionsnDate and time functionsnTo_char ( date, format )nTo_date ( string, format )nJulian( date) as intnmonth ( date)nQuarter (date)nDecode()nLookup functions nLookup()nLookup_seq()nLookup_ext()nActivity: Using the Lookup_ext() Function变化数据捕捉n对于大数据量的数据仓库项目,为了减少更新数据仓库所花费的时间,需要使用CDC方案 只将“变化的数据变化的数据”加载到数据仓库n“变化的数据变化的数据”包括 增增 删删 改改n两种方案:nSource based CDCnTarg

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论