版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、DataServices培训总结-操作手册目录一、DS简介2二、DS数据加载方式2三、DS进行数据抽取模型开发的基本过程3四、DS创建数据源系统和目标系统的数据存储31、Oracle数据库作为数据源系统32、ECC作为数据源系统43、HANA数据库作为目标系统5五、全量加载过程51、创建Project和Job52、导入源表的元数据到资源库63、创建Data Flow64、设置源表和目标表75、手工执行Job7六、基于表比较的增量加载81、在Job下定义工作流82、在工作流中定义数据流83、加入Table_Comparison控件94、设置Table_Comparison控件9七、基于时间戳的增
2、量加载101、在Job下定义工作流102、定义Script控件103、定义处理新增数据的数据流和处理更新数据的数据流11八、DS中常用控件介绍131、Key_Generation132、Case133、Merge144、Validation155、设置过滤器和断点15九、定义Job定期执行161、登录Data Services Management Console162、定义Batch Job Schedules17十、其他注意事项18一、DS简介SAP BusinessObjects Data Services是通过SAP HANA认证的ETL工具。 采用数据批量处理的方式,定期执行后台作业
3、,将数据从多个业务系统中抽取出来,并进行必要的处理(转换,合并,过滤,清洗),然后再加载到HANA数据库中 。DS的组件之间的关系: u Management Consol: 管理控制台是网页版DS管理工具,可以进行一些系统配置和定义Job执行 u Designer: Designer是一个具有易于使用的图形用户界面的开发工具。它允许开发人员定义包括数据映射,转换和控制逻辑的数据管理应用程序,创建包含工作流(作业执行定义)和数据流 (数据转换定义)的应用程序 u Repository: 应用程序设计器使用的本地资源库用来存储Data Services对象(如项目,作业,工作流,和数据流)的定义
4、和源和目标的元数据 u Job server: 作业服务器启动数据移动的从多个不同种类的源集成数据的引擎,执行复杂的数据转换,并管理从ERP系统和其他源的抽取和事务 二、DS数据加载方式u 全量加载 u 增量上载 a) 基于表比较 作业在执行时读取数据源和目标中的全部数据,在服务器的内存中进行比较,计算数据差异 b) 时间戳增量 需要在数据源中添加时间戳字段,一般为创建时间和最后修改时间,在抽取作业中定义对两个时间戳字段进行对比,符合条件的创建时间条目进行插入,符合条件的修改时间条目进行更新 c) 利用数据库CDC(changed data capture) 首先需要开启数据库的CDC服务,为
5、数据库实例启用CDC功能,为源表启用CDC功能。在这种模式下,DS的增量更新不再直接访问源表,而是在与源表相关的变更记录表中读取增量 三、DS进行数据抽取模型开发的基本过程u 为数据源创建数据存储 u 导入源表的元数据到资源库u 为SAP HANA目标系统创建数据存储u 新建DS项目和批量作业u 新建DS数据流:定义源表和目标表,定义变量、编辑Query和Map_CDC_Operation u 执行批量作业 四、DS创建数据源系统和目标系统的数据存储1、Oracle数据库作为数据源系统登录Data Services Designer,在本地对象库的数据存储页签中单击鼠标右键,选择新建菜单创建数
6、据存储“EAM_TEST”,在弹出的对话框中输入EAM数据库的连接信息2、ECC作为数据源系统同样在创建DataStore时,输入ECC的连接信息3、HANA数据库作为目标系统在创建DataStore时,输入HANA数据库的连接信息五、全量加载过程1、创建Project和Job在本地对象库的project页签中单击鼠标右键,选择新建菜单,创建项目“ERP_DS”。双击该项目,在“Project Area”,可以在该项目下创建Job2、导入源表的元数据到资源库在本地对象库的数据存储页签中,选择源系统的数据存储,单击鼠标邮件,选择“Import By Name”,输入需要导入到资源库的表名称。导入
7、成功后,在数据存储的table目录下可以看到导入的表3、创建Data Flow 单击“General”Job,在右边空白区域单击鼠标邮件,选择“Add New”-“Data Flow”4、设置源表和目标表单击创建的Data Flow,将需要导入到HANA数据库中的源表拖入到Data Flow区域中,将Data Flow区域右侧的工具条中的模版表拖入Data Flow区域创建模版表输入模版表名称、HANA目标系统的数据存储、HANA数据库存放DS抽取数据表的用户名。连接源表和目标表双击模版表,设置“Options”中的“Use NVARCHAR for VARCHAR”5、手工执行Job选择Jo
8、b,单击鼠标右键,选择“Execute”执行成功之后,在HANA数据库中的ERPDSUSER下可以看到“T161T”,可以查看数据表的内容。执行过程信息和结果可以在监控器中查看。六、基于表比较的增量加载1、在Job下定义工作流2、在工作流中定义数据流在数据流中定义源表和模版表,执行Job,执行成功之后,在目标系统数据存储的Template Table目录下可以看到创建的模版表3、加入Table_Comparison控件选择模版表,单击鼠标邮件,选择“Import Table”。模版表会更新为Tables目录下的数据表。通过将转换-数据集成中的“Table_Comparison”控件拖入到数据流
9、中的方式添加“Table_Comparison”控件将源表连接“Table_Comparison”控件,“Table_Comparison”控件连接目标表。4、设置Table_Comparison控件双击“Table_Comparison”控件,设置相关参数:比较的目标表、表的主键,需要比较的字段。当需要比较的字段为空时,会比较所有字段。建议按照需要填写需要比较的字段,可以加快处理速度。保存后执行Job。七、基于时间戳的增量加载1、在Job下定义工作流在工作流中定义Script控件,读取数据抽取后最新的创建时间和更改时间,定义一个处理新增数据的数据流和一个处理更新数据的数据流2、定义Scrip
10、t控件在Script控件中需要使用变量存放读取的最新的创建时间和最新的更改时间。选择Job,在工具栏选择“Variables”按钮,创建全局变量双击“Script”控件,编写SQL语句,从HANA数据库表中读取最新的创建时间和更改时间3、定义处理新增数据的数据流和处理更新数据的数据流双击“EBAN_New”数据流,加载源表,Query,Map_CDC_Operation控件和目标表双击Query,在输出字段中增加“Sequence”和“Operation”两个字段。“Sequence”字段使用函数gen_row_num()进行赋值,“Operation”赋值为I在Quey中设置Where条件双
11、击Map_CDC_Operation控件,设置CDC Columns同样的方式定义“EBAN_Upd”数据流,在Query的where条件中定义为在Query的数据结果中增加“Sequence”和“Operation”两个字段。“Sequence”字段使用函数gen_row_num()进行赋值,“Operation”赋值为U保存后,执行Job。可以通过修改源系统数据测试基于时间戳的增量加载。八、DS中常用控件介绍1、Key_Generation在源表基础上为目标表重新生成主键在Query中增加“ID”字段,赋值为0。在Key_Generation控件中设置目标表、主键字段、主键值增加量2、Ca
12、se将源表根据规则进行拆分双击Case控件,设置拆分条件当SOURCE = 1时,输出SPFLI_1,当SOURCE =2时,输出SPFLI_23、Merge将具有同样数据结构的源表进行合并在Query中增加输出字段Source,赋值为1。在Query1中增加输出字段Source,赋值为2。在Merge中将两个表的内容合并输出。4、Validation提取数据源表中的正确数据,将错误数据单独存放在其他表中双击Validation控件,设置“Validation Rule”5、设置过滤器和断点过滤器和断点结合使用,用于设置Debug的条件选择源表到目标表的连接线,单击鼠标右键,选择Set Fil
13、ter/Breakpoint,设置Debug条件(当满足某种条件时进入断点,或者在满足过滤条件的同时执行多少条数据后时进入断点)选择Job,单击鼠标右键,选择Start debug工具栏上的按钮可以控制执行下一条数据、继续执行、终止DebugDebug过程中进入断点后,可以一次查看数据加载结果九、定义Job定期执行1、登录Data Services Management Console单击工具栏的“Data Services Management Console”按钮进入Data Services Management Console的登录界面单击进入Administrator界面2、定义Ba
14、tch Job Schedules在Batch Job Configuration页签选择Add Schedules 进入批量执行Job的设置界面 可以设置每周的某一天执行(一周执行一次)或则每月的某一天执行(一个月执行一次),也可以设置为每天都执行。都选“Recurring”则会定期循环执行,否则只执行一次。可以设置一天执行一次,也可以一天执行多次,设置开始执行时间。上图中如果设置为一天多次执行,开始时间为上午1点,持续时间为600分钟,间隔时间为360分钟,则Job会在一天的上午1点和上午6点各执行一次。如果设置时间间隔为240分钟,则Job会在一天的上午1点、上午5点和上午9点各执行一次。(总持续时间不超过10小时)。十、其他注意事项1、 客户端安装包需要注意和服务器DS版本一致2、 在第一次登录CMS信息时,无法成功。ping sapdstest也失败,需要在host文件中添加对应的地址和域名3、 连接Oracle数据库作为数据源时,需要在客户端上安装Oracle客户端,设置tnsname.ora文件,设置环境变量ORACLE_HOME之后重启服务器;连接HANA数据库时,需要安装HANA客户端4、 在连接ECC作为数据源时,需要开启系统跨客户端编辑权限5、 在HA
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二四年度艺人经纪合同(包含经纪范围与分成比例)
- 出电子合同范本
- 04版学校食堂与小卖部经营合同
- 二零二四年度保健品品牌形象设计合同
- 指定代销合同范本
- 2024年度环保设备采购合同:VOCs处理设备定制购买
- 二零二四年度联合营销合作协议
- 公路包工合同范本
- 二零二四年度新能源项目开发连带责任合同
- 2024至2030年红薯种子项目投资价值分析报告
- 某医院拆除施工方案
- 银行培训手册:流动性覆盖率(LCR)
- 小学三年级上册道德与法治课件-9.心中的110-部编版(12张)ppt课件
- 《蓝色的雅德朗》教案
- 《加盟申请表》word版
- profibus现场总线故障诊断与排除
- 当前住房公积金管理中存在的问题和解决建议
- 高考数学立体几何中的翻折、轨迹及最值(范围)问题
- 光伏土建工程监理实施细则
- 药品GMP自检检查表
- 从教学原点解读有效教学和教学深化改革
评论
0/150
提交评论