版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
DataServices培训总结-操作手册目录一、DS简介 2二、DS数据加载方式 2三、DS进行数据抽取模型开发的基本过程 3四、DS创建数据源系统和目标系统的数据存储 31、Oracle数据库作为数据源系统 32、ECC作为数据源系统 43、HANA数据库作为目标系统 5五、全量加载过程 51、创建Project和Job 52、导入源表的元数据到资源库 63、创建DataFlow 64、设置源表和目标表 75、手工执行Job 7六、基于表比较的增量加载 81、在Job下定义工作流 82、在工作流中定义数据流 83、加入Table_Comparison控件 94、设置Table_Comparison控件 9七、基于时间戳的增量加载 101、在Job下定义工作流 102、定义Script控件 103、定义处理新增数据的数据流和处理更新数据的数据流 11八、DS中常用控件介绍 131、Key_Generation 132、Case 133、Merge 144、Validation 155、设置过滤器和断点 15九、定义Job定期执行 161、登录DataServicesManagementConsole 162、定义BatchJobSchedules 17十、其他注意事项 18一、DS介绍SAPBusinessObjectsDataServices是经过SAPHANA认证ETL工具。采取数据批量处理方法,定时实施后台作业,将数据从多个业务系统中抽取出来,并进行必需处理(转换,合并,过滤,清洗),然后再加载到HANA数据库中。DS组件之间关系:ManagementConsol:管理控制台是网页版DS管理工具,能够进行部分系统配置和定义Job实施Designer: Designer是一个含有易于使用图形用户界面开发工具。它许可开发人员定 义包含数据映射,转换和控制逻辑数据管理应用程序,创建包含工作流(作业实施定义)和数据流(数据转换定义)应用程序Repository: 应用程序设计器使用当地资源库用来存放DataServices对象(如项目,作业,工作流,和数据流)定义和源和目标元数据Jobserver: 作业服务器开启数据移动从多个不一样种类源集成数据引擎,实施复杂数据转换,并管理从ERP系统和其它源抽取和事务二、DS数据加载方法全量加载增量上载基于表比较 作业在实施时读取数据源和目标中全部数据,在服务器内存中进行比较,计算数据差异时间戳增量 需要在数据源中添加时间戳字段,通常为创建时间和最终修改时间,在抽取作业中定义对两个时间戳字段进行对比,符合条件创建时间条目进行插入,符合条件修改时间条目进行更新利用数据库CDC(changeddatacapture) 首先需要开启数据库CDC服务,为数据库实例启用CDC功效,为源表启用CDC功效。在这种模式下,DS增量更新不再直接访问源表,而是在和源表相关变更统计表中读取增量三、DS进行数据抽取模型开发基础过程为数据源创建数据存放导入源表元数据到资源库为SAPHANA目标系统创建数据存放新建DS项目和批量作业新建DS数据流:定义源表和目标表,定义变量、编辑Query和Map_CDC_Operation实施批量作业四、DS创建数据源系统和目标系统数据存放1、Oracle数据库作为数据源系统登录DataServicesDesigner,在当地对象库数据存放页签中单击鼠标右键,选择新建菜单创建数据存放“EAM_TEST”,在弹出对话框中输入EAM数据库连接信息2、ECC作为数据源系统一样在创建DataStore时,输入ECC连接信息3、HANA数据库作为目标系统在创建DataStore时,输入HANA数据库连接信息五、全量加载过程1、创建Project和Job在当地对象库project页签中单击鼠标右键,选择新建菜单,创建项目“ERP_DS”。双击该项目,在“ProjectArea”,能够在该项目下创建Job2、导入源表元数据到资源库在当地对象库数据存放页签中,选择源系统数据存放,单击鼠标邮件,选择“ImportByName”,输入需要导入到资源库表名称。导入成功后,在数据存放table目录下能够看到导入表3、创建DataFlow单击“General”Job,在右边空白区域单击鼠标邮件,选择“AddNew”-“DataFlow”4、设置源表和目标表单击创建DataFlow,将需要导入到HANA数据库中源表拖入到DataFlow区域中,将DataFlow区域右侧工具条中模版表拖入DataFlow区域创建模版表输入模版表名称、HANA目标系统数据存放、HANA数据库存放DS抽取数据表用户名。连接源表和目标表双击模版表,设置“Options”中“UseNVARCHARforVARCHAR”5、手工实施Job选择Job,单击鼠标右键,选择“Execute”实施成功以后,在HANA数据库中ERPDSUSER下能够看到“T161T”,能够查看数据表内容。实施过程信息和结果能够在监控器中查看。六、基于表比较增量加载1、在Job下定义工作流2、在工作流中定义数据流在数据流中定义源表和模版表,实施Job,实施成功以后,在目标系统数据存放TemplateTable目录下能够看到创建模版表3、加入Table_Comparison控件选择模版表,单击鼠标邮件,选择“ImportTable”。模版表会更新为Tables目录下数据表。经过将转换-数据集成中“Table_Comparison”控件拖入到数据流中方法添加“Table_Comparison”控件将源表连接“Table_Comparison”控件,“Table_Comparison”控件连接目标表。4、设置Table_Comparison控件双击“Table_Comparison”控件,设置相关参数:比较目标表、表主键,需要比较字段。当需要比较字段为空时,会比较全部字段。提议根据需要填写需要比较字段,能够加紧处理速度。保留后实施Job。七、基于时间戳增量加载1、在Job下定义工作流在工作流中定义Script控件,读取数据抽取后最新创建时间和更改时间,定义一个处理新增数据数据流和一个处理更新数据数据流2、定义Script控件在Script控件中需要使用变量存放读取最新创建时间和最新更改时间。选择Job,在工具栏选择“Variables”按钮,创建全局变量双击“Script”控件,编写SQL语句,从HANA数据库表中读取最新创建时间和更改时间3、定义处理新增数据数据流和处理更新数据数据流双击“EBAN_New”数据流,加载源表,Query,Map_CDC_Operation控件和目标表双击Query,在输出字段中增加“Sequence”和“Operation”两个字段。“Sequence”字段使用函数gen_row_num()进行赋值,“Operation”赋值为‘I’在Quey中设置Where条件双击Map_CDC_Operation控件,设置CDCColumns一样方法定义“EBAN_Upd”数据流,在Querywhere条件中定义为在Query数据结果中增加“Sequence”和“Operation”两个字段。“Sequence”字段使用函数gen_row_num()进行赋值,“Operation”赋值为‘U’保留后,实施Job。能够经过修改源系统数据测试基于时间戳增量加载。八、DS中常见控件介绍1、Key_Generation在源表基础上为目标表重新生成主键在Query中增加“ID”字段,赋值为0。在Key_Generation控件中设置目标表、主键字段、主键值增加量2、Case将源表依据规则进行拆分双击Case控件,设置拆分条件当SOURCE=1时,输出SPFLI_1,当SOURCE=2时,输出SPFLI_23、Merge将含有一样数据结构源表进行合并在Query中增加输出字段Source,赋值为1。在Query1中增加输出字段Source,赋值为2。在Merge中将两个表内容合并输出。4、Validation提取数据源表中正确数据,将错误数据单独存放在其它表中双击Validation控件,设置“ValidationRule”5、设置过滤器和断点过滤器和断点结合使用,用于设置Debug条件选择源表到目标表连接线,单击鼠标右键,选择SetFilter/Breakpoint,设置Debug条件(当满足某种条件时进入断点,或在满足过滤条件同时实施多少条数据后时进入断点)选择Job,单击鼠标右键,选择Startdebug工具栏上按钮能够控制实施下一条数据、继续实施、终止DebugDebug过程中进入断点后,能够一次查看数据加载结果九、定义Job定时实施1、登录DataServicesManagementConsole单击工具栏“DataServicesManagementConsole”按钮进入DataServicesManagementConsole登录界面单击进入Administrator界面2、定义BatchJobSchedules在BatchJobConfiguration页签选择AddSchedules进入批量实施Job设置界面能够设置每七天某一天实施(一周实施一次)或则每个月某一天实施(30天实施一次),也能够设置为天天全部实施。全部选“Recurring”则会定时循环实施,不然只实施一次。能够设置一天实施一次,也能够一天实施数次,设置开始实施时间。上图中假如设置为一天数次实施,开始时间为早晨1点,连续时间为600分钟,间隔时间为360分钟,则Job会在一天早晨1点和早晨6点各实施一次。假如设置时间间隔为240分钟,则Job会在一天早晨1点、早晨5点和早晨9点各实施一次。(总连续时间不超出10小时)。十、其它注意事项用户端安装包需要注意和服务器DS版本一致在第一次登录CMS信息时,无法成功。pingsapdstest也失败,需要在host文件中添加对应地址和域名连接Oracle数据库作为数据源时,需要在用户端上安装Oracle用户端,设置tnsname.ora文件,设置环境变量ORACLE_HOME以后重启服务器;连接HANA数据库时,需要安装HANA用户端在连接ECC作为数据源时,需要
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 手术准备与操作规范管理制度
- 手术环境管理制度
- 2022年三年级语文下册第四单元主题阅读+答题技巧(含答案、解析)部编版
- 2024年客运证考什么的
- 2024年嘉峪关小型客运从业资格证考试题答案
- 2024年宜春客运从业资格证模拟考试练习题
- 2024年道路客运从业资格证继续教育模拟考试
- 2024年绵阳a1客运资格证
- 2024年海口客运从业资格证的考试题目
- 2024年河北客运上岗考试都考什么科目
- 期中模拟检测(1-4单元)(试题)(含答案)-2024-2025学年四年级上册数学北师大版
- 企业名称预先核准通知书
- 大学生职业生涯规划学习通超星期末考试答案章节答案2024年
- GB 5920-2024汽车和挂车光信号装置及系统
- 2023-2024学年湖南省长沙市八年级(上)期中物理试卷
- 2024年人教版语文三年级上册《第八单元》大单元整体教学设计
- 万达入职性格在线测评题
- 学校义务教育均衡发展一校一策方案
- 躬耕教坛强国有我教师心得体会范文(10篇)
- 招投标管理招聘面试题及回答建议(某大型国企)2025年
- 2024年医院传染病管理制度范文(二篇)
评论
0/150
提交评论