JAVA版数据清洗工具操作手册_第1页
JAVA版数据清洗工具操作手册_第2页
JAVA版数据清洗工具操作手册_第3页
JAVA版数据清洗工具操作手册_第4页
JAVA版数据清洗工具操作手册_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第第8页共30页【盛唐】JAVA版数据清洗工具操作手册v1.010111011]草案[]正式公布[]正在修订序号版本变更描述变更履历修订人审核/日期批准/日期11.0草案屈雪23456789名目\l“_TOC_250028“系统初始化 3\l“_TOC_250027“创立MySQL中间库etl-mid 3\l“_TOC_250026“修改中间库配置文件conf/mysql.xml 5\l“_TOC_250025“中间库配置文件 5\l“_TOC_250024“导入建表脚本conf/etl-mid.sql 5\l“_TOC_250023“系统启动 7\l“_TOC_250022“启动ETL工具 7\l“_TOC_250021“主界面 8\l“_TOC_250020“系统主界面 8\l“_TOC_250019“主界面介绍 8\l“_TOC_250018“模块功能 9\l“_TOC_250017“任务 9\l“_TOC_250016“任务 9\l“_TOC_250015“翻开配置文件 9\l“_TOC_250014“配置文件编写指导 10\l“_TOC_250013“测试数据源〔是否可以连接数据库〕 11\l“_TOC_250012“执行任务或停顿任务 12\l“_TOC_250011“定时设置 14\l“_TOC_250010“具体错误日志 15\l“_TOC_250009“字典治理 16\l“_TOC_250008“字典治理主界面 16\l“_TOC_250007“机构类别治理 17\l“_TOC_250006“字典治理 23\l“_TOC_250005“字典子项治理 25\l“_TOC_250004“参数配置 27\l“_TOC_250003“系统帮助 28\l“_TOC_250002“系统帮助 28常见或重点关注的问题 29导入字典文本 29\l“_TOC_250001“格式及编码 29数据库 30\l“_TOC_250000“5.2.1 密码 301-4:建数据库第第8页共30页【盛唐】JAVA版数据清洗工具操作手册v1.0系统初始化MySQLetl-mid安装MySQL数据库。安装NavicatPremium数据库治理工具。图1-1NavicatPremium1-2所示。1-2:创立连接1-3所示。1-3:连接数据库右键点击连接,建数据库。操作如图1-4所示。建数据库,操作如图1-5etl-miUnicodutf8_general_c1-5:建数据库conf/mysql.xml中间库配置文件中间库配置文件为文件夹configmysql.xml。1-6:中间库配置文件中间库配置文件中,可以配置效劳器名称、数据库名称、登录名、密码和数据源最大连接数,1-7所示。1-7:中间库配置导入建表脚本conf/etl-mid.sql翻开治理工具NavicatPremium,右键点击数据库,运行SQL文件。图1-8SQL文件选择运行的sql文件〔如图1-9所示,操作如图1-10所示。1-9:中间库图1-10SQL文件也可以导入建表脚本,输入命令行:sourse<文件名目>/conf/etl-mid.sql。【盛唐】JAVA【盛唐】JAVA版数据清洗工具操作手册v1.0【盛唐】JAVA【盛唐】JAVA版数据清洗工具操作手册v1.0系统启动ETL工具将名为ETLTools.rar2-1所示的文件夹appTool。2-1:解压压缩包进入文件夹,双击etltools.jar,2-3所示。2-2:双击启开工具2-3:工具主界面第8页共30页【盛唐】JAVA【盛唐】JAVA版数据清洗工具操作手册v1.0【盛唐】JAVA【盛唐】JAVA版数据清洗工具操作手册v1.0主界面系统主界面主界面介绍通过顶端导航选择操作;其它三个区域可进展相关信息的查看。3-1:主界面介绍可以通过点击如图3-2所示的箭头,伸缩区域,便利查看相应信息。也可以通过鼠标,拖动边框,调整区域适合的大小。3-2:区域伸缩第8页共30页JAVA版数据清洗工具操作手册v1.0【盛唐】JAVA【盛唐】JAVA版数据清洗工具操作手册v1.0无锡曼荼罗软件第14无锡曼荼罗软件第14共30无锡曼荼罗软件9无锡曼荼罗软件930模块功能任务任务4-1所示菜单。翻开配置文件

4-1:点击任务点击“翻开配置文件4-2所示。弹出如图4-4所示窗口。4-2:翻开配置文件〔taskId没有重复,且配置文件编码为UTF-8时template.xml4-4所示。4-3:配置文件模板4-4:选择配置文件配置文件编写指导

图4-5:添加的任务mysql.xml配置文件为该工具的数据库配置文件,即中间库配置文件。依据实际状况修改效劳器地址,数据库名称等信息。图4-6:清洗工具数据库配置JAVA版数据清洗工具操作手册v1.0JAVA版数据清洗工具操作手册v1.0无锡曼荼罗软件第14无锡曼荼罗软件第14共30无锡曼荼罗软件第14无锡曼荼罗软件第14共30添加任务时需翻开配置文件,配置文件编写请参考template.xml。mysql、sqlserver、oracle数4-7所示。4-7:数据库配置每个任务有唯一的taskId;具体参数请查看template.xml文件。上传至效劳器的数据转换规章和TransformSupport.js〔转换、ValidateSupport.js〔校验〕文件中添加方法。如图4-8TransformRuldic后面对应字典码;如为“customdictCode”后面通过“$JS”调用对应TransformSupport.jsvalidateMethod”后面“$SYS”为使用系统方法,$JS为调用ValidateSupport.js里的校验方法。提示:系统内置校验方法在CommonUtil.java中。autoUploatru”时,清洗数后直接上传至目标效劳器fals”时不会上传。4-8:任务配置测试数据源〔是否可以连接数据库〕4-9所示。弹出如图4-10所示窗口。4-9:测试数据源选择数据库信息前的复选框,点击“测试”按钮,对数据源进展连接测试。操作如图4-10所示。执行任务或停顿任务

4-10:测试数据源选择任务前的复选框,如图4-11所示。选中任务,任务信息变蓝色,可通过右键点击任务,取消选定。执行任务前,请测试数据源连接是否正常。4-11:选中任务4-12所示。4-12:执行或停顿任务假设任务已经执行过,想要重执行任务,其次次翻开该任务对应的配置文件,之前执行的结果将会清空。留意:如停顿任务时,已经上传数据至中心效劳器,中心效劳器上的数据需手动删除。执行任务中,可以查看执行任务的具体信息,如图4-13所示。4-13:执行任务详情执行中产生的错误信息会在右侧区域显示。4-14:执行中产生的错误信息当执行多个任务时,未选中任何一个任务,右侧区域显示任务错误信息为全部执行任务的错误信息。当任务列表选中一个任务时,右侧区域显示对应任务的错误信息。如图4-15所示,左侧任务列表选中taskId为“task_LISRESULT_TEST”的任务,右侧区域显示错误信息都是taskId为“task_LISRESULT_TEST”的任务错误信息。选中任务后需要查看全部信息时,鼠标右键点击选中的任务,所点击的选中任务将取消选中。错误信息列表将显示全部未选中任务的错误信息。定时设置

图4-15:选中任务的执行错误信息设置定时设置功能的配置信息4-16所示。4-16:定制设置配置文件中,可以对“定时设置”功能进展配置。配置信息如图4-17autoStartTime”表示自动化作业的开头时间cyclePerio”表示循环周期〔小时durationTim行多久〔小时template.xml。图4-14-18所示窗口,在配置文件中设置的autoStartTime、cyclePeriod、durationTime值对应“自动执行时间4-18:定时任务设置修改定时设置配置信息1.选择需修改信息前的复选框〔每次只能选择一个复选框息的方式,进展修改。4-19:修改配置信息翻开或关闭定时1.选择需要执行的任务前的复选框,点击“开启定时”或“关闭定时”即可转变任务的定时状态。当“状态”为翻开时,对应的数据清洗任务将在指定时间〔即自动执行时间〕开头执行,不需要手动点击“执行任务一任务已经设置定时,并“状态”为翻开,在非该任务执行时间段内,手动执行该任务,任务将被执行,但系统检测出当前时间非该任务运行时间时,任务停顿执行。具体错误日志

图4-20:开启定时或关闭定时点击“具体错误日志4-21所示。弹出如图4-22所示窗口。4-21:具体错误日志在错误日志窗口中,用户可以选择每页条数,选择任务,进展查询。点击“清空错误信息”按钮,系统将清空数据库中对应的错误记录。如图4-22所示。4-22:错误日志执行任务时,或执行任务后,可以在任务右侧查看错误信息。错误列表区域如图4-23所示。字典治理

4-23:错误信息字典治理主界面4-24所示窗口。4-24:字典治理4-25所示信息。4-25:按类别查看数据字典选择字典信息,即可在下边表格中查看对应字典的子项信息。如图4-26所示。机构类别治理

4-26:查看字典子项4-27所示菜单。4-27:机构类别治理4-28:添加子节点4-29所示的操作窗口。4-29:修改本节点点击“删除本节点4-30:删除节点〔即机构,将同时删除其下属机构和字典。4-30:删除节点警示框4.2.2.1。4.2.2.1 导入字典前的预备工作找出数据库中字典表〔以表YY_YYDMK为例,如图4-31作量很大时,可使用字典的导入功能,批量导入字典数据。4-31:字典表例如选中表格,右键点击表格,选择“导出向导Navicat支持mysql数据库的界面治理工具。4-32:导出表选择文本文件,点击下一步。选择导出地址,如图4-34所示。4-33:选择文本文件4-34:导出表取消全部栏位,选择idname导出即可。4-35:选择导出列4-36:选择导出样式下一步后,点击“开头”按钮,看到“Finished-Successfully”提示,即完成导出工作。4-37所示。4-37:导出表格结果在文本顶端添加字典名称,例如[仪器或药品状态]。4-38:导入文本文件导入字典文本,如图4-39所示。标准词为存入数据库的值,当指定数据为近义词集合中的某一个时,清洗后的数据为对应的标准词。导入时,标准词默认为源数据的第一列数据,具体使用中需要依据源字典和目标库字典的对应关系进展相应修改。4-39:导入字典文本当需要同时导入多个字典时,可以将多个表导出的结果存放在一个txt文件中,如以下图。导入的txt文件编码需设置为utf-8。4-40:批量导入字典字典治理查看字典1.依据条件快速搜寻字典信息,操作如图4-41所示。4-41:搜寻数据字典增字典1.点击“增”按钮,添加数据字典信息,点击“确定”按钮,即可完成添加操作。4-42:增数据字典修改字典选择字典信息前的复选框,点击“修改”按钮,操作如图4-43所示,即可进入如图4-44所示的修改界面。留意:修改字典信息时,请选择字典信息且只能选择一条字典信息。双击字典信息记录也可以弹出修改窗口。4-43:修改数据字典修改字典信息后,点击“确定”按钮,即可完成修改操作。4-44:修改字典信息删除字典1.选择字典前复选框,点击“删除”按钮,完成删除操作。如图4-45所示。4-45:删除字典字典子项治理增字典子项1.点击“增字典子项”按钮,进展增字典子项操作。添加信息后,点击“确定”按钮,完4-46所示。JAVAJAVA版数据清洗工具操作手册v1.0JAVA版数据清洗工具操作手册v1.0无锡曼荼罗软件第14无锡曼荼罗软件第14共30无锡曼荼罗软件第14无锡曼荼罗软件第14共304-46:增字典子项修改字典子项选择字典子项信息前的复选框,点击“修改字典子项”按钮,操作如图4-47所示。也可以通过双击信息方式,弹出修改窗口。4-47:修改字典子项修改字典子项信息,点击“确定”按钮,提交修改内容。如图4-48所示。4-48:修改字典子项删除字典子项1.选择字典子项前的复选框,点击删除字典子项按钮,如图4-49所示。参数配置

4-49:删除字

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论