阿里云数据集成服务-Console参考-D_第1页
阿里云数据集成服务-Console参考-D_第2页
阿里云数据集成服务-Console参考-D_第3页
阿里云数据集成服务-Console参考-D_第4页
阿里云数据集成服务-Console参考-D_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据集成Console参考手册数据集成/Console参考手册数据集成/Console参考手册 PAGE 9 PAGE 9Console参考手册一、简介CDP-Console(以下简称Console)是数据集成提供的,基于命令行交互方式的操作CDP管理工具。本文介绍了Console的安装、使用方式。本部分面向读者是Console相关的开发测试人员、使用人员。另外访问CDP服务 需要AK信息即AccessKeyIDAccessKeySecretIDAccessKeyID,KEYAccess KeySecret,每个使用者具体可以生成多个AK,也可修改AK的使用状态(是否启用)。二、设计原则Con

2、sole的设计沿用UNIX Shell程序约定俗称的原则,包括成功退出值为0、错误非0,使用一次性输入参数,一次做且仅做一个任务。trace-id,HTTP错误码,错误信息等。标准 输出尽可能精简(除用户需要verbose调试方式之外),对于无返回操作(比如删除Pipeline)执行 成功不打印任何信息,仅提供进程退出值0作为判断。考虑到外部系统集成(例如ADC、孔明灯、DFS等),我们只考虑提供基于命令行的一次性输入方式,即单独命令完成单项或者多项的任务内容,Console不提供互动的交互式输入方式。对于Apache Sqoop产品,其对于创建作业等操作提供了交互式输入命令行,但是CDPCo

3、nsole摒弃这类使用方法。带来的好处是方便其他系统集成,缺点是用户需要在命令行编写JSON参数,相对复 杂。考虑到用户在命令行输入JSON参数比较难以操作,对于交互式的用户,我们提供-f参数,指定用户可 以在文本在编写好JSON,将文件名作为参数提供给Console。考虑到Console存在大量和CDP交互的网络过程,提供-verbose方式追踪所有调用细节,方便Console高级用户跟踪和调试。一、环境准备Bash等类NIX Shell命令行(zsh,ksh,csh等),一般Linux、Mac系列操作系统都有带,Windows系列推荐使用Cygwin模拟NIXShell环境Console内

4、部基于CDPJavaSDK实现,外部使用BashShell封装,因此需要Bash(或其他*NIXShell)运行环境JRE1.6,Console内核使用CDPJavaSDKCDPService进行交互,因此需要本地安装JRE,并DDoSDDoSIP/最佳实践要求JRE版本必须为1.6及以上版本。Console启动时会自动检测JAVA的环境变量是否设置,请使用如 下命令设置您的JAVA环境变量(对于政企输出机器的标准配置):export JAVA_HOME=/opt/taobao/javaexport JAVA_HOME=/opt/taobao/java二、安装与配置如果您获取到的是CDPCon

5、sole的rpm安装包,请执行:sudo rpm -Uvh t_dp_cdp_console-1.0.1-224427.noarch.rpmsudo rpm -Uvh t_dp_cdp_console-1.0.1-224427.noarch.rpm进行安装(根据具体的rpm版本选择);如果您获取到的是CDP Console的gzip等压缩包,直接解压到指定目录即可(确保运行用户有可执行权限)。安装后目录结构cdp-console/|- READMEcdp-console/|- README|- bin| - cdp|- conf| - perties|- lib| |- cdp-console

6、-1.1.0-SNAPSHOT.jar| |- cdp-sdk-java-1.1.0-20150123.024540-90.jar| |- - template|- odps2rds_job.json|- pipeline.json|- rds2odps_job.json- stream2stream_job.json其中:/bin 目录下存放Console执行启动命令;/conf 目录下存放Console配置信息;/lib 目录下存放Console执行需要的jar包;/template 目录下存放Console提供的样例配置.配置文件Console配置文件会存放CDP Console相关的配

7、置信息。Console在启动前会根据CDP_HOME寻找相关的配置文件,并自动加载使用该配置。配置文件路径在:$CDP_HOME/conf/perties 配置文件以# CDP console版本client.version=201511111111# CDP console版本client.version=201511111111# CDP服务访问点大数据处理服务MaxCompute/Datahub服务大数据处理服务MaxCompute/Datahub服务 HYPERLINK /api HYPERLINK /api service.url=/api# connection超时设置,可选,默认

8、5000 service.timeout.connection=5000# socket超时设置,可选,默认120000 service.timeout.socket=120000# 用户的AK信息auth.security.id= auth.security.key=# 默认的pipeline user.pipeline=# 是否为verbose打印,取值false|true,默认为false client.verbose=false# 输出格式设置,取值text|json,默认为text client.output=text# 客户端连接服务器重试次数和重试间隔client.retry.t

9、ime=5 erval=1000$CDP_HOME/bin/cdp在Bash命令行执行:$CDP_HOME/bin/cdp当出现如下类似帮助字样,表示安装和启动成功:perties的配置文件,或者直接 在命令启动作为参数传入。命令行参数优先级高于配置,即两者同时存在情况下,优先选择命令行参数。cdp pipeline -list默认情况下,用户不需要指定AUTH信息,此时Console使用了配置文件中的auth.security.id和auth.security.key值作为鉴权参数,这两个参数需要分别为合法的Access Key ID 和 Access Key Secret。例如执行命令:c

10、dp pipeline -list由于没有指定AUTH信息,Console默认使用cdp. properties中的配置作为访问CDP服务的鉴权配置。而在一些情况下,一个CDPConsole可能被多个客户使用,以完成数据同步功能。因此一套id+key的cdp. cdp -security id:keycdp -security id:key其中 -security 参数后需要跟阿里云账号的id和key,中间使用冒号分割,具体id和key的值和上面消息服务/控制台使用帮助消息服务/控制台使用帮助参数时,Console默认直接使用用户命令行指定鉴权信息。即同样的 参数命令行传递优先级高于perti

11、es配置文件。公共是指一部分可在多个命令参数搭配使用的参数,例如指定命令行输出格式等。公共参数大部分在客户端配 置文件中也可配置,当两者同时提供时,以命令行参数指定值为准。另一般可被多个用户共享使用的参数,多 为配置文件配置。鉴权参数实际上也属于公共参数一部分,但是由于内容重要,上面单独作为一章节讲解。-security:阿里云账号的id和key,中间使用冒号分割。具体可参看上面认证和鉴权部分小节。-output json|text:指定输出格式,包括提供给机器(程序)用户的json格式和提供给人类用户的普通文本流 默认的输出格式,但是如果用户需要编写程序读取输出流,必须选择json格 式。我

12、们不承诺text输出不改变格式,可能由于产品调整会修改text的输出格式,如果您依赖了Console 输出格式需要注意可能的变化。perties配置项client.output和此命令行功能一致。该参数适配Console所 有命令。模式输出时,Console会提供大量的交互细节暴露给用户用以程序异 常时诊断。包括每次请求客户端提交的HTTP URI和HTTP Body,以及服务端返回该参数多用于系统调试。perties配置项client.verbose和此命令行功能一致。该参数适配Console所有命令。(asynchronized)启动的命令指Console将作业 提交给CDP后即可返回,而

13、不必等该作业运行完毕。同步(synchronized)启动命令指Console将作业提交给 CDP后,须等待该作业运行结束,并且等待运行结束过程中Console会输出所有的作业运行状态。该参数主要 适配运行周期较长的命令,包括: cdp job -start 使用-async后,作业提交即可返回,如果提交失败会有相应地异常信息打印;cdpjob-stop-async后,作业stop即可返回(不保证stop及时完成)-url:指定CDP服务访问点,对于公有云环境值为 HYPERLINK /api /perties配置项CDP服务,此配置项在配置文件中设置即可。该参数 适配Console所有命令。

14、cdp job -start -p $pipeline。对于离线作业Job的增删改查需要在一个管道Pipeline内完成,此 参数设置了作业对应管道。perties配置项user.pipeline和此命令行功能一致具体如在指定的管道启动 一个离线同步作业:cdp job -start -p $pipelinePipeline管理CDP Console针对管道Pipeline提供了create(创建)、query(查找)、close(关闭)、open(打开)、list(检索)等操作。CDP Console执行Pipeline类目命令的示例如下图所示:查询Pipelinecdp pipeline

15、-query $pipeline根据用户指定的Pipeline name,查询具体的Pipeline信息:cdp pipeline -query $pipeline浏览Pipeline支持检索条件criteria,检索条件使用json格式描述。目前针对Pipeline的搜索只提供了pageIndex(页码索引cdp pipeline -list -c pageIndex: 3, pageSize: 4)以及pageSize(页码大小),具体如:cdp pipeline -list -c pageIndex: 3, pageSize: 4创建Pipelinecdp pipeline -creat

16、e -f cdp pipeline -create -j 使用本地或者命令行提供的JSON信息进行创建,支持本地文件-f 以及命令行 -j 给出pipeline的描述信息。由于Linux Shell存在字符转义的潜规则,CDP更期望您使用-f从本地读取JSON文件,而不推荐您使用-j从命令行读取JSON,可能会存在大量JSON和Shell转义字符冲突的情况。创建示例:cdp pipeline -create -f cdp pipeline -create -j 其中,name指的是要创建的Pipeline名字, -f file示例可见模版文件$CDP_HOME/template/pipelin

17、e.json$CDP_HOME/template/pipeline.jsondescription:this is your pipeline description-j json示例为:description:this is your pipeline descriptionHPC/优化工具HPC/优化工具修改Pipelinecdp pipeline -update -f cdp pipeline -update -j 使用本地或者命令行提供的JSON对Pipeline信息进行修改,使用方式类似创建Pipeline,具体示例:cdp pipeline -update -f cdp pipel

18、ine -update -j 关闭Pipelinecdp pipeline -close 关闭后该Pipeline不允许提交新Job,但是不会影响当前管道正在运行的同步作业。该功能必有由Pipeline的创 建者进行调用,具体示例:cdp pipeline -close 开启Pipelinecdp pipeline -open 同关闭Pipeline语义相对,将Pipeline置为正常状态。该功能必有由Pipeline的创建者进行调用,具体示例:cdp pipeline -open 作业管理CDP Console针对作业提供了start(启动)、query(查找)、list(检索)、log(日

19、志)、stop(停止)、status(状态)等操作。此类目命令需要给出作业编号id以及管道名字pipeline,作业编号在启动一个作业时由CDP Server返回给的客户端。用户可以选择在命令行终端通过-p指定Pipeline,或者通过perties配置文件指定,优先级为命令行配置文件。CDP Console执行Job类目命令的示例如下图所示:查询作业可以查询作业的整体信息,包括用户输入信息和Job运行时信息,具体示例:可以查询作业的整体信息,包括用户输入信息和Job运行时信息,具体示例:cdp job -query -p 查看作业状态cdp job -status -p -t s查询作业的广

20、义运行状态信息。-t 参数是该命令启动后,轮询获取该Job状态的时间间隔(单位为秒),默认为10s,此query命令直至Job结束命令行结束。具体示例:cdp job -status -p -t s浏览Jobcdp job -list -p -c 根据指定的搜索条件在指定的Pipeline下搜索符合条件Job清单,具体示例:cdp job -list -p -c 其中criteria可以为:traceId=XXXtraceId进行模糊(like)查询state=XXXstate状态查询job,支持多状态并集查询,使用,(英文逗号)作为分隔符submitUser=XXXsubmitUser进行精

21、确(is)查询submitIp=XXXsubmitIp进行精确(is)查询endUser=XXXendUser进行精确(is)查询submitTime=startTime,endTime 根据submitTime进行范围(between)查询,时间请使用类似2014-12-1200:00:00,2014-12-1300:00:00JavaSDK的不一致,JavaSDK要求用户填写Unix时间戳。设计上考虑到Console面向人工操作,JavaSDK面向编写Java代码,更适合使用Unix时间戳。startTime=startTime,endTime 根据startTime进行范围(between)查询,时间请使用类似2014- 12-1200:00:00,2014-12-1300:00:00格式填写。endTime=startTime,endTime 根据endTime进行范围(between)查询,时间请使用类似2014- 12-1200:00:00,2014-12-1300:00:00格式填写。cdpjob-list-cpageIndex3pageSize4traceId:basecdpsyncjob-p pipelineName查询作业日志cdp job -log -p 查询Job底层运行日志,用于排错或者调试使用,此日志为底层同步引擎DataX

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论