




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
V4Sqoop软件适配手册银河麒麟服务器操作系统V4银河麒麟服务器操作系统V4sqoop软件适配手册目录TOC\o"1-2"\h\z\u目 概 系统概 环境概 SQOOP软件简 SQOOP软件适 安 服务端安 安装客户 使用示 从S3导入至 银河麒麟服务器操作系统V4银河麒麟服务器操作系统V4sqoop软件适配手册概述系统概述银河麒麟服务器操作系统主要面向军队综合电子信息系统、金融系统以及电力系统等国家关键行业的服务器应用领域,突出高安全性、高可用性、高效数据处理、虚拟化等关键技术优势,针对关键业务构建的丰富高效、安全可靠的功能特性,兼容适配长城、联想、浪潮、华为、曙光等国内主流厂商的服务器整机产品,以及达梦、金仓、神通、南大通用等主要国产数据库和中创、金蝶、东方通等国产中间件,满足虚拟化、云计算和大数据时代,服务器业务对操作系统在性能、安全性及可扩展性等方面的需求,是一款具有高安全、高可用、高可靠、高性能的自主可控服务器操作系统。环境概述服务器型号长城信安擎天DF720服务器CPU类型飞腾2000+处理器操作系统版本Kylin-4.0.2-server-sp2-2000-内核版本sqoop版本Sqoop软件简介ApacheSqoop是一种用于在ApacheHadoop和结构化数据存储(如关系数据库)之间高效传输批量数据的工具。可以使用Sqoop将数据从外部结构化数据存储导入Hadoop分布式文件系统或Hive和HBase等相关系统,或者用于从Hadoop中提取数据并将其导出到外部结构化数据存储区,例如关系数据库和企业数据仓库。Sqoop自动执行此过程的大部分过程,依靠数据库来描述要导入的数据的模式。Sqoop使用MapReduce导入和导出数据,提供并行操作以及容错。Sqoop软件适配安装Sqoop作为一个二进制包发布,包含两个独立的部分-客户端和服务服务端。服务端:需要在群集中的单个节点上安装服务端,此节点将用作所有Sqoop客户端的入口点客户端:客户端可以安装在任意数量的计算机上。服务端安装Sqoop工件复制到要运行Sqoop服务端的计算机。Sqoop服务端充当Hadoop客户端,因此必须在此节点上提供Hadoop库(Yarn,MapreduceHDFSjar文件)和配置文件(core-site.xml,mapreduce-site.xml,...)。您不需要运行任何Hadoop相关服务。$hadoop$hadoopdfs-Sqoop目前支持Hadoop2.6.0或更高版本。要安装Sqoop服务器,请解压缩tarball(在您选择的位置)并将新创建的目录设置为工作目录。##tar-xvfsqoop-<version>-bin-hadoop<hadoop-version>.tar.gz#将解压后的目录移动到要安装的目录mvsqoop-<version>-bin-hadoop<hadoopversion>#sqoop的安装目录cdHadoop依赖Sqoop服务端需要以下指向Hadoop库的环境变量:您必须确保定义了这些变量并指向有效的Hadoop安装路径。如果找不到Hadoop库,Sqoop服务端将无法启动。Sqoop服务端依靠环境变量寻找Hadoop$HADDOOP_HOME环境变量被设置,Sqoop会在以下位置寻找jar包:您可以使用$HADOOP_COMMON_HOME$HADOOP_HDFS_HOME$HADOOP_MAPRED_HOME和$HADOOP_YARN_HOME环境变量独立指定Sqoop服务器应查找common,hdfs,mapreduceyarnjars的位置。Hadoop配置Sqoop服务器需要模拟用户访问群集内外的HDFS和其他资源,作为开始给予作业的用户而不是运行服务器的用户。您需要配置Hadoop以通过所谓的代理用户系统明确允许此模拟。您需要在core-site.xml文件中创建两个属性:其中$SERVER_USER是将运行Sqoop2服务器的用户。在大多数情况下,这两个配置*就足够了。有关如何使用这些属性的详细信息,请参阅Hadoop文档。如果您在所谓的系统用户(IDmin.user.id-默认为1000)下运行Sqoop2服务器,则YARN默认拒绝运行Sqoop2作业。您需要将运行Sqoop2服务器(sqoop2)container-executor.cfg的allowed.system.users属性中。有关更多详细信息,请参阅YARN文档。服务器在sqoop2用户下运行时需要出现在container-executor.cfg文件中的示例片段:jar#Createdirectoryforextrajarsmkdir-p/var/lib/sqoop2/#CopyallyourJDBC#Createdirectoryforextrajarsmkdir-p/var/lib/sqoop2/#CopyallyourJDBCdriverstothisdirectorycpmysql-jdbc*.jar/var/lib/sqoop2/cppostgresql-jdbc*.jar#Andfinallyexportthisdirectorytoexportexport配置所有用户或者管理员用到的命令都存储于安装目录的bin目录下,将该目录添加至“PATH”环境变量中。配置服务端服务端配置文件存储在conf目录中。文件sqoop_perties指定应该使用哪个配置提供程序来加载其余Sqoop服务器的配置。默认值为名为perties的第二个配置文件包含可能影响Sqoop服务器的其余配置属性。配置文件已有详细记录,因此请检查所有配置属性是否适合您的环境。在大多数常见情况下,默认或非常小的调整应该足够了。仓库初始化sqoop2-tool首次启动Sqoop2服务器之前,需要初始化元数据存储库。使用upgradesqoop2-toolsqoop2-toolVerificationsqoop2-toolVerificationwasToolclassorg.apache.sqoop.tools.tool.VerifyToolhasfinished启动和关闭服务端sqoop2-server安装和配置完成后,可以使用以下命令启动sqoopsqoop2-server以下命令可以停止服务端:sqoop2-serversqoop2-serverSqoop服务端默认使用12000端口,可以在配置文件conf/perties中设置org.apache.sqoop.jetty.port为其它端口。安装客户端sqoop2-只需在目标计算机上复制Sqoop分发工件并将其解压缩到所需位置即可。可sqoop2-客户端不充当Hadoop客户端,因此无需在客户端上安装Hadoop库和配置文件等。使用示例S3本节包含将数据从S3HDFS的用例的详细说明。用例假设您在S3上有一个目录,一些外部进程正在创建新的文本文件。新文件将添加到此目录中,但不会更改现有文件。它们只能在一段时间后被移除。需要将所有新文件中的数据传输到单个HDFS目录。不需要保留文件名,并且可以将多个源文件合并到HDFS上的单个文件。配置sqoop:000>createlink-chdfs-我们将使用HDFS连接器连接进行数据传输的FromToS3创建链S3存储桶名称和S3访问权限以及密钥。如果您还没有S3sqoop:000>createlink-chdfs-我们的示例使用s3link作为链接名称s3a://$BUCKET_NAME的形式指定HDFSURI,其中$S3存储桶的名称使用“覆盖”配置选项,分别使用S3访问密钥和私钥指定fs.s3a.access.keyfs.s3a.secret.keysqoop:000>createlinksqoop:000>createlink-chdfs-我们的示例使用hdfslink作为链接名称。如果您的Sqoop服务器在部署了HDFSmapreduce客户端配置的节点上,则可以安全地将所有选项保留为空白,使用默认值。sqoop:000>createjob-fs3link-tsqoop:000>createjob-fs3link-t我们的示例使用s3import作为作业名称输入目
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 货运费用计算试题及答案
- 聚焦2024年CPSM考试内容试题及答案
- 2024年CPMM失败案例试题及答案
- 生态系统中水的循环过程试题及答案
- 生态平衡与人类可持续发展试题及答案
- 门诊科研:赋能临床-加强合作推进医学研究
- 餐饮食物健康宣传
- 如何理解物流的增值服务?试题及答案
- 微生物的生长与环境控制试题及答案
- 报考2024国际物流师所需知识与试题及答案
- 外语学习焦虑与对策
- 2023年10月自考00054管理学原理真题及答案含评分标准
- 新员工入职信息表模板
- 山东省实验科创班试题2022
- 标准化班组建设演示幻灯片
- 文创产品设计开发(new)
- 环境及理化因素损伤课件
- 10kV配电安装工程施工方案
- 《逻辑学(第四版)》课后答案 姜全吉 秦存钢
- 电机与变压器(第6版)PPT完整全套教学课件
- 某医学院医学生肾病科疾病教案-肾小球疾病
评论
0/150
提交评论