1+X大数据平台运维（中级）理论考核试题及答案

上传人：精*** IP属地：江苏上传时间：2024-11-06 格式：DOCX 页数：23 大小：34.46KB 积分：10.79 举报 版权申诉

已阅读5页，还剩18页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1+X大数据平台运维（中级）理论考核一、单选题1.以下哪种情况容易引发HDFS负载不均问题（）[单选题]。A、HDFS中存储的文件大小不一，小文件太多B、HDFS中Block的大小设置不合理C、Data各数据节点磁盘规格和空间大小有差异√D、NameNode与DataNode节点在同一物理服务器上2.MapReduce中可能引起负载问题的原因有哪些（）[单选题]。A、MapReduce需要处理的数据量过大B、数据本身的格式问题，例如:文档格式混乱C、DataNode节点与Map节点不在一起D、Map中Key值选取和设定问题，导致Key值过于集中√3.下面哪些不是引起Spark负载不均的原因（）[单选题]。A、Spark读入的数据源是倾斜的B、Shuffle阶段Key值过于集中C、在数据过滤阶段需要处理的数据量差异D、Spark的运行方式差异√4.哪些不是引起Hive数据倾斜的原因?（）[单选题]*A、数据在节点存储上分布不均B、运算中Key值分布不均C、业务数据本身存在分布不均D、Hive中表数量的多少√5.Hive数据倾斜的表现（）[单选题]。A、Hive建表后数据无法导入B、Hive无法启动C、Hivesql语句运行异常直接退出D、Hive运算任务为报错单长期卡在99%√6.下列大数据特点中错误的是（）[单选题]。A、数据体量大B、数据种类多C、处理速度快D、价值密度高√7.下列不属于数据存储技术的是（）[单选题]。A、MySQLB、Storm√C、HDFSD、HBase8.企业使用大数据平台基于（）做分析报表[单选题]。A、MongoDBB、BIC、Hive√D、SQL9.大数据存储是指用存储器，以（）的形式，存储采集到数据的过程[单选题]。A、数据库/数据仓库√B、集群C、文件系统D、信息系统10.下列（）不是非关系型数据库[单选题]。A、HBaseB、RedisC、Hive√D、MongoDB11.下列不属于大数据项目实施工作流程的是（）[单选题]。A、项目规划阶段B、数据治理阶段C、项目设计阶段D、系统运维阶段√12.在大数据项目规划阶段中，（）阶段确认大数据项目范围和建设目标[单选题]。A、需求调研√B、业务调研C、数据需求D、项目规划13.数据来源评估一般在（）阶段进行[单选题]。A、项目规划B、数据治理√C、项目设计D、数据应用14.在数据仓库的数据架构中，（）具有按业务场景组织数据的能力[单选题]。A、结构化数据B、列式数据√C、文档数据D、非结构化数据15.（）是检查系统对非法侵入的防范能力[单选题]。A、功能测试B、性能测试C、安全测试√D、验收测试16.下列哪项通常是集群的最主要瓶颈（c）[单选题]。A、CPUB、网络C、磁盘IO√D、内存17.非关系型数据库不包括（）[单选题]。A、HBaseB、Mapreduce√C、Neo4jD、MongoDB18.下列关于大数据中计算机存储容量单位的说法中，错误的是（）[单选题]。A、基本存储容量单位是字节（Byte）B、汉字字符存储空间要大于英文字符存储空间C、一个英文字符需要2个字节的存储空间√D、一个汉字字符需要2个字节的存储空间19.啤酒和尿布的关系是大数据在（）行业的典型应用[单选题]。A、医疗B、地产C、电商D、零售√20.如今舆情分析大数据平台系统多采用（）架构[单选题]。A、Lambda√B、KappaC、流式D、Unifield21.配置主机名和IP地址映射的文件位置是（）[单选题]*A、/home/hostsB、/usr/local/hostsC、/etc/hostD、/etc/hosts√22.使配置的环境变量生效的命令是（）[单选题]*A、vi~/.bashrcB、source~/bashrcC、cat~/.bashrcD、source~/.bashrc√23.下列哪项通常是集群的最主要瓶颈（）[单选题]*A、CPUB、网络C、磁盘IO√D、内存24.下面哪个程序负责HDFS数据存储（）[单选题]*A、Datanode√B、NameNodeC、JobtrackerD、secondaryNameNode25.HDfS中的block默认保存（）份[单选题]。A、3份√B、2份C、1份D、不确定26.1.Linux下启动HDFS的命令是（）[单选题]*A、HdfsB、startdfsC、start-dfs.sh√D、start-dfs.cmd27.关于SecondaryNameNode哪项是正确的?（）[单选题]*A、它是NameNode的热备B、它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间√C、它对内存没有要求D、SecondaryNameNode应与NameNode部署到一个节点28.端口50070默认是HDFS哪个服务的端口?（）[单选题]*A、NameNode√B、DataNodeC、SecondaryNameNodeD、GFS29.配置Hadoop文件参数时，配置项“dfs.replication”应该配置在哪个文件?（）[单选题]*A、core-site.xmlB、hdfs-site.xml√C、mapred-site.xmlD、yarn-site.xml30.Hadoop集群的关闭命令是?（）[单选题]*A、stop-dfs.shB、stop-yarn.shC、stop-all.sh√D、stop-hadoop.sh31.下列哪个程序通常与NameNode在一个节点启动（）[单选题]。A、SecondaryNameNodeB、DataNodeC、TaskTrackerD、Jobtracker√32.配置Hadoopha文件参数时，JAVA_HOME包含在哪一个配置文件中（）[单选题]*A、hadoop-default.xmlB、hadoop-env.sh√C、hadoop-site.xmlD、configuration.xsl33.下列哪一个是HADOOPHA启动的第一个进程（）[单选题]*A、启动zookeeper√B、启动journalnodeC、在master1上执行命令，启动hdfs和yarnD、在master2上执行命令，启动yarn34.下列哪一个是zookeeper的进程（）[单选题]*A.DFSZKFailoverControllerB.QuorumPeerMain√C.JournalNodeD.NodeManage35.注册ZNode的命令是（）[单选题]*A、bin/hdfszkfc-formatZK√B、sbin/hdfszkfc-formatZKC、bin/hdfszkfc-fromatZKD、sbin/hdfszkfc-fromatZK36.以下对Flume架构描述不正确的是（）[单选题]*A、Flume的核心就是AgentB、Sink负责将数据发送到外部指定的目的地C、Source接收到数据之后，将数据发送给Sink√D、Channel作为一个数据缓冲区会临时存放一些数据37.Sqoop工具接收到命令后通过任务翻译器，将命令转换为（）[单选题]*A、MapReduce任务√B、Translate任务C、Map任务D、Reduce任务38.以下对Flume描述错误的是（）[单选题]*A、高可用的B、高可靠的C、负责海量日志采集D、负责处理数据√39.Flume数据传输的基本单元是（）[单选题]*A、Event√B、ClientC、ChannelD、Sink40.Kafka的设计初衷不包括（）[单选题]*A、处理海量日志B、用户行为统计C、网站运营统计D、数据转换√41.SparkonYarn有两种接口模式是（）[单选题]*A、Client模式和Cluster模式√B、Consumers模式和Producer模式C、Local模式和Remote模式D、Resource模式和Application模式42.当启动一个SparkShell时，SparkShell已经预先创建好一个SparkContext对象，其变量名为（）[单选题]*A、sc√B、ccC、snD、nc43.RDD是含义是（）[单选题]*A、弹性分布式数据集√B、弹性运算数据集C、可重复操作数据D、远端数据定义44.以下哪个不是Spark中WorkerNode的作用（）[单选题]*A、通过注册机制向ClusterMaster汇报自身的cpu和memory等资源B、Master的指示下创建启动Executor，Executor是执行真正计算的苦力C、将资源和任务进一步分配给ExecutorD、同步资源信息、Executor状态信息给Driver√45.以下对窄依赖描述正确的是（）[单选题]*A、可以表现为一个父RDD的分区对应于一个子RDD的分区，对输入进行协同划分√B、可以表现为多个父RDD的分区对应于一个子RDD的分区，对输入进行非协同划分C、表现为存在一个父RDD的一个分区对应一个子RDD的多个分区,对输入进行非协同划分D、表现为存在一个父RDD的一个分区对应一个子RDD的多个分区,对输入进行协同划分46.Linux操作系统vm.swappiness参数值被设置为10，它的含义是（）[单选题]*A、内存使用量达到系统内存的90%时，操作系统会相当频繁地使用磁盘上的交换文件√B、内存使用量达到系统内存的10%时，操作系统会相当频繁地使用磁盘上的交换文件C、内存使用量达到系统内存的90%时，操作系统不会地使用磁盘上的交换文件D、内存使用量达到系统内存的10%时，操作系统不会地使用磁盘上的交换文件47.禁用ipv6需要修改的是哪个配置文件（）[单选题]*A./etc/sysctl.conf√B./etc/profileC.~/.bashrcD./etc/networks48.禁止记录访问时间戳需要修改什么参数（）[单选题]*A、noatime和nodiratime√B、notime和nodirtimeC、atime和diratimeD、time和dirtime49.增大可打开文件描述符数目需要修改哪个配置文件（）[单选题]*A、/etc/security/limits.conf√B、/etc/security/limt.confC、/etc/conf/limits.confD、/etc/conf/limit.conf50.以下对Linux下的大页描述错误的是（）[单选题]*A、Linux下的大页分为标准大页和透明大页两种类型B、标准大页管理是预分配的方式C、透明大页管理是静态分配的方式√D、Linux系统默认开启透明大页面功能二、多选题1.大数据处理流程一般分为（）。[多选题]*A、数据采集与预处理√B、数据存储√C、数据分析与挖掘√D、数据可视化√2.大数据技术面临的挑战主要有（）。[多选题]*A、可靠性√B、可用性√C、安全性√D、高效性E、可扩展性√3.下列属于数据可视化软件及工具的有哪些（）。[多选题]*A、Echarts√B、Python中Matplotlib、pyecharts等库包√C、R语言中ggplot2、highcharter等库包√D、D3.js√4.大数据实施工程师的工作职责有（）。[多选题]*A.负责Hadoop、Spark、Storm等大数据平台的规划、部署、监控、系统优化等工作，确保系统持续稳定、高效运行√B.负责大数据平台系统运营规范，及运营工具系统的设计与开发实现√C.负责PoC（ProofofConcept，原型验证），在客户业务场景下验证大数据产√品的功能与性能D.与客户沟通了解需求，在客户业务场景下根据客户的需求进行大数据项目实施，安装部署大数据平台软件√E.深入理解系统平台，为其持续优化提供建设性意见√5.大数据运维工程师日常工作主要是（）。[多选题]*A.大数据集群的构建√B.大数据集群的任务调度、监控预警√C.大数据集群容量规划、扩容、集群性能优化√D.大数据系统日常巡检、应急值守和故障处理√E.根据客户需求进行大数据应用接入和对接培训6.故障排查流程一般包括（）。[多选题]*A.应急处置与故障定位√B.故障报告√C.故障检查√D.故障诊断√7.关于H3CDataEngineBI商业智能大数据平台说法正确的是（）。[多选题]*A、采用B/S架构，纯Java语言开发，支持所有可部署JDK的操作系统√B、支持所有的有JDBC接口的数据库√C、支持DataEngineHadoop和MPP分布式数据库等主流大数据平台√D、具有分布式分析能力，可快速实现数据可视化分析√8.元数据的内容包括（）。[多选题]*A、对数据质量的描述√B、对数据处理信息的说明√C、对数据集的描述√D、对数据转换方法的描述√9.美国治理警察超速行驶是通过（）发现问题的[单选题]。A、通过人工观察B、通过对不同高速路口收费站的原始数据记录的比对挖掘分析√C、警车上的跟踪设备产生的报告进行挖掘分析D、治安监控录像资料汇总分析10.Hadoop集群的三大核心组件是（）[多选题]*A、HDFS√B、MapReduce√C、ZookeeperD、YARN√11.下列哪个是Hadoop运行的模式:（）[多选题]*A、单机版√B、伪分布式√C、分布式√D、Zookeeper12.下列哪项可以作为集群的管理?（）[多选题]*A、Puppet√B、Pdsh√C、Zookeeper√D、ClouderaManager13.启动yarn命令后会出现哪些进程（）[多选题]*A、NameNodeB、NodeManager√C、ResourceManager√D、DataNode14.ZooKeeper的Server节点主要由哪些角色组成?（）[多选题]*A、Leader√B、Follower√C、ManagerD、Learner15.Follower节点的主要功能有（）[多选题]*A、向Leader发送请求√B、接收Leader消息并进行处理√C、接收Client的请求，如果为写请求要发送给Leader进行投票√D、返回给Client结果√16.可以用几台机器配置高可用（）[多选题]*A、1B、3√C、4D、5√17.下列哪一个不是在slave1上使用的命令（）[多选题]*A、bin/hdfsnamenode-bootstrapStandbyB、sbin/hadoop-daemon.shstartnamenodeC、sbin/yarn-daemon.shstartproxyserver√D、sbin/start-dfs.sh√18.下列那些是hadoopha启动完成的进程（）[多选题]*A、NameNode√B、DFSZKFailoverController√C、JobHistoryServer√D、QuorumPeerMain√19.以下哪些属于ETL工具（）[多选题]*A、sqoop√B、Flume√C、Kafka√D、Spark20.Flume的Agent包括哪些（）[多选题]*A、Source√B、Channel√C、Sink√D、Data21.以下哪些是Kafka的特性（）[多选题]*A、分布式√B、高吞吐量√C、支持多分区√D、单副本22.Spark包含哪几种模式（）[多选题]*A、本地模式（local）√B、Standalone模式√C、SparkonYarn模式√D、SparkonMesos模式√23.Yarn主要涉及到以下哪几个角色（）[多选]*A、RM:ResourceManager（资源管理者）√B、NM:NodeMananger（节点管理者）√C、AM:ApplicationMaster（应用程序管理者）√D、PM:ProgramManager(程序管理者)24.以下哪些是Spark的特点（）[多选题]*A、运行处理速度快√B、运行模式多样性√C、易于使用√D、交互性25.以下对脏页配置参数的描述哪些是正确的（）[多选题]*A、vm.dirty_background_ratio内存可以填充“脏数据”的百分比√B、vm.dirty_expire_centisecs指定脏数据能存活的时间√C、vm.dirty_ratio脏数据百分比的绝对限制值√D、vm.dirty_writeback_centisecs指定pdflush/flush/kdmflush进程执行间隔√26.目前主流Linux发行版本使用I/O调度器有哪些（）[多选题]*A、DeadLine√B、CFQ√C、NOOP√D、Scheduler27.在Linux中,查看服务器负载和资源占用情况的常用命令有（）[多选题]*A、free√B、top√C、iostatsD、Vmstats28.Hive有哪些表的数据类型?（）[多选题]*A、内部表√B、外部表√C、分区表√D、桶√29.7、Hive的访问方式有哪些?（）[多选题]*A、shell√B、JDBC√C、WebUI√D、ssh30.8、Hive的主要特点:（）[多选题]*A、可伸缩√B、高容错√C、类SQL语言√D、批处理√三、判断题1.大数据处理速度快，但时效性要求却很低。对错√2.大数据的数据类型丰富，包括结构化数据、半结构化数据和非结构化数据。对√错3.大数据来源包括:传统商业数据、互联网数据和物联网数据。对错√4.日志一般为结构化或非结构化的二进制文件，可以利用日志分析工具进行事后分析[单选题]。(对)√(错)5.故障报告应该写清故障时间、故障表现、理论表现、故障有关的操作以及如何重现[单选题]。(对)√(错)6.Elasticsearch是一个分布式的开源搜索和分析引擎,适用于所有类型的数据,包括文本、数字、地理空间、结构化和非结构化数据[单选题]。(对

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

1+X大数据平台运维（中级）理论考核试题及答案

文档简介

温馨提示

最新文档

评论

1+X大数据平台运维（中级）理论考核试题及答案

文档简介

温馨提示

最新文档

评论

相关文档