大数据华为认证考试(习题卷7)_第1页
大数据华为认证考试(习题卷7)_第2页
大数据华为认证考试(习题卷7)_第3页
大数据华为认证考试(习题卷7)_第4页
大数据华为认证考试(习题卷7)_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据华为认证考试大数据华为认证考试(习题卷7)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据华为认证考试第1部分:单项选择题,共51题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.下面这条GaussDB200语句?calldbms_erval(1,'sysdate+1.0/24');?的意思是()A)修改Job1的Interval为每隔1小时执行一次。B)修改Job1的Interval为每隔1/24小时执行一次。C)修改Job1的Interval为每隔24分钟执行一次。D)修改Job1的Interval为每隔24小时执行一次。[单选题]2.关于FusionInsightHDStreaming的Supervisor描述正确的是:()。A)Supervisor是在Topology中接受数据然后执行处理的组件B)Supervisor负责接受Nimbus分配的任务,启动和停止属于自己管理的Worker进程C)Supervisor负责资源分配和任务调度D)Supervisor是运行具体处理逻辑的过程[单选题]3.在FusionInsightLibrA中,下面对analyze使用的描述错误的是:()。A)analyze语句可收集与数据库中表内容相关的统计信息,统计结果存储在系统表PG_STATISTIC中B)建议对一个刚执行过大批量插入操作的表执行analyze语句,以便使LibrA内的优化器模块根据这些统计数据获得更优的输出,进而影响业务性能C)执行计划生成器会使用PG_STATISTIC表中的统计数据,以生成最有效的查询执行计划D)analyze语句中使用-pop选项,可避免当数据库中数据量过大时内存紧张[单选题]4.Kafka的核心架构不包含?()A)SplitB)ProducerC)ConsumerD)Broker[单选题]5.下列不是普元标签产品解决的问题是:()。A)分析挖掘模型更好地落地固化与应用B)对庞大的标签体系进行统一有序的管理C)让标签以更加直观的方式进行可视化展示D)数据趋势预测[单选题]6.用户可以通过表的数据预览模块,预览当前表的业务数据;根据列的分类信息,支持对预览的数据进行实时脱敏。下列选项中不属于数据预览支持的数据源类型为:()。A)DWSB)DLIC)OracleD)Mysql[单选题]7.下列哪个选项可以用来判断HBase表是否存在?()A)admin.tableExists(tableName)B)admin.tableExists(TableName.value0f(tableName))C)admin.getTable(tableName)D)tables.containsKey(tableName))[单选题]8.以下哪种机制使Flink能够实现窗口中无序数据的有序处理?()A)检查点B)窗口C)事件时间D)有状态处理[单选题]9.华为FusionInsightHD系统中关于HDFS的DataNode的说法正确的是:()。A)不会检查数据的有效性B)周期性地将本节点的Block相关信息发送给NameNodeC)不同的DataNode存储的Block一定是不同的D)一个DataNode上的Block可以是相同的[单选题]10.GaussDB200的高可用主要体现在哪些方面()?A)数据融合B)分析融合C)计算融合D)以上全都正确[单选题]11.以下()文件格式为纯行式存储。A)ORCFileB)ParquetFileC)SequenceFileD)RCFile[单选题]12.华为8.0数据中台架构贴源层数据存储产品是:()。A)MRSB)GBase8AC)DWSD)DAYU[单选题]13.某学生正在学习ElasticSearch,请你帮他分析下,下列代码的作用是什么?()StringjsonString=?(?+\?name\?:\?ElasticsearchReference\?,?+?author\?:\?AlexYang\?,?+pubinfo\?:\?Beijing,China.\?,?+?\?pubtime\?:\?2016-07-16\?,?+?\?desc\?:\?Elasticsearchisahighlyscalableepen-sourcefull-textsearchandanalyticsengine.\??+?)?;Map<String,String>params=Collections.singletonMap(?pretty?,?true?),HttpEntityentity=newNStringEntity(jsonString、ContentType.APPLICATION_JSON);Responseresponse=restClient.performRequest(?PUT.?/?+index+?/?+type+?/?+id,params,entity);A)更新索引B)插入数据,创建索引C)创建数据D)插入数据,更新索引[单选题]14.HBase中Region的物理存储单元是:()。A)RegionB)ColumnFamilyC)ColumnD)Row[单选题]15.Agg算子的实现策略有:()。A)4B)3C)2D)1[单选题]16.在FusionInsightHD中,创建Loader作业的进行数据转换正确步骤是()。A)设置输入-转换-输出B)抽取-转换-输出C)加载-转换-输出D)加载-转换-抽取[单选题]17.以下哪项是Spark2.x程序统一入口?()A)StreamingContextB)SqlContextC)HiveContextD)SparkSession[单选题]18.对GaussDB200描述不正确的是?()A)并行架构B)易运维,安全可靠C)行列不能混存D)节点多,易扩展[单选题]19.以下哪个选项不属于大数据的?三驾马车??()A)RPCB)GFSC)BigTableD)MapReduce[单选题]20.哪个不是ElasticSearch生态圈中的技术?(C)A)beatsB)LogstashC)FlumeD)kibana[单选题]21.HBase表设计为什么-般不超过两个列簇?()A)过多的列簇StoreFile过多,Compaction压力大B)过多的列簇I0开销大C)过多的列簇不适合读写分离D)过多的列簇会导致memstoreflush时I0压力过大[单选题]22.下列对图数据库描述正确的是?()A)以?图?数据结构存储和查询数据的数据库B)存储图片的数据库C)与关系型数据库类似的数据库D)数据仓库的一种[单选题]23.关于Spark中RDD的描述不正确的是?()A)RDD可以从HDFS输入创建,或从与Hadoop兼容的其他存储系统中输入创建B)当前RDD默认是存储于内存,当内存不足时,RDD也不会溢出到磁盘中。C)Spark的所有Transform操作都是基于RDD来实现的。D)RDD是只读和可区分的。要想对RDD进行操作,只能重新生成一个新的RDD[单选题]24.Flume中基于WAL(预写式日志Write-AheadLog)实现Channel持久化的是?()A)MemoryChannelB)KafkaChannelC)FileChannelD)JDBCChannel[单选题]25.Elasticsearch采用的搜索方式是?()A)倒排索引B)快速索引C)正排索引D)慢索引[单选题]26.flume传输数据过程中,为了防止数据不丢失,使用的Channel类型是?()A)MemoryChannelB)FileChannelC)JDBCChannelD)HDFSChannel[单选题]27.以下关于HDFS适合做什么描述正确的是?()A)低延迟读取B)大文件存储C)大量小文件存储D)随机写入[单选题]28.大数据最显著的特征是:()。A)数据规模大B)数据类型多样C)数据处理速度快D)数据价值密度高[单选题]29.Redis中List列表是什么数据结构实现的?()A)红黑树B)循环链表C)平衡二叉树D)双向链表[单选题]30.哪个产品适应于OLAP场景?()A)PostgresSQLB)SQLServerC)MySQLD)GaussDB200[单选题]31.创建一个存储过程proc_addCREATEORREPLACEPROCEDUREproc_add(param1inINTEGER,param2outINTEGER,param3inINTEGER)ASBEGINParam2:=param1+param3;END;,创建一个存储过程proc_testCREATEORREPLACEPROCEDUREproc_test(resultoutINTEGER)AsDECLAREInput1INTEGER:=1;Input2INTEGER:=2;StatementVARCHAR2(200):Param2INTEGER:BEGIN--声明调用语句Statement:=?callproc_add(:co1_1,:co1_2,:co1_3)?;--执行语句EXECUTEIMMEDIATEstatementUSINGINinput1,OUTparam2,INinput2;Result:=param2;END;执行语句callproc_test(10),结果是()。A)3B)无返回值C)4D)2[单选题]32.下来()Redis命令属于原子操作。A)INCR(将储存的数字值增一)B)HINCRBY(为哈希表key中的域field的值加上增量increment)C)LPUSH(对链表的push操作)D)以上都是[单选题]33.Spark是用以下()编程语言实现的。A)CB)C++C)JAVAD)Scala[单选题]34.假设现在要做一个可以根据线索指导运维人员进行排障的功能,你建议选择下列哪个工具实现该功能?()A)LuceneB)HBaseC)ElasticSearchD)GraphBase[单选题]35.某学生正在学习ElasticSearch,请你帮他分析下,下列代码的作用是什么?()StringjsonString?("name\":\"ElasticsearchReference\","+"\"author\":\"AlexYang?\?pubinfo\":\Beijing,China.\+"\"pubtime\":\"2016-07-16\"'desc\":\'Elasticsearchisahighlyscalableopen-sourceful1-textsearchandanalyticsengine.\"Map<String,String>params=Collections.singletonMap("pretty","true"):HttpEntityentity=newNStringEntity(jsonString,ContentType.APPLICATION_JSON);Responseresponse'=restC1ient.performRequest("PUT","1?+index+"1?+type+?1?+id,params,entity):A)更新索引B)创建数据C)插入数据,更新索引D)插入数据,创建索引[单选题]36.关于Spark中RDD的描述不准确的是?()A)RDD可以从HDFS输入创建,或从与Hadoop兼容的其他存储系统中输入创建B)Spark的所有Transform操作都是基于RDD来实现的。C)RDD是只读和可分区的。要想对RDD进行操作,只能重新生成一个新的RDD。D)当前RDD默认是存储于内存,当内存不足时,RDD也不会溢出到磁盘中。[单选题]37.银行进行客户购买力分析,首先获取客户历史账单,确定其中各项商品的计算权重,得出每位客户的购买力评分并存储记录。最后将结果以图表显示。请问该过程对应于以下哪个项目数据流程设计。()A)数据可视化->数据源->数据落地->数据处理B)数据源->数据落地→>数据处理->数据可视化C)数据源->数据处理->数据落地->数据可视化D)数据可视化->数据源->数据处理->数据落地[单选题]38.Hadoop中MapReduce组件擅长处理()场景的计算任务。A)迭代计算B)离线计算C)实时交互计算D)流式计算[单选题]39.以下()能力不属于数据中台能力架构中存储计算能力。A)分布式数据仓库B)分布式关系数据库C)流计算D)任务调度[单选题]40.Flink的窗口,按窗口行为划分不包含以下哪种?(A)A)容量窗口B)滑动窗口C)滚动窗口D)会话窗口[单选题]41.公安行业中实时检索不适用于以下哪个场景?()A)车辆信息查询B)快速信息汇集C)评估嫌疑人犯罪概率D)实时布控[单选题]42.在GraphBase上,创建一个新的图,必须使用的参数是?()A)edgeB)graphNameC)labelD)vertex[单选题]43.当一个MapReduce应用程序被执行时,如下()动作是map阶段之前发生的。A)splitB)combineC)partitionD)sort[单选题]44.Streaming主要通过zookeeper提供以下的()实现事件侦听。A)分布式锁机制B)WatcherC)CheckpointD)ACK[单选题]45.进行场景迁移的前提条件说法错误的是:()。A)该用户必须拥有管理员权限B)已获取待连接数据源的用户名C)已获取待连接数据源的密码D)已获取待连接数据源的地址[单选题]46.下列关于HBase的BloomFilter特性理解正确的是:()。A)用来过滤数据B)用来优化随机读取的性能C)会增加存储的消耗D)可以准确判断某条数据不存在[单选题]47.哪个不是StructuredStreaming中OutPut可以定义的存储方式?()A)UpdateModeB)JDBCModeC)CompleteModeD)AppendMode[单选题]48.关于Redis集群拓扑信息,下面描述正确的是:()。A)客户端缓存有集群的拓扑信息B)服务端缓存有集群的拓扑信息C)两者都是D)两者多不是[单选题]49.假设每个用户最低资源保障设置为yarn,scheduler,capacity,root,QueueA.minimum-user-limit-percent=24。则以下说法错误的是:()。A)第3个用户提交任务时,每个用户最多获得33.33%的资源B)第2个用户提交任务时每个用户最多获得50%的资源C)第4个用户提交任务时,每个用户最多获得25%的资源D)第5个用户提交任务时,每个用户最多获得20%的资源[单选题]50.某公司要建立资料库,该资料库要用ElasticSearch进行检索。请问下列哪些选项()A)Word文档B)公司宣传视频C)产品设计图D)以上全都正确[单选题]51.关于Hive在FusionInsightHD中的架构描述错误的是:()。A)只要有一个HiveServer不可用,整个Hive集群便不可用B)MotaStore用于提供元数据服务,依赖于DBServiceC)在同一时间点、HiveServer只要一个处于Active状态,另一个则处于Standby状态D)HiveServer负责接收客户端请求.解析.执行HQL命令并返回查询结果第2部分:多项选择题,共34题,每题至少两个正确答案,多选或少选均不得分。[多选题]52.StructuredStreaming支持的数据源包括?()A)HDFSB)KafkaC)SocketD)RateStream[多选题]53.FusioninsightHD中,Hive客户端()参数是用来控制reduce并发度的。A)hive.exec.reducers.bytes.per.reducerB)hive.exec-ducers.maxC)hive.exec.max.dynamic.partitionsD)hive.exec.max.dynamic.partitions.pemode[多选题]54.API网关是:华为云提供的一个API托管的应用服务,API网管包括的功能有:()。A)API全生命周期的管理B)权限控制C)访问控制D)流量控制[多选题]55.YARN中从节点主要负责()工作。A)集群中所有:资源的统一管理和分配B)监督container的生命周期C)监控每个Container的资源使用情况D)管理日志和不同应用程序用到的附属服务[多选题]56.关于数据订阅订阅数据变更类型,正确的是:()。A)updateB)deleteC)insertD)replace[多选题]57.以下哪些选项是ElasticSearch主节点EsMaster功能?()A)参与文档数据变更B)参与文档数据搜索C)参与新建索引D)参与删除索引[多选题]58.FusionlnsightHD中,属于Streaming的数据分发方式有:()。A)ShuffleGroupingB)FieldGroupingC)LocalGroupingD)DirectGrouping[多选题]59.支持创建的数据标签类型有:()。A)规则标签B)组合标签C)手工标签D)实时标签[多选题]60.HDFS的应用开发中,下列()是HDFS服务支持的接口。A)BufferedOutputStreamwriteB)BufleredOutputStream.flushC)FileSystem.createD)FileSystem.append[多选题]61.大数据场景化解决方案包含以下哪些选项?()A)实时检索B)实时流处理C)离线检索D)离线批处理[多选题]62.下列选项中,()是Spark的重要角色。A)NodeManagerB)ResourceManagerC)DataNOdeD)Driver[多选题]63.下列关于聚集算子的说法正确的是()?A)当聚集缩减率较大时使用Hashagg。B)Hashagg性能最佳,一般聚集算子尽量都用Hashagg。C)通过设置enable_sort=off,可以关闭Sort+GroupAgg。D)聚集算子需要所有聚集列都支持排序。[多选题]64.国网数据中台能力架构中数据管理包含:()。A)模型管理B)数据质量管理C)数据资产D)标签管理[多选题]65.afka中删除消息的阈值有哪几种?()A)分区总日志大小B)硬盘总空间大小C)数据产生的时间D)数据使用的频率[多选题]66.一个应用需要同时和两个Fusioninsight集群交互:既需要访问集群1的HBase服务,又需要访问集群2的Hive服务;()操作是必须的。A)在集群1上创建本应用所需的账号,并设置此账号能访问本集群的HBase服务B)在集群2上创建A选项中的同名账号,并设置此账号能访问本集群的Hive服务C)A选项和B选项所创建的账号都必须属于supergroup组D)集群1和集群2完成互信操作[多选题]67.大数据离线批处理场景中常见的数据源包括?()A)数据库B)批量文件数据C)流式数据Socket流D)网页日志流[多选题]68.以下哪些选项属于F1inkLibraries层的应用?()A)复杂事件处理的CEPB)处理逻辑表查询的TableC)图像处理的GellyD)机器学习的FlinkML[多选题]69.StructuredStreaming中通过什么机制,解决数据的无序和滞后问题?()A)watermark机制B)持续查询C)流连接D)事件时间[多选题]70.GaussDB200支持的语法包括()A)DQL(数据查询语言)B)DDL(数据定义语言)C)DML(数据操作语言)D)DCL(数据控制语言)[多选题]71.创建API时,需要填写()信息。A)API名称B)API目录C)请求PathD)请求方法[多选题]72.在公安领域的大数据批量离线处理平台中,以下描述准确的是()A)不同的数据来源可以整理后划分实时数据、增量文件、全量文件和数据库等。B)数据来源可以按照结构或类型分为:视频/图像数据,文本数据,数据库中数据等。C)数据来源包括公安系统、社会系统、互联网系统、其他如运营商系统等。D)经过整理后的原始数据可以根据业务主题,分为基本信息、交往圈信息、轨迹信息,行为信息等存储。[多选题]73.Hive的自定义函数有哪几种?()A)UDFB)UDTFC)UDCFD)UDAF[多选题]74.在FusionInsght产品中,关于Kafka组件说法正确的是:()。A)在创建Topic时,副本数不得大于当前存活的Broker实例个数,否侧创建Topic将会失败B)Kafka的Producer发送消息时,可以指定该消息被哪个Comsumer消费C)Kafka会将元数据信息存放在Zookeeper上D)Kafka安装完成后就不能再配置数据存放目录[多选题]75.数据字典能修改的内容包括:()。A)数据字典的类型B)数据字典类型的子项C)数据字典名称D)数据字典的层级[多选题]76.数据目录工具都有:()角色。A)系统管理员B)数据维护员C)数据管理员D)普通用户[多选题]77.大数据计算框架Spark中除了RDD,还有哪些数据类型?()A)DataSetB)DataFrameC)DataTypeD)DataSchema[多选题]78.向用户授权DRS权限流程包括:()。A)创建用户组并授权B)创建用户C)用户登录并验证权限D)用户自行添加权限[多选题]79.华为云数据湖探索(DataLakeInsight,DLI)支持()任务的作业管理。A)ImpalaB)SQLC)FlinkD)Spark[多选题]80.对于GaussDB200而言,字段的设计应该注意以下哪些事项()?A)在满足业务精度的情况下,NUKREIC的优先级比浮点数高。B)尽量使用符合实际业务描述的字段。C)尽量使用高效率的字段类型.D)考虑数据美观,尽量使用同一种数据类型,比如Text.[多选题]81.以下能表示为布尔类型?真?值的是:()。A)TRUEB)'t'C)'true'D)'y'[多选题]82.下列属于Flume数据监控的指标是:()。A)sink写入数据量B)DataNode数量C)Channel缓存数据量D)source接收数据量[多选题]83.FusionInsightHD的HBase服务包含:()进程。A)HMasterB)SlaveC)RegionServerD)DataNode[多选题]84.创建数据库可以指定兼容()参数。A)MySQLB)OraC)TDD)SQLServer[多选题]85.ElasticSearch具有什么特点?()A)支持集群拓展B)支持结构化数据检索C)支持非结构化数据检索D)支持事务机制第3部分:判断题,共9题,请判断题目是否正确。[判断题]86.ResourceManager采用高可用方案,当Activeresourcemanager发现故障时,只能通过内置的Zookeeper来启动standby的resourcemanager,将其状态切换为active。A)正确B)错误[判断题]87.现有3个机架,有一个文件要存3份,其中副本1和副本2存放在与client相同的机架且不同的服务器上,根据HDFS的副本存放策略一定要存放在其他机架上。A)正确B)错误[判断题]88.Kafak所有消息都会被持久化到硬盘中,同时Kafka通过对TopicPartition设置Replication来保障数据的可靠性。A)正确B)错误[判断题]89.导入数据字典的excel中,字典类型代码在系统中不存在且在excel中不存在,否则导入失败。A)正确B)错误[判断题]90.向HBase集群中增加RegionServer主机时,必须先停止原集群,原因是HBase不支持动态扩容。A)正确B)错误[判断题]91.如果某些Containers的物理内存利用率超过了配置的内存阈值,但所有Containers的总内存利用率并没有超过设置的NodeManager内存阈值,那么内存使用过多的containers仍可以继续运行。A)正确B)错误[判断题]92.Hadoop系统中,如果HDFS文件系统的备份因子是3,那么MapReduce每次允许task都是从3个有副本的机器上传输需要的处理文件。A)正确B)错误[判断题]93.执行引擎的基本单位为执行算子。A)正确B)错误[判断题]94.Hive中unionall操作符用于合并两个或多个select语句的结果集,结果集中,不允许有重复值。A)正确B)错误第4部分:问答题,共6题,请在空白处填写正确答案。[问答题]95.CTID的值是增量增加的。()A)TRUEB)FALSE[问答题]96.Sqoop可以用于Hadoop(Hive)与传统的数据库(MySQL、PostgreSQL...)间进行数据的传递。()A)对B)错[问答题]97.应用开发需要进行需求分析,包括需求调研和市场调研。()A)对B)错[问答题]98.Hive的UDF是否需要每次使用时都重新创建[问答题]99.数据处理方式,可分为实时处理和离线处理。()A)TRUEB)FALSE[问答题]100.RedisServer收到非归属本节点的KEY操作,会将请求转发到正确的节点上。()A)TRUEB)FALSE1.答案:A解析:2.答案:B解析:3.答案:D解析:4.答案:A解析:5.答案:D解析:6.答案:C解析:7.答案:B解析:8.答案:C解析:9.答案:C解析:10.答案:D解析:11.答案:C解析:12.答案:A解析:13.答案:D解析:14.答案:B解析:15.答案:B解析:16.答案:A解析:17.答案:D解析:18.答案:C解析:19.答案:A解析:20.答案:C解析:21.答案:B解析:22.答案:A解析:23.答案:B解析:RDD具有容错机制,并且只读不能修改,可以执行确定的转换操作创建新的RDD。具体来讲,RDD具有以下几个属性。只读:不能修改,只能通过转换操作生成新的RDD。分布式:可以分布在多台机器上进行并行处理。弹性:计算过程中内存不够时它会和磁盘进行数据交换。基于内存:可以全部或部分缓存在内存中,在多次计算间重用。24.答案:C解析:channel可以理解为一种临时的存储,source将event放入channel,sink取走它。flume提供了四种可以用于生产环境的channel。1、MemoryChannel基于内存的channel,实际就是将event存放于内存中一个固定大小的队列中。其优点是速度快,缺点是可能丢失数据。2、JDBCChannel将event存放于一个支持JDBC连接的数据库中,目前官方推荐的是Derby库,其优点是数据可以恢复。3、FileChannel在磁盘上指定一个目录用于存放event,同时也可以指定目录的大小。优点是数据可持久化,可恢复,相对于memorychannel来说缺点是要频繁的读取磁盘,速度较慢。4、KafkaChannel在使用flume对接Kafka时,我们往往使用TailFileSource->MemoryChannel->KafkaSink的这种方式,然后将数据输送到Kafka集群中。25.答案:A解析:26.答案:B解析:27.答案:B解析:hdfs其除具备其它分布式文件系统相同特性外,HDFS还有自己特有的特性:1、高容错性:认为硬件总是不可靠的。2、高吞吐量:为大量数据访问的应用提供高吞吐量支持。3、大文件存储:支持存储TB-PB级别的数据。HDFS不适合做什么?1、大量小文件存

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论