大数据华为认证考试(习题卷1)

上传人：w*** IP属地：重庆上传时间：2023-11-15 格式：DOCX 页数：67 大小：76.82KB 积分：3.6 举报 版权申诉

已阅读5页，还剩62页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试卷科目：大数据华为认证考试大数据华为认证考试(习题卷1)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据华为认证考试第1部分：单项选择题，共122题，每题只有一个正确答案,多选或少选均不得分。[单选题]1.要级联删除用户创建的表等数据库对象，使用关键字（）。A)STRICTB)CASCADEC)USAGE[单选题]2.以下关于StreamExecution持续查询过程的描述哪项是正确的?()A)获取最新数据offsets一一offsets写入offsetLog一一构造LogicalPlan一一优化LogicalPlan一一计算完成commit一一计算结果SinkB)offsets写入offsetLog一一获取最新数据offsets一一构造LogicalPlan一一优化LogicalPlan一一计算结果Sink一一计算完成commitC)获取最新数据offsets一一offsets写入offsetLog一一构造LogicalPlan一一优化LogicalPlan一一计算结果Sink一一计算完成commitD)获取最新数据offsets一一offsets写入offsetLog一一优化LogicalPlan一一构造LogicalPlan一一计算结果Sink一一计算完成commit[单选题]3.TOPN操作最适合采用哪种Redis数据结构?（）A)SetB)HashC)ListD)SortedSet[单选题]4.以下扫描算子中用于对列存表进行扫描的算子是：（）。A)SeqScanB)CstoreScanC)SubqueryScanD)ValuesScan[单选题]5.关于Spark中RDD的描述不准确的是?（）A)RDD可以从HDFS输入创建，或从与Hadoop兼容的其他存储系统中输入创建B)Spark的所有Transform操作都是基于RDD来实现的。C)RDD是只读和可分区的。要想对RDD进行操作，只能重新生成一个新的RDD。D)当前RDD默认是存储于内存，当内存不足时，RDD也不会溢出到磁盘中。[单选题]6.关于HIVE的描述不正确的是:（）。A)Hive最佳使用场景是大数据集的批处理作业B)Hive可以实现在大规模集群上实现低延迟快速查询C)Hive构建在基于静态批量处理的Hadoop之上，Hadoop通常有较高的延迟并且在提交作业和调度的时候需要大量的开销D)Hive查询操作过程严格遵循HadoopMapReduce的作用执行模型，Hive将用户的HiveSQL语句通过解释器转换为MapReduceHadoop集群上[单选题]7.关于Hive与Hadoop其他组件的关系，以下描述错误的是：（）。A)Hive最终将数据存储在HDFS中B)Hive是Hadoop平台的数据仓库工具C)HQL可以通过MapReduce执行任务D)Hive对HBase有强依赖[单选题]8.FusionInsightHD系统中，下面（）方法不能查看到Loader作业的执行结果。A)通过LoaderUI界面查看B)通过YARN任务管理查看C)通过NodeManager查看D)通过Manager的告警查看[单选题]9.某开发小组计划利用GraphBase实现一些功能，以下哪些功能可以实现?()A)物流最优路径规划B)社交分析C)金融反欺诈D)以上全都正确[单选题]10.下列关于存储过程中的变量说法正确的是()?A)声明变量时需要指定变量的初始值。B)变量的作用域是全局。C)变量必须先声明后使用。D)声明变量时需要指定变量的数据类型。[单选题]11.在有N个节点FusionInsightHD集群中部署HBase时、推荐部署（）个HMaster进程，（）个RegionServer进程。A)3、NB)N、NC)2、ND)2、2[单选题]12.以下属于Hive的架构组件的是?（）A)HLogB)DriverC)HmasterD)NameNode[单选题]13.在线迁移新建任务配置时，在?场景选择?页面，不属于源数据库来源的是:（）。A)本地自建库B)本云云数据库C)本云ECS自建库D)本地云上数据库[单选题]14.YARN调度器分配资源的顺序是:（）。A)任意机器--本地资源--同机架B)任意机器--同机架--本地资源C)本地资源--同机架--任意机器D)同机架--任意机器--本地资源[单选题]15.Redis中适合存储对象的数据类型是?（）A)StringB)ListC)HashD)Set[单选题]16.以下哪种机制使Flink能够实现窗口中无序数据的有序处理?（）A)检查点B)窗口C)事件时间D)有状态处理[单选题]17.在WebHCat架构中，用户能够通过安全的HTTPS协议执行以下（）操作。A)执行HiveDDL操作B)运行MapReduce任务C)运行HiveSQL任务D)以上全部正确[单选题]18.以下（）选项属于FusionInsightSparkSQL的优点。A)稳定和高性能B)SQL兼容性C)支持数据插入，更新和删除D)以上全部正确[单选题]19.以下（）组件采用Active-Active高可用模式。A)GTMB)WLMC)CND)DN[单选题]20.以下哪个选项属于大数据消息系统?（）A)SparkB)KafkaC)HBaseD)Zookeeper[单选题]21.HBase中一个Region进行Split操作时，将一个HFile文件真正分开到两个Region的过程发生在以下（）阶段。A)Split过程中B)Flush过程中C)Compaction过程中D)HFile分开过程中[单选题]22.Kafka消息默认保存时间为多少天?()A)14天B)30天C)1天D)7天[单选题]23.华为8.0数据中台数据复制产品是：（）。A)OGGB)InformaticaC)SDRD)DRS[单选题]24.在FusioninsightHD中，可以在（）查看MapReduce应用程序的运行结果。A)FusioninsightManager的web界面B)LoaderWeb界面C)Solrweb界面D)YamWeb界面[单选题]25.Flume用于收集数据，其传输的数据基本单位是（）。A)SplitB)BlockC)EventD)Packet[单选题]26.以下不属于CN自动剔除约束的是：（）。A)设置CN心跳超时时间的值大于0B)集群中的CN总数必须大于等于3C)多CN故障时只能剔除一个CND)CN剔除以后，逻辑集群的创建、删除、扩容、缩容、回滚、显示操作可以执行[单选题]27.新建?表/文件迁移作业?作业第一步不需要填写的信息是:（）。A)作业名称B)源连接名称C)目的连接名称D)字段名称[单选题]28.GaussDB200的高可用主要体现在哪些方面()?A)数据融合B)分析融合C)计算融合D)以上全都正确[单选题]29.HBase表设计为什么-般不超过两个列簇?()A)过多的列簇StoreFile过多，Compaction压力大B)过多的列簇I0开销大C)过多的列簇不适合读写分离D)过多的列簇会导致memstoreflush时I0压力过大[单选题]30.关于数据服务中，app说法正确的是:（）。A)一个用户只能创建一个APPB)一个APP只能申请一个API的权限C)一个用户可以创建多个APP，一个APP可以申请多个API的权限D)一个API只能被一个APP使用[单选题]31.在Flink的运行过程中，负责申请资源的角色是:（）。A)ResourceManagerB)JobManagerC)ClientD)TaskManager[单选题]32.关于批量数据处理组件的描述不正确的是?（）A)Hive：传统SQL批处理引擎，用于处理SQL类批处理作业，使用广泛海量数据下表现稳定，但是处理速度较慢B)SparkSQL：新型SQL批处理引擎，用于处理SQL类批处理作业，适合海量数据，处理速度高效。C)Spark：新型批处理引擎，可以用于处理非SQL类，尤其是数据挖掘和机器学习类批处理作业，适合海量数据，处理速度高效。D)MapReduce：传统批处理引擎，用于处理非SQL类，尤其是数据挖掘和机器学习类批处理作业，使用广泛，海量数据下表现不稳定.但是处理建度较快。[单选题]33.离线批处理方案的应用场景不包括?()A)占用计算存储资源多B)快速高效，实时的数据处理C)数据处理格式多样D)处理大规模数据[单选题]34.国网数据中台，是在下面（）数据中心阶段的基础上发展过来的。A)营销服务中心B)全业务统一数据中心C)海量历史/实时数据中心D)电网GIS数据中心[单选题]35.HBase为什么适用于海量数据存储?()A)HDFS做底层存储B)多列簇特C)支持列存表D)集群规模小[单选题]36.有一张表name，其中一个字段名为chinese_name，类型为char(4)，另一个字段名为eng1ish_name，类型为varchar(5)。那么执行如下语句?insertintonamevalues('gaosi'，'GaussDB')?会发生什么?（）A)存在记录(gaos，GaussDB)。B)存在记录(gaos，Gauss)。C)数据无法插入。D)存在记录(gaosi，GaussDB)[单选题]37.以下关于Zookeeper的Leader节点在接收到数据变更请求后的读写流程说法正确的是:（）。A)仅写入内存B)同时写入硬盘和内存C)先写入内存再写入硬盘D)先写入硬盘再写入内存[单选题]38.在GaussDB200的存储过程中，语句number=0的意思是()?A)声明一个变量number，并初始化值为0。B)判断number的值是否为0。C)修改变量number的值为0。D)比较number和0的大小。[单选题]39.以下关于DWS数据库透明加密的特点，错误的是：（）。A)支持行存表数据加密，不支持列存表加密B)支持集群级别配置C)使用KMS服务加密D)加密密钥层次结构有三层[单选题]40.CSN的推进和分配在（）管理。A)GTMB)CNC)DND)CM_SERVER[单选题]41.CREATETABLEAS创建表，后面需要添加查询语句类型是：（）。A)INSERTB)UPDATEC)SELECTD)DELETE[单选题]42.在MapReduce的应用程序开发中，下列（）JAVA类负责管理和运行一个计算任务。A)lobB)ContextC)FileSystemD)Configuration[单选题]43.以下关于常见数据库描述正确的是?（）A)HBase：基于ZooKeeper，Hadoop，适合非结构化数据存储，是高可靠性、高性能、面向行、可伸缩的分布式存储系统。B)Oracle：关系型数据库，行式存储，支持SQL，中量级数据分析、存储、不可分布式，开源软件。C)Redis：开源key-value数据库，读写性能极高，数据类型丰富，可以与Storm结合进行实时查询分析。D)Mysql：关系型数据库，列式存储，支持SQL，轻量级数据分析、存储，仅有商业版本。[单选题]44.HBase的主HMaster是：（）选举的。A)由RegionServer进行裁决B)HMaster为双主模式，不需要进行裁决C)通过ZooKeeper进行裁决D)随机选举[单选题]45.Hive中的这条命令?ALTERTABLEEMPLOYEELADDCOLUMNS(columnsstring)?,是:（）含义。A)创建表B)删除表C)添加列D)修改文件格式[单选题]46.Zookeeper在分布式应用中的主要作用不包括：（）选项。A)选举Master节点B)保证各节点上数据的一致性C)分配集群资源D)存储及群中服务器信息[单选题]47.数据中台功能架构中数据接入包含：（）能力。A)数据交换B)监控告警C)链路监测D)任务调度[单选题]48.一般情况下，若要提高ElasticSearch检索效率，可以采取什么操作?()A)使用Hive做底层存储B)调整索引分片数C)压缩索引D)增加EsMaster节点[单选题]49.公安行业中实时检索不适用于以下哪个场景?()A)车辆信息查询B)快速信息汇集C)评估嫌疑人犯罪概率D)实时布控[单选题]50.数据中台在汇聚生产库的结构化数据时，最多的数据处理操作是：（）。A)统计B)删除C)新增D)修改[单选题]51.以下哪个选项不属于大数据的?三驾马车??（）A)RPCB)GFSC)BigTableD)MapReduce[单选题]52.下列选项不支持创建采集元数据任务时添加数据分类，实现自动识别的为:（）。A)RDS(Mysql)B)DWSC)DLID)MRSHive[单选题]53.考虑以下场景，HBase有列簇CF1，列C1、C2.当读取HBase表时，只要求返回C1的列值，使用下列哪个选项可以实现该功能?()A)ValueFilteB)ColumFilterC)RowFilterD)QualifierFilter[单选题]54.以下关于数据收集工具的描述，不准确的是?（）A)Loader是实现FusionInsightHD与关系型数据库、文件系统之间交换数据和文件的数据加载工具。B)Loader提供了本集群内部HDFS和HBase之间的数据导入或导出。C)Saoop是一款开源的工具，主要用于在Hive与传统的数据库间进行数据的传递，可以将关系型数据库中的数据导入到Hadoop的HDFS中，也可将HDFS的数据导出到关系型数据库中。D)Kett1e是一款国外开源的ETL工具，纯java编写，目前仅可以在Linux上运行，数据抽取高效稳定。[单选题]55.Flink的窗口，按窗口行为划分不包含以下哪种?(A)A)容量窗口B)滑动窗口C)滚动窗口D)会话窗口[单选题]56.DAYU数据开发中，默认作业的大配额是:（）。A)10000B)5000C)500D)1000[单选题]57.以下（）不是订阅数据包含的内容。A)服务IDB)数据库类型C)表名D)库名[单选题]58.以下（）文件格式为纯行式存储。A)ORCFileB)ParquetFileC)SequenceFileD)RCFile[单选题]59.离线批处理常用的组件不包括哪个？（）A)FlumeB)HiveC)SparkD)Storm[单选题]60.关于Kerberos的TGT以下说法错误的是:（）。A)TGT全称为票据授权服务票据，主要由KDC服务器生成B)TGT一次生成之后，可以无限期使用。C)TGT在客户端的存在方式可以是在内存中存储，也可以在本地以文件的形式存储。D)TGT中主要的信息有当前该票据的有效时长和授予该TGT的服务端IP以及分发给的客户端名称。[单选题]61.MVCC用于解决（）事务冲突。A)读读B)写写C)读写D)上述都包括[单选题]62.以下关于ElasticSearch介绍错误的是?（）A)Document：文档，被索引的基本单位B)EsMaster：主节点C)Index：索引，与关系型数据库中的索引概念一样D)EsNode：Elasticsearch节点，一个节点就是一个Elasticsearch实例[单选题]63.修改资源的化导入excel的操作列应该填写（）。A)插入B)更新C)删除D)追加[单选题]64.Spark是用以下（）编程语言实现的。A)CB)C++C)JAVAD)Scala[单选题]65.Redis中String数据类型不含以下哪种操作?()A)mgetB)sizeC)strlenD)append[单选题]66.某工程师正在开发ElasticSearch应用，下面这些代码可以帮助他做什么?()Map<String,String>params=Collections.singletonMap(?pretty?,?true?);Responsersp=restClient.performRequest(?GET?，?/?+index+?/?+type+?/?+id，params)；Assert.assertEquals(rsp.getStatusLine().getStatusCode()，HttpStatus.SC_OK)；A)查询指定文档分片信息B)查询指定index、type、id下的文档信息C)查询指定index、type下的文档信息D)维护指定文档信息[单选题]67.在FusionInsightLibrA中，下面对analyze使用的描述错误的是:（）。A)analyze语句可收集与数据库中表内容相关的统计信息，统计结果存储在系统表PG_STATISTIC中B)建议对一个刚执行过大批量插入操作的表执行analyze语句，以便使LibrA内的优化器模块根据这些统计数据获得更优的输出，进而影响业务性能C)执行计划生成器会使用PG_STATISTIC表中的统计数据，以生成最有效的查询执行计划D)analyze语句中使用-pop选项，可避免当数据库中数据量过大时内存紧张[单选题]68.Redis不适用于以下哪个应用场景?()A)获取PB级Value数据B)获取TOPN操作C)获取手机验证码D)获取最新N个数据的操作[单选题]69.关于GaussDB200的数据导入导出下列说法正确的是()?A)使用gsq1元命令和COPY命令在使用和用法上是一样的。B)GDS在数据导入时可以做预处理，比如非法字符替换、容错处理、数据聚合等。C)COPY方式使用简单，一般用在大量数据的导入导出中。D)INSERT数据写入适合数据量不大，并发度不高的场景。[单选题]70.FusionInsightManager对服务的管理操作，下面说法错误的是:（）。A)可以设置不常用的服务隐藏显示B)可以添加和卸载服务C)可以对服务进行启停操作D)可以查看服务的当前状态[单选题]71.集合运算算子指的是()?A)ArrayOPB)HashOpC)ListOpD)SetOp[单选题]72.Hadoop平台中HBase的Region是由:（）服务进程来管理。A)HMasterB)DataNodeC)RegionServerD)ZooKeeper[单选题]73.下列关于HBase的BloomFilter特性理解正确的是：（）。A)用来过滤数据B)用来优化随机读取的性能C)会增加存储的消耗D)可以准确判断某条数据不存在[单选题]74.Flink的哪种机制可以保证task运行失败时，其状态能够恢复?()A)窗口B)有状态处理C)事件时间D)检查点[单选题]75.GraphBase能够处理海量数据的原因是什么?（）A)基于Elasticsearch的索引机制B)基于HBase的分布式存储机制C)基于Spark的分布式内存计算技术D)图机制特性[单选题]76.下列关于批量数据迁移系统级限制和约束的说法错误的是：（）。A)批量数据迁移系统不会自动备份用户的作业配置，需要用户通过作业的导出功能进行备份。B)集群创建好以后支持修改规格。C)文件迁移时，单个任务支持千万数量的文件，如果待迁移目录下文件过多，建议拆分到不同目录并创建多个任务。D)不支持集群自动升级到新版本，需要用户通过作业的导出和导入功能，实现升级到新版本。[单选题]77.Streaming主要通过zookeeper提供以下的（）实现事件侦听。A)分布式锁机制B)WatcherC)CheckpointD)ACK[单选题]78.Flink的Checkpoint机制绘制的流应用快照不能被保存在以下哪个位置?()A)LocalB)HDFSC)TaskManager的内存D)JobManager的内存[单选题]79.关于表连接算子的说法错误的是()?A)聚合操作如groupby会触发NergeJoin.B)表连接算子主要有Nestloop、MergeJoin、MinorJoin、HashJoin.C)算子的选择是SQL根据逻辑自行选择的，与人为无关。D)默认情况下，执行效率来说HashJoin最高。[单选题]80.下面这段代码的作用是什么？()HttpEntityentity=newNStringEntity(jsonString,ContentType.APPLICATION_JSON);Responseresponse=null;Try{Response=restClient.performRequest(?PUT?,?/?+index,params,entity);Assert.assertEquals(response.getStatusLine().getStatusCode(),HttpStatus.SC_OK);LOG.info(?createIndexWithShardNum,responseentityIs:?+EntityUtils.toString(response.getEntity()));}catch(Exceptione){Assert.fail();}A)更新索引B)创建索引C)维护索引D)删除索引[单选题]81.关于Hive与传统数据仓库的对比，下列描述错误的是:（）。A)Hive元数据存储独立于数据存储之外，从而解耦合元数据和数据，灵活性高，二传统数据仓库数据应用单一，灵活性低B)Hive基于HDFS存储，理论上存储可以无限扩容，而传统数据仓库存储量有上限C)由于Hive的数据存储在HDFS上，所以可以保证数据的高容错，高可靠D)由于Hive基于大数据平台，所以查询效率比传统数据仓库快[单选题]82.哪个是实时检索解决方案的数据源?（）A)流数据B)以上都是C)文件数据D)图数据[单选题]83.资源注册页面，点击solr增量索引的作用是：（）。A)创建索引B)增加索引C)更新索引D)删除说因[单选题]84.()是一个实现了文件系统的抽象类，继承自org.apache.hadoop.conf.Configured，并实现了C1oseable接口，可以适用于多种文件系统。()A)FSDataInputStreamB)FileConfigurationC)FSDataOutputStreamD)FileSystem[单选题]85.下列（）HDFS命令可用于检测数据块的完整性。A)hdfsfsck/B)hdfsfsck-deleteC)hdfsdfsadmin-reportD)hdfsbalancer-threshold1[单选题]86.Kafka集群在运行期间，直接依赖于下面哪个组件?（）A)MapReduceB)ZooKeeperC)HbaseD)Spark[单选题]87.下面哪个数据类型不是GaussDB200支持的数据类型()?A)JSON类型B)货币类型C)数值类型D)XML类型[单选题]88.数据中台功能架构中数据资产管理包含：（）能力。A)安全管理B)数据开发C)数据资产目录D)计量管理[单选题]89.下面（）不是属性选择度量。A)ID3使用的信息增益B)C4.5使用的增益率C)CART使用的基尼指数D)NNM使用的梯度下降[单选题]90.下列关于GaussDB200的说法正确的是()?A)RETURNNEXT表示返回下一个B)存储过程需要返回值时使用RETURN关键字。C)RETURNQUERY用于返回集合D)RETURN用于返回存储过程调用结果。[单选题]91.以下哪个选项对Redis数据读写流程描述是正确的?（）A)ServerA节点返回集群拓扑―一客户端选择集群任意一个ServerA节点连接――客户端计算Key归属的槽位以及对应ServerB节点并连接--ServerB节点返回业务操作结果B)客户端选择集群任意一个ServerA节点连接――ServerA节点返回集群拓扑―一客户端计算Key归属的槽位以及对应ServerB节点并连接--ServerB节点返回业务操作结果C)ServerA节点返回集群拓扑--客户端计算Key归属的槽位以及对应ServerB节点并连接――客户端选择集群任意一个ServerA节点连接--ServerB节点返回业务操作结果D)客户端选择集群任意一个ServerA节点连接――客户端计算Key归属的槽位以及对应ServerB节点并连接――ServerA节点返回集群拓扑――ServerB节点返回业务操作结果[单选题]92.数据质量以（）为监控对象，目前支持对离线数据的监控。A)数据群B)数据集C)数据列D)数据模块[单选题]93.在FusionInsightHD中，创建Loader作业的进行数据转换正确步骤是（）。A)设置输入-转换-输出B)抽取-转换-输出C)加载-转换-输出D)加载-转换-抽取[单选题]94.在FusionInsight产品中，关于创建Kafka的Topic，以下描述正确的是:（）。A)在创建Kafka的Topic时，必须设置PartitionB)在创建Kafka的Topic时，必须设置Partition副本数C)设置多副本可以增强Kafka服务的容灾能力D)以上全部正确[单选题]95.在数据添加过滤规则后，在源库执行更新操作的处理原则，应以:（）为首要目标。A)数据一致B)数据规范C)数量相同D)数据唯一[单选题]96.在进行整库迁移时源端数据源类型为Oracle，目的端数据类型不支持:（）。A)RDSforMySQLB)MRS(Hive)C)CSSD)DWS[单选题]97.以下哪项不属于批量数据采集工具?（）A)MapReduceB)FlumeC)SqoopD)其他ETL工具[单选题]98.元数据采集任务的启动方式不包括：（）。A)循环执行B)定时执行C)手动执行D)定时立即执行[单选题]99.哪个不是Hbase的操作语法？（）A)create?my_tb?,?info?B)listC)createtabletb1(idint,namestring)D)scan?my_tb?[单选题]100.YARN的基于标准调度，是对下列选项中的（）进行标签化。A)AppMasterB)ResourceManagerC)NodeManagerD)Container[单选题]101.GaussDB200支持几种数据并行导入策略?()A)2B)1C)4D)3[单选题]102.HDFS数据写入流程描述错误的是?()A)业务应用调用HDFSClient提供的API,请求写入文件。B)业务调用close,flush后HDFSClient联系NameNode,确认数据写完成，DataNode持久化元数据。C)HDFSClient收到业务数据后，从NameNode获取到数据块编号、位置信息后，联系DataNode,并将需要写入数据的DataNode建立起流水线。完成后，客户端再通过自有协议写入数据到DataNodel.再由DataNode1复制到DataNode2、DataNode3。D)HDFSClient联系NameNode,NameNode在元数据中创建文件节点。[单选题]103.以下（）数据不属于半结构化数据。A)HTMLB)XMLC)二维表D)JSON[单选题]104.存储过程的调用有几种方式()?A)3B)1C)4D)2[单选题]105.以下（）不属于开源数据湖解决方案。A)DLIB)IcebergC)HudiD)OpenDelta[单选题]106.下面这段代码的作用是什么?（）Try{Rsp=restClientTest.performRequest(?HEAD?，?/?+index，params)；If(HttpStatus.SC_OK==rsp.getStatusLine().getStatusCode()){LOG.info(?Checkindexsuccessful，indexisexist：?+index)；Returntrue;}If(HttpStatus.SC_NOT_FOUND==rsp.getStatusLine().getStatusCode()){LOG.info(?indexisnotexist:?+index);Returnfalse;}}A)判断索引是否可用B)判断索引分片是否存在C)判断索引是否存在D)判断索引类型[单选题]107.以下不属于事务上层系统状态的是：（）。A)startedB)beginC)commitD)inprogress[单选题]108.ElasticSearch存放所有关键词的地方是()A)字典B)关键词C)词典D)索引[单选题]109.下列（）选项属于Hive的数据存储模型。A)桶B)数据库C)分区D)以上全都正确[单选题]110.以下关于FusionInsightCTBase的描述不正确的是:（）。A)CTBase的读写接口，统一封装了行定义的接口，自动进行冷字段的合并和解析，不需要在应用程序中进行合并和解析B)CTBase是基于Hbase的聚簇表开发框架C)CTBase提供了一套WebUI进行元数据定义，提供了只管医用的表设计工具，降低表设计的难度D)CTBase的javaAPI提供了一套Hbase连接池管理的接口，内部连接共享，减少客户端应用开发的难度[单选题]111.下列（）命令是从HDFS下载目录/文件到本地。A)dfs-putB)dfs-catC)dfs-getD)dfs-mkdir[单选题]112.使用DLI的正确操作顺序为：（）。A)1.准备数据2.编辑并提交作业3.购买队列4.查看作业状态B)1.准备数据2.购买队列3.编辑并提交作业4.查看作业状态C)1.购买队列2.准备数据3.编辑并提交作业4.查看作业状态D)1.编辑并提交作业2.准备数据3.购买队列4.查看作业状态[单选题]113.对E1asticSearch描述正确的是?()A)客户端必须把索引请求发给EsMasterB)客户端必须把索引请求发给shardC)客户端必须把索引请求发给EsNodeD)客户端必须把索引请求发给指定的EsNode[单选题]114.HDFS客户端所在节点的系统时间与FusioninsightHD集群的系统时间要保持一致，若有时间差,那么时间差应小于（）分钟。A)5B)10C)20D)30[单选题]115.某学生正在学习ElasticSearch,请你帮他分析下，下列代码的作用是什么?()StringjsonString?("name\":\"ElasticsearchReference\","+"\"author\":\"AlexYang?\?pubinfo\":\Beijing,China.\+"\"pubtime\":\"2016-07-16\"'desc\":\'Elasticsearchisahighlyscalableopen-sourceful1-textsearchandanalyticsengine.\"Map<String，String>params=Collections.singletonMap("pretty","true"):HttpEntityentity=newNStringEntity(jsonString，ContentType.APPLICATION_JSON);Responseresponse'=restC1ient.performRequest("PUT"，"1?+index+"1?+type+?1?+id,params,entity):A)更新索引B)创建数据C)插入数据，更新索引D)插入数据，创建索引[单选题]116.以下（）能力不属于数据中台能力架构中存储计算能力。A)分布式数据仓库B)分布式关系数据库C)流计算D)任务调度[单选题]117.以下对GaussDB200双AZ集群描述不正确是?（）A)灾备集群不同步数据时，可以提供读写服务B)主集群不可用时，灾备集群提供正常服务C)主集群提供正常服务，灾备集群只同步数据D)周期性数据同步[单选题]118.创建数据同步任务后，对于增量同步中的任务，可以通过:（）来增加或者移除同步数据库和表，并提交同步任务。A)删除同步对象B)编辑同步对象C)创建同步对象D)返回同步对象[单选题]119.有如下存储过程，CREATEORREPLACEPROCEDUREprc_1(param1ININTEGERDEFAULT3，param2INOUTINTEGER)ASBEGINParam2：=paraml+param2；RETURN：END：调用如上存储过程callprc_1(2，1)，结果是()?A)1B)2C)4D)3[单选题]120.Zookeeper的Scheme认证方式不包括：（）。A)digestB)saslC)authD)world[单选题]121.如果要在某个模式下创建对象，该用户对此模式应具有：（）权限。A)EXECUTEB)SELECTC)CREATED)USAGE第2部分：多项选择题，共81题，每题至少两个正确答案,多选或少选均不得分。[多选题]122.DWS的默认用户拥有：()权限。A)登录B)创建数据库C)创建用户[多选题]123.FusionInsightManager界面显示Hive服务状态是：Bad时，可能的原因有：()。A)DBService服务不可用B)HDFS服务不可用C)Hbase服务不可用D)Metastoro实例不可用[多选题]124.Spark有：()特点。A)快B)灵C)轻D)巧[多选题]125.以下哪些选项是ElasticSearch主节点EsMaster功能?()A)参与文档数据变更B)参与文档数据搜索C)参与新建索引D)参与删除索引[多选题]126.在产品选型时，数据中台逻辑架构中贴源层要重点关注产品的特点包含：()方面。A)具备审计能力，可提供给共享层做数据恢复B)低廉的存储能力，以供海量数据存储C)高并发数据写入能力，支撑数据高效写入D)数据访问以支持海量数据审计和高可靠[多选题]127.以下关于KafkaPrtition说法正确的是：()。A)引入Partition机制，保证了Kafka的高吞吐能力B)每个Partition都是：有：序且不可变的消息队列C)Partition数量绝对了每个consumergroup中并发消费者的最大数量D)每个Partition在存储层面对应一个log文件[多选题]128.对于GaussDB200而言，字段的设计应该注意以下哪些事项()?A)在满足业务精度的情况下，NUKREIC的优先级比浮点数高。B)尽量使用符合实际业务描述的字段。C)尽量使用高效率的字段类型.D)考虑数据美观，尽量使用同一种数据类型，比如Text.[多选题]129.与开源的sqoop相比，Loader具有：()增强特性。A)高可靠性B)高性能C)安全性D)图形化[多选题]130.DAYU作业调度的方式有：()。A)单次调度B)周期调度C)事件驱动调度D)自定义调度[多选题]131.有几种方式提交Ooize作业（）A)Shell命令B)JavaAPIC)Hue（UI）D)RestAPI[多选题]132.以下关于Transformation的说法正确的是?（）A)它的返回值还是一个RDDB)是RDD的算子类型C)属于懒操作D)map(func)属于Transformation[多选题]133.数据质量定义模块包括：()。A)质量维度定义B)检验类别管理C)度量规则管理D)检核方法管理[多选题]134.FusionInsightHD系统中使用Streaming客户端shell命令提交拓扑之后，使用StormUI查看发现该拓扑长时间没有：处理数据，可能原因有：()。A)拓扑业务逻辑错误，提交之后无法正常运行B)Supervisor是：在Topology中接收数据然后执行处理的组件C)拓扑过于复杂或者并发太大，导致worker启动时间过长，超过supervisor的等待时间D)Supervisor的slots资源被消耗尽，拓扑提交上去后分不到slot去启动worker进程[多选题]135.华为FusionInsightHD成功案例有：()。A)数字政府B)智慧园区C)智慧交通D)金融[多选题]136.在Kafak中，如下关于Producer发送数据的说法错误的是：()。A)Producer负责生产数据，Consumer负责消费数据，Producer和Consumer之间需要建立Socket连接B)Producer既可以发送数据到Broker上，又可以发送数据到Consumer上C)Producer作为消息生产者，可直接将数据写入ZooKeeperD)Producer连接任意一个正常的Broker实例就可以生产数据[多选题]137.HBase适用于下列哪些应用场景?（）A)图片数据存储B)消息中间件C)商品数据存储D)银行交易系统[多选题]138.FusioninsightHD中，Hive客户端()参数是用来控制reduce并发度的。A)hive.exec.reducers.bytes.per.reducerB)hive.exec-ducers.maxC)hive.exec.max.dynamic.partitionsD)hive.exec.max.dynamic.partitions.pemode[多选题]139.以下关于Flink与其他组件交互说法正确的是：()。A)Flink任务的运行依赖Yarn来进行资源调度B)Flink的checkpoint的实现依赖于ZookeeperC)Flink可以将接受的组件发给KafkaD)Flink在HDFS文件系统中读写数据[多选题]140.下面哪些关键词是kafka的特点（）A)高吞吐B)分布式C)消息持久化D)支持消息的随机读写[多选题]141.调用Zookeeper客户端命令中包含：()信息。A)IP地址B)端口号C)服务器名称D)用户名[多选题]142.以下关于Redis中set数据类型srandmemberkey[count]命令的描述哪些是正确的?()A)如果count为负数，那么命令返回一个数组，数组中的元素可能会重复出现多次，而数组的长度为count的绝对值。B)如果count为正数，且小于集合基数，那么命令返回一个包含count个元素的数组，数组中的元素各不相同。C)如果count大于等于集合基数，那么返回整个集合。D)如果count为负数，那么命令返回一个数组，数组中的元素各不相同，且数组的长度小于count的绝对值。[多选题]143.Kafka每个Partition在物理上对应的文件夹下存储哪些文件?（）A)索引文件B)用户文件C)消息文件D)配置文件[多选题]144.HBase中HMaster主要负责什么?()A)用户数据读写B)表的增删改查C)Regionserver负载均衡D)Region分布调整[多选题]145.Hive的自定义函数有哪几种？(）A)UDFB)UDTFC)UDCFD)UDAF[多选题]146.以下关于Loader特点描述正确的是?()A)图形化：提供UI图形化配置、监控界面，操作简便。B)安全认证：Kerberos认证作业权限管理。C)高性能：利用MapReduce并行处理数据。D)高可靠：LoaderServer采用主备双机作业通过MapReduce执行，支持失败重试，作业失败后，不会残留数据。[多选题]147.基于Hadoop开源大数据平台主要提供了针对数据分布式计算和存储能力，如下属于分布式存储组件的有：()。A)MRB)SparkC)HDFSD)HBase[多选题]148.以下对HDFS中提供文件读写的类描述正确的是？()A)FSDataOutputStream是与DataNode交互的接口类B)FSDataOutputStream是HDFSAPI中提供读取文件的类，通过FileSystem的close方法获取读取数据流C)FSDataOutputStream通过FileSystem的create和append方法获取写入数据流D)FSDataOutputStream是HDFSAPI中提供文件写入文件的类[多选题]149.数据标签支撑的典型场景包括：()。A)数据分析B)精准营销C)风险防控D)群体分析[多选题]150.以下()措施能提高HBase的查询性能。A)预分region,使region分布均匀，提高并发B)查询频繁属性放在rowkey前面部分C)使用二级索引，适应更多查询场景D)同时读取的数据存放在同一个cell中[多选题]151.以下关于FusionInsight网路安全可靠性，说法正确的是:()。A)阻止外部攻击者通过管理通道入侵实际业务数据B)FusionInight支持网路划分为三级：集群业务平面、集群管理平面和集群外维护网路彼此之间实施物理隔离C)避免业务平面的高负载阻塞集群管理通道D)网路平面隔离，避免管理与业务贷款抢占，相互干扰[多选题]152.以下哪些选项是Kafka的特点?()A)支持消息随机读取B)高吞吐C)分布式D)消息持久化[多选题]153.下列关于FusionInsightLibrA行存储和列存储的使用场景描述正确的有：()。A)列存储适用于统计分析类查询（group，join多的场景）B)行存储适用于点查询（返回记录少，基于索引的简单查询）C)列存储适用于点查询（返回记录少，基于索引的简单查询）D)行存储适用于即席查询（查询条件列不确定，行存无法确定索引）[多选题]154.整库迁移支持的源端数据源类型有：()。A)MySQLB)OracleC)HiveD)DWS[多选题]155.afka中删除消息的阈值有哪几种？()A)分区总日志大小B)硬盘总空间大小C)数据产生的时间D)数据使用的频率[多选题]156.华为大数据产品FusionInsightHD中的Streaming具有：()关键特性。A)容灾能力B)灵活性C)消息可靠性D)可伸缩性[多选题]157.支持创建的数据标签类型有：()。A)规则标签B)组合标签C)手工标签D)实时标签[多选题]158.Flink能够通过哪几种方式提供容错机制?()A)窗口B)事件时间C)流重放D)状态快照[多选题]159.事务的ACID特性包括：()。A)原子性B)一致性C)隔离性D)持久性[多选题]160.某开发小组可以利用ElasticSearch实现下列哪些功能?（）A)查询交易凭证B)开发交易系统C)自动化评估贷款额度D)查询客户信用记录[多选题]161.下面关于GaussDB200的逻辑集群说法正确的是（）？A)一个物理节点对应一个逻辑集群。B)逻辑集群的意思就是通过物理服务器的隔离来达到数据的分离处理。C)逻辑集群的最终目的的是实现资源隔离及资源弹性能力。D)在逻辑集群上实现多租户管理，达到CPU、内存等计算资源的控制隔离。[多选题]162.向用户授权DRS权限流程包括：()。A)创建用户组并授权B)创建用户C)用户登录并验证权限D)用户自行添加权限[多选题]163.采用Flume传输数据过程中，为了防止因Flume进程重启而丢失数据，可以使用：()Channel。A)memoryChannelB)JDBCChannelC)FileChannelD)HDFSChannel[多选题]164.以下哪些选项属于集群资源规划设计?（）A)单条数据大小B)容量预留C)数据总规模D)数据质量[多选题]165.Redis的LIST数据结构，适用于：()场景。A)构建队列系统，例如消息队列B)uniq操作，例如获取某段时间所有：数据的排重值C)取最新N个数据操作：例如对某条微博，获取最新的10个评论D)模拟栈操作[多选题]166.FusioninsightHD中，Streaming适用于：()场景。A)流数据监控B)网站的实时访问统计C)离线日志分析D)交通流量分析[多选题]167.HBase中包含哪些基本的概念?（）A)RowKeyB)tableC)namespaceD)ColumnFamily[多选题]168.以下()是Kafka实际的应用场景。A)网络活性跟踪B)日志收集C)聚合统计系统运营数据D)资源管理[多选题]169.FusionInsightHD平台中，()组件支持对表进行加密。A)HDFSB)FlinkC)HbaseD)Hive[多选题]170.StructuredStreaming支持的数据源包括?（）A)HDFSB)KafkaC)SocketD)RateStream[多选题]171.在DAYU数据质量模块中，新建规则块时系统内置的模板规则共计19种，分为四种类型，具体为：()。A)库级规则B)表级规则C)字段级规则D)跨字段级规则[多选题]172.下列哪些情况下SQL自诊断可以识别，并上报告警信息?()A)数据倾斜。B)SQL语句不下推。C)大表Broadcast。D)HashJoin中大表做内表。[多选题]173.GaussDB200支持的语法包括（）A)DQL(数据查询语言)B)DDL(数据定义语言)C)DML(数据操作语言)D)DCL(数据控制语言)[多选题]174.关于Redis特点，下面描述正确的是：()。A)低时延B)丰富的数据结构C)丰富的数据结构D)支持SQL查询接口[多选题]175.随着大数据越来越被重视，数据采集的挑战也变的尤为突出，常见的挑战包括?()A)数据量大B)数据源多种多样C)数据采集的可靠性保障D)避免重复数据[多选题]176.以下哪些数据可以转化为Dataset或DataFrame?（）A)JAVAStringB)MySqlTableC)JSOND)JPG[多选题]177.以下哪个是MapReduce的特点？A)易于编程B)良好的扩展性C)实时计算D)高容错性[多选题]178.Flume由哪三部分组成？()A)MasterB)SinkC)SourceD)Channel[多选题]179.计算10分钟内的单词，每5分钟更新一次。若程序在11：00开始运行，在12：07收到的一个数字。这个数字应该对应于以下哪些窗口的计数?()A)12：00-12：10B)11：55-12：05C)12：05-12：15D)12：10-12：20[多选题]180.以下哪些情况下采用Replication方式存储数据?（）A)存储的表的数据量较小B)以上都是C)需要较高的并发分析能力D)对数据的完整性要求较高[多选题]181.Google发布的三篇论文是哪些？（）A)GFSB)HDFSC)MapReduceD)BigTable[多选题]182.创建数据库可以指定兼容()参数。A)MySQLB)OraC)TDD)SQLServer[多选题]183.如果要设计好一个数据库，需要考虑()方面。A)良好的数据库逻辑设计△B)适当的存储模式C)合理的数据分布D)必要的表分区设计[多选题]184.下列选项对ElasticSearchreplicas的描述，正确的是?()A)代表索引副本B)提高系统容错性C)压缩索引大小D)提高检索效率[多选题]185.FusionlnsightHD中，在使用Streaming的ACK机制时，说法正确的是：()。A)启用了Acker之后，Streaming会识别发送失败的Tuple并自动重发，无需人为干预。B)Acker会标识处理超时或者处理失败的消息为faiLC)从spout开始，形成的Tuple树中任何一个环节失败都会标记整棵树失败。D)应用需要在spout的fail()接口方法中实现消息重发逻辑。[多选题]186.SparkSQL使用场景丰富，可以处理的数据源包括?()A)JsonB)HiveC)文本文件D)RDD[多选题]187.在产品选型时，数据中台逻辑架构中分析层要重点关注产品的特点包含：()方面。A)批量删除能力B)强资源隔离能力C)高并发的查询能力D)强大的OLTP能力[多选题]188.国网数据中台能力架构中数据管理包含：()。A)模型管理B)数据质量管理C)数据资产D)标签管理[多选题]189.GraphBase可以提供下列哪些服务?()A)查询B)存储C)遍历D)分析[多选题]190.关于Kafka的Peoducer,如下说法正确的是：()。A)Producer是：消息生产者B)Producer生产数据需要指定TopicC)可以同时起多个Producer进程向同一个Topic进行数据发送D)Producer生产数据时需要先连接ZooKeeper,而后才连接Broker[多选题]191.Flume可以从以下哪些数据源上采集数据?()A)实时日志B)SyslogC)KafkaD)本地文件[多选题]192.FusionlnsightHD中，关于Ooze的作业管理，对于己暂停的作业可以进行()操作。A)killB)runC)resumeD)submit[多选题]193.FusionlnsightHD中，属于Streaming的数据分发方式有：()。A)ShuffleGroupingB)FieldGroupingC)LocalGroupingD)DirectGrouping[多选题]194.网站个性化推荐的背后，可以使用哪些类型的数据实现?（）A)半结构化B)结构化C)非结构化D)无结构化[多选题]195.Region分裂时，下列哪些选项会参与?()A)HMasterB)RegionServerC)ZookeeperD)以上全不正确[多选题]196.F1ink中的计算时间包含以下哪几种?（）A)DelayTimeB)ProcessingTimeC)EventTimeD)IngestionTime[多选题]197.FusioninsightHD中，在使用Streaming的ACK机制时，说法正确的是：()。A)启用了Acker之后，Streaming会识别发送失败的Tuple并自动重发，无需人为干预B)Acker会标识处理超时或者处理失败的消息为faiLC)从spout开始，形成的Tuple树中任何一个环节失败都会标记整棵树失败D)应用需要在spout的fail()接口方法中实现消息重发逻辑[多选题]198.gs_dump和gs_dumpa11的异同点是()A)二者都支持纯文本格式数据的导出。B)ds_dump只支持纯文本格式的数据导出，ds_dumpa11支持多种数据格式的数据导出。C)二者都支持公共全局对象的数据导出。D)ds_dump针对的是单个数据库，ds_dumpa11针对的是所有数据库。[多选题]199.数据集成功能包括：()。A)表/文件/整库迁移B)增量数据迁移C)事务模式迁移D)字段转换[多选题]200.如下的哪些组件适用于实时分析？（）A)MapReduceB)StreamingC)SparkStreamingD)HIve[多选题]201.Flume中以下哪些选项属于SinkProcessor的类型?()A)FailoverSinkProcessorB)BlankSinkProcessorC)DefaultSinkProcessorD)LoadbalanceSinkProcessor[多选题]202.下列关于Explain的关键字描述正确的是()A)在Explain的基础上，通过添加Analyze同时显示该语句执行时每个算子的实际开销(单位为毫秒)和行数信息，对于判断优化器的估算是否准确提供依据。B)在Explain的基础上，添加Verbose显示出计划的额外详细信息，包括每个算子的输出列，重分布算子的分布列等。C)Explain通过指定option选项参数FORMAT来指定输出格式，默认是text格式。D)在Explain的基础上，添加Performance显示出计划的额外详细信息，包括每个算子的输出列，重分布算子的分布列等。第3部分：判断题，共22题，请判断题目是否正确。[判断题]203.数据中台对外提供可复用的数据处理服务。A)正确B)错误[判断题]204.FULLJOIN和CROSSJOIN结果等同。A)正确B)错误[判断题]205.在FusioninsightHD安全版本进行应用开发时，可采用keytab文件进行安全认证。A)正确B)错误[判断题]206.Hive中groupby指的是通过一定规则将一个数据集划分成若干个小的数据集，然后针对若干个小的数据集进行分组处理。A)正确B)错误[判断题]207.数据中台汇聚数据类型包括结构化、非结构化、采集量测。A)正确B)错误[判断题]208.仅空间管理员可审计用户权限，包含查看用户列表、回收用户权限、对用户进行授权。A)正确B)错误[判断题]209.在线迁移中可能因外部因素导致迁移暂时故障，用户根据迁移日志信息解决问题后，可以通过续传功能继续迁移。A)正确B)错误[判断题]210.Spark根据RDD的依赖关系来划分stage，调度器从DAG图末端出发，逆向遍历整个依赖关系，遇到窄依赖就断开，遇到宽依赖就将其加入当前stage。A)正确B)错误[判断题]211.Spark是基于内存的计算引擎，所有Spark程序运行过程中的数据只能存储在内存中。A)正确B)错误[判断题]212.Flume架构中，一个source可以连接多个Channel。A)正确B)错误[判断题]213.现有3个机架，有一个文件要存3份，其中副本1和副本2存放在与client相同的机架且不同的服务器上，根据HDFS的副本存放策略一定要存放在其他机架上。A)正确B)错误[判断题]214.在Flink中，checkpoint机制能够保证应用在运行过程中出现失败时，从某一个点恢复，在此过程中，流快照是根据数据流入顺序依次创建的。A)正确B)错误[判断题]215.Oozie的workflow.xml文件是工作流配置文件。A)正确B)错误[判断题]216.为减少写入磁盘的数据量，mapreduce支持对MOF进行压缩后再写入。A)正确B)错误[判断题]217.采用Nestloop算子实现连接操作没有限制。A)正确B)错误[判断题]218.SparkStreaming作为微批处理的流处理引擎，是将每个时间分片的数据转换为一个RDD中的一个分区进行计算。A)正确B)错误[判断题]219.Hbase最小的存储单元是Region。A)正确B)错误[判断题]220.由于Spark是基于内存的计算引擎，因此，一个Spars应用可以处理的数据量不能超过分给这个Spark应用的内存总和。A)正确B)错误[判断题]221.执行引擎的主要功能是解析用户输入的SQL查询，生成执行计划。A)正确B)错误[判断题]222.在Spark中，累加器可以实现高速并行的计数器和变量求和；在Spark的应用程序开发过程中，只有在Driver上获取此计数器的值。A)正确B)错误[判断题]223.基于ForeignTable的连接可以连接任何同构和异构数据库。（）A)正确B)错误[判断题]224.HDFS客户端以N副本向HDFS写文件时，若其中一个副本写入失败，则所有副本都会返回写入失败。A)正确B)错误第4部分：问答题，共35题，请在空白处填写正确答案。[问答题]225.INSERT语句在数据导入时效率比较低，因此不要使用INSERT的方式来对数据表的写入。（）A)TRUEB)FALSE[问答题]226.新申请账号的业务权限越大越好，方便。（T/F）[问答题]227.HDFS文件系统上，删除后进入回收站的数据能恢复吗？如果能，使用什么客户端命令可恢复？[问答题]228.大数据可以用于流行病预测？（）A)对B)错[问答题]229.ElasticSearch能够支持文档检索？（）A)对B)错[问答题]230.Kafka相比于其他消息队列的优势是什么？[问答题]231.Redis的数据持久化是如何做的？[问答题]232.HLog日志保证了用户写入的数据不丢失。()A)TRUEB)FALSE[问答题]233.如何让一个Spark程序运行的更快？[问答题]234.幂等操作是指同一操作发起的一次或多次请求返回的结果是不一致的。()A)TRUEB)FALSE[问答题]235.离线批处理，通常是指对海量数据进分析和处理，形成结果数据，供下一步数据应用使用，离线处理对处理时间要求不高。（）A)TRUEB)FALSE[问答题]236.Spark2.0中引入了SparkSession的概念，为用户提供了一个统一的切入点来使用Spark的各项功能。（）A)对B)错[问答题]237.Kafka日志的清理方式分为delete和compact两种。（）A)TRUEB)FALSE[问答题]238.SQLonAnywhere的意思是GaussDB200的SQL可以运行在任何地方的数据库。A)对B)错[问答题]239.Cloudera是Hadoop商业版的发布公司。()A)TRUEB)FALSE[问答题]240.GaussDB200的列存表的辅助表CUDesc也是列存表。()A)TRUEB)FALSE[问答题]241.Hive是大数据SQL批处理引擎，用于处理SQL类批处理作业，但是处理速度较慢。（）A)对B)错[问答题]242.物理集群包含逻辑集群。（）A)TRUEB)FALSE[问答题]243.大数据分期结果可直接用于项目决策，不需要行业专家参与()A)TRUEB)FALSE[问答题]244.实时数据处理的的关键意义在于能够更快地提供数据洞察。（）A)对B)错[问答题]245.基于ForeignTable的连接可以连接任何同构和异构数据库。（）A)对B)错[问答题]246.valrdd=sc.parallelize(Array(1to10),5)得到的RDD有多少个分区[问答题]247.Flink仅支持基于时间窗口操作。（）A)对B)错[问答题]248.Hadoop回收站trash，若开启需要修改配置文件core-site.xml。（）A)对B)错[问答题]249.针对不同的数据来源，需要先分析其数据特征，例如一般网站产生的日志特点是数据量大价值密度高，数据的业务种类多且涵盖之前的数（）据。A)TRUEB)FALSE[问答题]250.Kettle中有两种脚本文件transformation(转换ktr结尾)和job(任务kjb结尾)。（）A)TRUEB)FALSE[问答题]251.Scan时指定StartKey和EndKey能提升性能（T/F）[问答题]252.实时检索部署不仅支持双平面组网，也支持单平面组网。()A)TRUEB)FALSE[问答题]253.Sqoop主要用来做实时流处理。（）A)对B)错[问答题]254.大数据数据源只能是单一的。（）A)TRUEB)FALSE[问答题]255.逻辑集群可以使用全部物理集群的资源()A)TRUEB)FALSE[问答题]256.Hive的UDF是否需要每次使用时都重新创建[问答题]257.Oracle数据库依据它自身的发布形态，既可以做OLAP也可以做OLTP。()A)TRUEB)FALSE[问答题]258.聚集，通过GDS并行导入数据时，需要明确DWS的集群IP地址。（）A)TRUEB)FALSE[问答题]259.实时流处理对时延的要求不高。（）A)对B)错[单选题]260.大数据的4V不包含哪一个？（）A)数据量大B)种类多C)价值密度低D)分布式E)处理速度快1.答案:B解析:2.答案:C解析:查询过程为：获取最新数据offsets一一offsets写入offsetLog一一构造LogicalPlan一一优化LogicalPlan一一计算结果Sink一一计算完成commit3.答案:D解析:4.答案:B解析:5.答案:D解析:6.答案:B解析:7.答案:D解析:8.答案:C解析:9.答案:D解析:10.答案:C解析:11.答案:C解析:12.答案:B解析:13.答案:D解析:14.答案:C解析:15.答案:C解析:16.答案:C解析:17.答案:D解析:18.答案:D解析:19.答案:C解析:20.答案:B解析:21.答案:C解析:22.答案:D解析:23.答案:D解析:24.答案:D解析:25.答案:C解析:26.答案:D解析:27.答案:D解析:28.答案:D解析:29.答案:B解析:30.答案:C解析:31.答案:B解析:32.答案:D解析:MapReduce：大数据批处理引擎，用于处理海量数据，但是处理速度较慢33.答案:B解析:34.答案:B解析:35.答案:A解析:36.答案:C解析:37.答案:D解析:38.答案:A解析:39.答案:A解析:40.答案:A解析:41.答案:C解析:42.答案:A解析:43.答案:C解析:44.答案:C解析:45.答案:C解析:46.答案:C解析:47.答案:A解析:48.答案:B解析:49.答案:C解析:50.答案:C解析:51.答案:A解析:52.答案:A解析:53.答案:D解析:ValueFilter:对值进行过滤，该Filter主要是对值进行过滤，用法和RowFilter类似，只不过侧重点不同而已，针对的是单元值，使用这个过滤器可以过滤掉不符合设定标准的所有单元QualifierFilterr：基于列限定符（列名）来过滤数据；DependentColumnFilter：指定一个参考列来过滤其他列的过滤器，过滤的原则是基于参考列的时间戳来进行筛选。RowFilter：基于行键来过滤数据；54.答案:D解析:55.答案:A解析:56.答案:A解析:57.答案:B解析:58.答案:C解析:59.答案:D解析:60.答案:B解析:61.答案:C解析:62.答案:C解析:63.答案:B解析:64.答案:D解析:65.答案:B解析:66.答案:B解析:67.答案:D解析:68.答案:A解析:69.答案:B解析:70.答案:A解析:71.答案:D解析:72.答案:C解析:73.答案:C解析:74.答案:D解析:75.答案:B解析:76.答案:B解析:77.答案:B解析:78.答案:C解析:Flink整个系统主要由两个组件组成，分别为JobManager和TaskManager，Flink架构也遵循Master-Slave架构设计原则，JobManager为Master节点，TaskManager为Worker（Slave）节点。所以Flink的快照数据是只能放在外部存储或者Master节点

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据华为认证考试(习题卷1)

文档简介

温馨提示

最新文档

评论

相关文档