华为大数据H13-711 V3.5认证考试复习题库(含答案)_第1页
华为大数据H13-711 V3.5认证考试复习题库(含答案)_第2页
华为大数据H13-711 V3.5认证考试复习题库(含答案)_第3页
华为大数据H13-711 V3.5认证考试复习题库(含答案)_第4页
华为大数据H13-711 V3.5认证考试复习题库(含答案)_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEPAGE1华为大数据H13-711V3.5认证考试复习题库(含答案)一、单选题1.可以通过以下哪个命令创建节点数据?A、set/nodedataB、get/nodeC、reate/nodeD、1s/node答案:C2.在MRS服务中,关于Kafka的Topic,以下描述不正确的有?A、每个Topic只能被分成一个partition(区)B、每个Partition在存储层面对应一个1og文件,1og文件中记录了所有的消息数据C、每条发布到Kafka的消息都有一个类别,这个类别被称为Topic,也可以理解为一个存储消息的队列D、Topic的Partition数量可以在创建时配置答案:A3.表引擎在clickhouse中的作用十分关键,以下哪个选项不属于表引擎能够决定的因素?A、支持哪些查询方式B、数据导入导出的格式C、能不能使用索引D、数据复制使用的参数答案:B4.Flume中数据压缩特性主要是基于以下哪种目的?A、提高可靠性B、增强安全性C、降低磁盘IOD、降低网络lO答案:C5.flink报据数据集类型的不同将核心数据处理接口分为两大类,一类是支持批计算的接口,另外一类是支持流计算的接口,以下关于这两类接口描述正确的算哪一项?A、仅支持批计算的接口是datastreamapi,仅支持流计算的接口是sqlapiB、支持批计算的接口是datasetapi,支持流计算的接口是datastreamapiC、支持批计算的接口是datastreamapi,支持流计算的接口是datasetapiD、仅支持批计算的接口是sqlapi,仅支持流计算的接口是datastreamapi答案:B6.以下关于clickHouse适用场景的描述,错误的是哪一项?A、网络/APP流量分析B、商业智能(BI)C、非结构化数据D、用户行为记录分析答案:C7.以下关于Flink数据处理描述错误的是哪一项?A、pacheFlink它同时支持批处理和流处理,也能用来做一些基于事件的应用B、如果处理一个事件(或—条数据)的结果只跟事件本身的内容有关,称为状态处理C、流可以分为有界流和无界流,其中有界流可以在读取所有数据后再进行计算D、ApacheFlink基本数据模型是数据流,流可以是无边界的无限流答案:B8.以下关于flume中各个channel类型描述错误的是哪一项?A、memorychannel中消息存放在内存中,提供高吞吐,但可能丢失数据B、jdbcChannel内置的derby数据库,对event进行了持久化,但不提供高可靠性。C、hannel支持事务机制,提供较弱的顺序保证D、filechannel支持对数据持久化,但需要配置数据目录和checkpoint目录答案:B9.关于RDD,下列说法错误的是?A、RDD默认存储在磁盘B、RDD是一个只读的,可分区的分布式数据集C、RDD是Spark对基础数据的抽象D、RDD具有血统机制(Lineage)答案:A10.hdfs是一个部署在集群上的分布式文件系统,因此,很多数据需要通过网络进行传输,以下关于hdfs的通讯协议描述错误的是?A、所有的hdfs通信协议都是构建在tcp/ip协议基础之上B、名称节点和数据节点之间则使用名称节点协议进行交互C、名称节点不会主动发起rpc,而是响应来自客户端和数据节点的rpc请求D、客户端与数据节点的交互是通过rpc来实现的答案:B11.以下关于ZooKeeper的Leader节点在收到数据变更请求后的读写流程说法正确的是A、先写磁盘再写内存B、先写内存再写磁盘C、仅写入内存D、同时写入磁盘和内存答案:A12.streaming主要通过zookeeper提供的以下哪项服务实现事件侦听?A、ckB、分布式锁机制C、heckpointD、watcher答案:D13.下面哪一个是elasticsearch的节点?A、clusterB、esmasterC、indexD、esnode答案:D14.YARN的基于标签调度,是对下列选项中的哪个进行标签化?A、ppMasterB、NodeManagerC、ontainerD、ResourceManager答案:B15.某证券公司每10秒分析最近5秒的股票指数,若使用SparkStreaming实现,窗口时间和滑动时间如何设置?A、窗口时间10秒滑动时间10秒B、窗口时间5秒滑动时间10秒C、窗口时间5秒滑动时间5秒D、窗口时间10秒滑动时间5秒答案:D16.硬件故障被认为是常态,为了解决这个问题hdfs设计了副本机制,默认情况下,一份文件,hdfs会存()份?A、3B、4C、2D、5答案:A17.flume需要实时采集点击流日志到kafka,用于后续的实时分析处理,选泽以下哪种source类型进行数据采集最为合适?A、syslogsourceB、httpsourceC、spoolingdirectorysourceD、kafkasource答案:C18.kafka-clustermirroring工具可以实现以下那些功能?A、kafka集群数据同步方案B、kafka单集群内数据备份C、kafka单集群内数据恢复D、以全部不对答案:A19.某网站举行活动,要求计算该网站每分钟的用户访问量,若要实现该需求,下列哪个选项最合适?A、MapReduceB、sparkC、StormD、Hive答案:B20.Elasticsearch的一个索引库默认有几个分片?A、4B、5C、6D、3答案:B21.hive组件能支持多接口,以下哪个接口是不支持的?A、restfulB、odbcC、beelineD、jdbc答案:A22.Producer需要Server接收到数据之后发出的确认接收的信号,当设置ACK信号的值为多少时表示至少要等待Leader已经成功将数据写入本地Log,但不要求等待所有Follower都成功写入?A、cks=0B、acks=2C、acks=1D、acks=a11答案:C23.hbase在读取数据时率先读取下列哪个选项数据?A、memstore数据B、hlog数据C、hfile数据D、storefile数据答案:A24.以下哪个不属于hadoop中mapreduce维组件的特点?A、易于编程B、实时计算C、良好扩展性D、高容错性答案:B25.可视化运维是clickhouse非常重要的待性,以下关于clickhouse可视化运维的描述,错误的是哪一项?A、提供日志级别可视化配置,实时动态生效B、华为增加审计日志,针对ddl,安全,业务操作等内容记录审计C、可以选择可视化日志下载,并可以选择下载的节点以及下载的日志时间段,后台下载日志。D、提供clickhouse安装配置,启停,客户端,70+项监控告警指标,健康检查等可视化运维手段。答案:A26.下列选项对Compaction描述正确的是哪一项?A、有Minor和Major两种类型B、Minor触发频率相对Major较高C、ompation通过消除过期数据文件减少HFile文件数D、Compation通过合并文件减少HFile文件数答案:A27.以下关于hasticsearch的特点,描述不正确的是哪一项?A、目前只支持结构化数据查询B、自动检测故障并保障集群的安全性和可用性C、能立即获得搜索结果,实现了用于全文检索的倒排索引D、支持水平扩展,可运行于成百上千台服务器上答案:A28.FusionInsightHD集群规划中,管理节点&控制节点&数据节点合一部署方案适合什么样的场景?A、30节点以下B、100节点以上C、100-200节点D、200节点以上答案:A29.hbase的主hmaster是如何选举的?A、hmaster为双主模式,不需要进行裁决B、随机选取C、由Regionserver进行裁决D、通过zookeeper进行裁决答案:D30.某HBase服务查询性能降低,经检査发现当前HBase中HFile文件数目过多,此时应当执行下列哪个操作?A、ScanerB、CleanC、reateD、compaction答案:D31.以下关于Zookeeper的关键特性,描述错误的是哪—项?A、等待无关性:慢的或者失效的client不会干预快速的client的请求,使得每个client都能有效的等待B、无论哪个server,对外展示的均是同一个视图C、原子性,更新只能成功或者失败,没有中间状态D、一条消息被一个server接收即完成,其他server不需要再重复接收该信息答案:D32.以下哪个选项不是元数据管理的目的?A、数据平台建设B、业务系统建设C、信息资源规划D、数据价值挖掘答案:D33.Hadoop中,如果将yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percent设置为50,下面说法错误的是?A、QueueA中必须保障每个用户至少得到50%的资源B、如果QueueA中已经有2个用户的任务运行,这时第3个用户提交的任务需要等待释放资源C、一个用户提交任务,可以使用QueueA的100%的资源。D、QueueA中的每个用户最多只能获得50%的资源答案:D34.Hive运行流程包括下面几步,请选择正确的顺序1:Hive根据表类型更新HDFS或Hive仓库中的数据2:Client提交HQL命令3:YARN为群集中的应用程序分配资源,并为YARN队列中的Hive作业启用授权4:Tez执行查询5:Hive通过JDBC连接返回查询结果A、21345B、24315C、24135D、21435答案:B35.MergeTree是用于高负载任务的最通用和功能最强大的表引擎,以下关于MergeTree的关键特征的描述,错误的是哪项?A、支持二级索引B、支持主键排序C、支持数据迁移D、支持并发数据访问答案:C36.下列哪个不是是hbase读取数据流程中涉及的角色或服务?A、zookeeperB、hasterC、hregionserverD、hdfs答案:B37.elasticsearch的索引可以存储在多种存储类型,而以下哪种存储类型不支持?A、本地文件系统B、hdfsC、共享文件系统D、对象存储答案:D38.zookeeper在分布式应用中的主要作用不包括以下哪个选项?A、保证各节点上数据的一致性B、选举master节点C、存储集群中服务器信息D、分配集群资源答案:D39.以下描述哪一项不是传统数据处理的瓶颈?A、流数据的实时写入B、数据批量处理性能不足C、海量数据的高存储成本D、缺乏流式数据处理能力答案:A40.在ZooKeeper和VARN的协同工作中,当ActiveResourceManager产生故障时时,StandbyResourceManager会从以下哪个目录中获取Application相关信息?A、WarehouseB、storageC、StatestoreD、Metastore答案:C41.HBase元数据MetaRegion路由信息保存在哪里?A、ZooKeeperB、HMasterC、Meta表D、Root表答案:A42.MapReduce程序由Map和Reduce两部分组成,现由MapReduce程序,其有5个reduce任务,该程序最终输出多少个结果文件?A、2B、4C、5D、3答案:C43.HDFS从2.7.3版本开始,BlockSize默认是多大?A、64MBB、128MBC、16MBD、32MB答案:B44.当某RegionServer故障后,Haster若要恢复数据必须依赖下列哪个选项?A、RegionB、HDFsC、HLogD、RowKey答案:C45.Elasticsearch中的节点比如共20个,应该设置的最少投票数量是多少来避免闹裂问题?A、10B、11C、9D、12答案:B46.以下关于Kafka特点描述不正确的是哪—项?A、支持在线水平扩展B、支持多级级联C、高吞吐率D、支持消息分区答案:B47.spark自带的资源管理框架是?A、dockerB、yarnC、mesosD、standaline答案:D48.以下关于Kafka消息传递方式描述不正确的是哪一项?A、在点对点消息系统中,可能会有多个消费者同时消费数据,因此不能保证数据处理的顺序B、在点对点消息系统中,当一个消费者消费了队列中的某条数据之后,该条数据则从消息队列中删除C、分布式消息传递有两种主要的消息传递模式,点对点传递模式、发布-订阅模式D、在发布-订阅消息系统中,同一条数据可以被多个消费者消费,数据被消费后不会立马删除答案:A49.yarn服务中,如果要给队列queuea设置容量为30%,应该配置哪个参数?A、yarn.scheduler.capacity.root.queuea.capacityB、yarn.scheduler.capacity.root.queuea.minimum-user-limit-percentC、yarn.scheduler.capacity.root.queuea.user-limit-factorD、yarn.scheduler.capacity.root.queuea.state答案:A50.以下关于MRS使用限制的描述,错误的是哪—项?A、集群创建完成后,请勿随意删除或更改已使用的安全组。B、MRS集群使用的安全组请勿随意放开权限,避免被恶意访问C、创建MRS集群时,不支持自动创建安全组,需要手动创建索全组D、IRS集群必须创建在VPC子网内。答案:C51.在Hive数据存储模型中,分区和桶的关系描述错误的是哪—项?A、分区下可再有分区或者桶B、每个桶是一个目录C、建表时指定桶个数,桶内可排序。D、分区数量不固定答案:B52.hdfs中namenode的主备仲裁,是由哪个组件控制的?A、hdfsclientB、resourcemanagerC、nodemanagerD、zookeeperfailovercontroller答案:D53.银行为了数据传输的可靠性,使用Flume采集数据,主要是利用Flume的哪个特性?A、支持采集日志文件B、事务机制C、支持级联D、支持在定制各类数据发送方答案:B54.在数据流处理过程中,经常使用系统时间(processingtime)作为某个事件的时间,关于procesingtime描述错误的是哪—项?A、ProcessingTime结果是不可复现的,一旦流式计算版本升级甚至系统崩溃,计算将会停止B、实际应用过程中,processingtime要落后与eventtimeC、processingtime和eventtime之间存在差异的主要原因是由于网络延迟、处理时间的长短等造成的D、ProcessingTime适用于处理问题复杂、对结果可溯要求较高的场景答案:D55.查看kafka某topic的partion详细信息时,使用如下哪个命令?A、bin/kafka-topics.sh-listB、in/kafka-topics.sh--describeC、bin/kafka-topics.sh--deleteD、bin/kafka-topics.sh-create答案:B56.默认情况下F1ink不开启检查点,用户需要在程序中通过调用以下那种方法配置和开启检查点?A、env.getCheckpointConfig(.setCheckpointingTimeout(60000)B、env.enableCheckpointing(1000)C、env.getCheckpointConfig().setMaxConcurrentCheckpoints(500)D、env.startSetCheckpointing(1000)答案:B57.某公司使用HBase存储业务数据,由于数据规模较大,所以数据存储在HBase后会导致频繁的Region分裂,为了避免这种情况,下列哪个方法比较适用?A、增加Region大小B、增大MemStore大小C、对该表预分区D、提升RegionServer性能答案:C58.ZooKeeper客户端获取节点数据的命令,以下哪个是正确的?A、set/nodedataB、get/nodeC、show/nodeD、Is/node答案:B59.ElasticSearch有哪些查询类型?A、基于分值数检索B、基于元数据检索C、基于词条检索D、基于全文检索答案:D60.某电信公司计划开展大数据业务,目标业务有客户分群、用户历史账单分析、实时话费分析等业务。若要满足业务需求,从功能和成本考虑,下列哪个选项最合适?A、部署StormB、单独部署SparkC、部署WapReduceD、部署MapReduce与Storm答案:B61.以下不属于单点登录特点的是?A、访问其他组件需要重新登录B、提高运维和管理效率C、为用户提供便捷服务D、为用户提供便捷服务答案:A62.以下选项中,哪一项用于查看clickhouse组件命令帮助?A、clickhousehB、clickhouse-catC、lickhouse-helpD、clickhouse-m答案:C63.hadoop中,如果将yarn.schedulercapacity.root.queueuea.minimum-user-limit-percenti没置为50,下面说法错误的是?A、一个用户提交任务,可以使用queuea的100%的资源。B、如果queuea中已经有2个用户的任务运行,这时第3个用户提交的任务需要等待释放资源。C、Queuea中必须保障每个用户至少得到50%的资源D、Queuea中的每个用户最多只能获得50%的资源。答案:D64.flume采集日志数据,若不考虑数据安全性。要达到最高采集速度,应该用什么类型的channel?A、filechannelB、jdbcchannelC、memorychannelD、hdfschannel答案:C65.某大数据公司在处理统计实时用户消费数据时,以下能够实现对一分钟内的窗口数据进行分组聚合功能的是哪—项?A、overridedefmap(valve:String):WaterSensor={Valdatas:Array[SFing]=value.split(",")WaterSensor(getRuntimeContext.getTaskName,datas(1).tolong,datas(2).toInt)}B、overridedefextractAscendingTimest(element:User):Long=element,timest),KeyBy(.userld)Window(umblingEventTimeWindows.of(Time.seconds(60)))C、DataStream<Tuple2<String,Integer>>windowStreamwindowCount,keyBy(0).timeWindow(Time.minutes(1),Time.seconds(30)).Sum(1):D、ataStream<Tuple2<String,Long>>result=Stream.keyBy(value->value.f0).process(newCountWithTimeoutFunction(1))答案:B66.hbase要实现数十亿行数百万列的存储规模,需要以下哪个选项支持?A、redisB、elasticsearchC、kafkaD、hdfs答案:D67.以下关千KrbServer及LdapServer开源增强特性的描述,错误的是哪一项?A、集群内服务认证B、应用开发认证C、跨系统互信特性D、账号身份认证答案:D68.以下关于HBase二级索引的描述哪一项是正确的?A、二级索引把要查找的列与rowkey关联成一个索引B、此时列成新的rowkey,原rowkey成为valueC、二级索引查询了2次D、以上全都正确答案:D69.以下关于MRS服务的安全认证的描述,正确的是哪一项?A、不提供单点登录,统一了mrs系统用户和组件用户的管理及认证。B、对登录manager的用户进行审计。C、支持安全协议kerberos,mrs使用kerberos作为账户管理系统,并通过ldap对账户信息进行安全认证。D、替于用户和角色的认证统一体系,遵从账户/角色rbac(role-basedaccesscontrol)模型,实现通过账户进行权限管理,对角色进行批量授权管理。答案:C70.以下关于clickhouse设计优点的描述,错误的是哪一项?A、多核并行计算B、向量化计算引擎C、数据压缩比低D、支持嵌套数据结构答案:D71.capacity调度器为每个队列分配资源,下列哪个选项是队列内的资源调度策略?A、fairB、mesosC、fifoD、capacity答案:C72.yarn调度器分配资源的顺序,下面哪一个描述是正确的?A、本地资源->同机架->任意机器B、同机架->任意机器->本地资源C、任意机器->同机架->本地资源D、任意机器->本地资源->同机架答案:A73.HBase表设计中,列族和RowKey是表设计的重要内容。下列哪个选项不适合做RowKey?A、用户IDB、用户名C、身份证号D、手机号答案:B74.关于hbase的ase的regionsplit分裂流程的描述不正确的是?A、split为了减少region中数据大小,从而将一个region分裂成两个region.B、split过程中论表会暂停服务C、split过程中并没有真正的将文件分裂,仅仅是创建了引用文件D、split过程中被分裂的region会暂停服务答案:B75.以下描述中,哪个不是Hive的优点?A、类似SQL语法,内置大量函数B、依赖于高性能的商业服务器C、支持自定义存储格式和自定义函数D、HiveServer支持集群模式答案:B76.HBase中Region的物理存储单元是什么?A、ColumnB、ColumnFamilyC、RowD、Region答案:B77.Flink程序由Source、Transformatin和Sink三部分组成,以下关于这三部分描述错误的是哪一项?A、Sink负责最终数据的输出,支持HDFS、Kafka和文本输出等B、在各部分之间流转的数据会被封装成一个个EventC、Source主要负责数据的读取,支持HDFS、Kafka、HBase和文本等D、Transformatin主要负责对数据的转换操作答案:B78.某公司使用spark做大数据分析,某次分析任务中某rdd会被重复利用,导致重复计算多次,若要避免重复计算且能够重复利用谈rdd,以下哪个选项更合适?A、增大任务资源,快速结束该任务B、spark计算很快,无需优化C、写出该rdd,需要时再重新读取D、rdd执行persist操作答案:D79.以下关于zookeeper关键特性中的原子性说法正确的是?A、一条消息被一个server接收,将被所有server接收B、更新只能全部完成或失败,不会部分完成C、集群中无论哪台服务器,对外展示的均是同一视图D、客户端发送的更新会按照它们被发送的顺序进行应用答案:B80.HBase的某张表的RowKey划分SplitKey为9,E,a,z,请问该表有几个Region?A、5B、4C、3D、6答案:A81.Flume包含Source、Channe1和Sink三大组件,以下关于这三大组件说法错误的是哪一项?A、当Sink成功地将events发送到下一跳的Channel或最终目的时,events会从Channel移除B、Channel支持事务,提供较弱的顺序保证,可以连接多个的Source和SinkC、Sink必须作用于一个确切的ChannelD、Source负责接收events或通过特殊机制产生events,并将events批量放到多个Channel中答案:C82.对干延迟事件出现时窗口已经关闭并产出了计算结果,以下处理方法不合理的是哪一项?A、将延迟事件视为错误消息并丢弃B、延迟事件—定不能忽略计算C、重新激活已经关闭的窗并重新计算以修正结果D、将延迟事件收集起来另外处理答案:B83.某公司开展大数据业务,其不但要使用MapReduce做离线分析还要使用Spark做实时分析。若使用Yarn做统—的资源管理,调度器如何选择?A、使用Capacity调度器B、使用FIFO调度器C、使用Fair调度器D、使用Mesos调度器答案:A84.以下关于kafkapartion偏移量的描述不正确的是?A、offset是一个string型字符串B、消费者通过(offset,partition,topic)跟踪记录C、每条消息在文件中的位置称为offset(偏移量)D、唯一标记一条消息答案:A85.kafka集群在运行期间,直接依赖于下面哪个组件?A、hdfsB、flumeC、zookeeperD、hbase答案:C86.hadoop平台中,要查看yarn服务中一个application的信息,通常需要使用什么命令?A、pplicationB、containerC、application-attemptD、jar答案:A87.关于HDFS数据完整性保障,以下哪个机制是错误的?A、快照机制实现了文件系统常见的快照机制,保证数据误操作时,能及时恢复B、采用日志机制操作元数据,同时元数据存放在主备NameNode上C、节点性能较高的DataNode会存放更多的数据D、ataNode向NameNode周期上报失败任务,NameNode发起副本重建动作以恢复丢失副本答案:C88.HBase的Region是由哪个服务进程来管理的?A、ZooKeeperB、HRegionServerC、DataNodeD、HMaster答案:B89.以下关于clickHouse的数据库管理的描述,错误的是哪一项?A、clickHouse不可以按照用户粒度设置数据库或者表的操作权限。B、clickHouse可以动态地创建、修改或删除数据库、表和视图,而无须重启服务clickHouseC、提供集群模式,能够自动管理多个数据库节点D、clickHouse提供了数据备份导出与导入恢复机制答案:A90.默认情况下MapReduce程序中reduce任务数由下列哪个选项决定?A、随机生成B、用户指定C、根据资源自行生成任务数D、该任务所计算的数据块数量答案:B91.某公司使用用户id做hbase的rowey,同时在列中还存在phone列,该列存储了用户的手机号码。该公司要求能够通过phone快速查询到用户id,下列哪个方法比较合适?A、get与valuefiler同时使用B、使用filterC、scan与valuefilter同时使用D、创建二级索引答案:D92.以下关于ClickHouse的数据分片和数据副本的描述,错误的是哪—项?A、分片之间的数据是完全相同的。B、ClickHouse依靠ReplicatedMergeTree引擎与ZooKeeper实现了复制表机制。C、数据副本的主要目的是防止数据丢失,增加数据存储的冗余。D、数据分片的主要目的是实现数据的水平切分。答案:A93.Hive在处理一些复杂的统计或者排序等复杂任务的时候,会调用以下哪个组件?A、HadoopB、HBaseC、MapReduceD、HDFS答案:C94.MapReduce、Spark和Flink都可以同时支持以下哪种数据处理方式?A、Kv查询B、批处理C、流处理D、实时检索答案:B95.在KafkaHA中,当Partition对应的Leader宕机时,需要从Follower中选举出新Leader,具体由以下哪个角色执行?A、contrllerB、rokerC、LeaderD、Follower答案:A96.MRS支持与公有云安全服务集成,采取多种措施确保主机安全。以下选项中,哪一个选项不属于主机安全的措施?A、操作系统内核安加固B、身份鉴别和认证C、更新操作系统最新补丁D、操作系统端口管理答案:C97.关于dataset,下列说法不正确的是?A、dataset不需要反序列化就可执行大部分操作B、dataset执行sort,filter,shuffle等操作需要进行反序列化C、dataset是一个由特定域的对象组成的强类型集合D、ataset与rdd高度类似,性能比rdd好答案:B98.hbase中数据存储的文件格式是什么?A、hfileB、textfileC、hlogD、sequencefile答案:A99.在dataartsstudio平台中,以下哪个选项不属于数据权限模块?A、数据表权限B、审批中心C、用户管理和角色管理D、数据目录权限答案:B100.以下关于kerboers的优势的描述错误的是哪个?A、kerboers支持双向鉴别,kerboers的serverver端通过该回ciient发送的时间截,向client提供验证自己身份的手段。B、由kdc代为发送authenticator和sessionticket.有效提高性能。C、用于认证的sessionkey是shorttermkey.只在一次会话中有效防止暴力破解。D、每个请求都以时间戳进行标记,有效防止重放攻击。答案:B101.下图展示了structuredstreaming的计算模型。通过观察可以得出最终t3的计算结果是?A、cat2;dog4;owl2B、dog1;owl1C、at2;dog3;owl1D、cat1;cat1:dog2:dog2;owl2答案:A102.某大型企业需要做日志分析,运维监控,搜索与推荐,数据库加速,可为该企业推存哪些服务?A、云搜索服务cssB、数据可视化服务C、数据湖治理中心DGCD、mapreduce服务答案:A103.yarn中设置队列queuea的最大使用资源量,需要配置哪个参数?A、yarn.scheduler.capacity.root.queuea.minimum-user-limit-percentB、yarn.scheduler.capacity.root.queuea.maximum-capacityC、yarn.scheduler.capacity.root.queuea.user-limit-factorD、yarn.scheduler.capacity.root.queuea.state答案:B104.rdd有transformation和action算子,下列属于action算子的是?A、reducebykeyB、saveastextfileC、mapD、filter答案:B105.当zookeeper集群的节点数为5节点时,请问集群的容灾能力和多少节点是等价的?A、3B、4C、6D、7答案:C106.HBase集群定时执行Compaction的目的是什么?A、提升数据读取性能。B、减少同一个Region的文件数目。C、减少同一个Region同一个ColumrFamily下的文件数目。D、提升数据写入能力答案:C107.HBase命令中下列哪个选项性能最差?A、scanB、getC、listD、put答案:A108.在clickhuse中创建数据表时,指定以下哪一个表引擎会导致重新启动服务器时表中的数据消失,表变为空?A、mysqlB、kafkaC、tinylogD、memory答案:D109.默认情况下mapreduce程序中map任务数由下列哪个选项决定?A、根据资源自行生成任务数B、用户指定C、随机生成D、该任务所计算的数据块数量答案:D110.以下哪一个因素助力了大数据时代的蓬勃发展?A、硬件成本的降低和网络带宽的提升B、云计算的兴起C、智能终端的普及和社交需求的提升D、以上全都正确答案:D多选题1.Hive相较于传统数据仓库的优点有哪些?A、数据存储在HDFS,可靠性高,容错性高B、依赖硬件较低,可适应普通的机器C、索引处理效率高效D、集成—整套成熟的的报表解决方案,可以较为方便的进行数据的分析答案:AB2.在MRS服务中,关于Kafka组件说法正确的是?A、Karka的Producer发送消息时,可以指定该消息被哪个Consumer消费B、Kaka会将元数据信息存放到ZooKeeper上。C、在创建Topic时,本数不得大于当前存活的Braker实例个数,否则创建Topic将会失败。D、Kaka安装完成后就不能再配置数据存放目录答案:ABCD3.Flink提供了内置的状态管理,可以把工作时状态存储在Fink内部,而不需要把它存储在外部系统。这样做的好处包含以下哪些选项?A、降低了计算引整对外部系统的依赖,便得部、运维更加简单B、确保了数据在处理过程中的一致性C、对性能带来了极大的提升D、实现了高香吐、高性能特性,但无法做到低延迟佩障答案:ABC4.以下选项中,属于HDFS架构关键特性的是?A、健壮机制B、多方式访问机制C、HA高可靠性D、元数据持久化机制答案:ABCD5.关于HDFS中NameNode的作用描述的正确的是?A、管理HDFS的名称空间(Namespace)B、配置副本策略通常为3份C、处理客户端读写请求D、执行数据块的读/写操作答案:ABC6.下列哪些选项是action算子?A、mapPartitionB、reduceC、reduceByKeyD、collect答案:BD7.以下哪些选项属于数据治理的价值?A、解决数据安全问题B、提升业务处理效率C、代替管理决策D、降低业务运营成本答案:ABD8.某MapReduce程序运行时,AppMaster发生故障。下列哪些选项对该任务描述正确?A、任务仍可运行B、任务立即停止C、AppMaster不再启动D、AppMaster再次启动答案:AD9.Redis数据持久化技术有RDB和AOF,以下描述正确的是哪些选项?A、Rdb方式的持久化是通过快照完成的B、RDB和AOF可单独使用,也可以配合使用C、RDB方式是默认开启的,而AOF功能需要另外开启D、AOF方式的持久化是通过日志文件的方式完成的答案:ABCD10.Flink中Watermark机制用来解决乱序问题,可通过以下哪些方式产生?A、继承assignerWithPunctuatedWatermarksB、继承assignerWithPeridicWatermarksC、继承getCurrentWatermarkD、继承assignerTimestWithWatermark答案:ABCD11.ElasticSearch扩容的场景包括哪些?A、集群数据量诚少B、ElasticSearch单实例的索引数据太大C、节点需要重新安装操作系统D、物理资源消耗过大答案:BD12.下列选项对列族描述正确的是?A、列族也有版本号B、由若干列组成C、一个列族最多容纳3个列D、是基本的访问控制单元答案:BD13.Kafka分布式消息传递基于可靠的消息队列,包含以下哪两种主要的消息传递模式?A、分发传递模式B、轮询传递模式C、点对点传递模式D、发布订阅模式答案:CD14.关于HDFS命名空间管理,以下选项描述正确的是哪几项?A、对文件系统命名空间或其属性的任何更改由NameNode和DataNode共同记录B、NameNode维护文件系统命名空间C、HDFS的命名空间包含目录、文件和块D、用户可以像使用普通文件系统一样,创建、删除、转移目录和文件答案:BCD15.下面哪些场景不是Flink组件擅长的?A、批处理B、流处理C、数据存储D、迭代计算答案:CD16.Flink中Watermark机制用来解决乱序问题,Watermark可通过以下哪些方式产生?A、继承assignerWithPunctuatedWatermarksB、继承assignerTimestWithWatermarkC、继承assignerWithPeriodicWatermarksD、继承getCurrentWatermark答案:ABC17.以下关于clickHouse增强特性的描述,正确的是哪些项?A、平滑的弹性扩容能力B、实现滚动升级/滚动重启C、默认采用两副本方式、自动生成集群分片拓扑D、提供了基于ELB的HA部署架构答案:ABCD18.通过配置以下哪些参数可清理Kafka中产生的日志?A、log.cleanup.policyB、log.retention.hoursC、pertiesD、log.retention.Bytes答案:ABD19.HDFS支持通过以下哪些访问方式来访问数据?A、HTTPB、JAVAAPIC、s3D、She11答案:ABD20.以下关于HBase中HMaster的功能描述哪些是正确的?A、Region负载均衡,Region分裂以及分裂后的Region分配B、负责建表/修改表/删除表C、Regionserver失效后的Region迁移D、负责RegionServer的负载均衡答案:ABCD21.Spark框架包括哪些模块?A、SparkSQLB、SparkM11ibC、SparkStreamingD、SparkGraphX答案:ABCD22.下列哪些选项对RDD描述正确?A、RDD是只读的B、RDD进行数据恢复时所有分区同时进行C、RDD依赖血统机制恢复数据D、RDD是只读的所以RDD不支持写操作答案:AC23.以下关于Hudi支持的视图的描述,正确的是哪些项?A、增量视图B、写优化视图C、读优化视图D、实时视图答案:ABD24.以下属于Hive内置的字符串函数有哪些?A、bs()B、length0C、substr()D、trim()答案:BCD25.企业做大数据处理,对数据库的技术和架构要求具备哪些能力?A、数据库必须是分布式架构B、海量数据运维需要保证数据稳定,支持高并发的同时减少服务器负载C、数据库要求能处理PB级别的数据D、数据库规划需要考虑结构化数据、半结构化数据和非结构化数据的支持答案:BCD26.在DataArtsStudio平台中,以下哪些选项属于权限访问控制的功能特性?A、集中式访问控制B、详细的授权、鉴权日志审计C、实现对MRS服务中的资源进行精细访问控制D、丰富的权限策略配置、答案:ABCD27.在数据流处理过程中,每个事件的时间可以分为以下哪些种类?A、delaytime,即事件发生到处理的延迟时间B、processingtime,即事件被系统处理的时间C、lingestiontime.即事件到达流处理系统的时间D、eventtime,即事件发生时的时间答案:BCD28.Yarn支持下列哪些调度器?A、MesosB、FIFOC、apacityD、Fair答案:BCD29.Flink支持的时间操作类型包括以下哪些选项?A、处理时间B、结束时间C、采集时间D、事件时间答案:AD30.Gs_dump和gs_dumpall的异同点是A、二者都支持纯文本格式数据的导出。B、ds_dump只支持纯文本格式的数据导出,dsdumpall支持多种数据格式的数据导出。C、二者都支持公共全局对象的数据导出。D、s_dump针对的是单个数据库,ds_dumpall针对的是所有数据库。答案:ACD31.Elasticsearch的平衡算法可应用于哪些场景?A、导入数据B、导出数据C、扩容D、减容答案:ACD32.关于HBase组件的描述,正确的是?A、是一种NoSQL数据B、是分布式的C、是面向列的D、存储数据是以K-v的形式答案:ACD33.以下关于华为云MRS海量数据离线分析场景描述正确的是哪几项?A、利用Flink实现数据采集B、利用OBS实现低成本存储C、利用Hive实现TB/PB级的数据分析D、通过可视化导入导出工具Lader,将数据导出到DWS,完成BI分析答案:BCD34.关于SparkSQL&Hive区别与联系,下列说法正确的是?A、SparkSQL依赖Hive的元数据B、SparkSQL的执行引擎为SparkCore,Hive默认执行引擎为MapReduceSparkSQL不可以C、使用Hive的自定义函数D、SparkSQL兼容绝大部分Hive的语法和函数答案:ABD35.Hive的主要应用于以下哪些场景?A、实现数据的流式处理B、海量数据的离线分析C、实现数据抽取、数据加载、数据转换D、大规模的数据挖掘答案:BCD36.HBase可用于下列哪些应用场景?A、时序数据存储B、消息/订单存储C、好友推荐D、用户画像答案:ABD37.Hive可以创建托管表和外部表,关于这两种表,以下描述正确的是哪些选项?A、使用外部表时,执行DROP操作时,元数据和数据会被一起删除B、使用托管表时,执行DROP操作时,只删除元数据C、使用托管表时,执行DROP操作时,元数据和数据会被一起删除D、使用外部表时,执行DROP操作时,只删除元数据答案:CD38.Flume采集海量日志数据时,经常会遇到性能瓶颈,可以通过以下哪些方式提升Flume性能?A、增加Source数量B、修改batchSize和capacityC、优化FlumeGC参数D、增加Flume级联节点答案:ABCD39.Flume由哪三部分组成?A、MasterB、SinkC、SourceD、Channel答案:BCD40.MergeTree用于高负载任务的最通用和功能最强大的表引擎,以下关于MergeTree的关键特征的描述,错误的是哪些项?A、基于分区键的数据分区分块存储B、不支持数据复制C、不支持数据抽样D、数据索引排序答案:BC41.以下关于Loaderserver的主要功能描述正确的有哪些选项?A、执行Loader作业B、管理连接器和元数据C、处理客户端请求D、监控Loader作业状态答案:BC42.下图描述了RDD之间的依赖关系,其中有哪些是宽依赖?A、map:C->DB、groupby:A->BC、join:B&F->GD、union:D&E->F答案:BC43.Kafka中日志的清理方式包含以下哪些项?A、removeB、updateC、ompactD、elete答案:CD44.某电商平台每天产生大量的交易订单数据,现在需要对这些数据中的交易金额做统计,可能会用到如下哪些组件?A、MapReduceB、MySQLC、KafkaD、Flume答案:ABCD45.以下哪些选项不是企业的主数据?A、业务活动产生的合同、计划、单据等结果或规则数据B、经过加工、计算、汇总后的指标数据C、描述产品、客户、人员、组织等业务实体的档案数据D、生产线上由设备自动采集的感知、检测数据答案:AB46.Flink流式处理的数据源类型包括?A、SocketstreamsB、JDBCC、FilesD、Collections答案:ACD47.spark有哪些特点?A、轻B、灵C、快D、巧答案:ABCD48.下图展示了HDFS的标签存储策略,观察下图,HBase的数据会被存储到哪些数据节点上?A、DataNodeBB、DataNodeEC、DataNodeCD、ataNodeA答案:AD49.以下关于建设私有云大数据平台的痛点的描述,正确的是哪些项?A、安全性差,无灾备能力B、提前建设,建设成本高C、维护难度大D、业务上线速度慢答案:ABCD50.以下哪些选项属于clickHouse的表引擎?A、CollapsingMergeTreeB、GraphiteMergeTreeC、VersionedCollapsingMergeTreeD、AggregatingMergeTree答案:ABCD51.Flink的兼容性体现在以下哪些方面?A、能够从本地获取数据B、能够与Hadoop原有的Mappers和Reducers混合使用C、能够使用Hadoop的格式化输入和输出D、YARN能够作为Flink集群的资源调度管理器答案:ABCD52.下列关于Hive基本操作命令的解释正确的是哪些项?A、droptableifexistsT1://删除表T1B、altertableT1renametT2://将表T1重命名为T2C、reatetableifnotexistsT1likeT2://拷贝T2表,包括表里的数据,并命名为T1D、removetableT1whereid=1://删除表中符合条件“id=1”的数据。答案:AB53.关于HDFS的NameNode的功能,以下描述错误的是哪些项?A、维护了BlockID到DataNode本地文件的映射关系B、存储文件内容C、保存文件块和DataNode之间的映射关系D、用于存储元数据答案:AB54.ZKFC进程部署在HDFS中的以下哪些节点上?A、ctiveNameNodeB、DataNodeC、StandbyNameNode答案:AC55.ZooKeeper的关键特性包括以下哪些选项?A、最终—致性B、可靠性C、等待无关性D、原子性答案:ABCD56.ZooKeeper是一个分布式、高可用性的协调服务。在大数据产品中主要提供的功能有哪些?A、帮助系统避免单点故障,建立可靠的应用程序B、实现元数据持久化C、提供分布式协作服务和维护配置信息D、为集群提供高并发能力答案:ACD57.下列哪些措施是为了保障数据的完整性?A、元数据可靠性保证B、安全模式C、集群数据均衡D、重建失效数据盘的副本数据答案:ABCD58.HBase中包含的一些典型的Filter有哪些?A、SingleColumValueFilterB、RowFilterC、KeyOnlyFilterD、FilterList答案:ABC59.以下哪些选项属于数据地图支持的功能?A、可以根据表名直接查看表详情B、可以通过关键词搜索数据资产C、通过血缘分析可以查看每个数据表的来源、去向D、通过血缘分析可以查看每个表及字段的加工逻辑、答案:ABCD60.Flink的时间窗口根据实现原理的不同可分为以下哪些窗口?A、会话窗口(SessionWindow)B、滚动窗口(TumblingWindow)C、滑动窗口(SlidingWindowD、计数窗口(CountWindow答案:ABC61.以下关于Flink容错机制描述错误的有哪些?A、Savepoint机制保证了程序在进行升级或者修改并发度等情况后,还能从保存的状态位继续启动恢复B、Checkpoint机制保证了程序在进行升级或者修改并发度等情况后,还能从保存的状态位继续启动恢复C、Savepoint机制保证了实时程序运行时,即使突然遇到异常也能够进行自我恢复D、checkpoint机制保证了实时程序运行时,即使突然遇到异常也能够进行自我恢复答案:BC62.structuredstreaming在OutPut阶段可以定义不同的数据写入方式,包括下列喝些方式?A、GeneralModeB、UpdateModeC、AppendModeD、CompleteMode答案:BCD63.HDFS中,抽象的块可以带来哪些好处?A、支持大规模文件存储B、满足I0密集型应用的性能要求C、简化系统设计D、适合数据备份答案:ACD64.ElasticSearch对有结构化、半结构化、非结构化类型的数据有哪些处理能力?A、写入的数据可以实时的进行检索B、进行清洗、分词、建立倒排索引等—系列操作C、提供全文检索的能力,条件可以包括词或短语D、数据写入时可选重删和压缩功能答案:ABC65.Spark发生Shuffle时会延长任务执行时间,下列哪些选项能够不能减少shuffle次数?A、更换shuffle机制B、增强集群性能快速执行shuffleC、多用transformation算子少用action算子D、避免使用groupBy、reduceByKey等可产生宽依赖的算子答案:AB66.在MRS集群中,Spark主要与以下哪些组件进行交互?A、YARNB、HiveC、HdfsD、ZooKeeper答案:ABC67.以下关于Hive的描述,正确的有哪些选项?A、对数据的ETL过程自动化B、可直接访问HDFS文件以及HBase。C、可以查询和管理PB级别的分布式数据D、支持Tez,Spark等多种计算引擎答案:ABCD68.以下哪些选项属于数据治理模块域?A、数据集成B、数据服务C、数据开发D、主数据管理答案:ABCD69.下列哪些查询场景使用列存储更合适?A、条件查询B、分组查询C、点查询D、聚合查询答案:BD70.数据节点是HDFS的工作节点,以下描述哪些是其功能?A、根据客户端或者是名称节点的调度来进行数据的存储和检索B、向名称节点定期发送自己所存储的块的列表。C、负责数据的存储和读取D、记录了所有针对文件的创建、删除、重命名等操作答案:ABC71.下列选项中,哪些是Spark的重要角色?A、DriverB、NodeManagerC、ResourceManagerD、ataNode答案:ABC72.下列哪些选顶对HBase,读写数据的过程描述正确?A、客户端读取数据不需要HMaster参与B、客户端可以维护已访问过的Region位置信息加快查询C、客户端读取数据需要HMaster参与D、客户端不可以维护已访问过的Region位置信息加快查询答案:AB73.客户端是用户操作HDFS最常用的方式,以下关于HDFS客户端的描述正确的有哪些?A、客户端可以支持打开、读取、写入等常见的操作B、HDFS客户端是一个库,包含HDFS文件系统接,这些接隐藏了HDFS实现中的大部分复杂性C、HDFS客户端提供了类似Shell的命令行方式来访问HDFS中的数据D、客户端是HDFS的一部分,是部署HDFS的必备组件答案:ABCD74.Kafka中Partition对应的Leader宕机时,需要从Follower中选举出新Leader。当所有Replica都不工作时,对数据及时间要求不高的情况下,以下哪些方案可行?A、等待ISR中的任一个Replica活过来,并选它作为LeaderB、在配置中增加Replica副本数量C、选择第一个活过来的Replica(不一定是ISR成员)作为LeaderD、重启Kafka集群答案:AC75.MRS服务中,通过Loader数据转换引擎,可实现数据的哪些操作?A、字符串剪切B、字段类型转换C、字符串反序D、字段合并答案:ACD76.Spark与MapReduce进行比较,下列说法正确的是哪几项?A、Spark任务的中间结果只能存储在内存B、Spark任务中shuffle不是必须的过程C、Spark任务中shuffle是必须的过程D、Spark可以缓存中间结果在内存降低磁盘lO答案:BD77.调用ZooKeeper客户端命令中包含哪些信息?A、用户名B、端口号C、服务器名称D、lp地址答案:BD78.若HDFS单名称节点部署,可能存在哪些局限性?A、景影响基于HDFS的上层组件的功能实现B、整个分布式文件系统的吞吐量,受限于单个名称节点的吞吐量C、一旦这个唯一的名称节点发生故障,会导致整个集群不可用D、名称节点能够容纳的对象(文件、块)的个数会受到内存空间大小的限制答案:BCD79.MRS在基于ApacheHadoop开源软件的基础上,在主要业务部件的可靠性、性能调优等方面进行了优化和提升。以下关于MRS平台的描述,正确的是哪些项?A、MRS支持将Manager、HBase上的数据自动备份到第三方服务器B、MRS支持自动处理网络故障,自动恢复受影响的业务。C、在系统进行扩容、打补丁等重大操作前,需要通过手动备份集群管理系统的数据,以便在系统故障时,恢复集群管理系统功能,D、MRS对集群管理系统Manager上的数据提供自动备份功能,根据制定的备份策略可自动备份集群上的数据。答案:BCD80.ElasticSearch支持以下哪些访问接?A、PUTB、POSTC、DELETED、GET答案:ABCD81.数据操纵语言DML是包括以下哪些字句?A、查找:SELECTB、删除:DELETEC、插入:INSERTD、更新:UPDATE答案:BCD82.下列关于Flink中Transformation的说法正确的是?A、可以通过window设定时间窗口B、flatMap可以对文本进行切分C、keyBy是将源头数据按照key进行分组,以保证同一个key的源数据分到同样的组中D、filter操作是对每个元素执行boolean函数答案:ABCD83.在Kafka中,以下消息传输语义中不会导致消息丢失的是哪些选项?A、最多一次(AtMostOnce)B、最少一次(AtLeaseOnce)C、超过一次(MoreThanOnce)D、仅有一次(ExactlyOnce)答案:BD84.以下关于传统数据入湖面临的挑战的描述,正确的是哪些项?A、开发难B、成本高C、时效差D、资源利用率低答案:BCD85.FusionInsightHD产品在部署Kerberos和LDAP服务时,以下描述正确的是?A、部署Kerberos服务之前,必须先部署LDAP服务B、LDAP服务必须和Kerberos服务部署在同一个节点C、Kerberos服务和LDAP服务部署同一个节点利于数据访问,有助于性能提升D、LDAP服务可以多个集群共享答案:AC86.以下关于Hive架构中的组件功能,描述正确的是哪些选项?A、Executor负责编译HiveQL并将其转化为一系列相互依赖的Map/Reduce任务B、Thriftserver提供thrift接,作为JDBC的服务端,并将Hive和其他应用程序集成起来CompilerC、按照任务的依赖关系分别执行Map/Reduce任务D、Optimizer是优化器,分为逻辑优化器和物理优化器,分别对HiveQL生成的执行计划和MapReduce任务进行优化答案:ABCD87.某电商公司同时运行MapReduce离线分析任务和Spark实时分析任务,若使用Yarn的Capacity调度器,资源分配如何进行?A、离线分析任务和实时分析任务安排在不同队列且优先满足实时分析任务的资源需求B、离线分析任务和实时分析任务安排在同一队列C、离线分析任务和实时分析任务安排在同一队列且优先满足实时分析任务的资源需求D、离线分析任务和实时分析任务安排在不同队列答案:AD88.HBase中以下哪种场景会触发Flush操作?A、HBase定期刷新Memstore,默认周期为1小时B、当WALs中文件数量达到阈值时C、Region中MemStore的总大小,达到了预设的FlushSize阈值D、MemStore占用内存的总量和RegionServer总内存比值超出了预设的阈值大小答案:BCD89.FusionlnsightManager的主要功能有以下哪些?A、数据集成B、系统管理C、安全管理D、服务治理答案:BCD90.执行HBase读数据业务,需要读取哪几部分数据?A、MemStoreB、HLOgC、HFileD、HMaster答案:AC91.下面哪些是Elasticsearch的特点?A、高可靠性B、高容错性C、高性能D、高扩展性答案:ACD92.下列属于Dws的典型应用场景的是A、数据集市B、CRM/ERPC、交易系统D、企业级数据仓库答案:ABCD93.以下哪些属于企业级大数据的应用场景?A、内部运营管理B、营销分析C、客户分析D、供应链管理答案:ABCD判断题1.Zookeeper选举时,当某一个实例获得了半数以上的票数时,则变为leaderA、正确B、错误答案:A2.topology的处理逻辑都在bolt中,A、正确B、错误答案:A3.ClickHuse完全使用SQL作为查询语言,提供了标准协议的SQL查询接A、正确B、错误答案:A4.Flume是一种分布式,高可靠且高可用的服务,用于有效地收集、聚合和移动大量日志数据A、正确B、错误答案:A5.Flume-NG由一个个agent来组成,而每个agent由Source,Channel,sink三个模块组成。其中Source负责接收数据.Channel负责数据的传输,sink则负责数据向下一端的发送。A、正确B、错误答案:A6.在MapReduce编程中,业务逻辑一般需要自行写代码实现mapper和reducer声斯颐A、正确B、错误答案:A7.在点对点消息系统中,可由一个或多个消费者消费队列中的数据,但是一条消息只能被消费一次A、正确B、错误答案:A8.HBase中penscanner的过程,会创建两种不同的Scanner来读取H-File和Memstore的数据。HFile对应的Scanner为StoreFileScanner;Memstore对应的Scanner为Memstorescanner.A、正确B、错误答案:A9.容量调度器在进行资源分配时,现有同级的2个列队Q1和Q2,它们的容量均为30,其中Q1已使用8,Q2已使用14,则会优先将资源分配给Q1。A、正确B、错误答案:B10.MapReduce过程中,默认情况下,一个分片就是一个块,也是一个MapTaskA、正确B、错误答案:A11.Yarn作为MapReduce的资源管理器,其依赖HDFS.A、正确B、错误答案:B12.MRS服务100%兼容开源大数据生态,结合周边丰富的数据及应用迁移工具,能帮助客户快速完成自建平台的平滑迁移,整个迁移过程可做到“代码修改,业务0中断”。A、正确B、错误答案:A13.客户端往任意Zookeeper节点写数据Zookeeper需要将数据完全同步到其他节点,才可以返回给客户端写成功。A、正确B、错误答案:B14.Elasticsearch默认是先把索引存放到内存中,当内存满了时再持久化到本地硬盘A、正确B、错误答案:A15.Kafka中,每个Consumer都属于-个ConsumerGroup,每条消息只能被ConsumerGroup中的一个Consumer消费,但可以被多个ConsumerGroup消。A、正确B、错误答案:A16.Kafka中,Leader主要负责监控Fo1lower的运行状态,Fo1lower主要负责数据的读写A、正确B、错误答案:B17.Flink用Datastrean来表示程序中的流式数据,用户可以认为它们是含有重复数据的可修改的集合(collection),Datastream中元素的数量是无限的。A、正确B、错误答案:A18.Spark任务的每个stage划分为几个Job,划分的标记是shuffle.A、正确B、错误答案:A19.ClickHouse是俄罗斯yandex公司开发的OLTP数据库管理系统A、正确B、错误答案:B20.Kafka将Topic分成一个或者多个Partition,每个Partition在物理上对应个文件夹,该文件夹下存储这个Partition的所有消息。A、正确B、错误答案:A21.HBase的BloomFilter是用来过滤数据的A、正确B、错误答案:B22.Flume在传输数据过程中,如果下一跳的Flume节点故障或者数据接受异常时,可以自动切换到另外一路上继续传输。A、正确B、错误答案:A23.数据质量要求各业务部门对相应数据领域的数据质量全权负责,按业务需求设计数据质量标准,制定数据质量管控目标,并道循企业数据治理费求进行数据质量度量,制定符合各自业务情况的数据质量政策及数据质量相关的改进计划,持续进行数据质量管控A、正确B、错误答案:A24.ResourceManager采用高可用方案,当ActiveResourceManager发现故障时,只能通过内置的Zookeeper来启动Standby的ResourceManager.将其状态切换为Active.A、正确B、错误答案:B25.ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源A、正确B、错误答案:A26.大数据体量的不断增加,对数据存储理安全性要求越来越高,对数据的多副本与容灾机制也提出更高的要求,A、正确B、错误答案:A27.在FusioninsightHD系统,Loader作业运行过程中,如果产生脏数据,Loader作业执行结果的状态-定是失败。A、正确B、错误答案:B28.Distributed表引擎本身不存储任何数据,而是作为数据分片的透明代理,能够自动路由数据到集群中的各个节点,分布式表需要和其他本地数据表一起协同工作。A、正确B、错误答案:A29.Spark的中间数据放在内存中,对于迭代运算、批处理计算的效率更高,延迟更高A、正确B、错误答案:B30.structuredstreaming接收结构化数据流生成无边界表,随着时间积累该表越来越大最终会导致数据过大无法计算。A、正确B、错误答案:B31.HBase组件中,数据读写服务需要连接Master执行:A、正确B、错误答案:B32.MapReduce某一任务失败时可通过重试机制重新计算该任务。A、正确B、错误答案:A33.在DataArtsStudio平台中,支持自定义业务元模型,批量导入业务元数据,关联业务和技术元数据、全链路的血缘管理和应用。A、正确B、错误答案:A34.在VARN的任务调度中,一旦ApplicationMaster申请到资源后,便与对应的ResourceManager通信,要求它启动任务A、正确B、错误答案:A35.SparkStreaming容错机制是指RDD中任意的Partition出错,都可以根据其父RDD重新计算生成,如果父RDD丢失,则需要去磁盘中查找原始数据。A、正确B、错误答案:B36.Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。A、正确B、错误答案:A37.MRS会保存用户设置的登录Master节点的初始密码。为避免被恶意攻击,建议设置复杂度高的密码A、正确B、错误答案:A38.ElasticSearch的倒排索引所采用的排序方式,是通过Value找Key。在全文搜索中Value就是要搜索的关键词,通过Vaue找到对应的文档。A、正确B、错误答案:A39.华为云眼鹏云服务基于跟鹏处理器等多元基础设施,涵盖裸机,虚机,容器等形态,具备多核高并发特点,非常适合AI、大数据、HPC、云手机/云游戏等场景。A、正确B、错误答案:A40.概念视图里HBase表可以被看成是一个稀疏的行的集合A、正确B、错误答案:A41.HDFS中,块(Block)的大小远远大于曾通文件系统的最小单元,可以最小化寻址开销.A、正确B、错误答案:A42.HBase数据的存储在物理上是分列族存储的A、正确B、错误答案:A43.RDB支持索引,HBase不支持索引。A、正确B、错误答案:B44.为减少写入磁盘的数据量,MapReduce支持对MOF(MapOutFile)进行压缩后再写入。A、正确B、错误答案:A45.Kafka的Producer和Customer数量必须相同A、正确B、错误答案:B46.MySQL引擎用于将远程的MySQL服务器中的表映射到clickHouse中,并允许您对表进行INSERT和SELECT查询,以方便您在clickHouse与MySqL之间进行数据交换。A、正确B、错误答案:A47.数据集市与数据湖最大的区别是,各个集市的数据无法互通,也可能存在重复,相比数据湖,数据集市更像一个个数据烟囱。A、正确B、错误答案:A48.数据质量监控DQC(DataQualityControl)模块是对数据库里的数据质量进行质量管理的工具,可以从完整性、有效性、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。A、正确B、错误答案:A49.ZooKeeper支持对多个C1ickHouseserver进行负载均,提高应用接入的高可靠性A、正确B、错误答案:A50.大数据体量的不断增加,对数据存储的物理安全性要求越来越高,对数据的多副本与容灾机制也提出更高的要求A、正

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论