版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGEPAGE1华为云平台运维理论知识考试题库及答案一、单选题1.Elasticsearch采用的搜索方式是()。A、正排素引B、倒排素引C、慢素引D、快速索引答案:B2.以下关于HDFS的特点描述不正确的是()。A、大数据量吞吐B、低延迟读取C、流式数据读取D、大文件存储与访问答案:B3.公安行业中实时检索不适用于以下哪个场景?()A、实时布控B、快速信息汇集C、评估嫌疑人犯罪概率D、车辆信息查询答案:C4.创建分支语句如下,CREATEORREPLACEPROCEDUREproccase.branch(pi_resultininteger.pi_returnoutinteger)ASBEGINCASEpi_resultWHEN1THENpi_return;=1:WHEN2THENpi_return;=3:WHEN3THENpi_return:5:WHEN6THENPi_return:-7:WHEN7THENpi_return:P9:ELSEPi_return:=0:ENDCASE:Raiseinfopireturn:%.pireturn;END:执行如下语句CALLproc_case_branch(3.2)的返回结果是()。A、4B、3C、5D、2答案:C5.HBase中数据存储的文件格式是下面()?A、SequenceFileB、HfileC、TextFileD、HLog答案:B6.对于GaussDB200的数据存储流程,下列说法正确的是()?A、通过GaussDB200的数据分布规则数据会自动分布,那么对表的设计可以比较随意B、导入的数据直接从客户端进入磁盘中C、数据的分布一般默认按照分布鍵的HASH值分布D、数据的分布一般默认按照数据大小均匀分布答案:C7.Flink快照机制的核心是barriers不包含以下哪个特点()?A、将前后周期快照数据分隔B、携带所属快照周期的IDC、严格的按照线性流动D、会阻断数据流,重量级元组答案:D8.关于GaussDB200的两种跨集群方式EC(ExtensionConnector)和FT(ForeignTable),以下说法正确的是()?A、在连接之前都要先做好集群互信操作。B、EC配置简单,理论上可以连接任何支持ODBC的同构/异构数据库。C、二者都可以充分利用GaussDB200的分布式计算能力。D、FT配置复杂,只能支持GaussDB200同构数据库。答案:A9.Hive调优中,当连接一个较小和较大表的时候,把()的表直接放到内存中去,然后再对()的表进行map操作。A、小,小B、小,大C、大,小D、大,大答案:B10.Flink的Checkpoint机制绘制的流应用快照不能被保存在以下哪个位置?()A、LocalB、Taskmanager的内存C、JoblManager的内存D、HDFS答案:B11.F1ume中基于WAL预写式日志Write-AheadLog实现Channel持久化的是?()A、MemoryChannelB、KafkaChannelC、FileChannelD、JDBCChannel答案:B12.以下关于选用Kafka等消息系统的原因描述错误的是()。A、解耦:消息系统在处理过程中插入一个隐含、基于数据的接口层。B、同步通信:消息队列允许消息加入队列,等需要时再处理。C、扩展性:消息队列解耦处理过程,容易扩展处理过程。D、冗余:消息队列持久化,防止数据丢失答案:D13.某工程师正在开发EasticSearch应用,请问下列代码可以帮助他实现什么功能?()A、删除素引B、创建素引C、维护索引D、更新素引答案:A14.下列关于存储过程中的变量说法正确的是()?A、声明变量时需要指定变量的初始值。B、变量的作用域是全局。C、变量必须先声明后使用。D、声明变量时需要指定变量的数据类型。答案:C15.如果想把Redis的Key中存储的数字值减1,该使用下列哪一个命令?()A、decrB、incrC、incrbyD、decrby答案:A16.以下哪一选项不属于MRS日常运维不影响业务这一特性?()A、滚动升级/补丁B、修改配置滚动重启C、单集群跨AZ高可用D、扩缩容业务无感知答案:C17.考虑以下场景,HBase有列簇CF1.列C1.C2.当读取HBase表时。只要求近回C1的列值,使用下列哪个选项可以实现该功能?()A、ColumnFilterB、ValueFilteC、QualifierFilteD、RowFilter答案:C18.以下关于ElasticSearch介绍错误的是?()A、Document文档,被素引的基本单位B、EsMaster主节点C、Index索引,与关系型数据库中的索引概念一D、EsNode:Elasticsearch节点,一个节点就是一个Elasticsearch实例答案:C19.某大数据运维人员想通过shell命令上传某个文件至HDFS文件系统中。以下()命令能帮助他完成这个操作?A、-catB、-putC、-uploadD、-get答案:B20.若要修改HBase表,下列API()最先被调用?A、createConnection()B、getTable()C、getConnect()D、getAdmin()答案:D21.一般情况下,若要提高ElasticSearch检索效率,可以采取()操作?A、调整索引分片数B、使用Hive做底层存储C、压缩素引D、正价EsMaster节点答案:A22.关于Hive自定义UDF描述错误的是()。A、普通的UDF,用于操作单个数据行,且产生一个数据行作为输出。B、永久函数,可以在多个会话中使用,不需要每次创建。C、用户定义表生成函数UDTF,用于接受多个输入数据行,并产生一个输出数据行。D、临时函数,只能在当前会话使用,重启会话后需要重新创建答案:C23.Redis中相对于AOF持久化,对RDB持久化描述正确的是()。A、会丢失最后一次持久化以后的数据B、内存占用过多,持久化文件尺寸较大C、占用较多的磁盘IO开支D、恢复数度相对较慢,写入数据相对较快答案:A24.ElasticSearch可以通过()命令发起Http请求来对数据进行查询操作?A、netstatB、CurlC、wgetD、get答案:B25.对ElasticSearch描述正确的是?()A、客户端必须把索引请求发给EsMasterB、客户端必须把索引请求发给shardC、客户端必须把索引请求发给EsNodeD、客户端必须把索引请求发给指定的EsNode答案:A26.Kafka中数据从Producer到Broker和Broker到Consumer分别是哪种传递方式?()A、push,pushB、push,pullC、pull,pullD、pull,push答案:B27.Redis中String数据类型不含以下哪种操作?()A、MgetB、sizeC、strlenD、append答案:B28.以下哪个不是大数据的数据计算引擎?()A、SparkB、MapReduceC、FlumeD、Flink答案:C29.一般来说,以下哪项不是大数据应用开发必备的能力?()A、理解相关业务背景B、掌握机房硬件运维技巧C、具备JAVA/Scala编程能力,熟悉SQLD、熟悉LinuxShell命令答案:B30.Flink不包含以下哪些数据处理场景?()A、毫秒级低时延B、高可靠性C、高并发D、图形分析答案:D31.GaussDB200在创建表时,需要注意以下哪些事项()?A、创建列存表之后,后续可以修改为行存表。B、创建列存表时压缩级别默认为HIGH。C、如果指定表空间为普通表空间,创建表时默认是行式存储D、创建一个行存表之后,后续可以修改为列存表答案:C32.以下哪种Hive的方法可以用来对数据求和?()A、trimB、dataC、avgD、sum答案:D33.企业数据分析平台在根据不同的业务场景需求,搭建不同的大数据分析平台,如适应离线批处理的Hadoop平台:适应实时处理的流计算平台等,这种架构属于()类型的架构?A、分离架构B、单一架构C、融合架构D、多维架构答案:B34.银行进行客户购买力分析.首先获取客户历史账单,确定其中各项商品的计算权重,得出每位客户的购买力评分并存储记录。最后将结果以图表显示。请问该过程对应于以下哪个项目数据流程设计。()A、数据可视化->数据源->数据落地->数据处理B、数据源->数据落地->数据处理->数据可视化C、数据源->数据处理->数据落地->数据可视化D、数据可视化->数据源->数据处理>数据荷地答案:C35.Kafka的核心架构不包含?()A、SplitB、ProducerC、ConsumerD、Broker答案:A36.离线批处理工具不包含以下哪项()。A、SparkB、MapReduceC、StormD、SQL答案:C37.对HBase集群架构组成部分描述错误的是()。A、正常HBase表只有一个Region,随着数据增多Region不断分裂变成多个,Region的拆分非常慢。B、Client包含访问HBase的接口,同时缓存维护已经访问过的Region。的位置信息。C、HMaster主要负责表和Region的管理工作,Region的负戴均衡。D、HRegionServer是Base的数据服务进程,负奏处理用户的数据读写请求。答案:A38.哪种不是Flink提供的部署方式?()A、ClusterB、CloudC、VMD、Local答案:C39.GaussDB200的高可用主要体现在()方面?A、数据融合B、分析融合C、计算融合D、以上全都正确答案:D40.Flink的Checkpoint机制绘制的流应用快照不能被保存在以下哪个位置?()A、LocalB、HDFSC、TaskManager的内存D、Joblanager的内存答案:C41.以下()不提供交互式查询服务?A、PrestoB、ImpalaC、EchartD、Kylin答案:C42.下列()可以用来判断HBase表是否存在?A、admin.tableExists(tableNameB、admin.tableExists(TableNamevalueOf(tableName)C、admin.getTable(tableNameD、tables.containsKey(tableName)答案:B43.离线批处理方案的应用场景不包括()?A、占用计算存储资源多B、快速高效,实时的数据处理C、数据处理格式多样D、处理大规模数据答案:B44.以下哪项不属于数据存储组件?()A、HBaseB、StormC、HDFSD、MySQL答案:B45.关于GaussDB200的数据并行导出,下列说法正确的是()?A、Remote模式效率受网终带宽影B、Local模式效率受网络带宽影响C、Remote模式是指将数据导出到集群本地服务器上D、Loca模式是导出文件到本地电脑答案:A46.range是Redis中哪种数据类型的命令?()A、SetB、StringC、ListD、Hash答案:C47.HiveSQL中DDL指定是哪种语言?()A、数据删除语言B、数据管理语言C、数据查询语言D、数据定义语言答案:D48.ElasticSearch是怎么实现Master选举的?()A、内部自行选举B、借助ZooKeeper选举C、随机生成D、自行指定答案:B49.Kafka集群在运行期间,直接依赖于下面那些组件?()A、SparkB、ZookeeperC、HBaseD、HDFS答案:B50.关于HDFS的文件块的描述不准确的是?()A、文件块越大寻址时间越短。B、文件块(片)被存在哪个集群;谁有权限查看.修改这个文件等信息放在元数据Metadata中。C、文件块的大小设置原则:最大化寻址开销。D、HDFS文件块的大小在1.0版本时是64,在2.0的时候是128M。答案:A51.以下关于StreamExecution持续查询过程的描述哪项是正确的?()A、获取最新敛据oftsets-oftsets与入ottsetLog-构道LogicalPlan-优化LogicalPlan-计算完成mit-计算结果SinkB、offsets写入offsetLog-获取最新数据offsets-构造LogicalPlan-优化LogicalPlan-计算结果Sink-计算完成mitC、获取最新数据offsets-offsets写入offsetlog-构造LogicalPlan-优化LogicalPlan-计算结果Sink-计算完成mitD、获取最新数据ofsets-offsets写入ofsetLog-优化Logica1Plan-构造LogicalPlan-计算结果Sink-计算完成mit答案:C52.Elasticsearch采用的搜索方式是?()A、倒排索引B、快速索引C、正排索引D、慢索引答案:A53.关于GaussDB200的数据导入导出下列说法正确的是()?A、使用gsql元命令和COPY命令在使用和用法上是一样的。B、GDS在数据导入时可以做预处理,比如非法字符替换、容错处理、数据聚合等。C、COPY方式使用简单,一般用在大量数据的导入导出中。D、INSERT数据写入适合数据量不大,并发度不高的场景。答案:B54.某大数据业务人员在查询某张表的业务数据时,希望查询出来的数值结果保留两位小数,他应该使用()函数来实现?A、TrimB、roundC、absD、rand答案:B55.某大数据业务人员对某些数据创建Hive表结构,其中某个数据为时间类型yyyyMMdd,那么可以使用以下哪一项作为字段类型?()A、varcharB、stringC、doubleD、int答案:B56.HBase表设计为什么一般不超过两个列簇?()A、过多的列簇不适合读写分离B、过多的列IO开销大C、过多的列簇StoreFile过多,paction压力大D、过多的列簇会导致memstoreflush时IO压力过大答案:B57.下列()不是StructuredStreaming支持的source数据源?A、SocketB、KafkaC、HDFSD、Hive答案:D58.以下关于HDFS适合做什么描述正确的是()。A、低延迟读取B、大文件存储C、大量小文件存储D、随机写入答案:B59.考虑以下场景,当公安人员需要根据某犯罪人员发现其犯罪同伙时,最适合使用下列哪个工具?()A、GraphBaseB、HBaseC、HDFSD、ElasticSearch答案:A60.以下哪种机制使Flink能够实现窗口中无序数据的有序处理?()A、窗口B、有状态处理C、检查点D、事件时间答案:D61.HDFS创建目录过程中,通过调用FileSystem实例的()方法查看该目录是否存在。A、createB、MkdirsC、existsD、find答案:C62.GaussDB200有两张相同宇段结构和数据量的表table1和table.2.table1是行存表.table2是列存表,执行SQL语句"selectnamefromtablenamewherenum=-1",table1查询了()数据量,table2查询了()数据量(一个单元格为一个数据量)。A、9,6B、3,9C、3,6D、9,9答案:C63.下列哪些选项不是HBase为nul1的列不占用存储空间的原因?()A、Region分裂B、列存储C、行存储D、Key-Value结构答案:D64.Spark的核心概念不包括?()A、RDDB、HoqC、宽套依赖D、Shuffle答案:B65.以下哪个选项不能做为Kafka的Consumer?()A、HadoopB、Real-timeMonitoringC、FrontEndD、DataWarehouse答案:C66.以下()不属于批量数据采集工具?A、MapReduceB、FlumeC、SqoopD、其他ETL工具答案:A67.离线批处理常用的组件不包括哪个?()A、FlumeB、SparkC、HiveD、Storm答案:D68.Redis不适用于以下哪个应用场景()?A、获取PB级Value数据B、获取TOPN操作C、获取手机验证码D、获取最新N个数据的操作答案:A69.以下关于EasticSearch缓存机制的理解不正确的是()。A、QueryCache:Shard级别的缓存,是对一个查询中包含的过滤器执行结果进行缓存。B、RequestCache:Shard级别的缓存,是为了缓存“分片级”的本地结果集。C、FielddataCache专门针对分词的字段在查询期间的数据结构的缓存。D、缓存主要分三种:QueryCache,FielddataCache,RequestCache。答案:A70.下面这条GaussDB200语句“calldbms_erval(1,'sysdate+1.0/24');”的意思是()。A、修改Job1的Interva为每隔24小时执行一次。B、修改Job1的Interval为每隔1小时执行一次。C、修改Job1的Interval为每隔1/24小时执行一次。D、修改Job1的Interval为每隔24分钟执行一次。答案:B71.以下关于常见数据库描述正确的是?()A、HBase基于ZooKeeper,Hadoop,适合非结构化数据存储,是高可靠性高性能,面向行,可伸缩的分布式存储系B、Oracle关系型数据库,行式存储,支持SQL,中量级数据分析存储不可分布式,开源软件。C、Redis开源key-value数据库,读写性能极高,数据类型丰富,可以与Storm结合进行实时查询分析D、Mysql关系型数据库,列式存储,支持SQL,轻量级数据分析存储,仅有商业版本。答案:C72.常用的数据收集工具不包括以下哪个选项?()A、LoaderB、SqoopC、KettleD、Spark答案:D73.下列关于存储过程的特点说法正确的是()。A、编写的SQL存储在数据库中,因此执行速度快。B、创建时编译,执行时调用,因此开发效率高。C、用户创建的存储过程或自定义函数可以重复调用,因此数据传输量少。D、通过指定存储过程的访问权限,因此安全系数高。答案:D74.GaussDB200支持()格式的数据存储?A、行存储B、列存储C、行列混存D、以上都对答案:D75.GaussDB200支持()种数据并行导入策略?A、3B、1C、2D、4答案:A76.若要对图片进行检索,般选择什么工具较好?()A、MySQLB、HDFSC、ElasticSearchD、Hive答案:C77.某大数据业务人员需针对某些数据创建Hive表结构,其中某个数据为时间类型yyMMdd,那么可以使用以下()作为字段类型?A、intB、doubleC、stringD、varchar答案:C78.ElasticSearch数据写入阶段有很多调优方式,下列错误的是哪一项?()A、写入前副本数设置为0B、禁用wildcardC、尽量使用自动生成的idD、写入过程中:采取bulk批量写入答案:A79.对ElasticSearch描述正确的是()。A、客户端必须把索引请求发给shardB、客户端必须把索引请求发给EsNodeC、客户端必须把素引请求发给EsMasteD、客户端必须把索引请求发给指定的EsNode答案:C80.华为数据中台存储过程的调用有几种方式()A、3B、1C、4D、2答案:B81.哪个是实时检索解决方案的数据源?()A、流数据B、以上都是C、文件数据D、图数据答案:B82.在Kafka集群中,Kafka服务端的角色是下列哪一项?()A、ProducerB、ZooKeeperC、ConsumerD、Broker答案:D83.对于HBaseKeyValue存储模型描述不正确的是?()A、同一个Key值只能关联个valueB、拥有时间戳类型等关键信息C、Keyvalue具有特定的格式D、时间戳来区分多个记录版本答案:A84.有如下存储过程,CREATEORREPLACEPROCEDUREprc_1(paranlININTEGERDEFAULT3.param2INOUTINTEGER)ASBEGINParam2:=paraml+param2;RETURN;END:调用如上存储过程callprc_1(2.1).结果是()?A、1B、2C、4D、3答案:D85.当读取HBase表时,只要求返回C1的列值,使用下列哪个选项可以实现该功能?()A、ValueFilteB、ColumnFilterC、RowFilterD、QualifierFilter答案:D86.数据仓库仅仅是提供存储的,提供一种()的服务,不面向最终分析用户:而数据集市是()的,面向最终用户。A、面向分析应用、面向数据管理B、面向事务交互、面向数据管理C、面向数据管理、面向分析应用D、面向分析应用、面向事务交互答案:A87.HBase的物理存储单元是什么?()A、RegionB、ColumnFamilyC、ColumnD、Row答案:B88.以下()框架可以同时满足实时分析、高线分析、实时检素的功能?A、ApacheHadoopB、FusionlnsightHDC、ApacheHBaseD、以上全都正确答案:B89.下列()命令可以清空Redis实例下所有数据库的数据?A、dropdbB、flushdbC、dropallD、flushall答案:D90.Flink哪种机制可以保证task运行失败时,其状态能够恢复?()A、窗口B、事件时间C、检查点D、有状态处理答案:C91.以下对于离线批处理的概念理解错误的是()。A、离线批处理对数据处理的时延要求不高。B、离线批处理占用的内存资源较多。C、离线批处理通常通过眠作业、Spark作业或者HQL作业实现。D、离线批处理针对的数据量较大。答案:B92.现在有一亿条数据要插入HBase,使用下列哪个方式最好?()A、put方法B、bulkload方法C、shell端put命令D、insert方法答案:B93.下对GaussDB200双AZ集群描述不正确是?()A、灾备集群不同步数据时,可以提供读写服务B、主集群不可用时,灾备集群提供正常服务C、主集群提供正常服务,文备集群只同步数据D、周期性数据同步答案:A94.关于GaussDB200的逻辑架构,下列说法正确的是()。A、DN是实际数据节点,所以只负责存储数据。B、CN是协调节点,协助CM管理整个集群。C、CM是集群的管理模块,那么负责集群的日常管理和运维。D、GTM是全局事务控制器,负责生成和维护全局事务ID等全局唯一信息。答案:D95.以下关于DataNode的描述不正确的是()?A、DataNode管理数据块元数据B、DataNode执行数据块的读/写操作。C、DataNode的数量受数据规模影响。D、DataNode是用来存储数据库。答案:C96.下列哪一项是HBase不适合的应用场景?()A、海量数据(TB,PB)应用场景。B、半结构化数据应用场景。C、要求具有完全ACID特性的应用场景。D、高吞吐率应用场景。答案:C97.在SparkSQL中,()使用了新的编码器,其编码器的作用是将VM的对象与表结构进行转换,允许操作序列化数据,可以提高内存利用率。A、DataFrameB、TableC、DataSetD、RDD答案:C98.Flink中的DataStream数据流转不包含以下哪项?()A、DatasourceB、TransformationsC、DatasinkD、Actions答案:D99.若要查询表,下列API()最先被调用?A、createConnection()B、getAdmin()C、getTable()D、getConnect()答案:A100.下列关于GaussDB200的数据类型转换说法正确的是()。A、如果需要保留空字符串时,需要新建兼容性为Postgres的数据库。B、在查询中,对常量不需要显式指定数据类型。C、在Oracle兼容模式下,在导入数据时,空字符串会自动过滤。D、不同数据类型比较或转换时,使用强制类型转换,以防隐式类型转换结果与预期不符。答案:D101.当ElasticSearch集群有节点加入或退出时,集群数据会发生什么动作()。A、数据重载B、数据重分布C、数据更新D、数据重建答案:B102.智能数据湖运营平台指的是以下()?A、VAS(videoAnalysisService)B、ModeIArtsC、CSSD、DGC答案:D103.以下哪些选项不属于大数据时代到来的必要条件?()A、存储设备容量提升B、CPU计算性能提升C、超级计算机的出现D、网络带宽提升答案:C104.当前传统关系型数据库主要面临的挑战是()。A、数据量爆炸式增长,要求数据处理平台具备弹性扩展能力。B、数据处理时效性需求提高,要求数据处理平台速度够快。C、多类型数据融合,要求数据处理平台功能更加强大。D、以上全都正确。答案:D105.关于GaussDB200的发展史,下列说法错误的是()?A、GaussDB200已经在华为云发布了云化产品。B、GaussDB200专注国内业务,不涉及海外。C、GaussDB200从一开始就支持ARM架构的部署。D、GaussDB200前身叫GaussDB,是GaussDB的子项目。答案:B106.Redis中List列表是什么数据结构实现的?()A、双向链表B、平衡二叉树C、红黑树D、循环链表答案:A107.ElasticSearch可通过分片副本来优化性能,下列策略错误的是()?A、分片数不超过节点数的3倍,用较少的分片获得更佳的性能B、副本数至少设置为3,保障数据的可靠性C、副本数建议设置为1,过多的副本需要更多存储空间D、分片最大容量不要超过ElasticSearch推荐的最大JVM堆空间32G答案:B108.ElasticSearch存放所有关键词的地方是()。A、字典B、关键词C、词典D、素引答案:C109.HBase不支持以下哪些SQL操作?()A、SparkSQLB、HiveSQLC、MySQLD、PhoenixSQL答案:C110.Redis中数据排序的性能优化不包含以下哪个选项?()A、减少待排序键中元素的数量B、增加集群中Master节点C、如果要排序的数据数量很大,尽可能使用store参数将结果缓存D、使用limit参数只获取需要的数据答案:D111.离线批处理常用的组件不包括()。A、SparkB、HiveC、FlumeD、Storm答案:D112.下列哪个选项对批量数据处理组件的描述是不正确的?()A、Hive:传统SQL批处理引擎,用于处理SQL类批处理作业,使用广泛海量数据下表现稳定,但是处理速度较慢。B、MapReduce:传统批处理引擎,用于处理非SQL类,尤其是数据挖掘和机器学习类批处理作业,使用广泛,海量数据下表现不稳定,但是处理速度较快。C、SparkSQL:新型SQL批处理引擎,用于处理SQL类批处理作业,适合海量数据.处理速度高效。D、Spark:新型批处理引擎,可以用于处理非SQL类,尤其是数据挖掘和机器学习类批处理作业,适合海量数据,处理速度高效。答案:B113.Hive是基于Hadoop的数据仓库软件,最大可以查询和管理()级别的分布式数据。A、TBB、GBC、PBD、MB答案:C114.以下关于HDFS适合做什么描述不正确的是?()A、流式数据读取B、大文件存储与访问C、大数据量吞吐D、低延迟读取答案:D115.关于Kafka的Topic,以下哪一项描述是错误的?()A、Kafka集群中Topic可以设置多个。B、设置多副本可以增强Kafka服务的容交能力。C、Topic的Partition数量可以在创建时配置。D、在创建Kafka的Topic时,必须设置Partition个数。答案:D116.StructuredStreaming不能提供以下哪几种类型的保证?()A、ExactlyonceB、AtleastonceC、AtmostonceD、Morethanonce答案:D117.ElasticSearch是怎么实现Master选举的?()A、借助ZooKeeper选举B、内部自行选举C、随机生成D、自行指定答案:A118.HDFS默认的副本是几份?()A、5B、3C、6D、4答案:B119.关于Spark中RDD的描述不准确的是()。A、RDD可以从HDFS输入创建,或从与Hadoop兼容的其他存储系统中输入创建。B、Spark的所有Transform操作都是基于RDD来实现的。C、RDD是只读和可分区的。要想对RDD进行操作,只能重新生成一个新的RDD。D、当前RDD默认是存储于内存,当内存不足时,RDD也不会溢出到磁盘中。答案:D120.Kafka消息默认保存时间为多少天?()A、14天B、30天C、1天D、7天答案:D121.某项目小组接到一个大数据实时分析项目,且对实时性要求很高。请问以下哪种大数据计算框架最合适?()A、MapReduceB、HBaseC、SparkD、Flink答案:D122.HBase元数据MetaRegion路由信息保存的位置是下列哪一项?()A、HasterB、ZooKeeperC、Root表D、Meta表答案:D123.创建一个存储过程proc_addCREATEORREPLACEPROCEDUREproc_add(paramlinINTEGERparam2outINTEGERparam3inINTEGER)ASBEGINParam2:=paraml+param3;END;创建一个存储过程proctestCREATEORREPLACEPROCEDUREproc_test(resultoutINTEGER)asDECLARELnput1INTEGER:=1;input2INTEGER:=2;statementVARCHAR2(200);param2IINTEGER;BEGIN—声明调用语句Statement:='callproc_add(:col._1.:col.2,:col_3);一执行语句EXECUTEIMMEDIATEstatementUSINGINinput1.0UTparam2.INinput2;result:=param2;END;执行语句callproc_test(10),结果是()。A、3B、无返回值C、4D、2答案:A124.Spark读取任务参数的优先级是()。A、代码配置>动态参数>配置文件B、动态参数>代码配置>配置文C、配置文件>代码配置>动态参数D、动态参数配置文件>代码配置答案:A125.对GaussDB200描述不正确的是?()A、并行架构B、易运维,安全可靠C、行列不能混存D、节点多,易扩展答案:C126.ETL工具工作过程不包含以下哪项?()A、清洗B、传递C、加载D、转换答案:B127.关于Flink的角色,下列哪一项说法是错误的?()A、TaskManager负责从用户提交的Flink程序配置中获取JobManager的地址。B、Cient是Flink程序提交的客户端,对用户提交的Flink程序进行预处理,并提交到Flink集群中处理。C、JobManager扮演着集群中的管理者Master的角色,它是整个集群的协调者。D、TaskManager是实际负责执行计算的Worker.答案:A128.HBase()适用于海量数据存储。A、支持列存表B、集群规模小C、HDFS做底层存储D、多列簇特性答案:C129.下面()属于Redis中set类型的命令?A、sunionB、scardC、zcountD、Irange答案:A130.消息系统Kafka如何保证高吞吐能力?()A、多订阅者机制B、Partition机制C、持久性机制D、冗余备份机制答案:B131.网站在运营过程中,会有用户访问并产生行为数据,要想对这些数据进行处理挖掘,如果是离线批处理下的方案配置,描述不正确的是()。A、数据导入导出,LoaderB、数据采集传输:FlumeC、数据计算,StormD、数据存,HDFS或MySql答案:C132.下列关于GaussDB200的Explain命令描述正确的是?()A、Explain命令主要显示SQL的执行计划,对SQL调优用处不大。B、Explain主要关注语句的预计执行开销。C、通过设置GUC参数explain_perf_mode,可以显示不同格式的执行计划。D、Explain可以完成对SQL的优化,其余优化不关键。答案:B133.以下哪项不属于Apache顶级项目?()A、FlinkB、StormC、EclipseD、Spark答案:C134.以下选项中关于HDFS的文件块的描述不准确的是()。A、HDFS文件块的大小在1.0版本时是64M,在2.0的时候是128M。B、文件块(片)被存在哪个集群、谁有权限查看、修改这个文件等信息放在元数据Metadata中。C、文件块越大寻址时间越短。D、文件块的大小设置原则:最大化寻址开销。答案:C135.关于Spark中SparkSQL描述不准确的是?()A、SQL语句通过SparkSQL模块解析为DAG,交给SparkCore执行。B、SparksSQL使用场景包括毫秒级实时查询C、通过SparkSession提交SQL语句。任务像普通Spark应用一样提交到集群中分布式运行D、SparkSQL是Spark用来处理结构化数据的一个模块,可以在Spark应用中直接使用SQL语句对数据进行操作。答案:B136.当Spark发生Shuffle时,MapTask的运算结果会通过()的形式把运算结果分发到对应的任务上去。A、序列化B、键值对C、二进制D、RDD答案:B137.GaussDB200支持实例故障发生时,业务不中断。因此()。A、不用担心实例故障带来的影响,无需处理故障问题。B、在实例恢复或主备切换成功之后,能够继续提供服务。C、不用担心CN故障导致SQL执行失败,保证SQL100%执行成功。D、实例故障之后GaussDB200会自动重启,无需人为关注。答案:B138.以下关于公共安全行业专题分析与查询业务场景描述错误的选项是()。A、适用标准SQL语句进行查询,根据查询结果筛选目标人群,侦办案件。B、原始数据经过批处理后结果写入到指定的文件目录,供交互时查询。C、临时交互式查询任务对数据进行精确或者模糊查询。D、数据湖内多个数据源只能单独访问再呈现结果。答案:D139.Flink不包含以下()数据处理场景?A、高可靠性B、图形分析C、毫秒级低时延D、高并发答案:B140.Flink的窗口,按窗口行为划分不包含以下哪种()?A、容量窗B、滑动窗C、滚动窗口D、会话窗口答案:A141.Hive中的解释器(plier)、优化器(optimizer)、执行器(executor)组件用于HQL语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在()中,并在随后由()调用执行。A、内存、MapReduceB、HBase、YarnC、HDFS、TezD、HDFS、Yarn答案:D142.Redis中哪个命令是查看键的剩余生存时间?()A、ttlB、expireatC、persistD、expire答案:A143.哪个选项不是实时检索解决方案的典型业务特点?()A、查询条件简单B、查询速度快C、统计查询D、高并发答案:C144.对ElasticSearch检索流程描述正确的是?()A、检索节点汇总结果发送给客户端B、分片节点不需要汇总结果直接把结果发送给客户端C、分片节点汇总结果发送给客户端D、检索节点不需要汇总结果直接把结果发送给客户端答案:A145.某电商网站想要实现热销商品的实时TopN排名,可以使用()技术实现?A、Elasticsearch的快速检索B、HBase的rowkey索引C、Hive的关联查询分析D、Redis的排序计算答案:D146.关于批量数据处理组件的描述不正确的是?()A、Hive:传统SQL批处理引擎,用于处理SQL类批处理作业,使用广泛海量数据下表现稳定,但是处理速度较慢。B、SparkSQL:新型SQL批处理引擎,用于处理SQL类批处理作业,适合海量数据,处理速度高效。C、Spark:新型批处理引擎,可以用于处理非SQL类,尤其是数据挖掘和机器学习类批处理作业,适合海量数据,处理速度高效。D、MapReduce传统批处理引整用于处理非SoL类,尤其是数据挖掘和机器学习类批处理作业,使用广泛,海量数据下表现不稳定,但是处理速度较快。答案:D147.Flink的哪种机制可以保证task运行失败时,其状态能够恢复?()A、窗口B、有状态处理C、事件时间D、检查点答案:D148.Flink的窗口,按窗口行为划分不包含以下哪种?()A、容量窗B、会话窗口C、滚动窗口D、滑动窗口答案:A149.GaussDB200数据并行导入Shared策略支持的数据格式是?()A、CSyB、TextC、FIXEDD、Sea答案:B150.从数据库架构设计来看,主要有以下()设计思路?A、Shared-DiskB、Shared-EveryingC、Shared-NothingD、以上全正确答案:D判断题1.技术选型时应该采用最新的技术不需要考虑技术的稳定性。A、正确B、错误答案:B2.GaussDB200创建数据库时默认支持的字符集是UTF-8。A、正确B、错误答案:B3.在Hive中,Driver负责管理HiveSQL执行的生命周期,并贯穿Hive任务整个执行期间。A、正确B、错误答案:A4.实时流处理对时延的要求不高。A、正确B、错误答案:B5.ElasticSearch的recovery在集群新增或删除节点时发生。A、正确B、错误答案:A6.HDFS中的DataNode用于存储实际的数据,将自己管理的数据块上报给Client,运行多个实例。A、正确B、错误答案:A7.Kafka可以同时解决在线应用消息和离线应用日志的数据处理问题。A、正确B、错误答案:A8.应用开发需要进行需求分析,包括需求调研和市场调研。A、正确B、错误答案:A9.Flume中轮询调度(RoundRobinScheduling)算法就是以轮询的方式依次将请求调度不同的服务器,它是一种有状态调度。A、正确B、错误答案:A10.GaussDB200支持索引,为了查询的高效,应对每一个查询字段设置索引。A、正确B、错误答案:B11.0racle数据库依据它自身的发布形态,既可以做OLAP也可以做OLTP。A、正确B、错误答案:A12.幂等操作是指同操作发起的一次或多次请求返回的结果是不一致的。A、正确B、错误答案:B13.Producer通过Push的方式将消息发送到Broker。A、正确B、错误答案:A14.大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。A、正确B、错误答案:A15.离线批处理,通常是指对海量数据进分析和处理,形成结果数据,供下一步数据应用使用,离线处理对处理时间要求不高。A、正确B、错误答案:A16.大数据技术的解诀方案思路是聚焦在单台机器上,思考如何提升单机的性能,寻找更贵更好的服务器。A、正确B、错误答案:B17.实时数据处理的的关键意义在于能够更快地提供数据洞察。A、正确B、错误答案:A18.ElasticSearch不可以通过SQL来使用。A、正确B、错误答案:B19.GaussDB200是基于MPP架构的面向海量数据分析的数据仓库。A、正确B、错误答案:A20.INSERT语句在数据导入时效率比较低,因此不要使用INSERT的方式来对数据表的写入。A、正确B、错误答案:B21.Redis默认支持14个数据库。A、正确B、错误答案:B22.大数据可以用于流行病预测。A、正确B、错误答案:A23.和MySQL一样,GaussDB200可以通过databasename.table的方式访问不同数据库中的表。A、正确B、错误答案:A24.实时检索查询只能查询结构化数据。A、正确B、错误答案:B25.在Hive的SQL语句执行中,因为groupby等关键字的使用会导致数据倾斜。因此为了表面数据倾斜,应禁止该类操作执行。A、正确B、错误答案:A26.离线批处理通常通过MR作业、Spark作业或者HQL作业实现。A、正确B、错误答案:A27.GaussDB200通过ExtensionConnector可以跨集群访问Oracle数据库、MySQL数据库、Spark和其他GaussDB集群。A、正确B、错误答案:A28.MRS的安全模式一般是用于生产环境。A、正确B、错误答案:A29.Flink是个批处理和流处理结合的统一计算框架。A、正确B、错误答案:A30.针对不同的数据来源,需要先分析其数据特征,例如一般网站产生的日志特点是数据星大,价值密度高,数据的业务种类多且涵盖之前的数据。A、正确B、错误答案:B31.Spark是基于内存的,处理数据时产生的中间产物(计算结果)是存放在内存中,减少了对磁盘的1/0操作,大大的提升了数据的处理速度。A、正确B、错误答案:A32.创建ElasticSearch索引前,要先判断索引是否存在。A、正确B、错误答案:A33.Flink仅支持基于时间窗口操作。A、正确B、错误答案:B34.Kafka中每个Topic都由一个或者多个Partitions构成,Partition数量决定了每个Consumergroup中实际工作的并发消费者的最大数量。A、正确B、错误答案:A35.GaussDB200的自适应调度和大数据的YARN调度是类似的,都是根据作业的所耗资源,按照作业优先级,并优先满足损耗资源少的作业,保证资源的充分利用。A、正确B、错误答案:A36.离线批量的作业形式:可以通过例如SparkSQL的命令,也可以通过API编写代码,打包提交运行。A、正确B、错误答案:A37.Hive是大数据SQL批处理引擎,用于处理SQL类批处理作业,但是处理速度较慢。A、正确B、错误答案:A38.HBase是一种分布式数据库,不依赖HDFS也可以运行。A、正确B、错误答案:A39.ElasticSearch不支持结构化数据存储。A、正确B、错误答案:B40.物理集群包含逻辑集群。A、正确B、错误答案:A41.HBase支持Rowkey查询和二级索引查询。A、正确B、错误答案:A42.GaussDB200在内部使用行标识符(CTID)记录数据在表中的逻辑位置。A、正确B、错误答案:B43.Flink是Apache社区孵化的项目。A、正确B、错误答案:A44.服务器选型可以选择云主机和物理机。A、正确B、错误答案:A45.因不同的数据类型存储的空间大小不一样,所以在选择数据类型时,只需考虑数据类型损耗的存储空间大小。A、正确B、错误答案:B46.ElasticSearch中,只要一个shard请求成功即可向用户返回Success消息。A、正确B、错误答案:B47.GaussDB200数据导出操作不支持导出数据到HDFS文件系统。A、正确B、错误答案:A48.ElasticSearch倒排索引是通过关键词查询对应的文档编号,再通过文档编号找文档。A、正确B、错误答案:A49.Kettle中有两种脚本文件transformation(转换ktr结尾)和job(任务kjb结尾)。A、正确B、错误答案:A50.ElasticSearch作为全文检索的引擎,其功能强大,也可以作为NoSQL数据库使用,能满足海量数据存储的需要,也满足主键和多级索引的实时查询。A、正确B、错误答案:A不定项选择(总共50题)1.KafkaConsumer在跟踪消费记录时,需要以下哪几个选项的信息?()A、partitionB、offsetC、producerD、topic答案:ABD2.以下哪些是离线批处理的特点?()A、处理数据格式多样B、支持SQL类作业和自定义作业C、处理数据量巨大D、处理时间要求高答案:ABC3.以下哪些是HDFS的核心组件?()A、ClientB、NameNodeC、DataNodeD、Product答案:ABC4.大数据技术在我们身边应用的越来越广,以下场景中有哪些场景可以应用大数据技术?()A、游戏画面实时刷新B、广告精准营销C、道路智能规划D、人物国像答案:ABCD5.HBase中包含哪些基本的概念?()A、RowKeyB、tableC、NamespaceD、ColumnFamily答案:ABCD6.HBase中包含的典型的Filter有以下哪几项?()A、RowFilterB、FilterListC、SingleColumnValueFilterD、KeyOnlyFilter答案:ABCD7.HBase架构中包含哪些?()A、HMasterB、HRegionServerC、ClientD、ResourceManager答案:ABC8.Kafka每个Partition在物理上对应的文件夹下存储哪些文件?()A、素引文件B、配置文件C、用户文件D、消息文件答案:BC9.某大数据运维人员需要将部分数据导入Hive数据表中,以下哪些做法是可取的?()A、将数据导入到FTP服务器中,通过创建外表的方式导入到Hive表中B、将数据导入到集群服务器上,通过loaddatalocal命令导入到Hive表中C、将数据导入到HDFS文件系统中,通过loaddata命令导入到Hive表中。D、将数据导入到本地电脑中,然后使用loaddatalocal命令导入到Hive表中答案:AC10.常用的数据结构类型是?()A、结构化数据B、无结构化数据C、半结构化数据D、非结构化数据答案:ACD11.在哪些场景下不能使用HBase作为存储系统()?A、需要ACID特性B、海量数据存储C、主键查询D、大文件,视频等答案:AD12.ElasticSearch用于日志搜索和分析,离不开其拥有的生态圈系统和解决方案,这些开源软件之间互相配合使用,完美衔接,高效地满足了很多场景的应用。那么其生态圈系统具体包括以下哪些内容?()A、数据接入层LogstashB、用户接入层KibanaC、插件扩展层D、数据持久化与分析层Elasticsearch答案:ABCD13.按照应用类型,Flink窗口可以划分为以下哪几种?()A、事件窗口B、容量窗口C、滚动窗口D、时间窗口答案:ACD14.实时检索解决方案支持的数据采集有哪些?()A、LoaderB、SparkC、GraphBase导入工具D、SparkStreaming答案:ABCD15.关于HDFS中NameNode的作用描述的正确的选项是()。A、处理客户端读写请求B、配置副本策略通常为3份C、管理HDFS的名称空间(NameSpace)D、执行数据块的读/写操作答案:ABC16.以下关于Transformation的说法正确的是?()A、它的返回值还是一个RDDB、是RDD的算子类型C、属于懒操作D、map(func)属于Transformation答案:ABCD17.Flume由哪三部分组成?()A、MasterB、SinkC、SourceD、Channel答案:BCD18.Spark的应用场景有哪些?()A、迭代计算B、数据挖掘C、流式处理D、查询分析答案:ABCD19.以下哪些属于大数据存储与管理技术?()A、HDFSB、HBaseC、TezD、Durid答案:AB20.以下哪些不是ElasticSearch的特点()。A、边写边读B、低性能C、倒排素引D、不可扩展伸缩答案:BD21.以下关于Loader特点描述正确的是?()A、图形化:提供UI图形化配置、监控界面,操作便捷。B、安全认证:Kerberos认证作业权限管理。C、高性能:利用MapReduce并行处理数据。D、高可靠:LoaderServer采用主备双机作业通过MapReduce执行,支持失败重试。作业失败后,不会残留数据。答案:ABCD22.HBASE中HMaster主要负责什么?()A、表的增删改查B、用户数据读写C、Region分布调整D、RegionServer负戴均衡答案:ACD23.实时检索解决方案能够满足哪些需求()?A、多级索引查询B、图查询C、查询延迟很大D、文档检索E、海量数据存储答案:ABDE24.Hive特性包括哪些?()A、易用易编程B、灵活方便的ETL(extract/transform/load)。C、可直接访问HDFS文件以及HBase。D、支持MapReduce、Tez、Spark等多种计算引擎。答案:ABCD25.所谓
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 脑梗康复治疗方法
- 医疗设备维护保养培训
- 2022-2023学年广东省深圳市宝安区三年级(上)期末英语试卷
- 中班多彩的云活动教案
- 篮球知识体系培训
- 大班主题教案及教学反思《顽皮的影子》
- 中班科学教案:会爬的动物
- 一年级上册数学教案-5.2.1 8和9的认识∣人教新课标
- 《医疗机构特殊医学用途配方食品管理与使用评价技术规范》编制说明
- 教育教学工作的意见和建议1
- 北京市东城区2023-2024学年高三上学期期末统一测试英语试卷 含解析
- 2024年中科院心理咨询师官方备考试题库-上(单选题)
- 【S村剩余劳动力转移的情况调查报告4000字(论文)】
- 《“119”的警示》教学设计+学习任务单道德与法治2024-2025学年三年级上册统编版
- 2024年海南省中考数学试题卷(含答案解析)
- 油气开发地质学智慧树知到答案2024年中国地质大学(武汉)
- 腰椎术后脑脊液漏的护理
- (2024)全国青少年“学宪法、讲宪法”竞赛题库及答案
- 辽宁省2024年中考英语真题【附真题答案】
- 办公家具供货安装、保障实施及售后服务 投标方案(技术方案)
- 八年级上册(2024修订) 第四单元 整本书阅读 《红岩》导读课公开课一等奖创新教学设计
评论
0/150
提交评论