大数据华为认证考试(习题卷3)

上传人：w*** IP属地：重庆上传时间：2023-11-15 格式：DOCX 页数：67 大小：73.38KB 积分：3.6 举报 版权申诉

已阅读5页，还剩62页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试卷科目：大数据华为认证考试大数据华为认证考试(习题卷3)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据华为认证考试第1部分：单项选择题，共121题，每题只有一个正确答案,多选或少选均不得分。[单选题]1.表设计时选择分布列的原则包括：（）。A)作为分布列的字段尽量聚集B)选择查询中关联条件作为分布列C)尽量选择在查询中存在形如col=10001过滤条件的字段[单选题]2.关于Kafka磁盘容量不足的告警，对于可能的原因以下分析不正确的是:（）。A)业务规划不合理，导致数据分配不均，使部分磁盘达到使用率上限B)Broker节点故障导致C)数据保存时间配置过长，数据累计达到磁盘使用率达到上限D)用于存储Kafka数据的磁盘配置，无法满足当前业务数据流量，导致磁盘使用率达到上限[单选题]3.离线批处理常用的组件不包括哪个?（）A)SparkB)StormC)MapReduceD)Hive[单选题]4.在DRS中，以下迁移任务命名错误的是:（）。A)ABCedB)ab-cdC)abcd001D)abcd#001[单选题]5.StructuredStreaming不支持以下哪种计算时间?()A)处理时间B)事件时间C)结束时间D)注入时间[单选题]6.以下哪项不提供交互式查询服务？()A)PrestoB)ImpalaC)EchartD)Kylin[单选题]7.下列哪段代码是用于判断ElasticSearch索引是否存在?（）A)publicbooleanisExistsIndex(StringindexName){IndicesExistsResponseresponse=getAdminClient().prepareExists(indexName).get()；returnresponse.isExists()?true：false；}B)publicbooleanisExistsIndex(StringindexName){IndicesExistsResponseresponse=getAdminClient().prepareExists(indexName)；returnresponse.isExists()?true：false：}C)publicbooleanisExistsIndex(StringindexName){IndicesExistsResponseresponse=getAdminClient().prepareExists(indexName).get()；retumresponse:}D)publicbooleanisExistsIndex(StringindexName){IndicesExistsResponseresponse=getAdminClient().get()：Returnresponse.isExists()?true：false.}[单选题]8.下面哪个Flume功能可以给Event添加Header信息。（）A)SelectorB)ChannelC)InterceptorD)Sink[单选题]9.Hbase的某张表的RowKey划分Splitkey为9.E.a.z.请问表里面有（）个Region。A)6B)5C)4D)3[单选题]10.HDFS创建目录过程中，通过调用FileSystem实例的()方法查看该目录是否存在。（）A)existsB)mkdirsC)findD)create[单选题]11.哪个选项不是实时检索解决方案的典型业务特点?（）A)查询条件简单B)查询速度快C)统计类查询D)高并发[单选题]12.下面（）不是二进制类型。A)BLOBB)RAWC)BYTEAD)TEXT[单选题]13.当Spark发生Shuffle时，MapTask的运算结果会通过（）的形式把运算结果分发到对应的任务上去。()A)序列化B)键值化C)二进制D)RDD[单选题]14.考虑以下场景，当公安人员需要根据某犯罪人员发现其犯罪同伙时，最适合使用下列哪个工具?()A)GraphBaseB)HBaseC)HDFSD)ElasticSearch[单选题]15.通过createTable方法来创建一张表，必须传入的参数为（）？A)表名B)表名和列C)表名和FamilyD)可以为空[单选题]16.DWSDN的高可用架构是：（）。A)主备从架构B)一主多备架构C)两者兼有D)其他[单选题]17.下列对图数据库描述正确的是?（）A)以?图?数据结构存储和查询数据的数据库B)存储图片的数据库C)与关系型数据库类似的数据库D)数据仓库的一种[单选题]18.在GaussDB200中，关于Schema和Database，下面说法正确的是()?A)二者都能实现资源隔离。B)Database之间无法直接访问，但通过权限授予可以访问数据。C)相比于Database，Schema的隔离更加的彻底。D)Schema和用户强相关的，通过权限控制语法可以实现不同用户对各Schema的权限。[单选题]19.solr的客户端与集群时间差默认不小于（）A)1分钟B)5分钟C)10分钟D)15分钟[单选题]20.DAYU重跑作业实例时，不属于重跑开始位置是:（）。A)从错误节点开始重跑B)从指定的节点开始重跑C)从第一个节点开始重跑D)从上一个实例的节点开始跑[单选题]21.创建一个存储过程proc_addCREATEORREPLACEPROCEDUREproc_add(param1inINTEGER，param2outINTEGER，param3inINTEGER)ASBEGINParam2：=param1+param3;END;,创建一个存储过程proc_testCREATEORREPLACEPROCEDUREproc_test(resultoutINTEGER)AsDECLAREInput1INTEGER：=1;Input2INTEGER：=2;StatementVARCHAR2(200)：Param2INTEGER：BEGIN--声明调用语句Statement：=?callproc_add(：co1_1，：co1_2，：co1_3)?；--执行语句EXECUTEIMMEDIATEstatementUSINGINinput1，OUTparam2，INinput2;Result：=param2;END;执行语句callproc_test(10)，结果是()。A)3B)无返回值C)4D)2[单选题]22.对于Hive中关于普通标和外部表描述不正确的是:（）。A)默认创建普通表B)删除外部表时，只删除外部表数据而不删除元数据C)外部表实质上是将已存在的HDFS文件路径与表关联起来D)删除普通表时，元数据和数据同时被删除[单选题]23.某项目小组接到一个大数据实时分析项目，且对实时性要求很高。请问以下哪种大数据计算框架最合适?(）A)MapReduceB)HRaseC)SparkD)Flink[单选题]24.MapReduce任务最终是在下列（）中被执行的。A)NodeManagerB)containerC)ResourceManagerD)AppMaster[单选题]25.关于FusionInsightHDStreaming的Supervisor描述正确的是:（）。A)Supervisor负责资源的分配和任务的调度B)Supervisor负责接受Nimbus分配的任务，启动停止属于自己管理的Worker进程C)Supervisor是运行具体处理逻辑的进程D)Supervisor是在Topology中接收数据然后执行处理的组件[单选题]26.Hive中的解释器(complier)、优化器(optimizer)、执行器(executor)组件用于HQL语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在()中，并在随后由()调用执行。()A)内存、MapReduceB)HDFS、YarnC)HBase、YarnD)HDFS、MapReduce[单选题]27.Flink不包含以下哪些数据处理场景?（）A)高可靠性B)图形分析C)毫秒级低时延D)高并发[单选题]28.YARN服务中，如果要给队列QuqueA设置容量为30%，应该配置（）参数。A)yarn.scheduler.capacity.root.QueueA.user-limit-factorB)yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percentC)yarn.scheduler.capacity.root.QueueA.capacityD)yarn.scheduler.capacity.root.QueueA.state[单选题]29.Kafka中数据从Producer到Broker和Broker到Consumer分别是哪种传递方式?()A)push，pushB)pull，pullC)pull，pushD)push，pull[单选题]30.对于HBaseKeyValue存储模型描述不正确的是?（）A)同一个Key值只能关联一个ValueB)拥有时间戳、类型等关键信息C)KeyValue具有特定的格式D)时间戳来区分多个记录版本[单选题]31.采集数据字典首先应该（）。A)启动extractorB)对数据库用户授权C)配置连接信息D)安装驱动包[单选题]32.关于Hive建表基本操作，描述正确的是:（）。A)一旦表建好，不可再修改表名B)一旦表建好，不可再增加新列C)创建外表时需要指定external关键字D)一旦表建好，不可再修改列名[单选题]33.创建存储过程，CREATEORREPLACEPROCEDUREproc_whi1e_1oop(maxvalininteger)ASDECLAREIint：=maxval/2；BEGINWHILEi<maxvalLOOPRaiseinfo'%'，i；I：=i+1；ENDLOOP：END：下面循环语句在Messages内的输出是（）CALLproc_while_loop(9)；A)5678B)456789C)56789D)45678[单选题]34.哪个不是StructuredStreaming中OutPut可以定义的存储方式?（）A)UpdateModeB)JDBCModeC)CompleteModeD)AppendMode[单选题]35.关于FusionInsightmanager界面Hive日志收集的描述中不正确的是:（）。A)可以指定实例进行日志收集B)可以指定节点IP进行收集C)可以指定用户进行日志收集D)可以指定时间段进行日志收集[单选题]36.下列代码的作用是?()StringgraphName=?graphbase?;Api.createGraph(graphName)；A)创建图B)获得图C)删除图D)修改图[单选题]37.solr中定义以下哪种字段支持后期自定义增加字段（）A)dynamicFieldB)copyFieldC)FieldD)以上都是[单选题]38.以下哪个不是离线批处理的核心诉求?（）A)处理数据格式多样B)处理数据量巨大C)支持SQL类作业和自定义作业D)处理时间要求高[单选题]39.Flume的高级组件不包含以下哪个?()A)SinkProcessorB)ChannelInterceptorC)ChannelSelectorD)SourceInterceptor[单选题]40.对融合数仓解决方案描述正确的是？（）A)数仓与大数据的并行架构B)低成本高扩展性的传统数仓架构C)以数仓为核心，大数据平台为延伸的融合架构D)大数据平台为核心的架构[单选题]41.对ElasticSearch检索流程描述正确的是?（）A)检索节点汇总结果发送给客户端B)分片节点汇总结果发送给客户端C)检索节点不需要汇总结果直接把结果发送给客户端D)分片节点不需要汇总结果直接把结果发送给客户端[单选题]42.Kafka集群中，Kafka服务端的角色是:（）。A)BrokerB)ConsumerC)ZookeeperD)Producer[单选题]43.下列选项中，关于Zookeeper可靠性含义说法正确的是:（）。A)可靠性通过主备部署模式实现B)可靠性是指更新只能成功或者失败，没有中间状态C)可靠性是指无论哪一个server，对外展示的均是同一个视图D)可靠性是指一个消息被一个server接受，它将被所有的server接受[单选题]44.下列关于GaussDB200的局部聚簇技术说法正确的是()?A)PCK通过min/max稀疏索引实现事实表快速过滤扫描。B)局部聚簇在某些场景下可以提交检索效率，所以在创建表时根据业务场景应创建多个PCK。C)局部聚簇技术可以应用在GaussDB200的所有表中。D)PCK对应的列尽量不要为空值。[单选题]45.第三次信息化浪潮标志不包含以下哪项?()A)互联网B)云计算C)大数据D)物联网[单选题]46.假设现在要做一个可以根据线索指导运维人员进行排障的功能，你建议选择下列哪个工具实现该功能?()A)LuceneB)HBaseC)ElasticSearchD)GraphBase[单选题]47.决策树中不包含:（）结点。A)根结点（rootnode）B)内部结点（internalnode）C)外部结点（externalnode）D)叶结点（leafnode）[单选题]48.传统处理数据的数据规模的单位是:（）。A)TBB)EBC)PBD)GB[单选题]49.SDK是消费者在调用API时，需要在请求Header头中添加身份认证信息，而这个操作比较繁琐，故我们为使用者提供了SDK，简化用户操作。目前华为SDK支持:（）种语言的支持。A)7B)8C)9D)10[单选题]50.DLI支持以下（）字符码的数据。A)UTF-8B)ASCIIC)GB2312D)Base64[单选题]51.关于HDFS的文件块的描述不准确的是?（）A)文件块越大寻址时间越短。B)文件块(片)被存在哪个集群；谁有权限查看、修改这个文件等信息放在元数据Metadata中C)文件块的大小设置原则：最大化寻址开销。D)HDFS文件块的大小在1.0版本时是64M，在2.0的时候是128M。[单选题]52.以下哪项是Spark2.x程序统一入口?()A)StreamingContextB)SqlContextC)HiveContextD)SparkSession[单选题]53.哪种不是Flink提供的部署方式?（）A)ClusterB)CloudC)VMD)Local[单选题]54.Flume当前不支持的source有（）A)HDFSsourceB)avrosourceC)HTTPsourceD)Kafkasource[单选题]55.数据库利用（）进行死锁检测。A)DAGB)RPCC)WFGD)DLC[单选题]56.下列关于Flinkbarrieer描述错误的是：（）。A)一个barrier将本周期快快照的数据与下一个周期快照的数据分隔开来B)barrier是Flink快照的核心C)在插入barrier的时候，会暂时阻断数据流D)barrier周期性插入到数据流中，并作为数据流的一部分随之流动[单选题]57.Hadoop系统中YARN资源的抽象是用:（）表示。A)内存B)CPUC)ContainerD)磁盘空间[单选题]58.关于HDFS的文件写入，正确的是（）A)支持多用户对同一文件的写操作B)用户可以在文件任意位置进行修改C)默认将文件块复制成三份存放D)复制的文件块默认都存在同一机架上[单选题]59.若要修改HBase表，下列API哪个最先被调用?()A)createConnection()B)getAdmin()C)getTable()D)getConnect()[单选题]60.以下（）组件负责生成和维护全局事务ID、事务快照、时间戳等全局唯一信息。A)GTMB)WLMC)CND)DN[单选题]61.网站在运营过程中，会有用户访问并产生行为数据，要想对这些数据进行处理挖掘，如果是离线批处理下的方案配置，描述不正确的是()A)数据导入导出，LoaderB)数据采集传输:F1umeC)数据计算，StormD)数据存储.HDFS或MySql[单选题]62.在线迁移同步过程中可能因数据冲突、数据加工、异构类型转化、对象缺失等因素导致数据异常，用户可以通过?异常数据?页签查看，以帮助异常写入的排查。下列同步过程中，支持异常诊断的是:（）。A)Postgres->GaussDBB)Oracle->RDSforMySQLC)Mysql->GaussDB(forMySQL)D)Postgres->GaussDB[单选题]63.对于运行在MapReduce平台上的应用程序，此应用程序所依赖的jar包会被放到（）。A)HIVEB)HBASEC)HDFSD)DB[单选题]64.HDFS基本系统架构中，副本配置通常存储()份?A)1B)4C)3D)2[单选题]65.Kafka的核心架构不包含?（）A)SplitB)ProducerC)ConsumerD)Broker[单选题]66.以下关于HDFS适合做什么描述正确的是？()A)低延迟读取B)大文件存储C)大量小文件存储D)随机写入[单选题]67.用来清理残留事务的工具是：（）。A)gs_cleanB)gs_gucC)gs_dumpD)gs_ctrl[单选题]68.下列哪个选项可以用来判断HBase表是否存在?（）A)admin.tableExists(tableName)B)admin.tableExists(TableName.value0f(tableName))C)admin.getTable(tableName)D)tables.containsKey(tableName))[单选题]69.下列（）命令是删除文件。A)dfs-clearB)dfs-lsC)dfs-rmD)dfs-del[单选题]70.华为8.0数据中台架构贴源层数据存储产品是：（）。A)MRSB)GBase8AC)DWSD)DAYU[单选题]71.Loader页面是基于开源()的图形化数据迁移管理工具()A)HadoopB)HueC)KettleD)Sqoop[单选题]72.以下哪些选项不属于大数据时代到来的必要条件?（）A)超级计算机的出现B)存储设备容量提升C)网络带宽提升D)CPU计算性能提升[单选题]73.HDFS集群跟目录下存在一个文件text.txt,下列（）命令可以查到此文件所存储的DatNode节点信息。A)hdfsfsck/test.txt-filesB)hdfsfsck/text.txt-locationsC)hdfsfsck/test.txt-blocksD)hdfsfsck/test.txt-list-corruptfileblocks[单选题]74.硬件故障被认为是常态，为了解决这个问题，HDFS设计了副本机制，默认情况下，一份文件，HDFS会存放（）份。A)3B)5C)2D)1[单选题]75.Insert事务使用的锁模式是：（）。A)AccessShareLockB)RowExclusiveLockC)ShareUpdateExclusiveLockD)ExclusiveLock[单选题]76.下来（）Redis命令属于原子操作。A)INCR（将储存的数字值增一）B)HINCRBY（为哈希表key中的域field的值加上增量increment）C)LPUSH（对链表的push操作）D)以上都是[单选题]77.kafka-clustermirroring工具可以实现（）功能。A)kafka集群数据同步方案B)kafka单集群内数据备份C)kafka单集群内数据恢复D)以全部不对[单选题]78.下面关于GaussDB200的跨集群协同分析，说法正确的是（）？A)跨集群所指的集群是GaussDB集群。B)跨集群过程中只需要输入集群IP地址和端口就可以访问其他集群的数据。C)跨集群协同分析支持SQL算子下推。D)跨集群协同分析时其他集群会将要查询的数据移动到目标集群，供目标集群查询。[单选题]79.以下哪项属于Flume的基础数据单位？()A)ObjectB)TopicC)EventD)Subject[单选题]80.数据订阅功能将数据库中关键业务的数据变化信息缓存并提供统一的SDK接口，方便下游业务订阅、获取、并消费,关于数据订阅服务开发环境使用的JAVA版本SDK版本，描述正确的是:（）。A)JDK1.5以上版本B)JDK1.8以上版本C)JDK1.7以上版本D)JDK1.6以上版本[单选题]81.ElasticSearch的核心概念不包含哪个?（）A)TypeB)IndexC)DocumentD)DataBase[单选题]82.样例工程solr-example\conAperties中ZKJJRL和ZOOKEEPER_DEFAULT_SERVER_PRINCIPAL的值可以从（）获得到。A)SolrAdminUlDashboardJVM面板B)该配置文件中自带C)从FusionlnsightManagerSolr服务配置页面获取D)A、C选项均可获取[单选题]83.查询集合操作中，表示交集的是：（）。A)INTERSECTB)MINUSC)EXECPTD)UNION[单选题]84.Kafka集群在运行期间，直接依赖于下面那些组件?（）A)ZookeeperB)SparkC)HDFSD)HBase[单选题]85.在HBase写数据的业务逻辑实现过程中，如下（）接口或类是不需要涉及的。A)PutB)HTableC)HBaseAdminD)PutList[单选题]86.执行引擎的类型包括：（）。A)行执行引擎B)向量化执行引擎C)行列混合执行引擎D)以上都是[单选题]87.关于Streaming的拓扑(Topology),下面描述错误的是:（）。A)一个Topology是由一组Spout组件和Bolt组件通过StreamGroupings进行连接的有向无环图（DAG）B)Topology会一直运行,直到它被显式killC)业务逻辑都被封装Topology中D)一个Topology只可以指定启动一个Worker进程[单选题]88.当一个MapReduce应用程序被执行时，如下（）动作是map阶段之前发生的。A)splitB)combineC)partitionD)sort[单选题]89.数据质量支持从完整性、（）、及时性、一致性、准确性、唯一性六个维度进行单列、跨列、跨行和跨表的分析。自定义质量规则时，请对此规则进行维度匹配。A)交叉性B)共享性C)时效性D)有效性[单选题]90.以下关于DataNode的描述不正确的是?（）A)DataNode执行数据块的读/写操作。B)DataNode管理数据块元数据。C)DataNode的数量受数据规模影响。D)DataNode是用来存储数据块。[单选题]91.在GaussDB200中常用的逻辑操作符有AND、OR和NOT，它们之间的运算优先级顺序为（）？A)NOT>OR>ANDB)NOT>AND>ORC)OR>AND>NOTD)AND>OR>NOT[单选题]92.关于Redis集群拓扑信息，下面描述正确的是:（）。A)客户端缓存有集群的拓扑信息B)服务端缓存有集群的拓扑信息C)两者都是D)两者多不是[单选题]93.DAYU数据开发中，以下不属于作业优先级是:（）。A)高B)中C)极高D)低[单选题]94.关于GaussDB200，下列说法正确的是()?A)支持并行架构，行列混存。B)部署的服务器都必须是华为定制的。C)支持多节点，但扩展性差。D)支持master/slave架构，可靠性强[单选题]95.当前传统关系型数据库主要面临的挑战是()?A)数据量爆炸式增长，要求数据处理平台具备弹性扩展能力。B)数据处理时效性需求提高，要求数据处理平台速度够快。C)多类型数据融合，要求数据处理平台功能更加强大。D)以上全都正确。[单选题]96.DAYU数据开发中，新建SQL脚本支持新建（）SQL脚本A)OracleSQL脚本B)DWSSQL脚本C)MySqlSQL脚本D)MongoDBSQL脚本[单选题]97.Hbase元数据MetaRegion路由器信息存放在（）。A)ZookeeperB)Meta表C)HMasterD)Root表[单选题]98.DAYU批量数据迁移（CloudDataMigration）提供（）数据源之间批量数据迁移服务，帮助您实现数据自由流动。A)同构B)异构C)同构/异构D)架构[单选题]99.Spark的中间数据放在()中，对于迭代运算的效率更高，进行批处理时更高效.（）A)SparkCoreB)磁盘C)HDFSD)内存[单选题]100.Action是RDD的算子的一个类型，不可以将结果写入（）A)磁盘B)HDFSC)数据库D)CPU[单选题]101.某学生正在学习ElasticSearch，请你帮他分析下，下列代码的作用是什么?（）StringjsonString=?(?+＼?name＼?：＼?ElasticsearchReference＼?，?+?author＼?：＼?AlexYang＼?，?+pubinfo＼?：＼?Beijing，China.＼?，?+?＼?pubtime＼?：＼?2016-07-16＼?，?+?\?desc＼?：\?Elasticsearchisahighlyscalableepen-sourcefull-textsearchandanalyticsengine.\??+?)?；Map<String，String>params=Collections.singletonMap(?pretty?，?true?)，HttpEntityentity=newNStringEntity(jsonString、ContentType.APPLICATION_JSON)；Responseresponse=restClient.performRequest(?PUT.?/?+index+?/?+type+?/?+id,params,entity)；A)更新索引B)插入数据，创建索引C)创建数据D)插入数据，更新索引[单选题]102.离线批处理工具不包含以下哪项?（）A)MapReduceB)SQLC)StormD)Spark[单选题]103.下列不属于CDM支持的文件增量迁移方式的是:（）。A)增量导出全部新增的文件B)增量导出指定大小的文件C)增量导出指定时间以后的文件D)增量导出指定目录的文件[单选题]104.创建Loader作业时，可以在以下（）步骤中设置Map数。A)输出B)输入设置C)转换D)基本信息[单选题]105.HBase的物理存储单元是什么?（）A)RegionB)ColumnFamilyC)ColumnD)Row[单选题]106.Flink中的DataStream数据流转不包含以下哪项?()A)DatasinkB)DatasourceC)TransformationsD)Actions[单选题]107.以下关于Kafka消息消费者Consumer读取消息描述错误的是:（）。A)consumer使用offset来记录读取位置B)Kafka的一个Topic可以理解为一个队列，即一个消息C)生产者产生的消息逐条放到Topic尾部D)消费者从右至左读取消息[单选题]108.下列哪个不是Explain的关键字()?A)TablescanB)HashJoinC)FilterD)Seqscan[单选题]109.通过HDFS的Shell命令来操作HDFS，表示删除文件的命令是？()A)hdfsdfs-catB)hdfsdfs-rmC)hdfsdfs-mkdirD)hdfsdfs-put[单选题]110.创建分支语句如下，CREATEORREPLACEPROCEDUREproc_case_branch(pi_resultininteger，pi_returnoutinteger)ASBEGINCASEpi_resultWHEN1THENPi_return：=1；WHEN2THENPi_return：=3：WHEN3THENPi_return：=5；WHEN6THENPi_return：=7；WHEN7THENPi_return：=9：ELSEPi_return：=0：ENDCASE：Raiseinfo'pi_return：%'，pi_returnEND：执行如下语句CALLproc_case_branch(3，2)的返回结果是()A)4B)3C)5D)2[单选题]111.假设每个用户最低资源保障设置为yarn，scheduler，capacity，root，QueueA.minimum-user-limit-percent=24。则以下说法错误的是：（）。A)第3个用户提交任务时，每个用户最多获得33.33%的资源B)第2个用户提交任务时每个用户最多获得50%的资源C)第4个用户提交任务时，每个用户最多获得25%的资源D)第5个用户提交任务时，每个用户最多获得20%的资源[单选题]112.关于创建api，以下描述正确的是:（）。A)创建api只能通过脚本模式创建B)创建api只能通过向导模式创建C)创建api可以通过脚本模式和向导模式两种方式创建D)以上说法均不正确[单选题]113.进行场景迁移的前提条件说法错误的是:（）。A)该用户必须拥有管理员权限B)已获取待连接数据源的用户名C)已获取待连接数据源的密码D)已获取待连接数据源的地址[单选题]114.在决策树创建时，由于数据中的噪声和离群点，许多分枝反映的是训练数据中的异常,（）方法处理这种过分拟合数据问题。A)小波B)调和C)剪枝D)回归[单选题]115.分析应用计算后的分析主题数据存储在：（）。A)贴源层B)共享层C)分析层D)整合明细层[单选题]116.Hive创建()时，会将数据移动到数据仓库指向的路径;创建()，仅记录数据所在的路径，不对数据的位置做任何改变()A)内部表、外部表B)内部表、元数据C)原元数据、外部表D)外部表、托管表[单选题]117.ume中的JDBCChannel内置数据库是哪个？()A)MySqlB)SqlServerC)DerbyD)Oracle[单选题]118.FusionInsightManager用户权限管理不支持（）配置。A)给用户配置角色B)给用户组配置角色C)给角色配置权限D)给用户组配置权限[单选题]119.HBase不支持哪些SQL操作？()A)HiveSQLB)SparkSQLC)MySQLD)PhoenixSQL[单选题]120.哪个产品适应于OLAP场景?（）A)PostgresSQLB)SQLServerC)MySQLD)GaussDB200[单选题]121.以下哪种Hive的方法可以用来对数据求和?（）A)trimB)dataC)avgD)sum第2部分：多项选择题，共82题，每题至少两个正确答案,多选或少选均不得分。[多选题]122.如下的几个分析平台可以运行在YARN框架上的有？（AB）A)SparkB)MapReduceC)Streaming[多选题]123.HDFS的应用开发中，下列()是HDFS服务支持的接口。A)BufferedOutputStreamwriteB)BufleredOutputStream.flushC)FileSystem.createD)FileSystem.append[多选题]124.在DRS的标签管理服务中，下列存在的功能有：()。A)添加标签B)编辑标签C)备份标签D)删除标签[多选题]125.API网关是：华为云提供的一个API托管的应用服务，API网管包括的功能有：()。A)API全生命周期的管理B)权限控制C)访问控制D)流量控制[多选题]126.HBase架构中包含哪些？（）A)HMasterB)HRegionServerC)ClientD)ResourceManager[多选题]127.Loader提供了()方式或接口实现作业管理。A)WebUIB)Linux命令行C)Rest接口D)JavaAPI[多选题]128.以下属于控制算子的有：()。A)HashJoinB)AppendC)AggD)RecursiveUnoin[多选题]129.关于HDFS中NameNode的作用描述的正确的是?()A)管理HDFS的名称空间(NameSpace)B)配置副本策略通常为3份C)处理客户端读写请求D)执行数据块的读/写操作[多选题]130.Flume的高级组件有哪些?（）A)SinkProcessorB)ChannelSelectorsC)AvrosourceD)SourceInterceptor[多选题]131.华为云数据湖探索（DataLakeInsight,DLI）支持()任务的作业管理。A)ImpalaB)SQLC)FlinkD)Spark[多选题]132.GraphBase数据底层可以存储在哪里？（）A)HBaseB)MySQLC)HDFSD)ElasticSearch[多选题]133.DRS在线迁移支持数据库中，包含：()。A)Mysql数据库B)Postgres数据库C)MongoDB数据库D)Oracle数据库[多选题]134.以下哪些是Hive支持的表类型？A)分区表B)分桶表C)倾斜表D)外部表[多选题]135.一个应用需要同时和两个Fusioninsight集群交互：既需要访问集群1的HBase服务，又需要访问集群2的Hive服务；()操作是必须的。A)在集群1上创建本应用所需的账号，并设置此账号能访问本集群的HBase服务B)在集群2上创建A选项中的同名账号，并设置此账号能访问本集群的Hive服务C)A选项和B选项所创建的账号都必须属于supergroup组D)集群1和集群2完成互信操作[多选题]136.以下能表示为布尔类型?真?值的是：()。A)TRUEB)'t'C)'true'D)'y'[多选题]137.StructuredStreaming中通过什么机制，解决数据的无序和滞后问题?()A)watermark机制B)持续查询C)流连接D)事件时间[多选题]138.对GaussDB200集群管理模块(CM)描述不正确的是?（）A)负责接收来自应用的访问请求B)负责存储数据C)全局事务管理D)由CMAgent、OMMonitor和主备CMServer组成[多选题]139.FusionInsightHD系统中Hive支持的存储格式包括：()。A)TextFileB)SequenceFileC)RCFileD)Hfile[多选题]140.YARN中从节点主要负责()工作。A)集群中所有：资源的统一管理和分配B)监督container的生命周期C)监控每个Container的资源使用情况D)管理日志和不同应用程序用到的附属服务[多选题]141.F1ume中的Source工作方式可以分为以下哪几种?()A)广播B)轮询C)中断D)驱动[多选题]142.行存表相比于列存表的区别是()?A)行存表面向百万级以下数据量，列存表面向千万级以上数据量。B)行存表适合数据更新，列存表适合做数据聚合。C)行存表按行存储数据，列存表按列存储数据。D)同样的数据，采用行存表存储比列存储所耗的时间更少。[多选题]143.Hive支持下列()类型。A)分区表B)分桶表C)倾斜表D)分区+分桶表[多选题]144.大数据场景化解决方案包含以下哪些选项？()A)实时检索B)实时流处理C)离线检索D)离线批处理[多选题]145.以下选项对GraphBase概念描述正确的是?()A)Edge：边，用于表示关系度B)VertexLabel：节点的标签，用于表示现实世界中的实体类型C)Vertex：节点/顶点，用于表示现实世界中的实体对象D)EdgeLabel：边的标签，用于表示现实世界中的关系类型[多选题]146.下列关于无共享Master架构的特点描述正确的有：()。A)所有：节点对等B)可通过任意节点查询或加载数据C)不存在单点性能瓶颈和单点风险D)无法保证数据一致性[多选题]147.Flink支持的时间操作类型包括：以下()选项。A)结束时间B)处理时间C)采集时间D)事件时间[多选题]148.以下哪些选项属于离线批处理的特点?（）A)数据不落地、存储量不大B)处理数据量相对较大C)处理时间相对较长D)数据吞吐量较大[多选题]149.HBase读写用户表数据时需要下列哪些角色参与?()A)RegionServerB)HMasterC)ZooKeeperD)Region[多选题]150.关于FusioninsightHD的Spark,()编程语言可以用来开发Spark应用。A)CB)ScalaC)JavaD)Python[多选题]151.下面关于FusionInsightLibrA权限授予的描述正确的有：()。A)权限授予最小化，只需要SELECT权限的不需要授予其他权限B)不要为了方便随便授予ALLPRIVILEGES权限C)谨慎授予可能改变表内容的操作（update、insert）权限D)管理好权限周期，超过时间及时使用REVOKE回收权限[多选题]152.在哪些场景下不能使用HBase作为存储系统（）？A)需要ACID特性B)海量数据存储C)主键查询D)大文件，视频等[多选题]153.DWS支持的隔离级别包括：()。A)读已提交B)读未提交C)可重复读D)可串行化[多选题]154.以下哪些选项是Kafka的特点?()A)高吞吐B)支持消息随机读取C)分布式D)消息持久化[多选题]155.Flume进程级联时，()sink类型用于接收上一跳Flume发送过来的数据。A)avrosinkB)thriftsinkC)HDFSsinkD)NullSink[多选题]156.Hbase中以下()场景会触发Flush操作。A)Hbase定期刷新MetaStore，默认周期为1小时B)当WALs中文件数量达到阈值C)Region中MetaStore的总大小达到了预设的FlushSize阈值D)MetaStore占用内存的总量和RegionServer总内存比值超出了预设的阈值大小[多选题]157.以下哪些是HDFS的核心组件?（）A)ClientB)NameNodeC)DataNodeD)Product[多选题]158.对于GaussDB200的数据并行导入策略Norma1，下列说法错误的是()?A)导入的效率和GDS服务器有关，GDS服务器越多，导入效率越快。B)数据导入时，支持单行数据大小小于1GB。C)通过GDS服务的方式实现数据并行导入。D)能够将数据库的数据、表结构都导入。[多选题]159.下列哪些选项不是HBase为null的列不占用存储空间的原因?()A)列存储B)Key-Value结构C)Region分裂D)行存储[多选题]160.实时流处理特点包含以下哪些？()A)支持SQL类作业B)处理时间要求较高C)每秒处理数据量PB级D)任务优先级高[多选题]161.实时场景的典型特点是?（）A)数据量大B)数据格式多C)时延要求高D)交互式查询[多选题]162.以下哪些是hive支持的文件格式？A)RCFileB)ORCC)HFileD)TextFile[多选题]163.在公安领域的大数据批量离线处理平台中，以下描述准确的是()A)不同的数据来源可以整理后划分实时数据、增量文件、全量文件和数据库等。B)数据来源可以按照结构或类型分为：视频/图像数据，文本数据，数据库中数据等。C)数据来源包括公安系统、社会系统、互联网系统、其他如运营商系统等。D)经过整理后的原始数据可以根据业务主题，分为基本信息、交往圈信息、轨迹信息，行为信息等存储。[多选题]164.Flume中拦截器包含以下哪些?()A)SearchandReplaceInterceptorB)RegexFilteringInterceptorC)TimestampInterceptorD)HostInterceptor[多选题]165.HBase表设计中的Rowkey设有哪些策略？（）A)可枚举属性值少的放在前面B)访问权重高的属性值放在前面C)部分查询频繁字段做冗余存储D)RowKey的长度越长越好[多选题]166.HDFS里包含哪些实例？（）A)NameNodeB)TaskManagerC)DataNodeD)JobManager[多选题]167.关于Hbase存储模型的描述正确的是：()。A)即使是：key值相同，qualifier也相同的多个KeyValue也可能有：多个，此时使用时间戳来区分B)同一个key值可以关联多个valueC)keyvalue中期有：时间戳，类型等关键信息D)每一个keyvalue都有：一个qualifier标识[多选题]168.大数据技术的?三驾马车?具体指以下哪些?（）A)大数据分布式计算框架MapReduceB)分布式文件系统GFSC)数据库系统BigTableD)数据容器Docker[多选题]169.大数据应用开发技术层面分为哪几部分？()A)数据存储与管理B)数据采集预处理C)数据交换及变现D)数据处理与分析[多选题]170.Hive特性包括哪些?()A)易用易编程。B)灵活方便的ETL(extract/transform/1oad)。C)可直接访问HDFS文件以及HBase。D)支持MapReduce，Tez，Spark等多种计算引擎。[多选题]171.执行Hbase读取数据业务，需要从：()读取。A)HmasterB)HfileC)HlogD)MetaStore[多选题]172.StructuredStreaming在OutPut阶段可以定义不同的数据写入方式，包括：以下()方式。A)GeneralModeB)AppendModeC)CompleteModeD)UpdateMode[多选题]173.下面哪些是GaussDB200的特点()?A)支持集群在线扩容。B)支持就地升级。C)支持自动降级。D)支持标准SQL。[多选题]174.对GaussDB200CUDesc机制描述正确的是?（）A)CUDesc为列存表B)采用Min/Max稀疏索引C)列存表的辅助表D)每条记录对应一个CU(60Krows)[多选题]175.Flume中的Source类型包含以下哪几种?()A)SyslogSourceB)HTTPSourceC)KafkaSourceD)ExecSource[多选题]176.FusioninsightHD中，可以通过()方式查看Oozie作业的调试结果。A)查看Oozie的JAVAAPI返回结果是：否符合预期B)通过Hue的workflow仪表板查看程序运行结果C)通过Hue的文件浏览器查看是：否在HDFS指定目录生成了所期望的文件D)Oozie自带的Web界面也可以查看作业执行结果[多选题]177.以下哪些是离线批处理的特点？（）A)处理数据格式多样B)支持SQL类作业和自定义作业C)处理数据量巨大D)处理时间要求高[多选题]178.Redis的持久化策略有哪些?（）A)RDBB)AOFC)JEDISD)SET[多选题]179.以下属于HiveSQL中DDL的是：()。A)修改表B)删除表C)数据导入D)建表[多选题]180.DWS可以创建的表包含：()表。A)临时表B)UNLOGGED表C)分区表D)哈希表[多选题]181.FusionlnsightHD中，()属于Oozie的MapReduceAction的配置项。A)name-nodeB)sourceC)mapred.mapper.classD)job-tracker[多选题]182.实时检索解决方案支持的数据采集有哪些?（）A)LoaderB)SparkC)GraphBase导入工具D)SparkStreaming[多选题]183.下列选项中，()是Spark的重要角色。A)NodeManagerB)ResourceManagerC)DataNOdeD)Driver[多选题]184.哪些方式能够操作HBase的数据？（）A)客户端命令B)PhoenixSQLC)JavaAPID)HiveSQL[多选题]185.Kerberos安全认证必须有下列的哪些？（）A)krb5.conf配置文件B)用户名C)用户的keytab文件D)Jaas.conf配置文件[多选题]186.关于数据订阅订阅数据变更类型，正确的是：()。A)updateB)deleteC)insertD)replace[多选题]187.客户端使用get方式读取HBase用户数据时，需要查询meta表哪些数据?()A)Region分裂时间B)Region大小C)RegionServer地址D)Region起始rowkey[多选题]188.华为云机器学习服务MLS支持()分类方法。A)梯度提升术B)逻辑回归C)随机决策森林D)支持向量机[多选题]189.以下哪些选项属于F1inkLibraries层的应用?（）A)复杂事件处理的CEPB)处理逻辑表查询的TableC)图像处理的GellyD)机器学习的FlinkML[多选题]190.Spark适用于以下()场景。A)交互式查询B)实时流处理C)批处理D)图计算[多选题]191.Hive执行查询的时候会调用哪些模块?（）A)complierB)executorC)optimizerD)MetaStore[多选题]192.在Kafka中，关于Comsumer说法正确的是：()。A)Consumer主要进行数据消费B)Consumer消费数据时需要指定TopicC)多个Consumer配置相同的group.id时，这些Consumer消费的数据不会重复D)新ConsumerAPI消费数据不用指定ZooKeeper地址[多选题]193.在HBase表设计中，对于多项业务公用rowkey,导致数据访问矛盾的情况，可以有()应对策略。A)折中法（rowkey设计兼顾A和B的业务需求）B)冗余法（用空间换时间厂效率）C)创建二级索引D)预分region[多选题]194.使用FusioninsightHD的Hive查询数据，当查询的中间结果数据量很大时，可以选择压缩中间结构数据来获取较好的性能;以下()是Hive中间结果压缩的相关参数。A)ermediateB)pression.codecC)press.outputD)pression.type[多选题]195.在ApacheHadoop中，关于HDFS的回收站机制，描述正确的是?（）A)回收站里的文件可以快速恢复。B)可以设置一个时间阀值，当回收站里文件的存放时间超过这个阀值或是回收站被清空时，文件才会被彻底删除，并且释放占用的数据块。C)删除文件时，不会真正的册除，其实是放入回收站。D)回收站默认是关闭的。[多选题]196.下面这条GaussDB200的SQL语句?selectname，count(1)fromstudentgroupbyname?可能涉及的算子有哪些?()A)FilterB)StreamingC)GroupAggregateD)HashAggregate[多选题]197.GuassDB200的基本功能包含哪些?（）A)标准SQL支持B)提供安装部署工具、集群启停工具、集群状态监控工具、升级和扩容工具C)支持表空间，支持集群在线扩容功能D)支持标准JDBC4.0的特性但不支持ODBC[多选题]198.()属于CLOG日志记录的状态。A)CommittedB)AbortedC)Sub-CommittedD)Inprogress[多选题]199.常用的数据结构类型是?（）A)结构化数据B)无结构化数据C)半结构化数据D)非结构化数据[多选题]200.Kafka的应用场景有哪些?（）A)元信息监控B)行为监控C)流处理D)数据处理[多选题]201.___加___的组合满足了大部分的用户实时查询诉求？（）A)MapReduceB)HBaseC)ElasticSearchD)Hive[多选题]202.在FusionInsght产品中，关于Kafka组件说法正确的是：()。A)在创建Topic时，副本数不得大于当前存活的Broker实例个数，否侧创建Topic将会失败B)Kafka的Producer发送消息时,可以指定该消息被哪个Comsumer消费C)Kafka会将元数据信息存放在Zookeeper上D)Kafka安装完成后就不能再配置数据存放目录第3部分：判断题，共22题，请判断题目是否正确。[判断题]203.数据核验可以通过自动和手动执行核验过程，可以选择sql或存储过程。A)正确B)错误[判断题]204.Flume传输数据的过程中，Sink取走数据并写入目的地后，会将events从channel中删除。A)正确B)错误[判断题]205.执行引擎的基本单位为执行算子。A)正确B)错误[判断题]206.分布式执行框架采用Producer-Consumer模型。A)正确B)错误[判断题]207.KafkaConsumer写数据的总体流程是，Consumer连接指定的TopicPartition所在的LeaderBroker，用主动的方式从Kafka中获取消息。A)正确B)错误[判断题]208.HDFS运行时，NameNode会将文件系统的元数据从磁盘中全部加载到内存，因此文件系统所能存储的文件总数受限于NameNode的内存容量。A)正确B)错误[判断题]209.增量同步通过解析日志等技术，将源端产生的增量数据同步至目标端。无需中断业务，实现同步过程中源业务和数据库继续对外提供访问。A)正确B)错误[判断题]210.Hive中unionall操作符用于合并两个或多个select语句的结果集，结果集中，不允许有重复值。A)正确B)错误[判断题]211.Kafka中Partitionreplication之间同步数据，从partition的leader复制数据到follower需要线程（replicationFetcherThread），Follower主动从Leader批量拉取消息的，极大地提高了吞吐量。A)正确B)错误[判断题]212.DWS采用计算分布、数据分布的MPP架构。A)正确B)错误[判断题]213.在Spark中，SparkSQL是独立的模块，可以不依赖于SparkCore独立完成SQL语句的解析、优化和执行等操作。A)正确B)错误[判断题]214.?表/文件/整库迁移?支持批量迁移表或者文件，还支持同构/异构数据库之间整库迁移，一个作业即可迁移几百张表。A)正确B)错误[判断题]215.HBase过滤器能将列名或列值设置为过滤条件，同时支持多个过滤器配合使用。A)正确B)错误[判断题]216.导入数据字典的excel中，字典类型代码在系统中不存在且在excel中不存在，否则导入失败。A)正确B)错误[判断题]217.HDFS采用的是?一次写入、多次读取''的文件访问模型。所以推荐一个文件经过创建、写入和关闭之后，就不要再去修改。A)正确B)错误[判断题]218.数据质量监控DQC（DataQualityControl）模块是对数据库里的数据质量进行质量管理的工具。A)正确B)错误[判断题]219.SparkOnYarn模式下的driver只能运行在客户端。A)正确B)错误[判断题]220.SparkStreaming可以从Kafka接收数据并进行计算，计算结果只能存入HDFS,不能再写回Kafka。A)正确B)错误[判断题]221.Flink适用于高并发处理数据、毫秒级时延应用。A)正确B)错误[判断题]222.向HBase集群中增加RegionServer主机时，必须先停止原集群，原因是HBase不支持动态扩容。A)正确B)错误[判断题]223.在Flume级联传输过程中，可以使用failover模式传输，这样如果下一跳的Flume节点故障或者数据接受异常时，可以自动切换到另外一路上继续传输。A)正确B)错误[判断题]224.ResourceManager采用高可用方案，当Activeresourcemanager发现故障时，只能通过内置的Zookeeper来启动standby的resourcemanager，将其状态切换为active。A)正确B)错误第4部分：问答题，共35题，请在空白处填写正确答案。[问答题]225.本实验对数据处理过程中，进行了数据分层处理。（）A)对B)错[问答题]226.HBase支持Rowkey查询和二级索引查询。（）A)TRUEB)FALSE[问答题]227.ElasticSearch不可以通过SQL来使用（）A)对B)错[问答题]228.ElasticSearch不支持结构化数据存储。（）A)对B)错[问答题]229.HBase是一种分布式数据库，不依赖HDFS也可以运行。（）A)对B)错[问答题]230.Flink中无界流的数据都可以被排序，所以并不需要有序读取。（）A)TRUEB)FALSE[问答题]231.Loader不能提供图形化操作。（）A)对B)错[问答题]232.实时检索查询只能查询结构化数据。（）A)TRUEB)FALSE[问答题]233.Kafka中每个Topic都由一个或者多个Partitions构成，Partition数量决定了每个Consumergroup中并发消费者的最大数量。()A)TRUEB)FALSE[问答题]234.Hive在删除表的时候，内部表的元数据和实际数据不会被一起删除。()A)对B)错[问答题]235.Redis默认支持14个数据库。()A)对B)错[问答题]236.Hive是基于Hadoop的数据仓库软件，可以查询和管理PB级别的分布式数据。（）A)TRUEB)FALSE[问答题]237.GraphBase每个节点只能有一个VertexLabel。()A)TRUEB)FALSE[问答题]238.批处理优先推荐使用Spark或SparkSQL模式，也可以使用MapReduce或Hive模式。两种批处理模式可以同时使用。(A)A)TRUEB)FALSE[问答题]239.请列举出至少3种hive支持的文件格式；[问答题]240.StructuredStreaming的行列数据表格是一直无限增长的。()A)TRUEB)FALSE[问答题]241.Flume有客户端和服务端[问答题]242.Flink是一个批处理和流处理结合的统一计算框架。（）A)TRUEB)FALSE[问答题]243.GaussDB200创建数据库时默认支持的字符集是UTF-8。（）A)TRUEB)FALSE[问答题]244.RedisServer收到非归属本节点的KEY操作，会将请求转发到正确的节点上。()A)TRUEB)FALSE[问答题]245.如果用户的UDF实现中，做了汇总累加等操作，开发这种UDF需要做什么特殊处理吗？[问答题]246.相比MapReduce,Spark有哪些优势？[问答题]247.HBase预分region能解决数据分布不均匀场景（T/F）[问答题]248.Redis命令区分大小写。（）A)TRUEB)FALSE[问答题]249.在HDFS根目录下有一个文件a.txt，我们应该如何删除？[问答题]250.离线批处理通常通过MR作业、Spark作业或者HQL作业实现。（）A)对B)错[问答题]251.Redis采用Master-Slave架构，由Master节点管理S1ave工作。（）A)TRUEB)FALSE[问答题]252.向HBase插入数据，只可使用put一种方法。()A)TRUEB)FALSE[问答题]253.和MySQL一样，GaussDB200可以通过databasename.table的方式访问不同数据库中的表。()A)TRUEB)FALSE[问答题]254.离线批量的作业形式，可以通过例如HQL和SparkSQL的命令，也可以通过API编写代码，打包提交运行。()A)TRUEB)FALSE[问答题]255.GraphBase可以完全替代关系型数据库。（）A)TRUEB)FALSE[问答题]256.实时流处理计算框架中实时性最好的是StructuredStreaming。（）A)TRUEB)FALSE[问答题]257.FusionlnsightSparkSQL默认采用（），可同时兼容SQL99和hiveql。[问答题]258.任何完整的大数据平台，一般包括以下的几个过程：数据采-->数据存储-->数据展现（可视化，报表和监控）。其中，数据采集是所有数据系统必不可少的一个环节，随着大数据越来越被重视，数据采集的挑战也变的尤为突出。()A)TRUEB)FALSE[问答题]259.StructuredStreaming可以将过去的输入流缓冲为流状态，以便将每个未来输入与过去的输入相匹配，从而生成流连接结果。（）A)TRUEB)FALSE[多选题]260.下列关于GaussDB200的TOAST机制说法正确的是()?A)支持变长(varlena)表现形式的数据类型。B)存储超过1KB的字段时，会触发TOAST机制。C)存储超过2KB的字段时，会触发TOAST机制。D)存储超过1/2KB的字段时，会触发TOAST机制。1.答案:B解析:2.答案:B解析:3.答案:B解析:4.答案:D解析:5.答案:C解析:StructuredStreaming支持处理时间和事件时间，同时支持watermark机制处理滞后数据。l处理时间：处理时间是指每台机器的系统时间，当流程序采用处理时间时，将使用各个实例的机器时间。l注入时间IngestionTime，表示数据到达流式系统时间，简而言之就是流式处理系统接收到数据的时间；l事件时间：是指事件在其设备上发生的时间，这个时间在事件进入StructuredStreaming之前已经嵌入事件，然后StructuredStreaming可以提取该时间。6.答案:C解析:Presto是一个facebook开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节。Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。Echarts是一个由百度开源的数据可视化，凭借着良好的交互性，精巧的图表设计，得到了众多开发者的认可。ApacheKylin™是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBayInc.开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。7.答案:A解析:8.答案:C解析:9.答案:B解析:10.答案:A解析:11.答案:C解析:12.答案:D解析:13.答案:B解析:14.答案:A解析:15.答案:C解析:Family是必须在建表的时候就指定的，但是列可以动态添加。16.答案:A解析:17.答案:A解析:18.答案:D解析:19.答案:B解析:20.答案:D解析:21.答案:A解析:22.答案:B解析:23.答案:D解析:24.答案:B解析:25.答案:B解析:26.答案:D解析:27.答案:B解析:28.答案:C解析:29.答案:D解析:30.答案:A解析:31.答案:A解析:32.答案:C解析:33.答案:D解析:34.答案:B解析:35.答案:C解析:36.答案:A解析:37.答案:A解析:38.答案:D解析:39.答案:B解析:40.答案:C解析:41.答案:A解析:42.答案:A解析:43.答案:D解析:44.答案:A解析:45.答案:A解析:46.答案:C解析:47.答案:C解析:48.答案:D解析:49.答案:C解析:50.答案:A解析:51.答案:C解析:52.答案:D解析:53.答案:C解析:54.答案:A解析:A（由于Flume主要是为了将集群外的数据导入到集群内，而如果数据已经存在HDFS中，那么数据已经在集群内，所以没有提供从HDFS中读取数据的HDFSSource)55.答案:C解析:56.答案:C解析:57.答案:C解析:58.答案:C解析:59.答案:A解析:60.答案:A解析:61.答案:C解析:62.答案:B解析:63.答案:C解析:64.答案:C解析:65.答案:A解析:66.答案:B解析:hdfs其除具备其它分布式文件系统相同特性外，HDFS还有自己特有的特性：1、高容错性：认为硬件总是不可靠的。2、高吞吐量：为大量数据访问的应用提供高吞吐量支持。3、大文件存储：支持存储TB-PB级别的数据。HDFS不适合做什么？1、大量小文件存储2、随机写入3、低延迟读取67.答案:A解析:68.答案:B解析:69.答案:C解析:70.答案:A解析:71.答案:D解析:72.答案:A解析:73.答案:B解析:74.答案:A解析:75.答案:B解析:76.答案:D解析:77.答案:A解析:78.答案:C解析:79.答案:C解析:80.答案:D解析:81.答案:D解析:82.答案:A解析:83.答案:A解析:84.答案:A解析:85.答案:C解析:86.答案:D解析:87.答案:D解析:88.答案:A解析:89.答案:D解析:90.答案:B解析:91.答案:B解析:92.答案:C解析:93.答案:C解析:94.答案:A解析:95.答案:D解析:96.答案:B解析:97.答案:B解析:98.答案:C解析:99.答案:D解析:100.答案:C解析:Action（执行）：触发Spark作业运行，真正触发转换算子的计算；Action操作会对RDD计算出一个结果，并把结果返回到驱动器程序Driver中，或把结果存储到外部存储系统（如HDFS，磁盘，cpu等）中。101.答案:D解析:102.答案:C解析:103.答案:B解析:104.答案:A解析:105.答案:B解析:106.答案:D解析:107.答案:D解析:108.答案:C解析:109.答案:B解析:110.答案:C解析:111.答案:D解析:112.答案:C解析:113.答案:A

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据华为认证考试(习题卷3)

文档简介

温馨提示

最新文档

评论

大数据华为认证考试(习题卷3)

文档简介

温馨提示

最新文档

评论

相关文档