版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第页HCIP大数据练习测试卷1.altertabletableNamesettblproperties('EXTERNAL'='FALSE'):执行该Hive命令能实现以下哪一个目标?A、修改内部表tableName为外部表B、移动tableName数据到外部存储系统C、删除tableName表的元数据信息D、修改外部表tableName为内部表【正确答案】:D2.在华为云GES中,想要给图g中id为"Katherine"的用户添加朋友为"zhangsan"。以下哪一个选项能正确实现上述目的?A、g.addV('friends').from(g.V("Katherine")).to(g.V("zhangsan"))B、g.addV('friends').from(g.V("zhangsan")).to(g.V("Katherine"))C、g.addE('friends').from(g.V("zhangsan")).to(g.V("Katherine"))D、g.addE('friends').from(g.V("Katherine").to(g.V("zhangsan"))【正确答案】:D3.关于实时检索技术的应用场景,以下描述中错误的是哪一个选项?A、运营商可以借助实时检索技术,查询某个时间段用户的流量记录,以应对不良APP偷跑流量引发的投诉B、实时检索要求在小批量数据集上需达到毫秒级的时延C、在金融风控场景中,利用实时检索技术,客户可以在发生危险交易前及时止损D、公安系统数据量大、业务要求复杂,因此无法借助实时检索技术提高处警效率【正确答案】:D4.Hive中详细显示函数的用法为以下哪一选项?A、hive>getfunctions;B、hive>descfunctionextendedupper;C、hive>descfunctionupper;D、hive>showfunctions;【正确答案】:B5.()是一个实现了文件系统的抽象类,继承自org.apache.hadoop.conf.Configured,并实现了Closeable接口,可以适用于多种文件系统。A、FileSystemB、FSDataOutputStroamC、FSDatalnputStreamD、FileConfiguration【正确答案】:A6.以下哪一项不是SparkSQL的适用场景?A、实时数据查询B、需要处理PB级的大容量数据C、结构化数据处理D、对数据处理的实时性要求不高的场景【正确答案】:A7.关于HBase中HRegionServer的故障处理机制,以下说法中哪一项是错误的?A、共用日志优点:恢复时需要分拆日志;缺点:提高对表的写操作性能B、根据日志记录所属的Region对象对HLog数据进行拆分,分别放到相应Region对象的目录下C、Zookeeper会实时监测每个HRegionServer的状态,当某个HRegionServer发生故障时,Zookeeper会通知HMasterD、HMaster首先会处理发生故障的HRegionServer上面遗留的HLog文件,这个遗留的HLog文件中包含了来自多个Region对象的日志记录【正确答案】:A8.以下哪一选项不是大数据的特点?A、容量大B、种类多C、速度快D、结构单一【正确答案】:D9.Flink的哪种机制可以保证task运行失败时,其状态能够恢复?A、窗口B、事件时间C、检查点D、有状态处理【正确答案】:C10.关于HBase建表语句,以下描述中错误的是哪一项?A、利用HBase的JavaAPI时,需要用put语句完成建表B、在建表时可以预先创建多个RegionC、在华为云MRS提供的HBaseshell客户端中建表时,需指定至少一个列族名称D、在HBaseshell客户端中可以通过create命令建表【正确答案】:A11.在HDFS中"认为硬件,总是不可靠的"体现了以下哪一个特性?A、高吞吐量B、大文件存储C、高容错性D、弹性伸缩【正确答案】:C12.StructuredStreaming程序执行过程中,定义流计算过程之后是哪一个步骤?A、创建输入数据源B、导入相关依赖模块C、启动流计算并计算输出结果D、创建SparkSession对象【正确答案】:C13.以下哪一项不属于Flink组件的滚动聚合算子?A、KeyBy()B、minBy()C、min()D、sum()【正确答案】:A14.关于ElasticSearch性能优化,以下哪一项说法是错误的?A、分片数不超过节点数的3倍,用较少的分片获得更佳的性能B、索引创建好后依然可以动态调整分片数量C、分片最大容量不要超过E1asticSearch推荐的最大JVM堆空间32GD、副本数建议设置为1,过多的副本需要更多存储空间【正确答案】:B15.关于HBase中的BloomFilter,以下描述中错误的是哪一项?A、BloomFilter用来优化一些随机读取的场景,即Get场景BloomFilter可以被用来快速的判断一条数据在一个大的数据集合中是否存在C、如果BloomFilter判断结果为“该条数据不存在”,这一结果拥有一定的误判率D、HBase的BloomFilter的相关数据,被保存在HFile中【正确答案】:C16.以下哪一项不属于目前经常定义的Sink类型。A、ElasticSearchSinkB、RedisSinkC、KafkaSinkD、ODBCSink【正确答案】:D17.Redis默认支持的数据库个数是多少?A、10B、5C、16D、15【正确答案】:C18.关于GES特点,以下描述中正确的是哪一项?A、简单易用:支持SQL查询语言,兼容不同用户的使用习惯B、高性能:对分布式图形计算引警进行了深度优化,具有高井发、最快可达分钟级时延的实时查询能力C、大规模:最大可支持百万节点千万边规模的数据进行查询与分析D、查询分析一体:提供丰富的图分析算法,实现了查询分析一体化【正确答案】:D19.关于Kalka的Topic,以下哪一项描述是错误的?A、Topic的Partition数量可以在创建时配置。B、Kafka集群中Topic可以设置多个。C、设置多副本可以增强Kaka服务的容灾能力。D、在创建Kafka的Topic时,必须设置Partition个数【正确答案】:D20.以下哪一选项不是统一元数据管理的优势?A、元数据统一管理、统一访问和使用B、提供可视化元数据管理工具C、使用事实标准Hivemetastore接口,业务易对接D、数据访问分散授权,数据安全无保障【正确答案】:D21.在GES图引擎服务中,以下有关使用GremlinJavaAPI完成操作的描述中,哪一个选项是错误的?A、同步提交指的是客户端在提交完一个任务之后,就在原地等待,等待任务完完整整地运行完毕拿到结果后,再执行下一行代码,会导致任务是串行执行B、异步提交指的是客户端在提交完一个任务之后,不在原地等待,结果直接执行下一行代码,会导致任务是并发执行的C、Future<ResultSet>resultSet=Client.submitAsync("g.V().hasLabel('person').valueMap('name','age').limit(10)");该令属于同步提交D、客户端需和一个或多个Gremlinserver实例建立链接,基于Cluster对象创建Client【正确答案】:C22.以下哪个场景是HDFS适合做的?A、大量小文件存储B、流式数据访问C、随机写入D、低延迟读取【正确答案】:B23.下面哪一选项不属于Redis的优化方法?A、Slowlog配置B、精简键值C、开启AOF持久化D、限制Redis内存大小【正确答案】:C24.大数据技术的4V特征不包含以下哪项?A、VolumeB、VelocityC、VirtualD、Variety【正确答案】:C25.ElasticSearch数据写入阶段有很多调优方式,下列错误的是哪一项?A、尽量使用自动生成的idB、禁用wildcardC、写入前副本数设置为0D、写入过程中:采取bulk批量写入【正确答案】:B26.以下哪一项不属于ElasticSearch客户端可以执行的curl命令?A、curl-XPOSTB、curl-XSELECTC、curl-XGETD、curl-XPUT【正确答案】:B27.如果使用Redis统计topN的元素,可以使用哪种数据类型?A、StoredSetB、ListC、HashD、Set【正确答案】:A28.实时处理的步骤中,实时计算的前一步是以下哪一项?A、实时展示B、实时落地C、实时缓存存储D、实时采集【正确答案】:C29.在大数据分析场景中,以下说法哪一项是不正确的?A、SparkSQL:新型SQL处理引擎,速度比Hive快,处理SQL类的批处理任务B、HDFS:基于大数据的数据仓库平台C、FLink:流批一体式计算引擎D、Hive:类SQL查询,传统批处理引擎,速度较慢【正确答案】:B30.大数据与传统数据的区别不包括哪一方面?A、数据规模B、数据类型C、处理对象D、编程语言【正确答案】:D31.关于HBase的说法中,以下哪一个选项是错误的?A、HBase是一个NoSQL数据库B、HBase对于大表的读写访问需要分钟级的时延,C、HBase需要依赖HDFS作为底层的文件存储系统D、HBase需要依赖Zookeeper进行协同服务【正确答案】:B32.关于HBase的概念视图,以下描述中正确的是哪一项?A、HBase是一个面向列的非关系型数据库B、HBase的每一行数据可以有不同的行键C、HBase表格数据以文件块的形式存放在内存中D、HBase的每一个Region都是固定大小,每个Region都是64MB【正确答案】:A33.以下哪一选项不是企业级大数据平台的特点?A、可维护性差B、可平滑拓展C、数据共享D、资源共享【正确答案】:A34.下面哪一项不是Kafka的组件?A、BrokersB、ConsumerC、TopicD、Zookeeper【正确答案】:D35.大数据体量范围一般是以下哪一选项?A、TB-PBB、GB-TBC、HB-GBD、KB-MB【正确答案】:A36.编写Scala代码时,通过以下哪个算子可以实现数据过?A、filterB、collectC、mapD、flatmap【正确答案】:A37.关于HBasc的特性描述错误的是?A、高可靠B、分布式C、不支持扩容D、高性能【正确答案】:C38.在华为云GES服务中,想要在一张已存在的图g中添加id为张三,年龄为18-24,性别为M的user用户。以下哪一个选项能正确实现上述目的?单选A、g.addVertex(label,'user',id.'张','Age','18-24')B、g.addE(id,"张三").from(g.V("Katherine").to(g.V("id","张三")C、g.addV("张三").property("Age","18-24").property("Gender","M")D、g.addV("user").property(id,"张三").property("Age","18-24")!property("Gender","M")【正确答案】:D39.HDFS中-mkdir命令可以实现以下哪一选项的功能?A、创建目录B、改变文件属性C、显示文件内容D、显示目录【正确答案】:A40.以下哪一个选项不是GES的特点?A、大规模B、查询分析互相解耦C、简单易用D、高性能【正确答案】:B41.下列哪一项是HBase不适合的应用场景?A、要求具有完全A,CID特性的应用场景。B、半结构化数据应用场景。C、高吞吐率应用场景。D、海量数据(TE、PF、应用场景【正确答案】:A42.HDFS默认的副本是几份?A、3B、6C、5D、4【正确答案】:A43.以下关于HBase缓存刷新的说法中,哪一个选项是错误的?A、系统会周期性地把MemStore缓存里的内容刷写到磁盘的StoreFile文件中,清空缓存,并在Hlog里面写入一个标记B、每个HRegionServer都有一个自己的HLog文件,每次启动都检查该文件C、如果发现最近一次执行缓存刷新操作之后发生新的写入操作,则先写入MemStore,再刷写到StoreFileD、每次刷写都生成一个新的StoreFile文件,但每个Store中仅包含一个StoreFile文件【正确答案】:D44.HBase默以使用什么组件作为其底层文件存储系统()A、FileB、KafkaC、MemoryD、HDFS【正确答案】:D45.以下哪一个组件可以将SQL语句转化为HBase的Scan操作?ApacheStormB、ApachePhoenixC、ApacheMapReduceD、ApacheHDFS【正确答案】:B46.Spark中Task失败会默认进行多少次的重试?A、2B、3C、4D、1【正确答案】:C47.HBase的Region的是由哪个服务进程来管理的?A、HRegionServerB、ZooKeeperC、DataNodeD、HMaster【正确答案】:A48.以下哪一选项不是组件混合负载、资源统一调度带来的客户价值?A、混合负载,统一资源池调度,提升资源利用率B、支持授权用户数量大幅减少CPU、GPU异构计算调度D、资源池隔离,计算任务相互不影响【正确答案】:B49.Hive与传统数据仓库的区别不包括以下哪一选项?A、索引B、易用性C、面向对象D、执行引擎【正确答案】:C50.某公司在进行大数据离线批处理平台的前期技术选型,以下哪个大数据组件不属于高线批处理业务所涉及到的组件?A、HiveB、SparkC、HDFSD、Storm【正确答案】:D51.大数据技术一站式融合中计算融合指的是以下哪一选项?A、大数据基础设施上云B、融合多样性的算力,提升整体效率C、批、交互式、流等计算框架共用资源,分时复用D、大数据平台的数据分析智能化以及数据治理的智能化【正确答案】:C52.关于ElasticSearch生态圈,以下描述中错误的是哪一项?A、elasticsearch-head:深度集成Hadoop和ElasticSearch的项目,是官方维护的一个子项目Beats:专门用于发送数据的平台,可以将数据无缝传输给Logstash或是ElasticSearchC、Logstash:具备实时数据传输能力的管道,着重日志相关处理D、Kibana:开源的分析和可视化平台,基于ElasticSearch的搜索与分析能力,拿到用于上层分析和可视化需要的结果【正确答案】:A53.在MRSHDFS中,将HDFS根目录下的a.txt重命名为b.txt,以下哪一个选项可以实现上述目的?A、hdfsdfs-rm/a.txt/b.txtB、hdfsdfs-mv/a.txt/b.txtC、hdfsdfs-put/a.txt/b.txtD、hdfsdfs-1s/a.txt/b.txt【正确答案】:B54.Hive表与MySQL类似存在分区的概念,那么对于Hive的分区,以下描述中,正确的是哪一项?A、Hive的分区针对的是文件,分桶针对的是文件夹。B、Hive的分区数量可以通过参数动态生成。C、Hive的分区和分桶是以一个概念。D、Hive的分区字段与MySQL一样必须存在。【正确答案】:B55.以下哪一个选项不是ElasticSearch底层存放索引快照的位置?A、HadoopHDFSB、LocalFileSystemC、SharedFileSystemD、IndexModule【正确答案】:D56.基于WAL(预写式日志Write-AheadLog)实现持久化的Channel类型,是以下的哪一项?A、FileChannelB、ODBCChannelC、JDBCChannelD、MemoryChannel【正确答案】:A57.SparkRDD常用算子包含Transformation算子和A,Ction算子,下列哪一个选项属于ACtion算子?A、MapB、saveAsTextFileC、reduceByKeyD、filter【正确答案】:B58.关于ElasticSearch的说法,下列错误的是哪一项?A、不支持非结构化数据B、对Lucene进行了扩展C、原型环境和生产环境可无缝切换D、能够水平扩展【正确答案】:A59.Spark中划分Stage的标识是以下哪一选项?A、MapB、CombineC、ShuffleD、Reduce【正确答案】:C60.关于ElasticSearch,以下哪一个选项是正确的?A、ElasticSearch自身不带RESTFULAPI接口B、ElasticSearch不支持分布式C、ElasticSearch只在数据量比较小的时候才有性能优势D、ElasticSearch可以支持模糊查询【正确答案】:D61.关于HBase客户端的使用,以下描述错误的是哪一选项?A、插入数据需要用到put命令B、无法通过HBase客户端创建命名空间C、创建表时可以指定列族名称D、使用get命令查询数据时需要指定行键信息【正确答案】:B62.关于HBase,以下描述正确的是哪一项?A、对于绝大部分企业级大数据平台而言,HBase底层需依赖HDFS存储海量数据B、HBase可轻易实现海量数据的全局A,CID特性C、HBase和Zookeeper不是强绑定的D、HBase无法存储结构稀疏的表格【正确答案】:A63.下列哪一个选项不是StructuredStreaming支持的sink输出源。A、HBaseB、ConsoleC、HDFSD、Kafka【正确答案】:A64.下列关于Phoenix的说法错误的是哪一项?A、将SQL编译成HBase原生的scansB、确定scan关键字的最佳开始和结束C、让scan并行执行D、PhoenixSQL只能使用JDBC连接【正确答案】:D65.下列哪一项不是ElasticSearch的扩展插件?A、es-HadoopB、ElasticSearch-headC、HadoopD、Logstash【正确答案】:C66.关于HBase的特点,以下描述中错误的是哪一项?A、高性能B、面向行C、可伸缩D、高可靠【正确答案】:B67.HBase使用get方法读取数据时,下列哪个选项是需要的?A、scan.setCaching(1000)B、Deletedelete=newDelete(rowKey)C、byte[]rowKey=Bytes.toBytes("012005000201")D、List<Put>puts=newArrayList<Put>【正确答案】:C68.Spark2.0中引入了()的概念,它为用户提供了一个统的切入点来使用Spark的各项功能。A、SparkSessionB、SparkTextC、SparkConfD、SparkContext【正确答案】:A69.关于ElasticSearch内部架构,以下描述中错误的是哪一项?()A、Plugins:插件可以通过自定义的方式扩展加强Elasticsearch的基本功能,比如可以自定义类型映射,分词器,本地脚本等B、transport:代表Elasticsearch内部节点或集群与客户端的交互方式,默认内部是使用tcp协议进行交互C、Discovery:该模块主要负责集群中节点的自动发现和Master节点的选举D、Gateway:代表ElasticSearch.与客户端交流的方式【正确答案】:D70.企业级数据分析平台的演进趋势不包括以下哪一阶段A、无组织架构阶段B、单一架构阶段C、存算分离架构阶段D、存算融合架构阶段【正确答案】:A71.Irange是Redis中哪种数据类型的命令?A、SetB、ListC、HashD、String【正确答案】:B72.以下关于Redis持久化的描述,错误的是哪一项?A、RDB方式的持久化是通过快照完成的B、AOF方式的持久化是通过日志文件的方式C、可以手动执行save或者bgsave命令让redis执行快照D、Redis默认的持久化方式是AOF【正确答案】:D73.HBase客户端提供了很多命令,关于list命令,下列正确是哪一项?A、查看所有的表B、查询命名空间C、查看帮助命令D、查询表数据【正确答案】:A74.HBase中数据存储的文件格式是下面哪一项?A、HFileB、HLogC、SequenceFileD、TextFile【正确答案】:A75.以下哪个选项不属于HBase的架构?A、ZooKeeperB、HRegionServerC、HMasterD、HRegion【正确答案】:D76.不同的Channel提供的持久化水平也是不一样的,其中()不会持久化;A、MemoryChannel、JDBCChannel、FileChannelB、FileChannel、JDBCChannel、MemoryChannelC、JDBCChannel、MemoryChannel、FileChanelD、MemoryChannel、FileChannel、JDBCChannel【正确答案】:D77.Kafka运行时直接依赖于以下哪一个组件?A、HBaseB、HDFSC、SparkD、Zookeeper【正确答案】:D78.Kafka日志数据文件默认保留的最长时间是多少小时?A、96B、48C、24D、168【正确答案】:D79.某大数据开发人员在创建Hive表结构时,发现原先创建的表存储格式出现了问题。对于这一现象,以下描述中,错误的是哪一项?A、不同的存储格式会影响表的处理效率B、必须修正回来,不然会导致数据无法查询C、可以通过alter命令进行修改D、错误的表存储格式会影响10A,D命令加载,导致数据无法正常导入【正确答案】:B80.以下哪一选项不属于华为云MRS中Manager的特点?A、一键式部署、升级B、运维难度高C、管理员可全面掌握集群运行状态D、故障快速定位【正确答案】:B81.大数据环境下的隐私担忧,主要表现为以下哪个选项?A、用户画像的生成B、病毒入侵C、个人信息的被识别与暴露D、内存溢出【正确答案】:C82.HiveSQL中DDL指定是哪一种语言?A、数据删除语言B、数据查询语言C、数据管理语言D、数据定义语言【正确答案】:D83.以下哪一选项不是批流融合的实时决策系统的优势?A、维护难度大B、吞吐量高C、可靠性高D、批-流融合计算【正确答案】:A84.以下关于大数据的描述正确的是哪一个选项?A、云计算就是大数据B、大数据必须基于云平台C、大数据与云平台融合是发展趋势D、大数据可以解决所有事情【正确答案】:C85.离线批处理工具不包含以下哪项?A、SparkB、SQLC、MapReduceD、Storm【正确答案】:D86.Hive数据存储模型中不包括以下哪一结构?A、分区B、表C、桶D、块【正确答案】:D87.为了提高Kafka的容错性,Kafka支持Partition的复制策略,以下关于LeA,DerPartition和FollowerPartition的描述哪一项是错误的?A、Kafkat对Partition的复制需要选出一个LeA,Der,由该LeA,Der负责Partition的读写操作,其他的副本节点只是负责数据的同步B、如果LeA,Der失效,那么将会有其他Follower来接管(成为新的LeA,DerC、一个Kafka集群各个节点间不可能互为LeA,Der和FollowerD、由于LeA,DerServer承载了全部的请求压力,因此从集群的整体考虑,Kafka会将LeA,Der均横的分散在每个实例上,来确保整体的性能稳定【正确答案】:C88.以下大数据精准广告发展方向不包括哪一项?A、平台化B、自动化C、精准化D、价值化【正确答案】:A89.HDFS里元数据持久化过程包括Fslmage持久化和Editlog持久化,其中EditLog持久化是通过以下哪一种方式完成的?A、图片B、日志C、网页D、快照【正确答案】:B90.以下哪一个概念是ElasticSearch中的逻辑命名空间?A、TypeB、SchemaC、IndexD、NameSpace【正确答案】:C91.Hive中trim()函数的功能是以下哪一选项?A、字符串截取B、返回近似值。C、计算绝对值D、去除空字符串【正确答案】:D92.Hive架构中有一个Driver模块用于对SQL语句进行转化,那么对于Driver的描述中,正确的是哪一项?A、Driver中的Compiler负责对HiveQL生成的执行计划和MapReduce任务进行优化B、Driver中的Optimizer负责编译HiveQL并将其转化为一系列相互依赖的Map/Reduce任务。C、Driver中的Executor负责按照任务的依赖关系分别执行Map/Reduce任务Driver指Java的JDBC连接所用的Driver类。【正确答案】:C93.Kafka集群必须依赖于下列哪一个组件?A、FlumeB、ZookeeperC、YarnD、HDFS【正确答案】:B94.下列哪一个命令可以清空Redis实例下所有数据库的数据A、dropallB、flushallC、dropdbD、flushdb【正确答案】:B95.在Flume架构中,以下哪一种类型的Sink支持将数据写入到Solr中?A、thiftsinkB、filerollsinkC、MorphlineSolrsinkD、hdfssink【正确答案】:C96.关于HBase的RegionSplit,以下描述中错误的是哪一项?A、RegionSplit过程不需要HMaster进行管理B、将大表分裂出多个Region有助于提高数据的读写效率C、RegionSplit速度很快,因为并没有真正拆分数据D、在建表时可以预先创建多个Region【正确答案】:C97.以下关于GES四大特点的描述,哪一个选项是错误的?A、查询分析一体:提供丰富的图分析算法,实现了查询分析一体化,可以为关系分析、路径规划、营销推荐等业务提供多样的分析能力B、高性能:对分布式图形计算引擎进行了深度优化,能达到小时级响应速度的查询能力C、简单易用:支持Gremlin查询语言,兼容不同用户的使用习惯D、大规模:具有高效的数据组织能力,可以更有效地对百亿节点千亿边规模的数据进行查询与分析【正确答案】:B98.某大数据开发人员在创建分区表时,不知道应该如何设定分区宁段的字段类型。针对他的困扰,以下建议哪一项是合理的?A、分区字段的字段类型并不影响表的查询效率。B、分区字段的字段类型应该优先满足业务需求C、分区字段的字段类型必须没有业务性。D、分区字段使用String字段即可。【正确答案】:D99.HBase中一张表通过指定Regionf的StartKey为10、20和30进行region分裂,那么行键为222的数据将属于以下哪一个Region?A、[10,20]B、[20,30]C、[30,"+inf']D、[0,10]【正确答案】:C100.以下关于数据仓库分层优点的描述中,哪一个选项是错误的?A、分层可将复杂问题简单化B、分层之后真实数据与统计数据耦合在一起,减少了存储空间消耗C、分层可以隔离原始数据D、分层可减少重复开发【正确答案】:B1.以下哪些选项不属于HDFS文件系统将文件分块带来的好处?A、数据备份比较麻烦B、简化系统设计C、存储效率有所降低D、支持大规模文件存储【正确答案】:AC2.以下哪些属于大数据的发展趋势?A、从技术驱动转变为商业驱动B、从统计分析到认知计算C、生态合作开放D、数据处理逐渐标准化、云化【正确答案】:ABCD3.以下关于Loader的描述中,正确的有哪几项?A、提供可视化向导式的作业配置管理界面。B、提供定时调度任务,周期性执行Loader作业。C、在界面中可指定多种不同的数据源、配置数据的清洗和转换步骤、配置集群存储系统。D、是基于开源Flume研发,做了大量优化和扩展。【正确答案】:ABC4.以下哪些场景适合使用实时检索技术完成部署?A、银行事后查询交易凭证,追溯交易B、运营商实时查询用户话费清单、流量清单C、公安系统实时布控,车辆轨迹绘制,快速信息汇集D、公安系统基于"人、事、地、物、组织、身份"等点状实体,查询在社会关系网络中的关联关系【正确答案】:ABCD5.所谓的大数据技术融合主要指哪些方面?A、计算融合B、数据融合C、算力融合D、批-流融合【正确答案】:ABCD6.关于MRSHDFS中的df和du命令,以下哪些说法是正确的?A、du命令主要用于统计某个文件夹内文件的大小信息B、du命令可以添加-v命令,方便用户了解每个输出值的含义C、df命令主要用于统计文件系统的可用空间信息D、df命令中可以添加-h参数,使得输出结果容易被用户读懂【正确答案】:ABCD7.关于Kafka组件部署规划说法以下哪些选项是错误的?A、Kafka会将元数据信息存放到ZooKeeper上B、在创建Topic时,副本数不得大于当前存活的Broker实例个数,否则创建Topic将会失败C、Kafka的Producer发送消息时可以指定该消息被哪个Consumer消费D、Kafka安装完成后就不能再配置数据存放目录了【正确答案】:CD8.关于ElasticSearch常见的API接口,以下描述中正确的有哪些项?A、SpringDataElasticsearch:第三方插件,与Spring生态集成度较高B、TransportClient:官方原生客户端、,全部操作功能均支持,但内部请求需要做Java序列化操作,导致项目可移值性较低C、JestClient:第三方插件,最早期的Rest第三方插件,社区和API都相对比较全面D、RestClient:官方新推API,属于高级API,基于HttpRestful请求,可移值性更高,但功能不够全面【正确答案】:ABCD9.关于使用HBase的JavaAPI读取数据,以下描述中正确的是哪些项?A、QualifierFilter用于过HBase表中的列族信息B、HBaseFilter主要在Scan和Get过程中进行数据过滤,通过设置一些过滤条件来实现条件查询C、要从表中读取数据,首先需要实例化该表对应的Table实例D、为了提高查询效率,使用Scan命令时最好指定StartRow和StopRow【正确答案】:ABCD10.实时检索解决方案的项目流程包括以下哪些选项?A、应用部署B、代码工程C、项目环境准备D、应用开发【正确答案】:ABCD11.Hive可以直接访问以下哪些组件?A、HDFSB、DockerC、TensorFlowD、HBase【正确答案】:AD12.HBase读数据时需要读取哪几部分数据?A、HfileB、MemStoreC、HDFSD、Hlog【正确答案】:AB13.Redis使用场景包含以下哪些特点?A、高性能B、丰富数据结构存取C、支持持久化D、低时延【正确答案】:ABCD14.以下哪些选项是ZooKeeper在Kafka中的作用?A、索引数据的生成B、负载均衡CPU资源调配管理D、集群管理【正确答案】:ABD15.关于GESREST接口的描述,以下哪些选项是正确的?A、REST接口请求分为HEA,B、GET、PUT、POST、DELETEC、REST接口通过http协议进行通信,必须等待所发请求的响应,之后才可以继续发送请求D、GESAPI向上层应用提供统一的访问入口,通过高度灵活的RESTAPI接口,封装GES平台的统一操作E、GESREST接口对于GES版本没有任何要求【正确答案】:ABC16.关于ElasticSearch的基本理解,以下哪些选项是正确的?A、ElasticSearch的全文检索条件可以包括词或短语B、ElasticSearch可以支持非结构化数据检索C、ElasticSearch自身就可以提供数据可视化操作D、ElasticSearch可以支持数据清洗和分词【正确答案】:ABD17.以下关于Channel的描述中,错误的是哪些项?A、Channel位于Source和Sink之间B、Channels不支持事务Channel的作用类似队列D、Channels提供较强的顺序保证【正确答案】:BD18.StructuredStreaming中OutPut的存储方式包含以下哪几种?A、UpdateModeB、ModifyModeCompleteModeD、AppendMode【正确答案】:ACD19.以下关于Filnk的窗口描述正确的是()。A、Flink窗口按窗口行为划分:TumblingWindow-SlidingWindow.SessionWindow.B、窗口可以是时间驱动的也可以是数据驱动的。C、我们可以每30秒计算一次最近一分钟用户购买的商品总数,这个就是时间滑动窗口的应用方式。D、会话窗口是将数据聚合到会话窗口中,由非活跃的间隙分隔开。【正确答案】:ABCD20.Hive支持以下哪些计算引擎?A、MapReduceB、LoaderC、TezD、Spark【正确答案】:ACD解析:
三.判断21.Flink有哪些状态存储方式?A、MemoryStateBA,CkendB、FsStateBA,CkendC、MySqlStateBA,CkendD、RocksDBStateBA,Ckend【正确答案】:ABD22.下列是ElasticSearch搜索数据过程,请选择正确的顺序()A、协调节点将搜索请求转发到所有的shard对应的primaryshard或replicashardB、由协调节点根据docid去各个节点上拉去实际的document数据最终返回给客户端C、每个shard将自己的搜索结果返回给协调节点D、客户端发送请求到一个协调节E、协调节点进行数据的合并,排序,分页等操作,产出最终结果【正确答案】:ABCDE23.以下关于Kafka日志清理的描述,正确的是哪些项?()A、默认情况下对字节大小无限制B、清理方式有两种;delete和compA,CtC、默认最长的保存时间是168小时D、默认的清理方式是delete【正确答案】:ABCD24.Spark中RDD是弹性数据集的原因包括以下哪些选项?A、基于Lineage的高效容错B、自动进行内存和磁盘数据存储的切换C、数据调度弹性D、Task失败自动重试【正确答案】:ABC25.针对以下场景描述,可以用于大数据实时检索技术完成的有?A、主要根据ID(手机号码)、时间段进行用户话费清单、流量清单查询B、可用于事后查询交易凭证,追溯交易,以及查询客户信用记录,帮助客户快速借款等C、要求1秒内响应,高并发(100以上请求)查询条件简单(80%查询是主键查询,其他是简单条件组合查询)D、根据ID(身份证,车牌号等)进行查询,可用于实时布控,车辆轨迹绘制,快速信息汇集【正确答案】:ABCD26.以下关于Spark流连接的描述中,正确的是哪些项?A、一个输入流接收的任何行都可以与另一个来自未来的、尚未接收的输入流中的任何行进行匹配B、对于两个输入流,StructuredStreaming可以将过去的输入流缓冲为流状态C、支持将每个未来输入流与过去的输入流相匹配,从而生成连接结果D、Spark2.x支持流与流的连接【正确答案】:ABCD27.以下哪些选项是离线批处理的特点?A、多个作业调度复杂B、容易产生资源抢占C、处理数据量巨大,PB级D、处理时间要求高【正确答案】:ABC28.关于ElasticSearch的基本架构,以下描述中正确的有哪些项?A、ElasticSearch通过Discovery模块来实现节点自动发现,以及Master节点选取B、ElasticSearch底层基于Lucence,将索引存储在本地文件系统、共享文件系统或HDFS等文件系统中C、ElasticSearch支多种插件来扩展加强功能D、ElasticSearch通过Java以及Restfulapi提供【正确答案】:ABCD29.Flume中的Source类型包含以下哪几种?AvroSourceB、JmsSourceC、KafkaSourceD、ThriftSource【正确答案】:ABCD30.关于Hive的优点,以下哪些说法是正确的?A、Hive支持多种编程语言,包括Java和Python都可对接Hive进行使用B、Hive速度非常快,可以支特毫秒级时延的分析应用C、理论上Hive依赖硬件程度较低,可适应一般的普通机器D、Hive支持双MetaStore机制,提高容错性【正确答案】:ACD31.Redis包含以下哪些数据类型?A、HashB、ListC、StringD、Set【正确答案】:ABCD32.大数据其中一个最明显的特征是数据量巨大,那么所谓的数据量巨大主要指哪些级别的数据量?A、TBB、ZBC、PBD、MB【正确答案】:AC33.Hive组件的Driver由以下哪些项组成?A、MetaStoreB、CompilerC、ExecutorD、Optimizer【正确答案】:BCD34.以下哪些选项是华为云MRS使用HetuEngine的根本原因?A、企业传统数仓,缺乏高效、统一的融合分析B、企业传统数仓采用分系统构建模式,导致数据冗余严重,阻碍企业快速转型C、随着数据量增长,业务对数据分析灵活性要求越来越高D、HetuEngine对浪涌式的数据进行整合分析,发挥最大价值【正确答案】:ABCD35.华为MRS服务具有以下哪些优势?A、高可用B、多场景融合C、存算分离D、弹性计算【正确答案】:ABCD36.关于GES的RESTful接口,以下描述中正确的有哪些选项?A、GESAPI向上层应用提供统一的访问入口,通过高度灵活的RESTAPI接口,封装GES平台的统一操作B、用户可以通过GES的REST接口创建edgeIA,BelC、GES的REST请求分为Select,Put,Create和DeleteD、用户可以通过GES的REST接口查询数据点的信息【正确答案】:ABD37.Hive业务场景中,一张大表连接一张较小的维表,那么为了提高这个JOIN操作的效率,可以进行如下哪些操作?A、设置参数hive.auto.convert.join为trueB、设置参数hive.groupby.skewindata为trueC、大表在前小表在后D、小表在前大表在后【正确答案】:ABD38.HBase中会触发Flush操作的有以下哪几项?A、RegionMemStore中的总大小,达到了预设的FlushSize阈值。B、HBaseMemstore定期刷新,默认周期为1小时。C、MemStoreRegionServer占用内存的总量和总内存比值超出了预设的阈值大小。D、当WALs中文件数量达到阈值时。【正确答案】:ABCD39.大数据的价值体现在以下哪些方面?A、大数据实现了精准营销B、大数据助力智慧城市提升公共服务水平C、大数据给思维方式带来了冲击D、大数据为政策制定提供科学论据【正确答案】:ABD40.某个业务人员发现某个查询的HiveSQL执行时间比较长,分析发现该SQL在被分解成多个阶段执行,导致执行时间过长。那么该业务人员可以执行如下哪些操作来优化该SQL语句?A、增加服务器内存,来增加该SQL的执行内存。B、将SQL语句逐条执行。C、针对业务逻辑,提前进行数据过滤,避免后续JOIN操作太繁琐。D、通过参数hive.exec.parallel开启并行执行,提高查询效率【正确答案】:BD41.HBase存储模型包含以下哪些选项?A、列族(ColumnFamily)B、行键(RowKey)C、数据块编号(DataBlockIDD、时间戳(TimeStamp)【正确答案】:ABCD42.Redis的AOF持久化中,写命令同步的时机有以下哪几项?A、appendfsynceverysecB、appendfsyncnoneC、appendfsyncalwaysD、appendfsyncno【正确答案】:ACD43.关于SparkRDD的说法中,以下哪些选项是正确的?A、RDD基于Lineage血统机制的高效容错(第n个节点出错,可从第n-1个节点恢复)B、RDD默认存储于磁盘上,如果磁盘空间不够,会由磁盘刷写至内存中C、计算流程中会划分Stage,Stage如果失败会进行特定次数的重试,重试时只计算失败的数据分片D、RDD是只读和可分区的;要想对RDD进行操作,只能重新生成一个新的RDD【正确答案】:ACD44.HDFS结构中包含以下哪些组件?A、NameNodeB、SourceC、DataNodeD、Sink【正确答案】:AC45.以下关于AppendMode的描述中,正确的是哪些项?A、只适用于结果集中已经存在的内容不希望发生改变的情况B、当时间间隔触发时,只有在ResultTable中新增加的数据行会被写入到外部存储C、如果已经存在的数据会被更新,推荐使用此方式D、如果已经存在的数据会被更新,不适合适用此方式【正确答案】:ABD46.以下哪些选项可以提供文档数据检索服务?A、HDFSB、MapReduceC、ElasticSearchD、Lucene【正确答案】:CD47.实时流处理的步骤包含以下哪些选项?A、实时计算B、实时落地C、缓存队列D、数据实时采集【正确答案】:ABCD48.以下关于有界流的描述,哪些项是正确的?A、有界流处理通常被称为批处理B、有定义流的开始,也有定义流的结束C、有界流可以在读取所有数据后再进行计算D、有界流所有数据可以被排序,所以并不需要有序摄取【正确答案】:ABCD49.以下哪些选项为当前大数据产业发展的特点?A、规模较大B、增速缓慢C、增速很快D、规模较小【正确答案】:AC50.以下哪些数据库的引擎适合做数据仓库?A、ExadataB、OracleC、RedisD、TeraData【正确答案】:ABD51.以下关于事件时间的描述,正确的是哪些项?A、事件时间在事件进入flink之前已经嵌入事件,flink可以提取该时间B、事件时间是指事件在其设备上发生的时间C、基于事件时间进行处理的流程序可以保证事件在处理的时候的顺序性D、基于事件时间的处理往往有一定的滞后性【正确答案】:ABCD52.大数据技术在我们身边应用的越来越广,以下场景中有哪些场景可以应用大数据技术?A、广告精准营销B、游戏画面实时刷新C、人物画像D、道路智能规划【正确答案】:ACD53.Flink提供的窗口分配器,包含以下哪些项?A、全局窗口B、滚动窗口C、滑动窗口D、会话窗口【正确答案】:ABCD54.请按顺序匹配HBase客户端写入数据的正确流程()A、写入磁盘上形成StoreFileB、定位HRegionServerC、写入数据到HLog中D、写入数据到MemStore中【正确答案】:ABCD55.相较于大数据组件,传统数据仓库存在以下哪些劣势?A、I/O存在瓶颈B、大规模数据实时性差C、拓展能力差D、架构单一【正确答案】:ABCD56.FIink计算时间不包含以下哪几种时间语义?A、StartTime(开始时)B、EventTime(件)C、ProcessingTime(处理时)DelayTime(延迟时间)【正确答案】:AD57.数据分析平台云化和融合发展具有以下哪些特点?A、资源弹性分配B、超敏捷应用C、交叉融合分析D、多场景分析【正确答案】:ABCD58.Redis中Key的expire生存时间不适合以下哪些场景?A、存储特定用户所有历史信息B、限时优惠活动C、限制网站访客访问频率D、电商网站过去一年营销总额统计【正确答案】:AD59.实时检索的公安和金融行业应用场景有哪些特征?A、高并发B、存在海量小文件C、查询速度快D、查询条件简单【正确答案】:ABCD60.StructuredStreaming可以把结果写入外部的存储系统,下列哪些选项是属于外部存储系统的存储方式?A、CompleteModeB、AppendModeC、UpdateModeD、OutPutMode【正确答案】:ABC61.以下哪些选项不是GES图数据库的典型应用场景?A、气象局根据过去48小时的气象数据,预测明天的降雨概率B、某社交软件根据用户的好友信息推荐潜在好友C、某运营商通过通话记录来标记用户社交圈D、某商店根据过去十年的销售记录预测明年的大致销量【正确答案】:AD62.Flink的应用场景,包含以下哪些项?A、基于规则的警报参考答案)B、业务流程管理C、异常检测D、欺诈识别【正确答案】:ABCD63.HBase读数据过程,需要读取哪几部分数据?A、HFileB、MemStoreC、HMasterD、HLog【正确答案】:AB64.以下关于Redis使用场景特点的描述,正确的是哪些项?A、数据类型丰富B、支持持久化C、高性能D、低时延【正确答案】:ABCD65.以下关于处理时间的描述,正确的是哪些项?A、处理时间不需要流和机器之间的协调B、处理时间是指每台机器的系统时间C、处理时间能提供最好的性能和最低延迟D、处理时间不能提供消息事件的时序性保证【正确答案】:ABCD66.以下哪些选项是Loader组件的特点?()A、图形化B、高性能C、高可靠D、安全【正确答案】:ABCD67.关于华为云MRS提供的Loader服务,以下描述正确的有哪些选项?A、在华为云MRS平台中,Loader提供定时调度任务,可周期性执行导入/导出作业B、在MRS大数据平台中,Loader需与Flink强绑定C、Loader基于开源Sqoop研发,做了大量优化和扩展D、Loader底层通过MapReduce去实现批量数据的导入/导出及数据转化工作【正确答案】:ACD68.关于GES的GremlinJavaAPI操作,以下描述正确的有哪些项?A、客户端可以和一个或多个Gremlinserver实例建立链接,基于Cluster对象创建ClientB、JavaAPI仅支持同步提交任务,不支持异步提交任务C、可以调用JavaAPI创建Iterator对象,对边和点进行遍历D、GES无法通过JavaAPI删除一张图【正确答案】:AC69.有关华为实时检索解决方案,以下描述中正确的有哪几项?A、数据采集:文件数据通过批量加载写入数据;流式数据通过实时加载写入数据,图数据可以使用华为GES的工具导入数据B、数据源:数据源的种类包括文件数据和流式数据等C、实时检索引擎:适合快速检索,也就是根据指定条件查询结果,不适用于统计和复杂查询D、GES:基于Hadoop生态的图数据库,即存放图片的数据库【正确答案】:ABC70.以下关于KafkaPartition说法正确的有哪几项?A、每个Partition在存储层面对应一个log文件。B、每个Partition都是有序且不可变的消息队列。C、Partition数量决定了每个Consumergroup中并发消费者的最大数量。D、引入Partition机制,保证了Kafka的高吞吐能力。【正确答案】:ABCD71.以下哪些项可能是键值的返回值类型?A、StringB、zsetC、listD、set【正确答案】:ABCD72.以下关于SqoopImport原理的描述中,哪些选项是正确的?A、Sqoop将任务划分到每个map中,再处理数据库中获取的一行一行的值,写入到HDFS中B、Sqoop需要用到Spark或Flink才能完成数据的ImportC、split-by根据不同的参数类型有不同的切分方法,如比较简单的int型,Sqoop会取最大和最小split-by字段值,然后根据传入的num-mappers来确定划分几个区域D、Sqoop在import时,需要指定split-by参数。Sgoop根据不同的split-by参数值来进行切分,然后将切分出来的区域分配到不同map中【正确答案】:ACD73.Flume传输数据过程中,为了防止因Flume进程重启而丢失数据,可以使用以下哪几种Channel类型?A、FileChannelB、MemoryChannelC、HDFSChannelD、JDBCChannel【正确答案】:AD74.数据仓库分层包括以下哪些选项?A、DWD层B、DWS层C、ADS层D、ODS层【正确答案】:ABCD75.ElasticSearch的定位包含以下哪些方法?A、文档检素B、实时搜索C、主键查询D、非主键查询【正确答案】:ABCD76.由GESREST接口可以实现以下哪些操作?A、创建图B、删除图C、创建edgelA,BelD、创建vertexIA,Bel【正确答案】:ABCD77.Loader具有对以下哪些数据源的读取能力?A、HBaseB、HDFSC、HiveD、RDB【正确答案】:ABCD78.以下哪些选项不是Flink资源调度的方式?A、FlinkStandaloneB、FlinkOnZooKeeperC、FlinkOnDocker(参考答案)D、FlinkOnMesos【正确答案】:ABC79.关于Hive导入数据的命令,以下哪些选项是正确的?A、loA,Ddatainpath可用于将HDFS上的数据导入Hive表中B、导入数据时必须指定导入哪张表格,也就是需要使用intotable关键词+表名C、可以使用Local关键词从本地文件系统导入数据至Hive,但是这里的Local指的是hiveserver服务所在的机器,而不是beeline客户端所在的机器D、如果原先表中有数据,想用新数据覆盖旧数据,可以添加overwrite参数进行覆盖【正确答案】:ABCD80.以下关于Source的描述中,正确的是哪些项?A、execsource执行某个命令或者脚本,并将其执行结果的输出作为数据源B、httpsource支持http的post发送数据C、spoolingdirectorysource采集本地静态文件D、Source有驱动和轮询两种类型【正确答案】:ABCD81.以下哪些选项是Hive数据仓库分层的优点?A、隔离原始数据B、复杂问题简单化C、减少重复开发D、清晰数据结构【正确答案】:ABCD82.以下哪几项是属于ElasticSearch的查询类型?A、基于全文检索B、基于分值数检索C、基于元数据检索D、基于词条检索【正确答案】:ABCD83.ElasticSearch用于日志搜索和分析,离不开其拥有的生态圈系统和解决方案,这些开源软件之间互相配合使用,完美衔接,高效地满足了多场景的应用。那么其生态系统具体包括以下哪些内容?A、数据持久化与分析层ElasticsearchB、数据接入层LogstashC、用户接入层KibanaD、插件扩展层【正确答案】:ABCD84.以下关于无界流的描述,哪些项是正确的?A、处理无界数据通常要求以特定顺序摄取事件B、无界流的数据必须持续处理,即数据被读取后需要立刻处理C、有定义流的开始,但没有定义流的结束D、数据源会无休止地产生数据【正确答案】:ABCD85.下面选项哪些是HBase数据查询过滤器Filter的比较器?A、BinaryComparatorB、SubStringComparatorC、BinaryPrefixComparatorD、RegexStringComparator【正确答案】:ABCD86.以下哪些选项属于Elasticsearch内部架构的一部分?A、DistributeLuceneDirectoryB、SearchModuleC、DisoveryModuleD、IndexModule【正确答案】:ABCD87.关于GES服务的常见基本概念,以下哪些选项是正确的?A、GES不存在无向边B、在GES中,点的属性(Property)表示了该顶点的附加信息,采用Keyvalue:结构进行保存C、个人的姓名、年龄、身份证、爱好等信息可以用VertexLA,Bel来表示D、"认识/朋友关系"在图中可以用边来表示【正确答案】:ABCD88.华为企业云数据湖具有以下哪些优势?A、开放接口,支持开放实时标准,构建丰富生态,自助式数据开发与分析B、存储和计算分离,支持更多用户并发和更大数据量C、更多数据通过实时、虚拟方式入湖,数据产生即可见、可用D、数据集中,开放共享、统一目录管理,避免跨系统数据搬迁【正确答案】:ABCD89.关于HBaseRegion分裂的描述中,以下哪些选项是正确的?A、Region拆分操作需要消耗大量时间B、拆分过程中的Region是不可读的C、直到分裂过程结束,把存储文件异步地写到独立的文件之后,才会读取新文件D、在RegionSplit时,拆分之后的Regioni读取的仍然是原存储文件【正确答案】:BC90.关于HBase架构,以下描述中正确的有哪些项?A、HBase支持部署多台HMaster,但通常只有一台A,CtiveHMasterB、HBase的主节点叫做HMasterC、每一次触发Flush操作,HBase都会生成一个新的HRegionServerD、HRegionServer之间的负载均衡需要HMaster来协调管理【正确答案】:ABD91.以下哪些选项是网站日志的特点?A、价值密度低B、数据的业务种类多C、数据结构复杂D、数据量大【正确答案】:ABCD92.以下哪些选项可以在华为云GES服务中实现?A、根据用户的用户画像,为用户推荐最合适的电影(推荐系统)B、查询两个用户Reed和Caspar的最短路径(计算最短路径)C、调用PageRank算法,查间图中最关键的数据点(PageRank算法)D、查询Hillary用户的朋友的朋友的朋友(多级关系查询)【正确答案】:ABCD93.以下哪些选项属于HBase基本架构的一部分?A、HMasterB、DataBlockC、RDDD、Store【正确答案】:AD94.关于HBase性能优化,以下描述中正确的有哪些选项?A、在使用HBaseJavaAPI时,可以通过调用Table实例的get(List)批量读取多行记录,只需一次网络1/O开销,可以明显的提升读性能B、一张表里不要定义太多的列簇,因为某个列簇在flush的时候,它邻近的列簇也会因关联效应被触发flush,最终导致系统产生更多的I/OC、在建表时可以预先创建多个Region,当数据写入HBase时,会按照RowKey对应Region分区情况,在集群内做数据的负载均衡D、在使用HBaseJavaAPI时,可以通过调用Table实例的put(List)批量写入多行记录,只需一次网络l/O开销,可以明显的提升写性能【正确答案】:ABCD95.在离线批处理的实验中,网站产生的日志包含如下哪些特点?A、数据量大B、价值密度高C、数据的业务种类多D、处理逻辑简单【正确答案】:AC96.关于HBase的数据模型,以下哪些选项是正确的?A、表是由行和列构成的,所有的列是从属于某一个列族的B、所有的表都必须要有主键-keyC、应用程序是以表的方式在HBase存储数据的参考答案)D、HBase的表是按key排序的,排序方式是针对字节的【正确答案】:ABCD97.Hive架构中Driver包含以下哪些组件?A、ExecutorB、ChannelC、OptimizerD、Compiler【正确答案】:ACD98.关于Hive架构中的Driver,以下哪些选项是正确的?A、Driver中的Compiler子模块负责编译HiveQL并将其转化为一系列相互依赖的Map/Reduce任务B、Driver负责管理HiveQL执行的生命周期,只对内部表有效,外部表的处理流程不由Driver管理C、Driver中的Optimizer可分为逻辑优化器和物理优化器,分别对HiveQL生成的执行计划和MapReduce任务进行优化Driver中的Executor按照任务的依赖关系分别执行Map/Reduce任务【正确答案】:ACD99.以下关于微批处理模型的描述,正确的是哪些项?A、在下一个微批处理之前,要将数据的偏移范围保存在日志中B、当前到达的数据需要在上一批次处理完,才能下一个批次数据继续处理C、会有一定的延迟D、流计算引警在处理上一批次数据结束后,再对新数据进行批量查询【正确答案】:ABCD100.某大数据业务人员在不小心删除了HDFS某个文件后,想通过回收站机制恢复数据,但是在对应的回收站目录/user/root/.Trash中为什么找不到要恢复的数据?A、回收站中的数据超过了保留的期限,被系统删除了。B、回收站机制并没有开启,导致没有及时回收C、回收站通过回收间隔,对数据进行了整理,需要进入到指定时间间隔下才能找到D、查找的目录可能出现了问题,需要核实删除操作的用户。【正确答案】:AB1.GES技术架构包含了接口层、计算层和存储层。A、正确B、错误【正确答案】:A2.Spark是基于内存的分布式批处理系统,与磁盘没有关系,因此在安装Spark时,不需要安装HDFS。A、正确B、错误【正确答案】:B3.Flink处理数据是无状态的,处理一个事件与之前的事件无关。A、正确B、错误【正确答案】:B4.Kafka中的Broker具有消息接收和消息分发的能力。A、正确B、错误【正确答案】:B5.MapReduce专注于离线计算,通常时间是几十分钟甚至更长时间。由于实时计算的需求流式计算引擎开始出现,包括Storm、Flink、SparkStreaming。A、正确B、错误【正确答案】:A6.Spark执行效率高的一个关键因素是在处理数据时产生的中间产物(计算结果)存放在内存中,减少了对磁盘的I/O操作。A、正确B、错误【正确答案】:A7.ElasticSearchi能够支持文档检索。A、正确B、错误【正确答案】:A8.数据仓库仅仅提供存储功能,以及面向数据管理的服务。A、正确B、错误【正确答案】:A9.作为企业级大数据平台,FusionInsight具备四大能力包括一站式平台、永远在线、易用成本低以及可持续演进。A、正确B、错误【正确答案】:A10.实时布控场景中,数据实时采集可以通过警务数据共享交换平台与边界平台,实时获取出行住宿通讯视频数据。A、正确B、错误【正确答案】:A11.Loader是实现MRS与关系型数据库、文件系统之间交换数据和文件的数据加载工具。(AA、正确B、错误【正确答案】:B12.HBase类似于传统关系型数据库,可以轻易满足海量数据的全局ACID特性。A、正确B、错误【正确答案】:B13.为了减少磁盘写入的次数,Broker会将消息暂时buffer起来,当消息的个数达到一定阀值时,再flush到磁盘,这样减少了磁盘调用的次数。A、正确B、错误【正确答案】:A14.Sqoop是一款开源的工具,主要用于在Hadoop与传统的数据库间进行数据的传递,例如可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。A、正确B、错误【正确答案】:A15.大数据指其大小超出典型数据软件的采集、存储、管理和分析等能力的数据集,一般范围是从几个TB到几个PB。A、正确B、错误【正确答案】:A16.每个KafkaTopic由一个或多个consumergroup组成,属于同一个consumergroup的consumer都具有相同的groupID。A、正确B、错误【正确答案】:B17.MRS的Flink不支Kerberos持等进行认证,但支持SSL加密传输。A、正确B、错误【正确答案】:B18.Source必须至少和一个channel关联。A、正确B、错误【正确答案】:A19.大数据技术的解决方案思路是聚焦在单台机器上,思考如何提升单机的性能,寻找更贵更好的服务器。A、正确B、错误【正确答案】:B20.ElasticSearch倒排索引是通过关键词查询对应的文档编号,再通过文档编号找文档。A、正确B、错误【正确答案】:A21.BloomFilter可以被用来快速的判断一条数据在一个大的数据集合中是否存在。A、正确B、错误【正确答案】:A22.GES基于MySQL的分布式存储机制,能够处理海量数据。A、正确B、错误【正确答案】:B23.通过SparkSession提交SQL语句时,任务会像普通Spark应用一样被提交到集群中分布式运行。A、正确B、错误【正确答案】:A24.Kafka中每个Topic都由一个或者多个Partition构成,Partition数量决定了每个Consumergroup中实际工作的并发消费者的最大数量。A、正确B、错误【正确答案】:A25.StructuredStreaming包括两个处理模型,微批处理模型和持续处理模型。A、正确B、错误【正确答案】:A26.对于数据集市和数据仓库而言,面向最终用户或应用的是数据集市,面向数据管理的是数据仓库。A、正确B、错误【正确答案】:A27.HBase本身并没有SQL语句的接口,需依赖其他组件,例如ApachePhoenix,将SQL查询编译为一系列HBase扫描。A、正确B、错误【正确答案】:A28.数智融合是当前大数据领域最受关注的趋势之一,主要体现在大数据平台的数据分析智能化以及数据治理的智能化。A、正确B、错误【正确答案】:A29.Hive中的左半开连接(LEFTSEMIJOIN)比通常的内连接(INNERJOIN)要更高效,因为对于左表中一条指定的记录,在右边表中一旦找到匹配的记录,Hive就会立即停止扫描。即遇到右表重复记录,左表会跳过,而INNERJOIN则会一直遍历。A、正确B、错误【正确答案】:A30.在HDFS里,删除文件时,不会真正的删除,其实是放入回收站,回收站里的文件可以用来快速恢复误删文件。A、正确B、错误【正确答案】:A31.在Hive的SQL语句执行中,因为groupby等关键字的使用会导致数据倾斜。因此为了表面数据倾斜,应禁止该类操作执行。A、正确B、错误【正确答案】:B32.HBase依赖于Zookeeper完成主备选举,以及管理root表。A、正确B、错误【正确答案】:A33.StructuredStreaming持续处理模型可以实现毫秒级延迟。A、正确B、错误【正确答案】:A34.Hive中MetaStore是用于存储表、列和Partition等元数据。A、正确B、错误【正确答案】:A35.云上数据分析以敏捷无缝的部署和管理体验从技术、组织和人员等多维度提速企业数字化转型。A、正确B、错误【正确答案】:A36.华为云FusionInsight支持资源池隔离、独占、亲和性等调度策略,可以很好的解决任务之间资源抢占问题,提供对任务的优先级保障,为重点任务预留资源,保障稳定运行,这样可以解决过去企业靠人工保障任务优先级的问题,节省人力成本。A、正确B、错误【正确答案】:A37.ElasticSearch:缓存主要分三种:RocksDBCache、FileDBCache、StateBackEndCache。A、正确B、错误【正确答案】:B38.flushall可以清空Redis实例下所有数据库的数据。A、正确B、错误【正确答案】:A39.Hive创建表时如果不指定数据库,则默认为default数据库。A、正确B、错误【正确答案】:A40.Spark和MapReduce一样不适用于迭代计算。A、正确B、错误【正确答案】:B41.Consumeri通过Pull的方式从Broker获取数据消费。A、正确B、错误【正确答案】:A解析:
四.填空42.向HBase插入数据,只可使用put一种方法。A、正确B、错误【正确答案】:B43.Hive数据存储模型中分区对应着表所在路径的一个文件。A、正确B、错误【正确答案】:B44.实时检索技术通常需要处理复杂的统计类分析和查询,因此比较适合使用Hive进行分析判断A、正确B、错误【正确答案】:B45.Redis是个高性能key-value内存数据库。A、正确B、错误【正确答案】:A46.实时流处理要求秒级或者毫秒级时延A、正确B、错误【正确答案】:A47.离线分析平台主要进行数据处理和加工,将原始数据加工成明细数据。以及进行离线跑批作业产生结果数据,供上层应用调用。A、正确B、错误【正确答案】:A48.离线批处理对数据处理的时延要求高,处理的数据量较大,占用的计算存储资源较多,通常通过M
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论