HCIP大数据复习测试附答案_第1页
HCIP大数据复习测试附答案_第2页
HCIP大数据复习测试附答案_第3页
HCIP大数据复习测试附答案_第4页
HCIP大数据复习测试附答案_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第页HCIP大数据复习测试附答案1.关于HBase建表语句,以下描述中错误的是哪一项?A、利用HBase的JavaAPI时,需要用put语句完成建表B、在建表时可以预先创建多个RegionC、在华为云MRS提供的HBaseshell客户端中建表时,需指定至少一个列族名称D、在HBaseshell客户端中可以通过create命令建表【正确答案】:A2.关于HBase中的BloomFilter,以下描述中错误的是哪一项?A、BloomFilter用来优化一些随机读取的场景,即Get场景BloomFilter可以被用来快速的判断一条数据在一个大的数据集合中是否存在C、如果BloomFilter判断结果为“该条数据不存在”,这一结果拥有一定的误判率D、HBase的BloomFilter的相关数据,被保存在HFile中【正确答案】:C3.以下哪一选项不是基于数据湖构建一站式Al开发平台ModelArts的特点?AI全流程开发:高精度、高效率完成开发任务B、可视化管理:数据准备、模型构建部署可视化管理C、需自行安装下载TensorFlow、PyTorch等主流计算框架D、在线推理、批量推理和边缘推理,满足多种业务场景诉求【正确答案】:C4.如果想把Redis的Key中存储的数字值减1,该使用下列哪一个命令?A、incrbyB、decrC、decrbyD、incr【正确答案】:B5.实时检索应用场景不包含以下哪一顺?A、通过用户姓名查找购房记录B、通过用户银行卡号查找转账记录C、通过用户兴趣爱好推荐影视作品D、通过用户身份证号查找住宿记录【正确答案】:C6.以下哪一个选项不是ElasticSearch底层存放索引快照的位置?A、HadoopHDFSB、LocalFileSystemC、SharedFileSystemD、IndexModule【正确答案】:D7.Hive中hive>DESCRIBEinvites这一命令可以实现以下哪一功能?A、修改表B、浏览表C、描述表D、创建表【正确答案】:C8.HBase的主HMaster是如何选举的?A、由RegionServer进行裁决。B、HMaster为双主模式,不需要进行裁决。C、随机选取D、通过ZooKeeper进行裁决。【正确答案】:D9.关于ElasticSearch生态圈,以下描述中错误的是哪一项?A、elasticsearch-head:深度集成Hadoop和ElasticSearch的项目,是官方维护的一个子项目Beats:专门用于发送数据的平台,可以将数据无缝传输给Logstash或是ElasticSearchC、Logstash:具备实时数据传输能力的管道,着重日志相关处理D、Kibana:开源的分析和可视化平台,基于ElasticSearch的搜索与分析能力,拿到用于上层分析和可视化需要的结果【正确答案】:A10.关于分布式图数据库,以下描述正确的是哪一项?A、图数据库将数据切分为多个数据块进行存储,数据块大小固定128MBB、图数据库以"图"这种数据结构来存储和查询数据C、图数据库采用ER实体关系进行存储D、图数据库与关系型数据库可以灵活转化【正确答案】:B11.Spark读取任务参数优先级最高的是以下哪一选项?A、动态参数B、代码配置C、配置文件D、客户端配置【正确答案】:B12.HDFS里元数据持久化过程包括Fslmage持久化和Editlog持久化,其中EditLog持久化是通过以下哪一种方式完成的?A、图片B、日志C、网页D、快照【正确答案】:B13.以下关于Flink的描述,错误的是哪一项?A、Flink在维护一次完整的的应用状态时,不能无缝修复错误B、Flink是一个批处理和流处理结合的统一计算框架C、Flink支持大规模运行,在上千个节点运行时有很好的吞吐量和低延迟D、Flink没有单点故障,提供高吞吐量和低延迟的能力【正确答案】:A14.Hive表与MySQL类似存在分区的概念,那么对于Hive的分区,以下描述中,正确的是哪一项?A、Hive的分区针对的是文件,分桶针对的是文件夹。B、Hive的分区数量可以通过参数动态生成。C、Hive的分区和分桶是以一个概念。D、Hive的分区字段与MySQL一样必须存在。【正确答案】:B15.关于HBase客户端的使用,以下描述错误的是哪一选项?A、插入数据需要用到put命令B、无法通过HBase客户端创建命名空间C、创建表时可以指定列族名称D、使用get命令查询数据时需要指定行键信息【正确答案】:B16.在HDFS的架构中NameNode主要存储元数据。以下哪个不是元数据?A、文件位置B、文件大小C、文件权限D、文件数据【正确答案】:D17.Redis中Hash数字类型不含以下哪种操作?A、hgetallB、hsetC、hmgetD、size【正确答案】:D18.关于Spark中的DataSet,以下哪一个选项是错误的?A、DataSet与RDD高度类似,但在利用SparkSQL进行处理时性能比RDD好B、DataSet不需要反序列化就可执行大部分操作C、DataSet是一个由特定域的对象组成的强类型集合DataSet执行sot、filter、shuffle等操作需要进行反序列化【正确答案】:A19.关于StructuredStreaming时间语义以下哪一项是正确的?A、StructuredStreaming支持watermark机制处理滞后数据参考B、事件时间是指每台机器的系统时间,当流程序采用处理时间时,将使用各个实例的机器时间C、StructuredStreaming仅支持事件时间D、StructuredStreaming仅支持处理时间【正确答案】:A20.HDFS基本系统架构中,副本配置通常存储()份。A、1B、2C、3D、4【正确答案】:C21.以下哪个选项属于大数据消息系统?A、HDFSB、MapReduceC、YarnD、Kafka【正确答案】:D22.以下描述中,哪一个选项属于HDFS的使用场景?A、海量气象数据存储B、集群资源调配管理C、社交媒体数据流式分析D、数据采集与分发【正确答案】:A23.以下关于实时处理解决方案与其它解决方案的关系,错误的是哪一项?A、实时处理系统需要备份存储B、实时处理系统不需要考虑HAC、实时处理处理后的数据可用于实时检索D、实时处理处理后的数据可直接应用至业务系统【正确答案】:B24.关于ElasticSearch的说法,下列错误的是哪一项?A、ElasticSearch可以把一个完整的索引分成多个分片B、ElasticSearch可以不需要Zookeeper的支特、C、EsMaster可以临时管理集群级别刷的一些变更D、ElasticSearch可以设置多个索引的副本【正确答案】:B25.在华为云GES中,想要给图g中id为"Katherine"的用户添加朋友为"zhangsan"。以下哪一个选项能正确实现上述目的?A、g.addV('friends').from(g.V("Katherine")).to(g.V("zhangsan"))B、g.addV('friends').from(g.V("zhangsan")).to(g.V("Katherine"))C、g.addE('friends').from(g.V("zhangsan")).to(g.V("Katherine"))D、g.addE('friends').from(g.V("Katherine").to(g.V("zhangsan"))【正确答案】:D26.以下关于GES四大特点的描述,哪一个选项是错误的?A、查询分析一体:提供丰富的图分析算法,实现了查询分析一体化,可以为关系分析、路径规划、营销推荐等业务提供多样的分析能力B、高性能:对分布式图形计算引擎进行了深度优化,能达到小时级响应速度的查询能力C、简单易用:支持Gremlin查询语言,兼容不同用户的使用习惯D、大规模:具有高效的数据组织能力,可以更有效地对百亿节点千亿边规模的数据进行查询与分析【正确答案】:B27.假设现在要做一个可以根据线索指导运维人员进行排障的功能,你建议选择下列哪个工具实现该功能?A、LuceneB、HBaseC、GESD、ElasticSearch【正确答案】:D28.以下哪一项不是传统数据处理系统面临的问题?A、有限的扩展能力B、海量数据的存储成本高C、大数据处理能力不足D、数据源多样【正确答案】:D29.关于HBase的RowKey,以下描述中错误的是哪一项?A、RowKey默认最大长度64KB,实际应用中一般为10~100字节B、在HBase中,每一个RowKey都是一串字节数组C、RowKey是一个长整型对象D、RowKey默认按照字典序存储【正确答案】:C30.以下哪一项不属于ElasticSearch客户端可以执行的curl命令?A、curl-XPOSTB、curl-XSELECTC、curl-XGETD、curl-XPUT【正确答案】:B31.Spark处理数据时产生的中间产物会存放到以下哪一选项中?A、磁盘B、网络C、内存D、云上【正确答案】:C32.编写Scala代码时,通过以下哪个算子可以实现数据过?A、filterB、collectC、mapD、flatmap【正确答案】:A33.以下哪一选项不是企业级大数据平台的特点?A、可维护性差B、可平滑拓展C、数据共享D、资源共享【正确答案】:A34.Redis中哪个命令是查看键的剩余生存时间?A、ttlB、expireatC、persistD、expire【正确答案】:A35.HBase的Region的是由哪个服务进程来管理的?A、HRegionServerB、ZooKeeperC、DataNodeD、HMaster【正确答案】:A36.StructuredStreaming不支持以下哪种计算时间?A、注入时间B、事件时间C、结束时间D、处理时间【正确答案】:C37.以下哪一项不属于目前经常定义的Sink类型。A、ElasticSearchSinkB、RedisSinkC、KafkaSinkD、ODBCSink【正确答案】:D38.Kafka日志数据文件默认保留的最长时间是多少小时?A、96B、48C、24D、168【正确答案】:D39.以下有关Hive的左外连接和右外连接的描述中,错误的是哪一个选项?A、对于左外连接和右外连接,where条件是在0n条件执行之后才会执行B、左外连接与内连接概念相同,但右外连接与内连接概念不同C、右外连接以右侧表为基准,如果左侧表和on条件匹配的数据则显示出现,不匹配的数据显示NULLD、左外连接以左侧表为基准,如果右侧表和on条件匹配的数据则显示出来,否则显示NULL【正确答案】:B40.某大数据开发人员在创建Hive表结构时,发现原先创建的表存储格式出现了问题。对于这一现象,以下描述中,错误的是哪一项?A、不同的存储格式会影响表的处理效率B、必须修正回来,不然会导致数据无法查询C、可以通过alter命令进行修改D、错误的表存储格式会影响10A,D命令加载,导致数据无法正常导入【正确答案】:B41.以下关于Redis持久化的描述,错误的是哪一项?A、RDB方式的持久化是通过快照完成的B、AOF方式的持久化是通过日志文件的方式C、可以手动执行save或者bgsave命令让redis执行快照D、Redis默认的持久化方式是AOF【正确答案】:D42.以下哪一选项不是统一元数据管理的优势?A、元数据统一管理、统一访问和使用B、提供可视化元数据管理工具C、使用事实标准Hivemetastore接口,业务易对接D、数据访问分散授权,数据安全无保障【正确答案】:D43.关于HBase的概念视图,以下描述中正确的是哪一项?A、HBase是一个面向列的非关系型数据库B、HBase的每一行数据可以有不同的行键C、HBase表格数据以文件块的形式存放在内存中D、HBase的每一个Region都是固定大小,每个Region都是64MB【正确答案】:A44.StructuredStreaming的底层源码是以下哪一项?A、JavaB、PythonCD、Scala【正确答案】:D45.HBase使用get方法读取数据时,下列哪个选项是需要的?A、scan.setCaching(1000)B、Deletedelete=newDelete(rowKey)C、byte[]rowKey=Bytes.toBytes("012005000201")D、List<Put>puts=newArrayList<Put>【正确答案】:C46.HBase客户端提供了很多命令,关于list命令,下列正确是哪一项?A、查看所有的表B、查询命名空间C、查看帮助命令D、查询表数据【正确答案】:A47.企业级数据分析平台的演进趋势不包括以下哪一阶段A、无组织架构阶段B、单一架构阶段C、存算分离架构阶段D、存算融合架构阶段【正确答案】:A48.关于HBase集群架构组成各部分描述错误的是哪一选项?A、正常HBase表只有一个Region,不支持分裂B、Client可用于缓存维护已经访问过的Region的位置信息C、HRegionServer负责处理数据读写请求D、HMaster主要负责Region的管理工作【正确答案】:A49.下列哪一个命令可以清空Redis实例下所有数据库的数据A、dropallB、flushallC、dropdbD、flushdb【正确答案】:B50.关于ElasticSearch的说法,下列错误的是哪一项?A、不支持非结构化数据B、对Lucene进行了扩展C、原型环境和生产环境可无缝切换D、能够水平扩展【正确答案】:A51.下列关于ElasticSearch的说法错误的是哪一项?A、可以扩展到上百台服务器,处理PB级别的结构化或非结构化数据B、分布式文件存储,并将每一个字段都编入索引,使其可以被搜索C、实时分析的分布式搜索引擎D、ElasticSearch可以存储和检索PB的数据,只适用于离线批处理场景。【正确答案】:D52.关于ElasticSearch内部架构,以下描述中错误的是哪一项?()A、Plugins:插件可以通过自定义的方式扩展加强Elasticsearch的基本功能,比如可以自定义类型映射,分词器,本地脚本等B、transport:代表Elasticsearch内部节点或集群与客户端的交互方式,默认内部是使用tcp协议进行交互C、Discovery:该模块主要负责集群中节点的自动发现和Master节点的选举D、Gateway:代表ElasticSearch.与客户端交流的方式【正确答案】:D53.为了提高Kafka的容错性,Kafka支持Partition的复制策略,以下关于LeA,DerPartition和FollowerPartition的描述哪一项是错误的?A、Kafkat对Partition的复制需要选出一个LeA,Der,由该LeA,Der负责Partition的读写操作,其他的副本节点只是负责数据的同步B、如果LeA,Der失效,那么将会有其他Follower来接管(成为新的LeA,DerC、一个Kafka集群各个节点间不可能互为LeA,Der和FollowerD、由于LeA,DerServer承载了全部的请求压力,因此从集群的整体考虑,Kafka会将LeA,Der均横的分散在每个实例上,来确保整体的性能稳定【正确答案】:C54.Hive中的解释器(complier)、优化器(optimizer)、执行器(executor)组件用于HQL语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在()中,并在随后由()调用执行。A、内存、MapReduceB、HBase、YarnC、HDFS、YarnD、HDFS、Tez【正确答案】:C55.关于GES技术原理,下列错误的是哪一项?A、基于HBase的分布式存储机制,能够处理海量数据B、基于Yarn的资源调度,可以并行执行多任务(参考答案)C、基于ElasticSearch的索引机制,能够根据索引快速查询数据D、基Spak于的分布式内存计算技术,支持数据快速导入【正确答案】:B56.以下关于Redis中String类型的描述,错误的是哪一项?A、一个字符串类型的值存储的最大容量是1MBB、字符串类型是Redis中最基本的数据类型C、可以存储图片D、可以存储文本数据【正确答案】:A57.以下哪一选项不是批流融合的实时决策系统的优势?A、维护难度大B、吞吐量高C、可靠性高D、批-流融合计算【正确答案】:A58.Redis不适用于以下哪个应用场景?A、获取TOPN操作B、获取PB级Value数据C、获取最新N个数据的操作D、获取手机验证码【正确答案】:B59.以下关于KeyBy算子的描述,错误的是哪一项?A、数据类型转换是KeyedStream->DataStreamB、每个分区包含具有相同key的元素C、逻辑地将一个流拆分成不相交的分区D、在内部以hash的形式实现的【正确答案】:A60.Hive数据存储模型中不包括以下哪一结构?A、分区B、表C、桶D、块【正确答案】:D61.Loader是基于哪个开源组件的图形化迁移管理工具?A、HueB、spankC、SqoopD、Kettle【正确答案】:C62.关于ElasticSearch,以下哪一个选项是正确的?A、ElasticSearch自身不带RESTFULAPI接口B、ElasticSearch不支持分布式C、ElasticSearch只在数据量比较小的时候才有性能优势D、ElasticSearch可以支持模糊查询【正确答案】:D63.以下哪一选项不是大数据的特点?A、容量大B、种类多C、速度快D、结构单一【正确答案】:D64.大数据的显著特征不包括以下哪一个选项?A、数据规模小B、数据处理速度快C、数据类型多样D、数据价值密度低【正确答案】:A65.StructuredStreaming程序执行过程中,定义流计算过程之后是哪一个步骤?A、创建输入数据源B、导入相关依赖模块C、启动流计算并计算输出结果D、创建SparkSession对象【正确答案】:C66.关于HBasc的特性描述错误的是?A、高可靠B、分布式C、不支持扩容D、高性能【正确答案】:C67.以下哪一个组件可以将SQL语句转化为HBase的Scan操作?ApacheStormB、ApachePhoenixC、ApacheMapReduceD、ApacheHDFS【正确答案】:B68.Spark中A,Ction算子返回的是以下哪一选项?A、依赖关系B、DAG图C、RDDD、计算结果或者是写入存储操作【正确答案】:D69.关于ElasticSearch核心概念,以下哪一项说法是错误的?A、Document文档,是可以被素引的基本单位,特指最顶层结构或根对象序列化成的JSoN数据B、Mapping:映射,用来约束字段的类型,可以根据数据自动创建,相当于数据库中的ShemaC、Type:文档类型,文档类型使得同一个素引中在存储结构不同的文档时,只需要依据文档类型就可以找到对应的参数映射信息,方便文档的存储D、Index:是ElasticSearch中一个逻辑命名空间,与关系数据库实例DatA,Base相当,只能存放结构化数据【正确答案】:D70.关于ElasticSearch性能优化,以下哪一项说法是错误的?A、分片数不超过节点数的3倍,用较少的分片获得更佳的性能B、索引创建好后依然可以动态调整分片数量C、分片最大容量不要超过E1asticSearch推荐的最大JVM堆空间32GD、副本数建议设置为1,过多的副本需要更多存储空间【正确答案】:B71.以下描述中,哪一项不是实时检索技术在金融行业的应用特点?A、高并发B、查询条件复杂C、时延要求高D、存在海量图片小文件【正确答案】:B72.关于Flink的角色,下列哪一项说法是错误的?A、Client是Flink程序提交的客户端,对用户提交的Flink程序进行预处理,并提交到Flink集群中处理。B、JobManager扮演着集群中的管理者Master的角色,它是整个集群的协调者。C、TaskManager负责从用户提交的Flink程序配置中获取JobManager的地址。D、TaskManager是实际负责执行计算的Worker.【正确答案】:C73.不同的Channel提供的持久化水平也是不一样的,其中()不会持久化;A、MemoryChannel、JDBCChannel、FileChannelB、FileChannel、JDBCChannel、MemoryChannelC、JDBCChannel、MemoryChannel、FileChanelD、MemoryChannel、FileChannel、JDBCChannel【正确答案】:D74.Flume的应用中,如果要保证sink的负载均衡,需要使用以下哪一个组件?A、DefaultSinkProcessorB、StaticInterceptorC、ReplicatingChannelSelectorD、FailoverSinkProcessor【正确答案】:A75.某大数据业务人员需针对某些数据创建Hive表结构,其中某个数据为时间类型yyyyMMdd.那么可以使用以下哪一项作为字段类型?A、varcahrB、stringC、intD、double【正确答案】:B76.以下哪一项不属于Flink组件的滚动聚合算子?A、KeyBy()B、minBy()C、min()D、sum()【正确答案】:A77.以下哪一选项不是组件混合负载、资源统一调度带来的客户价值?A、混合负载,统一资源池调度,提升资源利用率B、支持授权用户数量大幅减少CPU、GPU异构计算调度D、资源池隔离,计算任务相互不影响【正确答案】:B78.以下哪一选项不属于分布式架构应对故障的策略?()A、单集群跨AZ高可用B、异地容灾集群C、数据多副本,支持磁盘热拔插D、滚动升级/补丁【正确答案】:D79.StructuredStreaming不能提供以下哪几种类型的保证?AtmostonceB、AtleastonceC、MorethanonceD、Exactlyonce【正确答案】:C80.Hive与传统数据仓库的区别不包括以下哪一选项?A、索引B、易用性C、面向对象D、执行引擎【正确答案】:C81.以下哪种资源不是大数据集群在进行数据传输过程中遇到的瓶颈?A、网络B、CPUC、磁盘/OD、内存【正确答案】:B82.以下关于RDD的描述中,错误的是哪一项?A、RDD默认是存储于内存。B、RDD是分布式弹性数据集。C、RDD的创建只能依赖HDFS。D、用户可以选择不同的存储级别缓存RDD以便重用。【正确答案】:C83.RedisMaster-Slave采用Master-Slave架构,由Masterslave节点管理工作。A、对B、错(参考答案)【正确答案】:B84.以下关于Flume的描述,错误的是哪一项?A、Flume不支持级联(多个Flume对接起来),合并数据的能力B、Flume支持按照用户定制采集数据的能力C、提供实时采集日志信息(taildir)到目的地的能力D、提供从固定目录下采集日志信息到目的地(HDFS,HBase,Kafka)能力【正确答案】:A85.离线批处理工具不包含以下哪项?A、SparkB、SQLC、MapReduceD、Storm【正确答案】:D86.关于HDFS单名称节点体系结构的局限性,以下哪一个选项是错误的?A、HDFS只设置唯一一个名称节点,一旦这个唯一的名称节点发生故障,会导致整个集群变得不可用B、HDFS只设置唯一个名称节点,资源和数据可以方便的完成隔离C、HDFS只设置唯-一个名称节点,会带来命名空间的限制D、HDFS只设置唯一个名称节点,会带来性能的瓶颈和吞吐量的瓶颈【正确答案】:B87.在HDFS中"认为硬件,总是不可靠的"体现了以下哪一个特性?A、高吞吐量B、大文件存储C、高容错性D、弹性伸缩【正确答案】:C88.银行进行客户购买力分析,首先获取客户历史账单,确定其中各项商品的计算权重,得出每位客户的购买力评分并存储记录。最后将结果以图表显示。请问该过程对应于以下哪个项目数据流程设计。A、数据可视化->数据源->数据落地->数据处理B、数据源->数据处理->数据落地->数据可视化C、数据源数据落地>数据处理->数据可视化D、数据可视化>数据源->数据处理->数据落地【正确答案】:B89.以下哪个场景是HDFS适合做的?A、大量小文件存储B、流式数据访问C、随机写入D、低延迟读取【正确答案】:B90.Kafka运行时直接依赖于以下哪一个组件?A、HBaseB、HDFSC、SparkD、Zookeeper【正确答案】:D91.在大数据业务处理的场景中,常常说不适合存储大量的小文件。这主要是受以下哪个组件的影响?A、YarnB、HDFSC、HiveD、MapReduce【正确答案】:B92.ElasticSearch数据写入阶段有很多调优方式,下列错误的是哪一项?A、尽量使用自动生成的idB、禁用wildcardC、写入前副本数设置为0D、写入过程中:采取bulk批量写入【正确答案】:B93.Hive中详细显示函数的用法为以下哪一选项?A、hive>getfunctions;B、hive>descfunctionextendedupper;C、hive>descfunctionupper;D、hive>showfunctions;【正确答案】:B94.以下关于Sqoop数据导入原理的描述中,错误的是哪一项?A、Sqoop在import时,需要指定split-by参数。B、Sqoop会根据传入的num-mappers来确定划分几个区域。C、Sqoop根据不同的split-by参数值来进行切分,然后将切分出来的区域分配到不同map中。D、num-nappers越大效率越高。【正确答案】:D95.大数据技术一站式融合中计算融合指的是以下哪一选项?A、大数据基础设施上云B、融合多样性的算力,提升整体效率C、批、交互式、流等计算框架共用资源,分时复用D、大数据平台的数据分析智能化以及数据治理的智能化【正确答案】:C96.以下哪个选项不属于智慧城市所需要的技术?AI计算B、大数据C、手工制作D、智慧交通【正确答案】:C97.Hive架构中有一个Driver模块用于对SQL语句进行转化,那么对于Driver的描述中,正确的是哪一项?A、Driver中的Compiler负责对HiveQL生成的执行计划和MapReduce任务进行优化B、Driver中的Optimizer负责编译HiveQL并将其转化为一系列相互依赖的Map/Reduce任务。C、Driver中的Executor负责按照任务的依赖关系分别执行Map/Reduce任务Driver指Java的JDBC连接所用的Driver类。【正确答案】:C98.某公司在进行大数据离线批处理平台的前期技术选型,以下哪个大数据组件不属于高线批处理业务所涉及到的组件?A、HiveB、SparkC、HDFSD、Storm【正确答案】:D99.以下哪一项不是SparkSQL的适用场景?A、实时数据查询B、需要处理PB级的大容量数据C、结构化数据处理D、对数据处理的实时性要求不高的场景【正确答案】:A100.在Flume架构中,以下哪一种类型的Sink支持将数据写入到Solr中?A、thiftsinkB、filerollsinkC、MorphlineSolrsinkD、hdfssink【正确答案】:C1.以下哪些选项可以提供文档数据检索服务?A、HDFSB、MapReduceC、ElasticSearchD、Lucene【正确答案】:CD2.实时检索的解决方案中有哪些组件?A、HadoopB、HiveC、ElasticSearchD、HBase【正确答案】:CD3.以下哪些项可能是键值的返回值类型?A、StringB、zsetC、listD、set【正确答案】:ABCD4.Kafka创建Topic时如何将分区放置到不同的Broker中,请选择正确的顺序()A、第一个分区的第一个副本放置位置是随机从brokerList选择的B、其他分区的第一个副本放置位置相对于第0个分区依次往后移C、剩余的副本相对干第一个副本放置立置其实是由nextReplicaShift决定的,而这个数也是随机产生的D、副本因子不能大于Broker的个数【正确答案】:ABCD5.关于GES的GremlinJavaAPI操作,以下描述正确的有哪些项?A、客户端可以和一个或多个Gremlinserver实例建立链接,基于Cluster对象创建ClientB、JavaAPI仅支持同步提交任务,不支持异步提交任务C、可以调用JavaAPI创建Iterator对象,对边和点进行遍历D、GES无法通过JavaAPI删除一张图【正确答案】:AC6.有关华为实时检索解决方案,以下描述中正确的有哪几项?A、数据采集:文件数据通过批量加载写入数据;流式数据通过实时加载写入数据,图数据可以使用华为GES的工具导入数据B、数据源:数据源的种类包括文件数据和流式数据等C、实时检索引擎:适合快速检索,也就是根据指定条件查询结果,不适用于统计和复杂查询D、GES:基于Hadoop生态的图数据库,即存放图片的数据库【正确答案】:ABC7.有关实时检索引擎中各组件的联系与定位,以下描述中正确的有哪些项?()A、ElasticSearch存储数据性价比低,但是其能够满足场景中多级索引的实时查询需求,同时还能够对文档分词建立索引B、图数据库可以完美的解决复杂多级关系查询分析,选用GES来解决图数据的实时查询需求C、与HBase相比,ElasticSearch在海量数据的情景下存储性能不如HBase,故选择HBase作为海量数据存储的基石D、HBase加ElasticSearch的组合满足了大部分的用户实时检索诉求【正确答案】:ABCD8.Flink的应用场景,包含以下哪些项?A、基于规则的警报参考答案)B、业务流程管理C、异常检测D、欺诈识别【正确答案】:ABCD9.华为企业云数据湖具有以下哪些优势?A、开放接口,支持开放实时标准,构建丰富生态,自助式数据开发与分析B、存储和计算分离,支持更多用户并发和更大数据量C、更多数据通过实时、虚拟方式入湖,数据产生即可见、可用D、数据集中,开放共享、统一目录管理,避免跨系统数据搬迁【正确答案】:ABCD10.关于华为河图构建融合分析能力与传统数仓分系统构建模式,以下描述正确的有哪些项?A、分系统构建模式,导致数据冗余严重,阻碍企业快速转型B、随着数据量增长,业务对数据分析灵活性要求越来越高C、华为河图引擎对浪涌式的数据进行整合分析,发挥最大价值[D、企业传统数仓,缺乏高效、统一的融合分析【正确答案】:ABCD11.以下哪些选项不是Flink资源调度的方式?A、FlinkStandaloneB、FlinkOnZooKeeperC、FlinkOnDocker(参考答案)D、FlinkOnMesos【正确答案】:ABC12.Redis中Key的expire生存时间不适合以下哪些场景?A、存储特定用户所有历史信息B、限时优惠活动C、限制网站访客访问频率D、电商网站过去一年营销总额统计【正确答案】:AD13.以下哪些选项属于Elasticsearch内部架构的一部分?A、DistributeLuceneDirectoryB、SearchModuleC、DisoveryModuleD、IndexModule【正确答案】:ABCD14.关于HBase中scan和get的描述,以下哪些选项是正确的?A、get命令可以指定查找特定的单元格B、scan可以用于扫描全表数据C、get命令必须指定行健信息D、scan命令无法指定行键的范围【正确答案】:ABC15.关于ApachePhoenix与HBase的搭配,以下哪些选项是正确的?A、PhoenixSQL只有命令行一种使用模式,无法对接JDBC进行使用B、ApachePhoenix可以将SQL查询编译为一系列HBase扫描C、Phoenix在Hadoop中为低延迟应用程序提供OLTP和运营分析能力D、ApachePhoenix可以为小型查询提供毫秒级的性能,或者为数千万行数据提供秒级的性能【正确答案】:BCD16.以下哪些属于大数据的发展趋势?A、从技术驱动转变为商业驱动B、从统计分析到认知计算C、生态合作开放D、数据处理逐渐标准化、云化【正确答案】:ABCD17.华为数字化变革ROADS目标包括以下哪些体验?A、On-demand按需B、Allonline全在线C、DIYD、Real-time实时【正确答案】:ABCD18.以下关于Redis中set数据类型srandmemberkey[count]命令的描述正确的是A、如果count为正数,且小于集合基数,那么命令返回一个包含count个元素的数组,数组中的元素各不相同B、如果count为负数,那么命令返回一个数组,数组中的元素可能会重复出现多次,而数组的长度为count的绝对值C、如果count大于等于集合基数,那么返回整个集合。D、如果count为负数,那么命令返回一个数组,数组中的元素各不相同,且数组的长度小于count的绝对值。【正确答案】:ABC19.以下哪些场景适合使用实时检索技术完成部署?A、银行事后查询交易凭证,追溯交易B、运营商实时查询用户话费清单、流量清单C、公安系统实时布控,车辆轨迹绘制,快速信息汇集D、公安系统基于"人、事、地、物、组织、身份"等点状实体,查询在社会关系网络中的关联关系【正确答案】:ABCD20.关于Hive架构中的Driver,以下哪些选项是正确的?A、Driver中的Compiler子模块负责编译HiveQL并将其转化为一系列相互依赖的Map/Reduce任务B、Driver负责管理HiveQL执行的生命周期,只对内部表有效,外部表的处理流程不由Driver管理C、Driver中的Optimizer可分为逻辑优化器和物理优化器,分别对HiveQL生成的执行计划和MapReduce任务进行优化Driver中的Executor按照任务的依赖关系分别执行Map/Reduce任务【正确答案】:ACD21.以下哪些选项是Loader组件的特点?()A、图形化B、高性能C、高可靠D、安全【正确答案】:ABCD22.以下哪些选项属于HBase基本架构的一部分?A、HMasterB、DataBlockC、RDDD、Store【正确答案】:AD23.以下关于Source的描述中,正确的是哪些项?A、execsource执行某个命令或者脚本,并将其执行结果的输出作为数据源B、httpsource支持http的post发送数据C、spoolingdirectorysource采集本地静态文件D、Source有驱动和轮询两种类型【正确答案】:ABCD24.以下哪些是运营商大数据平台的能力需求?A、统一数据采集和整合能力B、互联网化的数据开放能力C、大数据分析挖掘能力D、大数据安全能力【正确答案】:ABCD25.将Hive数仓分层后各层的名称和对应的描述进行匹配。()A、ODS原始数据层B、ADS应用层,为各种统计报表提供数据C、DWS将上一层数据进行轻度汇总后得到的结果DWD结构和粒度与原始表保持一-致简单清洗得到的结果【正确答案】:ABCD26.关于Hive导入数据的命令,以下哪些选项是正确的?A、loA,Ddatainpath可用于将HDFS上的数据导入Hive表中B、导入数据时必须指定导入哪张表格,也就是需要使用intotable关键词+表名C、可以使用Local关键词从本地文件系统导入数据至Hive,但是这里的Local指的是hiveserver服务所在的机器,而不是beeline客户端所在的机器D、如果原先表中有数据,想用新数据覆盖旧数据,可以添加overwrite参数进行覆盖【正确答案】:ABCD27.下列哪些选项是Flink的高抽象层API?A、DataStreamAPIB、DataSetAPIC、SQLAPID、TableAPI【正确答案】:CD28.以下关于有界流的描述,哪些项是正确的?A、有界流处理通常被称为批处理B、有定义流的开始,也有定义流的结束C、有界流可以在读取所有数据后再进行计算D、有界流所有数据可以被排序,所以并不需要有序摄取【正确答案】:ABCD29.以下关于SparkSQL的描述中,正确的有哪几项?()A、可以看成是对SparkRDD编程接口的封装。B、SparkSQL的执行效率会比Hive快的多。C、SQL语句通过SparkSQL模块解析为RDD执行计划,交给SparkCore执行。D、SparkSQL执行时一定是在本地执行的,而不是集群。【正确答案】:ABC30.以下哪些选项是Loader的特点?A、图形化配置管理界面B、Kerberos认证C、主备双机D、利用Spark并行处理数据【正确答案】:ABC31.以下关于事件时间的描述,正确的是哪些项?A、事件时间在事件进入flink之前已经嵌入事件,flink可以提取该时间B、事件时间是指事件在其设备上发生的时间C、基于事件时间进行处理的流程序可以保证事件在处理的时候的顺序性D、基于事件时间的处理往往有一定的滞后性【正确答案】:ABCD32.关于GES的RESTful接口,以下描述中正确的有哪些选项?A、GESAPI向上层应用提供统一的访问入口,通过高度灵活的RESTAPI接口,封装GES平台的统一操作B、用户可以通过GES的REST接口创建edgeIA,BelC、GES的REST请求分为Select,Put,Create和DeleteD、用户可以通过GES的REST接口查询数据点的信息【正确答案】:ABD33.以下哪些选项是Hive数据仓库分层的优点?A、隔离原始数据B、复杂问题简单化C、减少重复开发D、清晰数据结构【正确答案】:ABCD34.HBase读数据过程,需要读取哪几部分数据?A、HFileB、MemStoreC、HMasterD、HLog【正确答案】:AB35.关于HBase中Filter过滤器的描述,以下哪些选项是正确的?A、R果表中有name.age.gender和addressq列数据,使用scan'cxtablestu01'.FILIER=>"ColumnPrefixFilter('a')"命令会把age和address两列的数据进行输出B、如果表中有单元格的值为英文字符,使用scan'cx_table_stu01',FILTER=>"ValueFilter(>,'binary:20')")命令会把这些英文字符也一起匹配输出C、scan'cx_table_stu01',FILTER=>"ValueFilter(=,'binary:20')")表示搜索所有列值恰好等于20的单元格数据D、使用scan'cx_table_stu01',FILTER=>"ColumnPrefixFilter('name')ANDValueFilter(=,'binary:hanmeimei')"命令时,只要满足两个条件其中一个就可以匹配输出【正确答案】:AC36.实时检索解决方案的项目流程包括以下哪些选项?A、应用部署B、代码工程C、项目环境准备D、应用开发【正确答案】:ABCD37.Hive业务场景中,一张大表连接一张较小的维表,那么为了提高这个JOIN操作的效率,可以进行如下哪些操作?A、设置参数hive.auto.convert.join为trueB、设置参数hive.groupby.skewindata为trueC、大表在前小表在后D、小表在前大表在后【正确答案】:ABD38.以下关于无界流的描述,哪些项是正确的?A、处理无界数据通常要求以特定顺序摄取事件B、无界流的数据必须持续处理,即数据被读取后需要立刻处理C、有定义流的开始,但没有定义流的结束D、数据源会无休止地产生数据【正确答案】:ABCD39.由GESREST接口可以实现以下哪些操作?A、创建图B、删除图C、创建edgelA,BelD、创建vertexIA,Bel【正确答案】:ABCD40.关于HDFS数据写入流程的描述,以下哪些选项是正确的?A、在写入流程的最后一步,HDFSClient联系NameNode,确认数据写入完成后,由NameNode持久化元数据B、客户端通过自有协议写入数据到DataNode1,再由DataNode1复制到DataNode2,DataNode3C、HDFSClient需要联系NameNode,由NameNode在元数据中创建文件节点D、业务应用调用writeAPI写入文件【正确答案】:ABCD41.以下关于Loader的描述中,正确的有哪几项?A、提供可视化向导式的作业配置管理界面。B、提供定时调度任务,周期性执行Loader作业。C、在界面中可指定多种不同的数据源、配置数据的清洗和转换步骤、配置集群存储系统。D、是基于开源Flume研发,做了大量优化和扩展。【正确答案】:ABC42.以下关于Redis使用场景特点的描述,正确的是哪些项?A、数据类型丰富B、支持持久化C、高性能D、低时延【正确答案】:ABCD43.实时检索的公安和金融行业应用场景有哪些特征?A、高并发B、存在海量小文件C、查询速度快D、查询条件简单【正确答案】:ABCD44.关于Spark的应用场景,请将场景与描述正确匹配()A、流处理秒级延迟的处理,可支持多种外部数B、数据挖掘在海量数据基础上进行复杂的挖掘分析C、迭代计算应对复杂的数据处理逻辑【正确答案】:ABC45.数据分析平台云化和融合发展具有以下哪些特点?A、资源弹性分配B、超敏捷应用C、交叉融合分析D、多场景分析【正确答案】:ABCD46.关于MRSHDFS中的df和du命令,以下哪些说法是正确的?A、du命令主要用于统计某个文件夹内文件的大小信息B、du命令可以添加-v命令,方便用户了解每个输出值的含义C、df命令主要用于统计文件系统的可用空间信息D、df命令中可以添加-h参数,使得输出结果容易被用户读懂【正确答案】:ABCD47.大数据分离架构有以下哪些优势?A、异构流数据实时处理B、交互式实时查间C、结构化数据快速查询D、复杂计算模型灵活编程接口【正确答案】:ABCD48.Loader具有对以下哪些数据源的读取能力?A、HBaseB、HDFSC、HiveD、RDB【正确答案】:ABCD49.699.Spark运行前需要读取任务参数,包含配置文件、动态参数、代码配置等,请连接将他们的优先级进行匹配。()A、高代码配置B、中动态参数C、低配置文件【正确答案】:ABC50.StructuredStreaming可以把结果写入外部的存储系统,下列哪些选项是属于外部存储系统的存储方式?A、CompleteModeB、AppendModeC、UpdateModeD、OutPutMode【正确答案】:ABC51.HBase中会触发Flush操作的有以下哪几项?A、RegionMemStore中的总大小,达到了预设的FlushSize阈值。B、HBaseMemstore定期刷新,默认周期为1小时。C、MemStoreRegionServer占用内存的总量和总内存比值超出了预设的阈值大小。D、当WALs中文件数量达到阈值时。【正确答案】:ABCD52.关于使用HBase的JavaAPI读取数据,以下描述中正确的是哪些项?A、QualifierFilter用于过HBase表中的列族信息B、HBaseFilter主要在Scan和Get过程中进行数据过滤,通过设置一些过滤条件来实现条件查询C、要从表中读取数据,首先需要实例化该表对应的Table实例D、为了提高查询效率,使用Scan命令时最好指定StartRow和StopRow【正确答案】:ABCD53.StructuredStreaming触发器可以定义的流数据处理的计时,包含以下哪些项?A、Trigger.Once()一次微批处理所有数据B、Trigger.ProcessingTime("nseconds"),固定间隔时间开启微批处理C、Trigger.Continuous("1second"),连续处理模式D、没有指定触发器设置,默认为查询以微批处理模式执行【正确答案】:ABCD54.通过Loader的可视化界面,可以实现以下哪些操作?A、数据分析任务B、制定多种不同的数据源C、数据可视化操作D、配置数据的清洗和转换步骤【正确答案】:BCD55.ELK指的是哪些组件?A、ElasticsearchB、LogstashC、KickstartD、Kibana【正确答案】:ABD56.针对以下场景描述,可以用于大数据实时检索技术完成的有?A、主要根据ID(手机号码)、时间段进行用户话费清单、流量清单查询B、可用于事后查询交易凭证,追溯交易,以及查询客户信用记录,帮助客户快速借款等C、要求1秒内响应,高并发(100以上请求)查询条件简单(80%查询是主键查询,其他是简单条件组合查询)D、根据ID(身份证,车牌号等)进行查询,可用于实时布控,车辆轨迹绘制,快速信息汇集【正确答案】:ABCD57.解决离线批处理任务常用以下哪些组件?A、HDFSB、Hive参考答案)C、YARND、Spark【正确答案】:ABCD58.在HBase中利用get命令查找某一个单元格对应的数据,以下哪些信息是必要的?()A、ColumnQualifier(限定符)信息B、Rowkey(行键)信息C、DataBlockID(数据块编号)信息D、ColumnFamily(列族)信息【正确答案】:ABD59.Flink支持Source的有以下哪些选项?A、从集合中读取数据B、自定义数据读取C、从文件中读取数据D、从消息队列中读取数据rk【正确答案】:ABCD60.华为MRS服务具有以下哪些优势?A、高可用B、多场景融合C、存算分离D、弹性计算【正确答案】:ABCD61.HBase数据写入过程会有多个步骤,请选择正确的顺序()A、查找对应的region,在region中寻找列族先向memstore中写入数据B、去表所在的regionserver进行数据的添加C、当memstore写入的值变多,触发溢弓操作(flush)D、clienti访问Zookeeper,获取元数据存储所在的regionserverE、通过对应的regionserver,拿到对应的表存文的regionserverF、当溢写的文件过多时,会触发文件的合并(Compact)操作【正确答案】:ABCDEF62.以下关于KafkaPartition说法正确的有哪几项?A、每个Partition在存储层面对应一个log文件。B、每个Partition都是有序且不可变的消息队列。C、Partition数量决定了每个Consumergroup中并发消费者的最大数量。D、引入Partition机制,保证了Kafka的高吞吐能力。【正确答案】:ABCD63.以下关于KafkaPartition偏移量的描述,哪些选项是正确的?A、每条消息在文件中的位置称为offset(偏移量)B、offset是一个String型字符串C、消费者通过(offset、partition、topic)跟踪记录D、唯一标记条消息【正确答案】:ACD64.一个典型的KafKa集群中包含以下哪些组件?A、一个ZooKeeper集群B、若干个BrockerC、若干个ProducerD、若干个Consumer【正确答案】:ABCD65.ElasticSearch用于日志搜索和分析,离不开其拥有的生态圈系统和解决方案,这些开源软件之间互相配合使用,完美衔接,高效地满足了多场景的应用。那么其生态系统具体包括以下哪些内容?A、数据持久化与分析层ElasticsearchB、数据接入层LogstashC、用户接入层KibanaD、插件扩展层【正确答案】:ABCD66.关于ElasticSearch的基本架构,以下描述中正确的有哪些项?A、ElasticSearch通过Discovery模块来实现节点自动发现,以及Master节点选取B、ElasticSearch底层基于Lucence,将索引存储在本地文件系统、共享文件系统或HDFS等文件系统中C、ElasticSearch支多种插件来扩展加强功能D、ElasticSearch通过Java以及Restfulapi提供【正确答案】:ABCD67.关于Hive的优点,以下哪些说法是正确的?A、Hive支持多种编程语言,包括Java和Python都可对接Hive进行使用B、Hive速度非常快,可以支特毫秒级时延的分析应用C、理论上Hive依赖硬件程度较低,可适应一般的普通机器D、Hive支持双MetaStore机制,提高容错性【正确答案】:ACD68.关于HBase性能优化,以下描述中正确的有哪些选项?A、在使用HBaseJavaAPI时,可以通过调用Table实例的get(List)批量读取多行记录,只需一次网络1/O开销,可以明显的提升读性能B、一张表里不要定义太多的列簇,因为某个列簇在flush的时候,它邻近的列簇也会因关联效应被触发flush,最终导致系统产生更多的I/OC、在建表时可以预先创建多个Region,当数据写入HBase时,会按照RowKey对应Region分区情况,在集群内做数据的负载均衡D、在使用HBaseJavaAPI时,可以通过调用Table实例的put(List)批量写入多行记录,只需一次网络l/O开销,可以明显的提升写性能【正确答案】:ABCD69.以下哪些是常用的数据采集工具?A、SqoopB、FlumeC、LoaderD、Kafka【正确答案】:ABC70.以下哪些选项是ZooKeeper在Kafka中的作用?A、索引数据的生成B、负载均衡CPU资源调配管理D、集群管理【正确答案】:ABD71.关于SparkRDD的说法中,以下哪些选项是正确的?A、RDD基于Lineage血统机制的高效容错(第n个节点出错,可从第n-1个节点恢复)B、RDD默认存储于磁盘上,如果磁盘空间不够,会由磁盘刷写至内存中C、计算流程中会划分Stage,Stage如果失败会进行特定次数的重试,重试时只计算失败的数据分片D、RDD是只读和可分区的;要想对RDD进行操作,只能重新生成一个新的RDD【正确答案】:ACD72.以下关于微批处理模型的描述,正确的是哪些项?A、在下一个微批处理之前,要将数据的偏移范围保存在日志中B、当前到达的数据需要在上一批次处理完,才能下一个批次数据继续处理C、会有一定的延迟D、流计算引警在处理上一批次数据结束后,再对新数据进行批量查询【正确答案】:ABCD73.Redis包含以下哪些数据类型?A、HashB、ListC、StringD、Set【正确答案】:ABCD74.以下关于Sqoop的描述中,正确的有哪几项?A、Sqoop可以将HDFS的数据导进到关系型数据库中。B、Sqoop在数据导入过程中可以进行数据清洗。C、Sqoop可以将关系型数据库中的数据导进到Hadoop的HDFS中。D、Sqoop底层是通过MapReduce去实现的。【正确答案】:ABCD75.关于GESREST接口的描述,以下哪些选项是正确的?A、REST接口请求分为HEA,B、GET、PUT、POST、DELETEC、REST接口通过http协议进行通信,必须等待所发请求的响应,之后才可以继续发送请求D、GESAPI向上层应用提供统一的访问入口,通过高度灵活的RESTAPI接口,封装GES平台的统一操作E、GESREST接口对于GES版本没有任何要求【正确答案】:ABC76.关于华为云MRS提供的Loader服务,以下描述正确的有哪些选项?A、在华为云MRS平台中,Loader提供定时调度任务,可周期性执行导入/导出作业B、在MRS大数据平台中,Loader需与Flink强绑定C、Loader基于开源Sqoop研发,做了大量优化和扩展D、Loader底层通过MapReduce去实现批量数据的导入/导出及数据转化工作【正确答案】:ACD77.下列哪几项是Redis的AOF持久化方式中写命令的时机?A、alwaysB、neverC、everysecD、no【正确答案】:ACD78.StructuredStreaming可以提供以下哪几种类型的保证?A、OnlyOnceB、AtmostonceC、ExactlyonceD、Atleastonce【正确答案】:BCD79.下列选项中哪些框架可以应用在实时流处理场景中?A、FlinkB、SparkC、YarnD、Hive【正确答案】:ABC80.数据仓库分层包括以下哪些选项?A、DWD层B、DWS层C、ADS层D、ODS层【正确答案】:ABCD81.客户端使用get方式读取HBase用户数据时,需要查询meta表的哪些数据?A、RegionServert地址B、Region分裂时间C、Region起始rowkeyD、Region大小【正确答案】:AC82.计算十分钟内的单词,每5分钟更新一次,若程序在11:00开始运行,在12:07收到一个数字,这个数字应该对应于以下哪些窗口的计算()A、12:05-12:15B、12:10-12:20C、12:00-12:10D、11:55-12:05【正确答案】:AC83.下列关于大数据的说法中,错误的是哪些选项?A、大数据具有体量大、结构单一、时效性强的特征B、处理大数据需采用新型计算架构和智能算法等新技术C、大数据的应用注重因果分析而不是相关分析D、大数据的应用注重相关分析而不是因果分析【正确答案】:AC84.有关HBase中Compaction操作的描述,以下哪些说法是正确的?A、MajorCompaction是小范围的CompactionB、Compaction操作会排除当前正在执行合并的文件C、MinorCompaction是小范围的CompactionD、Compaction分为Minor和Major两类【正确答案】:BCD85.关于MRS的Redis增强特性描述正确的是()。A、支持数据导入导出工具B、自研Arm架构C、集群可靠性保障D、完善的集群管理功能【正确答案】:ABCD86.以下关于Spark的描述中,正确的有哪几项?A、宽依赖是指父RDD的每个分区都可能被多个子RDD分区所使用。B、窄依赖跟宽依赖的区别是是否发生Shuffle.C、当一个任务在spark执行时,该任务会被拆分成多个Stage,然后分配到不同的节点上进行执行。D、窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用。【正确答案】:ABD87.请按顺序匹配HBase客户端写入数据的正确流程()A、写入磁盘上形成StoreFileB、定位HRegionServerC、写入数据到HLog中D、写入数据到MemStore中【正确答案】:ABCD88.以下哪些场景适合使用实时检索技术辅助完成?A、根据过去一年的订单记录预测明年某商品的销售量B、通过身份证号查询某天某酒店入住人信息C、通过手机号查询某日某运营商的通话记录D、通过车牌号查询某天某高速收费站过路车辆信息【正确答案】:BCD89.以下关于SqoopImport原理的描述中,哪些选项是正确的?A、Sqoop将任务划分到每个map中,再处理数据库中获取的一行一行的值,写入到HDFS中B、Sqoop需要用到Spark或Flink才能完成数据的ImportC、split-by根据不同的参数类型有不同的切分方法,如比较简单的int型,Sqoop会取最大和最小split-by字段值,然后根据传入的num-mappers来确定划分几个区域D、Sqoop在import时,需要指定split-by参数。Sgoop根据不同的split-by参数值来进行切分,然后将切分出来的区域分配到不同map中【正确答案】:ACD90.Redis的AOF持久化中,写命令同步的时机有以下哪几项?A、appendfsynceverysecB、appendfsyncnoneC、appendfsyncalwaysD、appendfsyncno【正确答案】:ACD91.关于GES的应用场景,以下哪些选项是正确的?A、工业:基于知识图谱的设备故障诊断和预警B、物流和网规:最优路径推荐C、金融:实时推荐、实时反欺诈,基于知识图谱的风控(信贷、保险)D、社交分析:寻找特定爱好的好友,或者通过好友的好友,找到用户可能认识的好友【正确答案】:ABCD92.关于华为云MRS中Loader的描述,以下哪些选顶是正确的?多选A、Loader页面是基于开源SqoopWebUI的图形化数据迁移管理工具,该页面托管在Hue的WebUl中B、Loader提供定时调度任务,周期性执行ETL作业C、Loader提供可视化向导式的作业配置管理界面D、Loader在界面中可指定多种不同的数据源、配置数据的清洗和转换步骤、配置集群存储系统等【正确答案】:ABCD93.Spark中RDD是弹性数据集的原因包括以下哪些选项?A、基于Lineage的高效容错B、自动进行内存和磁盘数据存储的切换C、数据调度弹性D、Task失败自动重试【正确答案】:ABC94.2019年以后,华为云数据湖CloudDataLake中分析引擎包含以下哪些组件?()A、SparkB、TensorFlowC、FlinkD、Presto【正确答案】:ABCD95.Hive组件的Driver由以下哪些项组成?A、MetaStoreB、CompilerC、ExecutorD、Optimizer【正确答案】:BCD96.实时流处理的步骤包含以下哪些选项?A、实时计算B、实时落地C、缓存队列D、数据实时采集【正确答案】:ABCD97.以下哪些选项为当前大数据产业发展的特点?A、规模较大B、增速缓慢C、增速很快D、规模较小【正确答案】:AC98.HBase读数据时需要读取哪几部分数据?A、HfileB、MemStoreC、HDFSD、Hlog【正确答案】:AB99.以下哪些选项是华为云MRS使用HetuEngine的根本原因?A、企业传统数仓,缺乏高效、统一的融合分析B、企业传统数仓采用分系统构建模式,导致数据冗余严重,阻碍企业快速转型C、随着数据量增长,业务对数据分析灵活性要求越来越高D、HetuEngine对浪涌式的数据进行整合分析,发挥最大价值【正确答案】:ABCD100.以下哪些项属于实时数据处理系统的诉求?A、吞吐量高B、多数据源支持C、处理速度快D、可靠性高【正确答案】:ABCD1.实时流处理系统中,要求数据权限和资源隔离,多种流处理应用之间要进行资源控制和隔离,防止发生资源争抢。A、正确B、错误【正确答案】:A2.Flume的Source可以不用和channel关联,直接连接到sink。A、正确B、错误【正确答案】:B3.幂等操作每一次请求的结果都是相同的。A、正确B、错误【正确答案】:A4.某大数据业务人员希望确保某份关键数据在Hive中不会因为drop操作导致数据别除。他可以采用内部表的方式来实现,drop操作时只会删除元数据而不会删除表数据。A、正确B、错误【正确答案】:B5.在海量日志离线分析过程中,数据分析师可以将网站日志收集到HDFS上存储,然后把日志加载到Hive中进行统计分析与建模。A、正确B、错误【正确答案】:A6.ElasticSearch:缓存主要分三种:RocksDBCache、FileDBCache、StateBackEndCache。A、正确B、错误【正确答案】:B7.对企业来讲,建设大数据集群,除了功能上满足业务诉求外,高可靠能力不容忽视,这是是影响大数据项目成败的关键能力之一。A、正确B、错误【正确答案】:A8.Flink既可以用作批处理场景,也可以用作流处理场景。A、正确B、错误【正确答案】:A9.Flink处理数据是无状态的,处理一个事件与之前的事件无关。A、正确B、错误【正确答案】:B10.ElasticSearchi能够支持文档检索。A、正确B、错误【正确答案】:A11.大数据技术的解决方案思路是聚焦在单台机器上,思考如何提升单机的性能,寻找更贵更好的服务器。A、正确B、错误【正确答案】:B12.HBase依赖于Zookeeper完成主备选举,以及管理root表。A、正确B、错误【正确答案】:A13.HBase中如果只需要保存最新版本的数据,可以设置最大版本数为1。A、正确B、错误【正确答案】:A14.Sqoop进行数据导出时,也会进行数据文件切片,与MapReduce切片类似,可以通过修改参数block块大小进行切片数量优化。A、正确B、错误【正确答案】:A15.MRS的安全模式一般是用于生产环境。A、正确B、错误【正确答案】:A16.ElasticSearch支持QueryCA,Che缓存技术,主要用于缓存Filter中的查询结果,即对一个查询中包含的过滤器执行结果进行缓存。A、正确B、错误【正确答案】:A17.任何完整的大数据平台,一般包括以下的几个过程,数据采集一>数据存储一>数据处理一>数据展现(可视化,报表和监控)。其中,数据采集是所有数据系统必不可少的一个环节,随着大数据越来越被重视,数据采集的挑战也变的尤为突出。A、正确B、错误【正确答案】:A18.Redis无中心自组织的结构,节点之间使用Gossip协议来交换节点状态信息A、正确B、错误【正确答案】:A19.高频交易,市场舆情分析,信贷风险分析等这些金融领域的研究内容均可以利用大数据技术进行分析。A、正确B、错误【正确答案】:A20.窄依赖往往对应着shuffle操作,需要在运行过程中将同一个父RDD的分区传入到不同的子RDD分区中,中间可能涉及多个节点之间的数据传输。A、正确B、错误【正确答案】:A21.Flume的核心是把数据从数据源收集过来,再将收集到的数据送到指定的目的地。A、正确B、错误【正确答案】:A22.在HBase中,同一个Key值可以关联多个Value,每一个KeyValue都拥有一个Qualifier标识。判断A、正确B、错误【正确答案】:A23.实时流处理系统中消费后的数据可以存储到关系型数据库中,便于实时查询判断A、正确B、错误【正确答案】:A24.开启BloomFilter会有一定的磁盘存储空间及内存cA,Che的额外开销A、正确B、错误【正确答案】:A25.在Hive的SQL语句执行中,因为groupby等关键字的使用会导致数据倾斜。因此为了表面数据倾斜,应禁止该类操作执行。A、正确B、错误【正确答案】:B26.ElasticSearch倒排索引是通过关键词查询对应的文档编号,再通过文档编号找文档。A、正确B、错误【正确答案】:A27.在数字化转型以及多样数据、算力、业务敏捷的驱动下,大数据焦点转向云服务方式创新,更加敏捷,成本更优。A、正确B、错误【正确答案】:A28.MapReduce专注于离线计算,通常时间是几十分钟甚至更长时间。由于实时计算的需求流式计算引擎开始出现,包括Storm、Flink、SparkStreaming。A、正确B、错误【正确答案】:A29.Redis是个高性能key-value内存数据库。A、正确B、错误【正确答案】:A30.ElasticSearch缓存RequestCAChe属于Node级别的缓存。A、正确B、错误【正确答案】:B31.Flume提供实时采集日志信息(taildir)到目的地的能力。A、正确B、错误【正确答案】:A32.Consumeri通过Pull的方式从Broker获取数据消费。A、正确B、错误【正确答案】:A解析:

四.填空33.开放接口就是面向数据处理提供一个开放的、标准的接口,能够跟各种工具对接,因为大数据生态里有很多成熟的工具和产品,包含数据集成、治理、运营等等,通过标准接口快速对接,打造一个完整的大数据系统。A、正确B、错误【正确答案】:A34.Hive中默认创建的是外部表A、正确B、错误【正确答案】:B35.作为企业级大数据平台,FusionInsight具备四大能力包括一站式平台、永远在线、易用成本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论