版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第页HCIP大数据练习测试题附答案1.以下关于SparkSQL中DataSet的描述中,错误的是哪一项?A、DataSet是一个由特定域的对象组成的强类型集合。B、DataSet是"懒惰"的,只在执行A,Ction操作时触发计算C、DataSet需要反序列化才可以执行大部分操作。DataSet与RDD高度类似【正确答案】:C2.StructuredStreaming中持续地查询最新计算结果至写出。这个过程叫做什么?()A、ContinuousstringB、continousqueryC、mapqueryD、continousphrase【正确答案】:B3.关于ElasticSearch的说法,下列错误的是哪一项?A、不支持非结构化数据B、对Lucene进行了扩展C、原型环境和生产环境可无缝切换D、能够水平扩展【正确答案】:A4.以下哪一项不属于目前经常定义的Sink类型。A、ElasticSearchSinkB、RedisSinkC、KafkaSinkD、ODBCSink【正确答案】:D5.在大数据业务处理的场景中,常常说不适合存储大量的小文件。这主要是受以下哪个组件的影响?A、YarnB、HDFSC、HiveD、MapReduce【正确答案】:B6.下列哪一项是HBase不适合的应用场景?A、要求具有完全A,CID特性的应用场景。B、半结构化数据应用场景。C、高吞吐率应用场景。D、海量数据(TE、PF、应用场景【正确答案】:A7.以下关于Flink的描述,错误的是哪一项?A、Flink在维护一次完整的的应用状态时,不能无缝修复错误B、Flink是一个批处理和流处理结合的统一计算框架C、Flink支持大规模运行,在上千个节点运行时有很好的吞吐量和低延迟D、Flink没有单点故障,提供高吞吐量和低延迟的能力【正确答案】:A8.StructuredStreaming程序执行过程中,定义流计算过程之后是哪一个步骤?A、创建输入数据源B、导入相关依赖模块C、启动流计算并计算输出结果D、创建SparkSession对象【正确答案】:C9.以下哪一选项不是企业级大数据平台的特点?A、可维护性差B、可平滑拓展C、数据共享D、资源共享【正确答案】:A10.实时检索应用场景不包含以下哪一顺?A、通过用户姓名查找购房记录B、通过用户银行卡号查找转账记录C、通过用户兴趣爱好推荐影视作品D、通过用户身份证号查找住宿记录【正确答案】:C11.下列关于Hive自定义函数的描述中,正确的是哪一项?A、一般自行编写的函数都属于临时函数,每次使用都需要重新创建B、如果创建的函数名与内置的函数名重复,在使用过程中以内置的函数名为主。C、一般自行编写的函数都属于永久函数,直接引用即可。D、Hive中的min以及max属于UDAF函数。【正确答案】:A12.HiveSQL中DDL指定是哪一种语言?A、数据删除语言B、数据查询语言C、数据管理语言D、数据定义语言【正确答案】:D13.Flume的应用中,如果要保证sink的负载均衡,需要使用以下哪一个组件?A、DefaultSinkProcessorB、StaticInterceptorC、ReplicatingChannelSelectorD、FailoverSinkProcessor【正确答案】:A14.以下哪一选项不是大数据的特点?A、容量大B、种类多C、速度快D、结构单一【正确答案】:D15.Hive中详细显示函数的用法为以下哪一选项?A、hive>getfunctions;B、hive>descfunctionextendedupper;C、hive>descfunctionupper;D、hive>showfunctions;【正确答案】:B16.GES基于ElasticSearch于的索引机制,能根据索引快速查询数据。A、对(参考答案)B、错【正确答案】:A17.以下哪一项不属于图搜索引擎技术的典型应用场景?A、通过关系网络,查询关联关系,可用于反洗钱、风控等场景B、根据某人的常用联系人网络,查询其社交关系最密切的有关人员C、基于"人、事、地、物、组织、身份"等点状实体,查询在社会关系网络中的关联关系D、根据历史数据,拟合函数,预测未来手机流量使用趋势【正确答案】:D18.以下关于HBase缓存刷新的说法中,哪一个选项是错误的?A、系统会周期性地把MemStore缓存里的内容刷写到磁盘的StoreFile文件中,清空缓存,并在Hlog里面写入一个标记B、每个HRegionServer都有一个自己的HLog文件,每次启动都检查该文件C、如果发现最近一次执行缓存刷新操作之后发生新的写入操作,则先写入MemStore,再刷写到StoreFileD、每次刷写都生成一个新的StoreFile文件,但每个Store中仅包含一个StoreFile文件【正确答案】:D19.以下有关Hive多表关联的描述,正确的是哪一个选项?A、Hive最右边的表是大表,且无法通过命令指定哪张表是大表B、Hive在进行多表关联时,从右往左进行关联操作C、在HiveSQL中,建议把小表写在右边,这样可以提高执行效率D、一般情况下有多少张表进行join连接操作,就会启动多少个MapReduce任务【正确答案】:B20.关于HBase中HRegionServer的故障处理机制,以下说法中哪一项是错误的?A、共用日志优点:恢复时需要分拆日志;缺点:提高对表的写操作性能B、根据日志记录所属的Region对象对HLog数据进行拆分,分别放到相应Region对象的目录下C、Zookeeper会实时监测每个HRegionServer的状态,当某个HRegionServer发生故障时,Zookeeper会通知HMasterD、HMaster首先会处理发生故障的HRegionServer上面遗留的HLog文件,这个遗留的HLog文件中包含了来自多个Region对象的日志记录【正确答案】:A21.HBase的Region的是由哪个服务进程来管理的?A、HRegionServerB、ZooKeeperC、DataNodeD、HMaster【正确答案】:A22.下列哪一个命令可以清空Redis实例下所有数据库的数据A、dropallB、flushallC、dropdbD、flushdb【正确答案】:B23.关于HBase集群架构组成各部分描述错误的是哪一选项?A、正常HBase表只有一个Region,不支持分裂B、Client可用于缓存维护已经访问过的Region的位置信息C、HRegionServer负责处理数据读写请求D、HMaster主要负责Region的管理工作【正确答案】:A24.关于HBase的概念视图,以下描述中正确的是哪一项?A、HBase是一个面向列的非关系型数据库B、HBase的每一行数据可以有不同的行键C、HBase表格数据以文件块的形式存放在内存中D、HBase的每一个Region都是固定大小,每个Region都是64MB【正确答案】:A25.编写Scala代码时,通过以下哪个算子可以实现数据过?A、filterB、collectC、mapD、flatmap【正确答案】:A26.企业数据分析平台在根据不同的业务场景需求,搭建不同的大数据分析平台,如适应离线批处理的Hadoop平台;适应实时处理的流计算平台等,这种架构属于哪种类型的架构?A、分离架构B、融合架构C、多维架构D、单一架构【正确答案】:A27.以下关于实时处理解决方案与其它解决方案的关系,错误的是哪一项?A、实时处理系统需要备份存储B、实时处理系统不需要考虑HAC、实时处理处理后的数据可用于实时检索D、实时处理处理后的数据可直接应用至业务系统【正确答案】:B28.关于HBase的RowKey,以下描述中错误的是哪一项?A、RowKey默认最大长度64KB,实际应用中一般为10~100字节B、在HBase中,每一个RowKey都是一串字节数组C、RowKey是一个长整型对象D、RowKey默认按照字典序存储【正确答案】:C29.ElasticSearch所采用的搜索方式,是通过VALUE找KEY。而在全文搜索中VALUE就是我们要搜索的关键词,通过VALUE找到对应的文档。A、对(参考答案)B、错【正确答案】:A30.在HBase中,实现不同HRegionServer之间的负载均衡是由以下哪一个组件负责管理的?A、HfileB、HlogC、HMasterD、MemStore【正确答案】:C31.Redis中相对于RDB持久化,以下对AOF持久化描述错误的是哪一选项?AOF持久化是用快照的方式实现的B、发生故障时恢复速度慢C、内存占用过多,文件体积大D、占用较多磁盘的10开销【正确答案】:A32.有关实时检索技术在金融行业的应用,以下哪一项说法是错误的?()A、实时检索技术可完成查询交易凭证,追溯交易,以及查询客户信用记录,帮助客户快速借款等B、底层可以整合多方数据,形城关系网络,查询关联关系,可用于反洗钱、风控等场景C、对于简单查询的场景,要求响应时间在10分钟左右D、可以根据ID(日志类型、卡号等)和时间段进行查询【正确答案】:C33.Spark2.0中引入了()的概念,它为用户提供了一个统的切入点来使用Spark的各项功能。A、SparkSessionB、SparkTextC、SparkConfD、SparkContext【正确答案】:A34.以下哪一项不属于Flink组件的滚动聚合算子?A、KeyBy()B、minBy()C、min()D、sum()【正确答案】:A35.以下哪一项不是传统数据处理系统面临的问题?A、有限的扩展能力B、海量数据的存储成本高C、大数据处理能力不足D、数据源多样【正确答案】:D36.下列哪一项不是ElasticSearch的扩展插件?A、es-HadoopB、ElasticSearch-headC、HadoopD、Logstash【正确答案】:C37.以下哪一项不是SparkSQL的适用场景?A、实时数据查询B、需要处理PB级的大容量数据C、结构化数据处理D、对数据处理的实时性要求不高的场景【正确答案】:A38.Hive中trim()函数的功能是以下哪一选项?A、字符串截取B、返回近似值。C、计算绝对值D、去除空字符串【正确答案】:D39.Kafka的特点包括不包括以下哪一选项?A、消息持久化B、分布式C、高吞吐D、随机读取【正确答案】:D40.以下哪一选项不是统一元数据管理的优势?A、元数据统一管理、统一访问和使用B、提供可视化元数据管理工具C、使用事实标准Hivemetastore接口,业务易对接D、数据访问分散授权,数据安全无保障【正确答案】:D41.下列关于Phoenix的说法错误的是哪一项?A、将SQL编译成HBase原生的scansB、确定scan关键字的最佳开始和结束C、让scan并行执行D、PhoenixSQL只能使用JDBC连接【正确答案】:D42.Spark处理数据时产生的中间产物会存放到以下哪一选项中?A、磁盘B、网络C、内存D、云上【正确答案】:C43.以下关于RDD的描述中,错误的是哪一项?A、RDD默认是存储于内存。B、RDD是分布式弹性数据集。C、RDD的创建只能依赖HDFS。D、用户可以选择不同的存储级别缓存RDD以便重用。【正确答案】:C44.Hive架构中有一个Driver模块用于对SQL语句进行转化,那么对于Driver的描述中,正确的是哪一项?A、Driver中的Compiler负责对HiveQL生成的执行计划和MapReduce任务进行优化B、Driver中的Optimizer负责编译HiveQL并将其转化为一系列相互依赖的Map/Reduce任务。C、Driver中的Executor负责按照任务的依赖关系分别执行Map/Reduce任务Driver指Java的JDBC连接所用的Driver类。【正确答案】:C45.在大数据分析场景中,以下说法哪一项是不正确的?A、SparkSQL:新型SQL处理引擎,速度比Hive快,处理SQL类的批处理任务B、HDFS:基于大数据的数据仓库平台C、FLink:流批一体式计算引擎D、Hive:类SQL查询,传统批处理引擎,速度较慢【正确答案】:B46.StructuredStreaming不能提供以下哪几种类型的保证?AtmostonceB、AtleastonceC、MorethanonceD、Exactlyonce【正确答案】:C47.关于HBase建表语句,以下描述中错误的是哪一项?A、利用HBase的JavaAPI时,需要用put语句完成建表B、在建表时可以预先创建多个RegionC、在华为云MRS提供的HBaseshell客户端中建表时,需指定至少一个列族名称D、在HBaseshell客户端中可以通过create命令建表【正确答案】:A48.以下哪一个选项不是ElasticSearch底层存放索引快照的位置?A、HadoopHDFSB、LocalFileSystemC、SharedFileSystemD、IndexModule【正确答案】:D49.以下关于Flume的描述,错误的是哪一项?A、Flume不支持级联(多个Flume对接起来),合并数据的能力B、Flume支持按照用户定制采集数据的能力C、提供实时采集日志信息(taildir)到目的地的能力D、提供从固定目录下采集日志信息到目的地(HDFS,HBase,Kafka)能力【正确答案】:A50.关于Flink的角色,下列哪一项说法是错误的?A、Client是Flink程序提交的客户端,对用户提交的Flink程序进行预处理,并提交到Flink集群中处理。B、JobManager扮演着集群中的管理者Master的角色,它是整个集群的协调者。C、TaskManager负责从用户提交的Flink程序配置中获取JobManager的地址。D、TaskManager是实际负责执行计算的Worker.【正确答案】:C51.StructuredStreaming是构建在以下哪个引擎上的框架?A、SparkSQLB、SparkStreamingC、SparkCoreD、SparkMLlib【正确答案】:A52.ElasticSearch数据写入阶段有很多调优方式,下列错误的是哪一项?A、尽量使用自动生成的idB、禁用wildcardC、写入前副本数设置为0D、写入过程中:采取bulk批量写入【正确答案】:B53.以下哪个选项不属于智慧城市所需要的技术?AI计算B、大数据C、手工制作D、智慧交通【正确答案】:C54.以下关于Redis中String类型的描述,错误的是哪一项?A、一个字符串类型的值存储的最大容量是1MBB、字符串类型是Redis中最基本的数据类型C、可以存储图片D、可以存储文本数据【正确答案】:A55.关于分布式图数据库,以下描述正确的是哪一项?A、图数据库将数据切分为多个数据块进行存储,数据块大小固定128MBB、图数据库以"图"这种数据结构来存储和查询数据C、图数据库采用ER实体关系进行存储D、图数据库与关系型数据库可以灵活转化【正确答案】:B56.关于HDFS单名称节点体系结构的局限性,以下哪一个选项是错误的?A、HDFS只设置唯一一个名称节点,一旦这个唯一的名称节点发生故障,会导致整个集群变得不可用B、HDFS只设置唯一个名称节点,资源和数据可以方便的完成隔离C、HDFS只设置唯-一个名称节点,会带来命名空间的限制D、HDFS只设置唯一个名称节点,会带来性能的瓶颈和吞吐量的瓶颈【正确答案】:B57.HDFS里元数据持久化过程包括Fslmage持久化和Editlog持久化,其中EditLog持久化是通过以下哪一种方式完成的?A、图片B、日志C、网页D、快照【正确答案】:B58.下面哪一选项不属于Redis的优化方法?A、Slowlog配置B、精简键值C、开启AOF持久化D、限制Redis内存大小【正确答案】:C59.以下关于KeyBy算子的描述,错误的是哪一项?A、数据类型转换是KeyedStream->DataStreamB、每个分区包含具有相同key的元素C、逻辑地将一个流拆分成不相交的分区D、在内部以hash的形式实现的【正确答案】:A60.()是一个实现了文件系统的抽象类,继承自org.apache.hadoop.conf.Configured,并实现了Closeable接口,可以适用于多种文件系统。A、FileSystemB、FSDataOutputStroamC、FSDatalnputStreamD、FileConfiguration【正确答案】:A61.某大数据业务人员在查询某张表的业务数据时,希望查询出来的数值结果保留两位小数他应该使用哪个函数来实现?A、randB、absC、trimD、round【正确答案】:D62.如果想把Redis的Key中存储的数字值减1,该使用下列哪一个命令?A、incrbyB、decrC、decrbyD、incr【正确答案】:B63.消息系统Kafka如何保证高吞吐能力?A、Partition机制B、持久性机制C、多订阅者机制D、冗余备份机制【正确答案】:A64.下面哪一项不是Kafka的组件?A、BrokersB、ConsumerC、TopicD、Zookeeper【正确答案】:D65.以下哪一选项不属于华为云MRS中Manager的特点?A、一键式部署、升级B、运维难度高C、管理员可全面掌握集群运行状态D、故障快速定位【正确答案】:B66.某大数据业务人员需针对某些数据创建Hive表结构,其中某个数据为时间类型yyyyMMdd.那么可以使用以下哪一项作为字段类型?A、varcahrB、stringC、intD、double【正确答案】:B67.关于HBase,以下描述正确的是哪一项?A、对于绝大部分企业级大数据平台而言,HBase底层需依赖HDFS存储海量数据B、HBase可轻易实现海量数据的全局A,CID特性C、HBase和Zookeeper不是强绑定的D、HBase无法存储结构稀疏的表格【正确答案】:A68.关于华为云GES图数据库的Gremlin语言,以下描述中错误的是哪一项?A、Gremlin遍历由一系列步骤组成,这些步骤相互解耦,互不影响,不存在嵌套问题B、Gremlin是一种函数式数据流语言,用户可以使用简洁的方式实现对复杂的属性图的遍历或查询C、ApacheTinkerPop是图形数据库和图形分析系统的图形计算框架D、Gremlin是ApacheTinkerPop框架下的图遍历语言【正确答案】:A69.Spark读取任务参数优先级最高的是以下哪一选项?A、动态参数B、代码配置C、配置文件D、客户端配置【正确答案】:B70.某大数据运维人员想通过shell命令上传某个文件至HDFS文件系统中。以下哪个命令能帮助他完成这个操作?A、-putB、-getC、-uploadD、-cat【正确答案】:A71.以下哪一选项不是基于数据湖构建一站式Al开发平台ModelArts的特点?AI全流程开发:高精度、高效率完成开发任务B、可视化管理:数据准备、模型构建部署可视化管理C、需自行安装下载TensorFlow、PyTorch等主流计算框架D、在线推理、批量推理和边缘推理,满足多种业务场景诉求【正确答案】:C72.以下关于HDFS元数据持久化的描述中,哪一个选项是错误的?A、SecondaryNameNode合并成FsImage后回传给主NameNode替换掉原有Fslmage,并将EditLog.new命名为EditLogB、在SecondaryNameNode的内存中对FsImage文件和EditLog文件合并后产生新的Fslmage,叫做Fslmage.ckpC、将数据传到SecondaryNameNode时,因数据读写不能同步进行,此时NameNode产生一个新的日志文件EditLog.new用来存放这段时间的操作日志D、ActiveNameNode中的Fslmage和EditLog可以直接在本地完成合并操作,而不需要被拷贝到SecondaryNameNode中【正确答案】:D73.Hive数据存储模型中不包括以下哪一结构?A、分区B、表C、桶D、块【正确答案】:D74.在华为云GES中,想要给图g中id为"Katherine"的用户添加朋友为"zhangsan"。以下哪一个选项能正确实现上述目的?A、g.addV('friends').from(g.V("Katherine")).to(g.V("zhangsan"))B、g.addV('friends').from(g.V("zhangsan")).to(g.V("Katherine"))C、g.addE('friends').from(g.V("zhangsan")).to(g.V("Katherine"))D、g.addE('friends').from(g.V("Katherine").to(g.V("zhangsan"))【正确答案】:D75.关于ElasticSearch性能优化,以下哪一项说法是错误的?A、分片数不超过节点数的3倍,用较少的分片获得更佳的性能B、索引创建好后依然可以动态调整分片数量C、分片最大容量不要超过E1asticSearch推荐的最大JVM堆空间32GD、副本数建议设置为1,过多的副本需要更多存储空间【正确答案】:B76.HBase中一张表通过指定Regionf的StartKey为10、20和30进行region分裂,那么行键为222的数据将属于以下哪一个Region?A、[10,20]B、[20,30]C、[30,"+inf']D、[0,10]【正确答案】:C77.下列代码的作用是?Stringvertexld=getVertexldByPropert(api,graphName,"person,name,mark");api.queryVertex(vertexld,graphName):A、查询点B、查询属性C、查询边D、以上全不正确【正确答案】:A78.消费者在消费Kafka中数据的时候需要指定以下哪个选项的信息?A、TimeB、ObjectC、TopicD、Theme【正确答案】:C79.Spark中A,Ction算子返回的是以下哪一选项?A、依赖关系B、DAG图C、RDDD、计算结果或者是写入存储操作【正确答案】:D80.大数据体量范围一般是以下哪一选项?A、TB-PBB、GB-TBC、HB-GBD、KB-MB【正确答案】:A81.以下哪个选项属于大数据消息系统?A、HDFSB、MapReduceC、YarnD、Kafka【正确答案】:D82.Kafka运行时直接依赖于以下哪一个组件?A、HBaseB、HDFSC、SparkD、Zookeeper【正确答案】:D83.Loader是基于哪个开源组件的图形化迁移管理工具?A、HueB、spankC、SqoopD、Kettle【正确答案】:C84.以下描述中,哪一项不是实时检索技术在金融行业的应用特点?A、高并发B、查询条件复杂C、时延要求高D、存在海量图片小文件【正确答案】:B85.以下哪一项不属于Hive的数学函数?A、rand()B、Abs()C、trim()D、round(【正确答案】:C86.对于数据仓库而言,一般分为四层,ODS层、DWD层、DWS层和ADS层。以下关于数据仓库分层的描述中,错误的是哪一项?A、ODS层为原始数据层,数据无需做变动直接导入B、DWS层基于DWD层进行了数据清洗C、DWD层为数据明细层,也与ODS层数据一致。D、ADS层一般面向用户,会将数据同步到关系型数据库中【正确答案】:B87.关于GES特点,以下描述中正确的是哪一项?A、简单易用:支持SQL查询语言,兼容不同用户的使用习惯B、高性能:对分布式图形计算引警进行了深度优化,具有高井发、最快可达分钟级时延的实时查询能力C、大规模:最大可支持百万节点千万边规模的数据进行查询与分析D、查询分析一体:提供丰富的图分析算法,实现了查询分析一体化【正确答案】:D88.关于Kalka的Topic,以下哪一项描述是错误的?A、Topic的Partition数量可以在创建时配置。B、Kafka集群中Topic可以设置多个。C、设置多副本可以增强Kaka服务的容灾能力。D、在创建Kafka的Topic时,必须设置Partition个数【正确答案】:D89.为了提高Kafka的容错性,Kafka支持Partition的复制策略,以下关于LeA,DerPartition和FollowerPartition的描述哪一项是错误的?A、Kafkat对Partition的复制需要选出一个LeA,Der,由该LeA,Der负责Partition的读写操作,其他的副本节点只是负责数据的同步B、如果LeA,Der失效,那么将会有其他Follower来接管(成为新的LeA,DerC、一个Kafka集群各个节点间不可能互为LeA,Der和FollowerD、由于LeA,DerServer承载了全部的请求压力,因此从集群的整体考虑,Kafka会将LeA,Der均横的分散在每个实例上,来确保整体的性能稳定【正确答案】:C90.以下哪一个函数不是Hive内置的宁符串函数?A、substring()B、length()C、trim()D、round()【正确答案】:D91.HBase使用get方法读取数据时,下列哪个选项是需要的?A、scan.setCaching(1000)B、Deletedelete=newDelete(rowKey)C、byte[]rowKey=Bytes.toBytes("012005000201")D、List<Put>puts=newArrayList<Put>【正确答案】:C92.Redis不适用于以下哪个应用场景?A、获取TOPN操作B、获取PB级Value数据C、获取最新N个数据的操作D、获取手机验证码【正确答案】:B93.在华为云GES服务中,想要在一张已存在的图g中添加id为张三,年龄为18-24,性别为M的user用户。以下哪一个选项能正确实现上述目的?单选A、g.addVertex(label,'user',id.'张','Age','18-24')B、g.addE(id,"张三").from(g.V("Katherine").to(g.V("id","张三")C、g.addV("张三").property("Age","18-24").property("Gender","M")D、g.addV("user").property(id,"张三").property("Age","18-24")!property("Gender","M")【正确答案】:D94.altertabletableNamesettblproperties('EXTERNAL'='FALSE'):执行该Hive命令能实现以下哪一个目标?A、修改内部表tableName为外部表B、移动tableName数据到外部存储系统C、删除tableName表的元数据信息D、修改外部表tableName为内部表【正确答案】:D95.Redis默认支持的数据库个数是多少?A、10B、5C、16D、15【正确答案】:C96.关于实时检索技术的应用场景,以下描述中错误的是哪一个选项?A、运营商可以借助实时检索技术,查询某个时间段用户的流量记录,以应对不良APP偷跑流量引发的投诉B、实时检索要求在小批量数据集上需达到毫秒级的时延C、在金融风控场景中,利用实时检索技术,客户可以在发生危险交易前及时止损D、公安系统数据量大、业务要求复杂,因此无法借助实时检索技术提高处警效率【正确答案】:D97.某电商网站想要实现热销商品的实时TopN排名,可以使用哪种技术实现?A、Hive的关联查询分析B、HBaserowkey的索C、Elasticsearch的快速检索D、Redis的排序计算【正确答案】:D98.某大数据开发人员在创建Hive表结构时,发现原先创建的表存储格式出现了问题。对于这一现象,以下描述中,错误的是哪一项?A、不同的存储格式会影响表的处理效率B、必须修正回来,不然会导致数据无法查询C、可以通过alter命令进行修改D、错误的表存储格式会影响10A,D命令加载,导致数据无法正常导入【正确答案】:B99.以下关于Sqoop数据导入原理的描述中,错误的是哪一项?A、Sqoop在import时,需要指定split-by参数。B、Sqoop会根据传入的num-mappers来确定划分几个区域。C、Sqoop根据不同的split-by参数值来进行切分,然后将切分出来的区域分配到不同map中。D、num-nappers越大效率越高。【正确答案】:D100.Hive表与MySQL类似存在分区的概念,那么对于Hive的分区,以下描述中,正确的是哪一项?A、Hive的分区针对的是文件,分桶针对的是文件夹。B、Hive的分区数量可以通过参数动态生成。C、Hive的分区和分桶是以一个概念。D、Hive的分区字段与MySQL一样必须存在。【正确答案】:B1.关于ApachePhoenix与HBase的搭配,以下哪些选项是正确的?A、PhoenixSQL只有命令行一种使用模式,无法对接JDBC进行使用B、ApachePhoenix可以将SQL查询编译为一系列HBase扫描C、Phoenix在Hadoop中为低延迟应用程序提供OLTP和运营分析能力D、ApachePhoenix可以为小型查询提供毫秒级的性能,或者为数千万行数据提供秒级的性能【正确答案】:BCD2.下面哪几项属于ElasticSearch的RESTful请求方式?A、PostB、UpdateC、DeleteD、Get【正确答案】:ACD3.Flink提供的窗口分配器,包含以下哪些项?A、全局窗口B、滚动窗口C、滑动窗口D、会话窗口【正确答案】:ABCD4.Redis包含以下哪些数据类型?A、HashB、ListC、StringD、Set【正确答案】:ABCD5.以下哪些选项不属于HDFS文件系统将文件分块带来的好处?A、数据备份比较麻烦B、简化系统设计C、存储效率有所降低D、支持大规模文件存储【正确答案】:AC6.关于Hive导入数据的命令,以下哪些选项是正确的?A、loA,Ddatainpath可用于将HDFS上的数据导入Hive表中B、导入数据时必须指定导入哪张表格,也就是需要使用intotable关键词+表名C、可以使用Local关键词从本地文件系统导入数据至Hive,但是这里的Local指的是hiveserver服务所在的机器,而不是beeline客户端所在的机器D、如果原先表中有数据,想用新数据覆盖旧数据,可以添加overwrite参数进行覆盖【正确答案】:ABCD7.ElasticSearch的定位包含以下哪些方法?A、文档检素B、实时搜索C、主键查询D、非主键查询【正确答案】:ABCD8.以下关于Filnk的窗口描述正确的是()。A、Flink窗口按窗口行为划分:TumblingWindow-SlidingWindow.SessionWindow.B、窗口可以是时间驱动的也可以是数据驱动的。C、我们可以每30秒计算一次最近一分钟用户购买的商品总数,这个就是时间滑动窗口的应用方式。D、会话窗口是将数据聚合到会话窗口中,由非活跃的间隙分隔开。【正确答案】:ABCD9.以下哪些选项属于Kafka高效文件存储设计的特点?A、通过index元数据全部映射到memory,可以避免segmentfile的lo磁盘操作。B、Kafka把topic中一个parition大文件分成多个小文件段,通过多个小文件段,就容易定期清除或删除已经消费完文件,减少磁盘占用。C、通过索引信息可以快速定位message和确定response的最大大小。D、通过索引文件稀疏存储,可以大幅降低index文件元数据占用空间大小【正确答案】:ABCD10.以下哪些选项属于HBase常见的应用场景?A、消息、订单数据存储B、用户画像数据存储C、气象数据存储D、全年总销售额统计分析【正确答案】:ABC11.通过Loader的可视化界面,可以实现以下哪些操作?A、数据分析任务B、制定多种不同的数据源C、数据可视化操作D、配置数据的清洗和转换步骤【正确答案】:BCD12.大数据融合架构具有以下哪些优势?A、实现资源共享、实现管理自动化B、同一份数据可同时进行批处理C、消除数据孤岛,减少冗余D、流处理以及查询多种计算模型【正确答案】:ABCD13.Flink有哪些状态存储方式?A、MemoryStateBA,CkendB、FsStateBA,CkendC、MySqlStateBA,CkendD、RocksDBStateBA,Ckend【正确答案】:ABD14.关于MRS的Redis增强特性描述正确的是()。A、支持数据导入导出工具B、自研Arm架构C、集群可靠性保障D、完善的集群管理功能【正确答案】:ABCD15.以下哪些选项是离线批处理的特点?A、多个作业调度复杂B、容易产生资源抢占C、处理数据量巨大,PB级D、处理时间要求高【正确答案】:ABC16.关于ElasticSearch的基本理解,以下哪些选项是正确的?A、ElasticSearch的全文检索条件可以包括词或短语B、ElasticSearch可以支持非结构化数据检索C、ElasticSearch自身就可以提供数据可视化操作D、ElasticSearch可以支持数据清洗和分词【正确答案】:ABD17.在HBase中利用get命令查找某一个单元格对应的数据,以下哪些信息是必要的?()A、ColumnQualifier(限定符)信息B、Rowkey(行键)信息C、DataBlockID(数据块编号)信息D、ColumnFamily(列族)信息【正确答案】:ABD18.Redis中Key的expire生存时间不适合以下哪些场景?A、存储特定用户所有历史信息B、限时优惠活动C、限制网站访客访问频率D、电商网站过去一年营销总额统计【正确答案】:AD19.以下关于Channel的描述中,错误的是哪些项?A、Channel位于Source和Sink之间B、Channels不支持事务Channel的作用类似队列D、Channels提供较强的顺序保证【正确答案】:BD20.以下哪些选项是Loader提供的功能?A、可以指定多种不同数据源B、提供定时调度任务,周期性执行作业C、提供可视化向导式的作业配置管理界面D、配置数据的清洗和转换步骤【正确答案】:ABCD21.以下哪些选项是传统大数据架构面临的挑战?A、资源无法弹性B、业务上线速度慢C、多集群无法统一运维D、建设成本高【正确答案】:ABCD22.以下关于微批处理模型的描述,正确的是哪些项?A、在下一个微批处理之前,要将数据的偏移范围保存在日志中B、当前到达的数据需要在上一批次处理完,才能下一个批次数据继续处理C、会有一定的延迟D、流计算引警在处理上一批次数据结束后,再对新数据进行批量查询【正确答案】:ABCD23.某大数据业务人员在不小心删除了HDFS某个文件后,想通过回收站机制恢复数据,但是在对应的回收站目录/user/root/.Trash中为什么找不到要恢复的数据?A、回收站中的数据超过了保留的期限,被系统删除了。B、回收站机制并没有开启,导致没有及时回收C、回收站通过回收间隔,对数据进行了整理,需要进入到指定时间间隔下才能找到D、查找的目录可能出现了问题,需要核实删除操作的用户。【正确答案】:AB24.Spark中RDD是弹性数据集的原因包括以下哪些选项?A、基于Lineage的高效容错B、自动进行内存和磁盘数据存储的切换C、数据调度弹性D、Task失败自动重试【正确答案】:ABC25.以下哪些选项是容易造成Hive数据倾斜的原因?()A、groupbyB、joinC、distinctcountD、droptable【正确答案】:ABC26.关于使用HBase的JavaAPI读取数据,以下描述中正确的是哪些项?A、QualifierFilter用于过HBase表中的列族信息B、HBaseFilter主要在Scan和Get过程中进行数据过滤,通过设置一些过滤条件来实现条件查询C、要从表中读取数据,首先需要实例化该表对应的Table实例D、为了提高查询效率,使用Scan命令时最好指定StartRow和StopRow【正确答案】:ABCD27.以下哪些选项是网站日志的特点?A、价值密度低B、数据的业务种类多C、数据结构复杂D、数据量大【正确答案】:ABCD28.以下哪些选项可以在华为云GES服务中实现?A、根据用户的用户画像,为用户推荐最合适的电影(推荐系统)B、查询两个用户Reed和Caspar的最短路径(计算最短路径)C、调用PageRank算法,查间图中最关键的数据点(PageRank算法)D、查询Hillary用户的朋友的朋友的朋友(多级关系查询)【正确答案】:ABCD29.下面选项哪些是HBase数据查询过滤器Filter的比较器?A、BinaryComparatorB、SubStringComparatorC、BinaryPrefixComparatorD、RegexStringComparator【正确答案】:ABCD30.关于HBaseRegion分裂的描述中,以下哪些选项是正确的?A、Region拆分操作需要消耗大量时间B、拆分过程中的Region是不可读的C、直到分裂过程结束,把存储文件异步地写到独立的文件之后,才会读取新文件D、在RegionSplit时,拆分之后的Regioni读取的仍然是原存储文件【正确答案】:BC31.下列关于大数据的说法中,错误的是哪些选项?A、大数据具有体量大、结构单一、时效性强的特征B、处理大数据需采用新型计算架构和智能算法等新技术C、大数据的应用注重因果分析而不是相关分析D、大数据的应用注重相关分析而不是因果分析【正确答案】:AC32.HDFS文件系统适用于哪些场景?A、大规模数据(TB及以上)B、流式数据访问(写一次,读多次)C、频繁修改文件(基本就是写一次)D、商用硬件(一般硬件)【正确答案】:ABD33.以下哪些选项可以提供文档数据检索服务?A、HDFSB、MapReduceC、ElasticSearchD、Lucene【正确答案】:CD34.由GESREST接口可以实现以下哪些操作?A、创建图B、删除图C、创建edgelA,BelD、创建vertexIA,Bel【正确答案】:ABCD35.相较于大数据组件,传统数据仓库存在以下哪些劣势?A、I/O存在瓶颈B、大规模数据实时性差C、拓展能力差D、架构单一【正确答案】:ABCD36.2019年以后,华为云数据湖CloudDataLake中数据管理包含以下哪些组件。AWSGlueB、DeltaLakeC、AtlasD、HUDI【正确答案】:ABCD37.实时检索的公安和金融行业应用场景有哪些特征?A、高并发B、存在海量小文件C、查询速度快D、查询条件简单【正确答案】:ABCD38.关于HBase中scan和get的描述,以下哪些选项是正确的?A、get命令可以指定查找特定的单元格B、scan可以用于扫描全表数据C、get命令必须指定行健信息D、scan命令无法指定行键的范围【正确答案】:ABC39.华为企业云数据湖具有以下哪些优势?A、开放接口,支持开放实时标准,构建丰富生态,自助式数据开发与分析B、存储和计算分离,支持更多用户并发和更大数据量C、更多数据通过实时、虚拟方式入湖,数据产生即可见、可用D、数据集中,开放共享、统一目录管理,避免跨系统数据搬迁【正确答案】:ABCD40.以下关于AppendMode的描述中,正确的是哪些项?A、只适用于结果集中已经存在的内容不希望发生改变的情况B、当时间间隔触发时,只有在ResultTable中新增加的数据行会被写入到外部存储C、如果已经存在的数据会被更新,推荐使用此方式D、如果已经存在的数据会被更新,不适合适用此方式【正确答案】:ABD41.华为混合云MRS服务的优势有哪些?A、存算分离,TCO下降B、易管理,驾驶舱体验C、多场景融合,高性能D、易部署,所用即所得【正确答案】:ABCD42.StructuredStreaming可以提供以下哪几种类型的保证?A、OnlyOnceB、AtmostonceC、ExactlyonceD、Atleastonce【正确答案】:BCD43.离线批处理的数据来源可以是以下哪些选项?A、0GG日志流B、日志文件C、批量文件数据D、数据库【正确答案】:ABCD44.关于SparkSQL和Hive的区别与联系,以下哪些选项是正确的?A、SparkSQL的执行引擎为SparkCore,Hive默认执行引擎为TezB、SparkSQL不可以使用Hive的自定义函数C、SparkSQL依赖Hive的元数据D、SparkSQL兼容绝大部分Hive的语法【正确答案】:ACD45.以下关于有界流的描述,哪些项是正确的?A、有界流处理通常被称为批处理B、有定义流的开始,也有定义流的结束C、有界流可以在读取所有数据后再进行计算D、有界流所有数据可以被排序,所以并不需要有序摄取【正确答案】:ABCD46.以下哪些选项是GES图数据库用于存储海量数据的基础组件?A、SparkB、FlinkC、HBaseD、ElasticSearch【正确答案】:CD47.以下哪些算子是窄依赖?A、filterB、groupyByKeyC、mapD、union【正确答案】:ACD48.以下哪些选项是Hive数据仓库分层的优点?A、隔离原始数据B、复杂问题简单化C、减少重复开发D、清晰数据结构【正确答案】:ABCD49.大数据的价值体现在以下哪些方面?A、大数据实现了精准营销B、大数据助力智慧城市提升公共服务水平C、大数据给思维方式带来了冲击D、大数据为政策制定提供科学论据【正确答案】:ABD50.以下哪些选项是华为云MRS使用HetuEngine的根本原因?A、企业传统数仓,缺乏高效、统一的融合分析B、企业传统数仓采用分系统构建模式,导致数据冗余严重,阻碍企业快速转型C、随着数据量增长,业务对数据分析灵活性要求越来越高D、HetuEngine对浪涌式的数据进行整合分析,发挥最大价值【正确答案】:ABCD51.实时检索的解决方案中有哪些组件?A、HadoopB、HiveC、ElasticSearchD、HBase【正确答案】:CD52.以下哪些是常用的数据采集工具?A、SqoopB、FlumeC、LoaderD、Kafka【正确答案】:ABC53.HBase中HMaster主要负责()A、Regionserverf负载均衡B、表的增删改查C、Region分布调整D、用户数据读写【正确答案】:ABC54.以下关于Source的描述中,正确的是哪些项?A、execsource执行某个命令或者脚本,并将其执行结果的输出作为数据源B、httpsource支持http的post发送数据C、spoolingdirectorysource采集本地静态文件D、Source有驱动和轮询两种类型【正确答案】:ABCD55.下列哪些选项是Flink的高抽象层API?A、DataStreamAPIB、DataSetAPIC、SQLAPID、TableAPI【正确答案】:CD56.有关实时检索引擎中各组件的联系与定位,以下描述中正确的有哪些项?()A、ElasticSearch存储数据性价比低,但是其能够满足场景中多级索引的实时查询需求,同时还能够对文档分词建立索引B、图数据库可以完美的解决复杂多级关系查询分析,选用GES来解决图数据的实时查询需求C、与HBase相比,ElasticSearch在海量数据的情景下存储性能不如HBase,故选择HBase作为海量数据存储的基石D、HBase加ElasticSearch的组合满足了大部分的用户实时检索诉求【正确答案】:ABCD57.大数据技术在我们身边应用的越来越广,以下场景中有哪些场景可以应用大数据技术?A、广告精准营销B、游戏画面实时刷新C、人物画像D、道路智能规划【正确答案】:ACD58.以下关于Redis使用场景特点的描述,正确的是哪些项?A、数据类型丰富B、支持持久化C、高性能D、低时延【正确答案】:ABCD59.请按步骤将调用HBase的JavaAPl进行scan查询的流程进行排序。()A、针对查询条件设置Scan对象的参数值B、创建一个Scan对象C、实例化该表对应的Table实例D、设置缓存大小或起始结束的rowkeyE、解析处理结果F、提交Scan请求【正确答案】:ABCDEF60.以下关于Spark的惰性操作描述中,正确的有哪几项?A、SparkACtion的程序只有执行到算子时才会触发。B、Spark的执行需要人为触发,Spark自身不会自动触发。C、SparkACtion程序在还没有执行到算子时,是不会进行编译的。D、Transformation属于懒操作。【正确答案】:AD61.有关HBase中Compaction操作的描述,以下哪些说法是正确的?A、MajorCompaction是小范围的CompactionB、Compaction操作会排除当前正在执行合并的文件C、MinorCompaction是小范围的CompactionD、Compaction分为Minor和Major两类【正确答案】:BCD62.关于GES服务的常见基本概念,以下哪些选项是正确的?A、GES不存在无向边B、在GES中,点的属性(Property)表示了该顶点的附加信息,采用Keyvalue:结构进行保存C、个人的姓名、年龄、身份证、爱好等信息可以用VertexLA,Bel来表示D、"认识/朋友关系"在图中可以用边来表示【正确答案】:ABCD63.HBase数据写入过程会有多个步骤,请选择正确的顺序()A、查找对应的region,在region中寻找列族先向memstore中写入数据B、去表所在的regionserver进行数据的添加C、当memstore写入的值变多,触发溢弓操作(flush)D、clienti访问Zookeeper,获取元数据存储所在的regionserverE、通过对应的regionserver,拿到对应的表存文的regionserverF、当溢写的文件过多时,会触发文件的合并(Compact)操作【正确答案】:ABCDEF64.以下哪些属于大数据的发展趋势?A、从技术驱动转变为商业驱动B、从统计分析到认知计算C、生态合作开放D、数据处理逐渐标准化、云化【正确答案】:ABCD65.关于HBase的基本架构,以下描述中正确的有哪些项?A、在HBase中,每一个Store对应一个ColumnQualifierB、每一次触发Flush都会生成新的HFileC、在HBase中,由HMaster直接管理RegionD、HBase允许多台HRegionServer同时工作【正确答案】:ABD66.某大数据业务人员因误操作,导致某条Hive的Insert语句执行了多次,使得数据出现了重复的现象,为了避免下次再次出现这种问题,以下哪些操作是可取的?A、改造SQL语句,添加关键字Overwrite使得数据以覆盖的方式写入B、改造SQL语句,在插入前添加清空操作如truncateC、添加Hive表的唯一索引,保证数据不重复-D、添加权限,使得业务人员只能执行单次插入。【正确答案】:CD67.HBase存储模型包含以下哪些选项?A、列族(ColumnFamily)B、行键(RowKey)C、数据块编号(DataBlockIDD、时间戳(TimeStamp)【正确答案】:ABCD68.下列是ElasticSearch批量索引流程,请选择正确的顺序()A、主分片节点按序操作,完成一个操作后再发送给其余复制节点执行B、主分片节点报告给请求节点并返回至客户端C、客户端发送批量索引请求至任意节点后,节点将转发请求至对应主分片节点D、复制节点操作完成报告给主分片节点【正确答案】:ABCD69.华为MRS服务具有以下哪些优势?A、高可用B、多场景融合C、存算分离D、弹性计算【正确答案】:ABCD70.数据仓库分层包括以下哪些选项?A、DWD层B、DWS层C、ADS层D、ODS层【正确答案】:ABCD71.关于GES的RESTful接口,以下描述中正确的有哪些选项?A、GESAPI向上层应用提供统一的访问入口,通过高度灵活的RESTAPI接口,封装GES平台的统一操作B、用户可以通过GES的REST接口创建edgeIA,BelC、GES的REST请求分为Select,Put,Create和DeleteD、用户可以通过GES的REST接口查询数据点的信息【正确答案】:ABD72.Hive架构中Driver包含以下哪些组件?A、ExecutorB、ChannelC、OptimizerD、Compiler【正确答案】:ACD73.关于Hive的优点,以下哪些说法是正确的?A、Hive支持多种编程语言,包括Java和Python都可对接Hive进行使用B、Hive速度非常快,可以支特毫秒级时延的分析应用C、理论上Hive依赖硬件程度较低,可适应一般的普通机器D、Hive支持双MetaStore机制,提高容错性【正确答案】:ACD74.以下哪些场景可以使用HBase作为存储系统?A、Row-Key查询B、满足ACID特性C、海量数据存储D、大文件(T【正确答案】:ACD75.Hive可以直接访问以下哪些组件?A、HDFSB、DockerC、TensorFlowD、HBase【正确答案】:AD76.关于Flink的任务调度,请选择正确的顺序()A、用户提交的代码生成StreamGraphB、经过优化生成JobGraphC、提交给JobManager进行处理,根据JobGraph生成ExecutionGraphD、JobManager根据ExecutionGraph对Job进行调度【正确答案】:ABCD77.Kafka创建Topic时如何将分区放置到不同的Broker中,请选择正确的顺序()A、第一个分区的第一个副本放置位置是随机从brokerList选择的B、其他分区的第一个副本放置位置相对于第0个分区依次往后移C、剩余的副本相对干第一个副本放置立置其实是由nextReplicaShift决定的,而这个数也是随机产生的D、副本因子不能大于Broker的个数【正确答案】:ABCD78.Hive组件的Driver由以下哪些项组成?A、MetaStoreB、CompilerC、ExecutorD、Optimizer【正确答案】:BCD79.以下关于HBase删除数据操作的描述中,哪些选项是正确的?A、对于一张正在使用的表,可以直接使用drop命令删除整张表,而不需要其他任何操作B、HBase可利用Truncate命令清空表中数据,并创建一张新表,C、删除某单元格数据,执行命令:delete'cx_table_stu01','20200002','cf1:age'D、删除整行数据,执行命令:deleteall'cx_table_stu01','20200002'【正确答案】:BCD80.以下哪些选项是Loader组件的特点?()A、图形化B、高性能C、高可靠D、安全【正确答案】:ABCD81.以下哪些选项为当前大数据产业发展的特点?A、规模较大B、增速缓慢C、增速很快D、规模较小【正确答案】:AC82.Flume传输数据过程中,为了防止因Flume进程重启而丢失数据,可以使用以下哪几种Channel类型?A、FileChannelB、MemoryChannelC、HDFSChannelD、JDBCChannel【正确答案】:AD83.关于华为云MRS中Loader的描述,以下哪些选顶是正确的?多选A、Loader页面是基于开源SqoopWebUI的图形化数据迁移管理工具,该页面托管在Hue的WebUl中B、Loader提供定时调度任务,周期性执行ETL作业C、Loader提供可视化向导式的作业配置管理界面D、Loader在界面中可指定多种不同的数据源、配置数据的清洗和转换步骤、配置集群存储系统等【正确答案】:ABCD84.以下关于华为云MRS提供的基于天气大数据进行海量数据离线分析应用场景的描述中,哪些选项是正确的?A、可以利用Hive实现TB/PB级的数据分析B、可以通过可视化ETL工具Loader,将数据导出到DWS.完成BI分析C、可以使用OBS实现低成本存储D、离线批处理必须依赖Flink组件完成计算【正确答案】:ABC85.ElasticSearch用于日志搜索和分析,离不开其拥有的生态圈系统和解决方案,这些开源软件之间互相配合使用,完美衔接,高效地满足了多场景的应用。那么其生态系统具体包括以下哪些内容?A、数据持久化与分析层ElasticsearchB、数据接入层LogstashC、用户接入层KibanaD、插件扩展层【正确答案】:ABCD86.HDFS结构中包含以下哪些组件?A、NameNodeB、SourceC、DataNodeD、Sink【正确答案】:AC87.以下哪些选项属于HBase基本架构的一部分?A、HMasterB、DataBlockC、RDDD、Store【正确答案】:AD88.以下关于无界流的描述,哪些项是正确的?A、处理无界数据通常要求以特定顺序摄取事件B、无界流的数据必须持续处理,即数据被读取后需要立刻处理C、有定义流的开始,但没有定义流的结束D、数据源会无休止地产生数据【正确答案】:ABCD89.ElasticSearch在部署时,对Linux的设置有哪些优化方法?A、堆内存设置为:MinB、设置最大文件句柄数C、线程池+队列大小根据业务需要做调整D、关闭缓存Swap【正确答案】:BC90.2019年以后,华为云数据湖CloudDataLake中分析引擎包含以下哪些组件?()A、SparkB、TensorFlowC、FlinkD、Presto【正确答案】:ABCD91.Redis使用场景包含以下哪些特点?A、高性能B、丰富数据结构存取C、支持持久化D、低时延【正确答案】:ABCD92.关于GES的应用场景,以下哪些选项是正确的?A、工业:基于知识图谱的设备故障诊断和预警B、物流和网规:最优路径推荐C、金融:实时推荐、实时反欺诈,基于知识图谱的风控(信贷、保险)D、社交分析:寻找特定爱好的好友,或者通过好友的好友,找到用户可能认识的好友【正确答案】:ABCD93.以下哪些选项不是GES图数据库的典型应用场景?A、气象局根据过去48小时的气象数据,预测明天的降雨概率B、某社交软件根据用户的好友信息推荐潜在好友C、某运营商通过通话记录来标记用户社交圈D、某商店根据过去十年的销售记录预测明年的大致销量【正确答案】:AD94.Loader具有对以下哪些数据源的读取能力?A、HBaseB、HDFSC、HiveD、RDB【正确答案】:ABCD95.以下哪些是运营商大数据平台的能力需求?A、统一数据采集和整合能力B、互联网化的数据开放能力C、大数据分析挖掘能力D、大数据安全能力【正确答案】:ABCD96.FIink可以部署在各种资源提供者上,也可以作为裸机硬件上的独立群集,这里的资源提供者可以是()A、GESB、KubernetesC、YARND、ApacheMesos【正确答案】:BCD97.以下哪些项属于实时数据处理系统的诉求?A、吞吐量高B、多数据源支持C、处理速度快D、可靠性高【正确答案】:ABCD98.Kafka消息传输保障通常会选用那种策略?AtMostOnceB、ExA,CtlyOnceC、AtLeaseOnceD、OnlyOnce【正确答案】:ABC99.以下关于FileChannel的描述中,正确的是哪些项?A、不同的FileChannel均需要配置多个checkpoint目录B、不同的FileChannel均需要配置一个checkpoint目录C、支持对数据进行持久化D、需要配置数据目录和checkpoint目录【正确答案】:ACD100.某大数据业务人员因误操作,导致删除了部分HDFS的业务数据。为了避免再次出现,如何从技术角度出发去规避这个问题?A、开启HDFS的回收站机制,及时恢复数据。B、禁止HDFS的删除操作。C、对业务人员进行权限划分,避免非法或敏感操作,如删除等。D、平时注重安全信息的普及,多加宣传。【正确答案】:ABC1.实时检索场景对于数据加载的要求比较高,实际业务中要求每小时加载TB级的数据。A、正确B、错误【正确答案】:A2.Flink核心是一个提供了数据分发以及并行化计算的流数据处理引擎,对无界和有界数据流进行状态计算。A、正确B、错误【正确答案】:A3.数据湖需要高性能、Schema校验、事务型更新等能力,同时支持多个开源计算引擎生态。A、正确B、错误【正确答案】:A4.一个Group内的Consumer只能消费不同的partition。A、正确B、错误【正确答案】:A5.在Hive的SQL语句执行中,因为groupby等关键字的使用会导致数据倾斜。因此为了表面数据倾斜,应禁止该类操作执行。A、正确B、错误【正确答案】:B6.Impala使用SQL的方式运行。A、正确B、错误【正确答案】:A7.Body用来存放数据,数据结构为字节数组(ByteArray)。A、正确B、错误【正确答案】:A8.实时检索的金融场景应用中,可以查询交易凭证,追溯交易,以及查询客户信用记录,帮助客户快速借款。A、正确B、错误【正确答案】:A9.每个KafkaTopic由一个或多个consumergroup组成,属于同一个consumergroup的consumer都具有相同的groupID。A、正确B、错误【正确答案】:B10.某公司大数据业务存在早高峰特点,因此可以借助于华为云MRS服务依据用户的预设策略,自动调整计算资源,使节点数自动随业务负载变化而变化,保证业务峰值时集群平稳健康运行,并降低整体使用成本。A、正确B、错误【正确答案】:A11.Flink处理数据是无状态的,处理一个事件与之前的事件无关。A、正确B、错误【正确答案】:B12.大数据场景中对于数据的大小而言指的是数据的总量需要大,对于数据的数量要求不高。A、正确B、错误【正确答案】:B13.GESAPI向上层应用提供统一的访问入口,通过高度灵活的RESTAPI接口,封装GES平台的统一操作。A、正确B、错误【正确答案】:A14.BloomFilter是一个列族(cf)级别的配置属性,如果你在表中设置了BloomFilter,那么HBase会在生成StoreFilel时包含一份具有BloomFilter结构的数据,称其为Metablock.A、正确B、错误【正确答案】:A15.云数融合指的是大数据基础设施上云,改变大数据服务的提供方式,各大云厂商均开始提供各类大数据服务产品,以满足客户的需求。()A、正确B、错误【正确答案】:A16.在海量日志离线分析过程中,数据分析师可以将网站日志收集到HDFS上存储,然后把日志加载到Hive中进行统计分析与建模。A、正确B、错误【正确答案】:A17.Flume支持级联(多个Flume对接起来),合并数据的能力。A、正确B、错误【正确答案】:A18.实时流处理系统中,要求数据权限和资源隔离,多种流处理应用之间要进行资源控制和隔离,防止发生资源争抢。A、正确B、错误【正确答案】:A19.Spark中的JDBCServer不是单点服务,因此非常适合处理海量数据和高并发任务()A、正确B、错误【正确答案】:B20.实时检索技术通常需要处理复杂的统计类分析和查询,因此比较适合使用Hive进行分析判断A、正确B、错误【正确答案】:B21.MRS的Flink不支Kerberos持等进行认证,但支持SSL加密传输。A、正确B、错误【正确答案】:B22.Kettlel中有两种transformation脚本文件(转换ktr结尾)和job(任务kjb结尾)。A、正确B、错误【正确答案】:A23.在数字化转型以及多样数据、算力、业务敏捷的驱动下,大数据焦点转向云服务方式创新,更加敏捷,成本更优。A、正确B、错误【正确答案】:A24.在删除表的时候,外部表只删除元数据,不删除实际数据。()A、正确B、错误【正确答案】:A25.数据实时处理是指数据产生后立即就被消费。A、正确B、错误【正确答案】:B26.Spark支持流与流之间的连接操作。A、正确B、错误【正确答案】:A27.为了减少磁盘写入的次数,Broker会将消息暂时buffer起来,当消息的个数达到一定阀值时,再flush到磁盘,这样减少了磁盘调用的次数。A、正确B、错误【正确答案】:A28.Redis是一个高性能key-value内存数据库。A、正确B、错误【正确答案】:A29.在HBase中,BloomFilter的数据被存在RDD的元数据中,一旦写入无法更新,因为RDD是不可变的。开启BloomFilter会有一定的存储及内存cache开销。A、正确B、错误【正确答案】:B30.在Spark中,RDD通过数据块的方式将数据存放在内存中,并且采用三副本机制提高数据的稳定性。A、正确B、错误【正确答案】:B31.Hive中默认创建的是外部表A、正确B、错误【正确答案】:B32.Flume的Source可以不用和channel关联,直接连接到sink。A、正确B、错误【正确答案】:B33.实时流处理要求秒级或者毫秒级时延A、正确B、错误【正确答案】:A34.Consumeri通过Pull的方式从Broker获取数据消费。A、正确B、错误【正确答案】:A解析:
四.填空35.大数据离线批处理支持SQL类作业和自定义作业。A、正确B、错误【正确答案】:A36.在使用HBaseJavaAPI时,用户可以通过org,Apache.Hadoop.hbase.client.A,Dmin实例的createTable快速建表,创建表后整张表只有一个Region,随着数据量的增加会自动分裂成多个Region。A、正确B、错误【正确答案】:A37.在华为MRS中的Manager上,管理人员可以一键式完成集群的安装部署、升级、参数配置、组件启停等操作。A、正确B、错误【正确答案】:A38.MRS的安全模式一般是用于生产环境。A、正确B、错误【正确答案】:A39.HBase支持存储大表数据,表格规模可达数十亿行、数百万列。A、正确B、错误【正确答案】:A40.任何完整的大数据平台,一般包括以下的几个过程,数据采集一>数据存储一>数据处理一>数据展现(可视化,报表和监控)。其中,数据采集是所有数据系统必不可少的一个环节,随着大数据越来越被重视,数据采集的挑战也变的尤为突出。A、正确B、错误【正确答案】:A41.窄依赖往往对应着shuffle操作,需要在运行过程中将同一个父RDD的分区传入到不同的子RDD分区中,中间可能涉及多个节点之间的数据传输。A、正确B、错误【正确答案】:A42.某大数据业务人员希望确保某份关键数据在Hive中不会因为drop操作导致数据别除。他可以采用内部表的方式来实现,drop操作时只会删除元数据而不会删除表数据。A、正确B、错误【正确答案】:B43.GES基于MySQL的分布式存储机制,能够处理海量数据。A、正确B、错误【正确答案】:B44.Hive架构中Optimizer用于编译HiveQL并将其转化为一系列相互依赖的Map/Reduce任务。A、正确B、错误【正确答案】:B45.Hive中删除外部表时,元数据和数据会一起被删除。A、正确B、错误【正确答案】:B46.在ElasticSearch中,用户可以通过Head请求查询某个索引是否存在。A、正确B、错误【正确答案】:A47.开启BloomFilter会有一定的磁盘存储空间及内存cA,Che的额外开销A、正确B、错误【正确答案】:A48.对于大数据集群而言,只要开启了HDFS的回收站机制,那么可以随意删除数据,出错了恢复即可。A、正确B、错误【正确答案】:B49.HBase的Region在split
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 贵州城市职业学院《房地产策划与运营》2023-2024学年第一学期期末试卷
- 淫羊藿培育项目可行性研究报告-淫羊藿市场需求持续增大
- 贵阳人文科技学院《聚合物改性原理及方法》2023-2024学年第一学期期末试卷
- 广州中医药大学《英语教师核心素养解读》2023-2024学年第一学期期末试卷
- 2025山东省安全员-B证考试题库附答案
- 2025年云南省安全员《A证》考试题库及答案
- 广州应用科技学院《建筑给排水与消防》2023-2024学年第一学期期末试卷
- 广州现代信息工程职业技术学院《增材制造技术》2023-2024学年第一学期期末试卷
- 2025黑龙江省建筑安全员C证(专职安全员)考试题库
- 2025年河南省建筑安全员-C证(专职安全员)考试题库
- 储能系统技术服务合同
- 无锡市区2024-2025学年五年级上学期数学期末试题一(有答案)
- GB/T 1094.7-2024电力变压器第7部分:油浸式电力变压器负载导则
- 2024医院与康复机构康复治疗合作协议书3篇
- 电大西方行政学说
- 2025版国家开放大学法律事务专科《法律咨询与调解》期末纸质考试单项选择题题库
- 2025年慢性阻塞性肺疾病全球创议GOLD指南修订解读课件
- 2024小学数学义务教育新课程标准(2022版)必考题库附含答案
- DB32/T 2283-2024 公路工程水泥搅拌桩成桩质量检测规程
- 火灾应急处理程序流程图
- 大乘广智的涵义
评论
0/150
提交评论