大数据CDA考试(习题卷5)_第1页
大数据CDA考试(习题卷5)_第2页
大数据CDA考试(习题卷5)_第3页
大数据CDA考试(习题卷5)_第4页
大数据CDA考试(习题卷5)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据CDA考试大数据CDA考试(习题卷5)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据CDA考试第1部分:单项选择题,共47题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.在ID3算法中信息增益是指()。A)信息的溢出程度B)信息的增加效益C)熵增加的程度最大D)熵减少的程度最大答案:D解析:[单选题]2.贝叶斯决策是根据()进行决策的一种方法。A)极大似然概率B)先验概率C)边际概率D)后验概率答案:D解析:[单选题]3.分析顾客的消费行为,以便有针对性的向其推荐感兴趣的服务,于()问题A)关联规则挖掘B)分类与回归C)聚类分析D)时序预测答案:A解析:[单选题]4.17、19、22、24、25、28、34这组数的四分位差是()。A)24B)12C)9D)D17答案:C解析:[单选题]5.传统数据处理的数据单位?A)TBB)EBC)PBD)GB答案:D解析:[单选题]6.在Mapper类中,共有4个函数:setup()、map()、()l、run)。A)Reducer()B)cleanup()C)Split()D)local()答案:B解析:[单选题]7.HadoopMapReduce支持多种语言编程,下列说法不正确的是()。A)可以用JAVA语言编写MapReduce应用程序B)可以用C/C++语言编写MapReduce应用程序C)可以用Python语言编写MapReduce应用程序D)可以用javascript语言编写MapReduce应用程序答案:D解析:[单选题]8.统计图形中,常用于检查异常值的是()。A)Q-Q图B)箱线图C)帕累托图D)气泡图答案:B解析:[单选题]9.在Flink技术架构中,以下哪项是流处理和批处理的计算引擎?A)StandaloneB)RuntimeC)FlinkCoreD)Datasteam答案:B解析:[单选题]10.()表示在先决条件X发生的情况下,由关联规则?X→Y?推出Y的概率。即在含有X的项集中,含有Y的可能性。A)置信度B)支持度C)关联度D)以上都不是答案:A解析:[单选题]11.一个6面骰子连掷4次,得到至少一次六点的概率约为()。A)≈51.77%B)≈66.67%C)≈48.22%D)≈16.67%答案:A解析:1-(5/6)^4≈0.5177[单选题]12.使用JAVAAPI进行HBase整表扫描操作,以下命令输写正确的是()。A)table.getScanner(scan);B)table.scan(table)C)table.get(table).scan();D)table.Scanner(get);答案:A解析:[单选题]13.下面关于MapReduce的描述中正确的是()。A)MapReduce程序必须包含Mapper和Reduce。B)MapReduce程序的MapTask可以任意指定。C)MapReduce程序的ReduceTask可以任意指定D)MapReduce程序的ReduceTask可以任意指定答案:D解析:[单选题]14.下列关于HadoopAPI的说法错误的是()。A)Hadoop的API只适用于HDFS文件系统B)Configuration类的默认实例化方法是以HDFS系统的资源配置为基础的C)FileStatus对象存储文件和目录的元数据D)FSDatalnputStream是java.io.DatalnputStream的子类答案:A解析:[单选题]15.HBase的物理存储单元是什么?A)RegionB)ColumnFamilyC)ColumnD)ROW答案:B解析:[单选题]16.检验单总体方差的过程中,检验统计量服从()。A)标准正态分布B)正态分布C)卡方分布D)t分布答案:C解析:见单总体方差检验概念[单选题]17.在创建对象时必须A)先声明对象,然后才能使用对象B)先声明对象,为对象分配内存空间,然后才能使用对象C)先声明对象,为对象分配内存空间,对对象初始化,然后才能使用对象D)上述说法都对答案:C解析:[单选题]18.以下表述错误的是()。A)冗余属性不会对决策树的准确率造成不利的影响B)子树可能在决策树中重复多次C)决策树算法对于噪声的干扰非常敏感D)寻找最佳决策树是NP完全问題答案:C解析:[单选题]19.Java的字符类型采用的是Unicode编码方案,每个Unicode码占用()个比特位。A)8B)16C)32D)64答案:C解析:[单选题]20.如果需要由数据生产者决定数据发送给目标Bolt的某一个确定的Task,应选择以下哪种消息发布策略()?A)局部字段分组B)广播分组C)直接分组D)全局分组答案:C解析:[单选题]21.编译Java源程序文件将产生相应的字节码文件,这些字节码文件的扩展名为A)byteB)classC)htmlD)exe答案:B解析:[单选题]22.无监督学习中应用最广的是()。A)分类算法B)聚类算法C)关联算法D)时序答案:B解析:[单选题]23.下列选项中无法通过大数据技术实现的是?()A)商业模式发现B)信用评估C)商品推荐D)运营分析答案:A解析:[单选题]24.以下对最近邻分类算法(KNN)的说法错误的是()。A)它使用具体的训练实例进行预测,不必维护源自数据的模型B)分类一个测试样例开销很大C)最近邻分类器基于全局信息进行预测D)可生产任意形状的决策边界答案:C解析:[单选题]25.Zookeeper在分布式应用中主要的作用不包括以下哪些选项?A)选举Master节点B)保证各节点上数据的C)分配集群资源D)存储及群中答案:C解析:[单选题]26.hadoop平台中要查看Yarn服务中一个application的信息,通常需要使用什么命令?A)containerB)jarC)application-attemptD)Application答案:D解析:[单选题]27.HBase依靠()存储底层数据A)HDFSB)HadoopC)MemoryD)MapReduce答案:A解析:[单选题]28.以下哪个不属于数据分析报告的开篇部分。()A)索引B)前言C)目录D)标题答案:A解析:[单选题]29.Hadoop系统中关于客户端向HDFS文件系统上传文件说法正确的是?A)客户端的文件数据经过NameNode传递给DataNodeB)客户端将文件分为多个Bock,根据DataNode的地址信息,按顺序写入每一个DataNode中C)客户端根据DataNode的地址信息,按顺序将整个文件写入每一个DataNode中,然后由DataNode将文件划分为多个BlockD)客户端只上传数据到一个DataNode,然后由Namenode负责Bock复制答案:B解析:[单选题]30.下列有关C4.5算法的说法中不正确的是()A)每个节点的分支度只能为2B)使用gainratio作为节点分割的依据C)可以处理数值型态的字段D)可以处理空值的字段答案:A解析:[单选题]31.SOL语言中,删除一个表中所有数据,但保留表结构的命令是()。A)DELETEB)DROPC)CLEARD)REMORE答案:A解析:truncate与drop是DDL语句,执行后无法回滚;delete是DML语句,可回滚。[单选题]32.下列选项中,关于Zookeeper可靠性含义说法正确的是?A)可靠性通过主备部署模式实现B)可靠性是指更新更新只能成功或失败没有中间状态C)可靠性是指无论个server,对外展示的均是同一个视图D)可靠性是指一个消息被一个Server它将被所有的Server接受答案:D解析:[单选题]33.一个电瓶车制造商声称,其生产的电瓶车正常行驶条件下大于40公里,对一个由20辆电瓶车组成的随机样本作了试验,测得平均值为50公里,标准差为10公里。已知电瓶车的行驶距离服从正态分布,我们希望检验该制造商的产品同他所说的标准相符?我们应该选择()A)单侧t检验B)双侧t检验C)单侧F检验D)双侧F检验答案:A解析:小样本均值检验用t检验。[单选题]34.在测试Flask项目时,使用()模块可以根据需求产生不同类型和数量的虚拟数据0A)demoB)fakerC)testD)faker_data答案:B解析:[单选题]35.下列涉及通配符的操作,范围最大的是()A)nameB)nameC)nameD)name答案:C解析:%匹配多个字符,_匹配一个字符。[单选题]36.对于Hive中关于普通表和外部表描述不正确的是?A)默认创建普通表B)删除外部表时,只除外部表数据而不删除元数据C)外部实质是将已存在于HDFS上的文件路径跟表关联起来D)删除普通表时,元数据和数据同时被删除答案:C解析:[单选题]37.下面哪些场景不是Flink组件擅长的?A)批处理B)迭代计算C)流处理D)数据存储答案:B解析:[单选题]38.在使用Flask-WTF自定义表单类时,自定义的类需要继承自()。A)FlaskFormB)FlaskFormsC)FlaskWTFD)Forms答案:A解析:[单选题]39.下面关于Zookeeper特性的描述错误的是?A)消息更新只能成功或者失败,没有中间状态B)Zookeeper节点数必须为奇数个C)一条消息要被超过半数的Server接收,它将可以成功写入磁盘D)客户端所发送的更新会按照它们被发送的顺序进行应用答案:B解析:[单选题]40.以下哪个操作是hive不支持的?()A)表增加列B)表删除列C)表修改列D)修改表名答案:B解析:[单选题]41.在方差分析中,我们如下输出上表有?号的空格数值是多少()A)32B)33C)64D)66答案:C解析:组内自由度等于观察数66-组数2=64。[单选题]42.日常数据通报型报告的特点错误的是()。A)进度性B)规范性C)时效性D)全面性答案:D解析:[单选题]43.以下关于K-Means算法错误的是()。A)K值无法预先判断,只适用于球形类的形状的聚类B)算法可能收敛到局部最优点C)算法对极值点及噪点较为敏感D)中心点的个数,通常值是在8-10个之间答案:D解析:[单选题]44.若要对比各个国家之间的人均收入与人均支出的离散程度,应使用以下哪种统计量()。A)方差B)离差C)离散系数D)相关系数答案:C解析:见离散系数定义[单选题]45.HBase的Region组成中,必须要有以下一项。A)StoreFileB)MemStoreC)HFileD)MetaStore答案:B解析:[单选题]46.以下关于fusioninsightCTbase的描述不正确的是?A)CThase的读写数据接口,统一封装了行定义的接口,自动进行冷字段的合并和解析,不需要在应用程序中进行合并和解释B)CTHBase是基于Hbase的聚簇表开发框架C)CTHbase提供了一套Webui进行元数据定义,提供了只管医用的表设计工具,降低表设D)CTHbase的javaAPI提供一套Hbase连接池管理的接口,内部进行连接共享,减少客户端应用开发难度。答案:B解析:[单选题]47.采用Flume传输数据过程中,为了防止因Flume进程重启而丢失数据,推荐使用以下哪种channel类型?A)MemoryChannelsB)FileChannelC)JDBCChannelD)HDFSChannel答案:B解析:第2部分:多项选择题,共29题,每题至少两个正确答案,多选或少选均不得分。[多选题]48.宁家骏委员指出,()主导了21世纪。A)云计算B)移动支付C)大数据D)物联网答案:ACD解析:[多选题]49.FusioninsightManager可以对哪些项目进行健康检查?()A)角色B)主机C)服务D)实例答案:ABCD解析:[多选题]50.下列关于Worker(工作进程exector(线程)、Task(任务)说法正确的是?A)每个Executor(线程可以运行多个task任务B)每个Worket运行多个exector(线程)C)每个Workst只能为个拓扑运行Executor(线程)D)每个Executor运行不同组件(Spout或Bolt)的Task(任务)答案:ABD解析:[多选题]51.可以用于表示某公司一年中每个月销量变化的数据图形类型是()。A)矩形竖图B)柱状图C)堆积面积图D)雷达图答案:BC解析:[多选题]52.Streaming的处理节点Bolt中,可以完成以下哪些操作?()A)连接运算B)过滤(Filter)C)连接数据库D)业务处理答案:ABCD解析:[多选题]53.Hbase中包含的一些典型的Filter有哪些?()A)SingleColumValueFilterB)FilterListC)RowFilterD)KeyOnlyFilter答案:ABCD解析:[多选题]54.决策树法分析问题的主要步骤为()。A)结构化问题B)设计可能结果发生的概率C)设计结果的得益D)分析问题答案:ABCD解析:[多选题]55.以下关丁KafkaPartition说法正确的有?A)引入Partition机制,保证了Kafka的高吞吐能力B)每个Partition都是有序且不可变的消息队列C)Partition数量决足了每个consumergroup中井发消费者的最大数量D)每个Partition在存储层面对应一个10g文件答案:ABCD解析:[多选题]56.下面关于Hbase的特性描述正确的是(1。A)高可靠性B)高性能C)面向列D)可伸缩答案:ABCD解析:[多选题]57.以下哪些是集中趋势分析的指标。()A)均值B)中位数C)众数D)四分位数答案:ABCD解析:[多选题]58.Apriori算法的计算复杂度受哪些因素影响?()A)支持度阀值B)项数(维度)C)事务数D)事务平均宽度答案:ABCD解析:[多选题]59.以下对SPARK的描述,正确的是()?A)高性能内存迭代计算框架B)内存计算一站式解决方案C)性能差D)支持多语言快速开发应用答案:ABD解析:[多选题]60.FusioninsightHD系统中使用Streaming客户端Shell命令提交了拓扑之后,使用StormUl查看发现该拓长时间没有处理数据,可能原因有?()A)查看客户端异常堆栈,判断是否客户端使用问题B)查看主Nimbus的运行日志,判断是否Nimbus服务端异常C)查看Supervisor运行日志,判断是否Supervisor异常D)查看Worker运行日志答案:AB解析:[多选题]61.光缆是数据传输中最有效的一种传输介质,它有()A)频带较宽B)电磁绝缘性能好C)衰减较小D)无中继段长答案:AB解析:[多选题]62.问题结构是由()构成的。A)现状B)直接原因C)间接原因D)最终原因答案:ABD解析:[多选题]63.某大样本数据集的缺失值占比约10%。数据分析师小A首先删除了所有有缺失值的样本,建立了回归模型。然后用某种方法进行了缺失值处理后,重新建立了回归模型,发现模型的VIF值较之前有了很大的增幅。请问小A有可能采用的哪种方法进行的缺失值处理?()A)均值填补B)K-means聚类填补C)回归填补D)忽略缺失值的极大似然估计答案:BC解析:此题为本试卷最难题。A只涉及变量本身,D涉及数据集整体,这两种方法都不会影响自变量之间的相关性,即不会让VIF值产生显著变化。而BC两种方法都是以变量之间的联系作为填补的基础,会在一定程度上改变变量之间的相关性,导致VIF值变化。[多选题]64.数据分析报告的金字塔原理所遵循的原则是()。A)归类分组B)逻辑递进C)以下统上D)结论先行答案:ABD解析:[多选题]65.关于SparkSQL&Hive区别与联系,下列说法正确的是?()A)SparkSQL依赖HiVe的元数据B)SparkSQL的执行引擎为Sparkcore.,Hive默认执行引擎为MapreduceC)SparkSQL不可以使用Hive的自定义函数D)SparkSQL兼容绝大部分Hive的语法和函数答案:ABCD解析:[多选题]66.ZKFC进程部署在hdfs中的以下那个节点上?()A)activenamenodeB)standbynamenodeC)datanodeD)以上全部不对答案:AB解析:[多选题]67.ResoureManager主要作用是什么()?A)调度器B)应用程序管理器C)节点资源管理D)节点资源管理答案:AC解析:[多选题]68.hive在load是不检索数据是否符合schema的,hive遵循的是schemaonread(读时模式)只有在读时模式的时候才检查hive的数据字段,shena,下关于Flink中transformation的说法正确的是?A)可以通过window设定时间窗口B)filter操件是对每个元素执行boolean函数C)flatmap是对文本进行切分D)keyby是将源头数据按照key进行分组,以保证同一个key的元数据分到同样的组中答案:ABD解析:[多选题]69.Yarn中,?从?节点负责以下哪些工作?A)集群中所有资源的一管理和分配B)监督container的生命周期管理C)监控每个Container的资源使用(内存、CPU等)情况D)管理日志和不同应用程序用到的附属服务答案:BC解析:[多选题]70.预测性数据挖掘包括哪些方法?A)分类B)数据总结C)回归D)时间序列答案:ACD解析:[多选题]71.以下属于分类器模型评价指标的有(A)预测准确度B)recallC)模型描述的简洁度D)F1-Score答案:ABD解析:[多选题]72.逻辑回归是数据挖掘算法中常用的模型算法,以下关于逻辑回归的说法正确的是()。A)异常值不会对模型造成很大的干扰。B)逻辑回归的自变量必须是分类变量,因此要对连续型变量进行离散化处理。C)逻辑回归属于分类算法。D)逻辑回归对模型中自变量的多重共线性较为敏感。答案:CD解析:[多选题]73.Master的ElectedLeader事件后不做哪些操作()A)通知driverB)通知workerC)注册applicationD)直接ALIVE答案:ABC解析:[多选题]74.张亮持有A、B、C、D、E五只股票,请问以下不属于时间序列问题的有()。A)透过A只股票过去一年来的股价走势,预测明天A只股票的开盘价格B)将E五只股票区分为赚钱与赔钱两个类别C)将E五只股票区分为甲、乙、丙三个群体D)透过A,C,D三只股票过去一年来的走势,预测明天A只股票的开盘价格答案:BC解析:[多选题]75.下列哪个场景可以使用决策树构建模型?()A)预测申办信用卡的新客户是否将来会变成卡奴B)保险公司针对特定族群做人寿保险的推销C)找出购物篮里商品购买间的关联D)根据生活作息推断该病人得癌症的机率答案:ABD解析:[多选题]76.云计算的特点包括以下哪些方面?A)服务可计算B)高性价比C)服务可租用D)低使用度答案:ABC解析:第3部分:判断题,共24题,请判断题目是否正确。[判断题]77.数据分析时,将影响业务发展的因素罗列出来,对不同因素进行主次辨析,井展开递进分析,要比直接从?想当然?的某个因素匆忙入手要准确和有效得多A)正确B)错误答案:对解析:[判断题]78.在Mapreduce编程中,代码不仅要描述做什么,还要描述具体怎么做。A)正确B)错误答案:错解析:[判断题]79.折线图主要用于显示在相等时间间隔下数据的趋势。A)正确B)错误答案:对解析:[判断题]80.数据异常值检方法以正态分布为前提,若数据偏离正态分布或样本较小时,则检验结果未必可靠,校验是否正态分布可借助W检验、D检验。A)正确B)错误答案:对解析:[判断题]81.Java源程序的文件名必须与public类的名称完全一致A)正确B)错误答案:对解析:[判断题]82.在Flink中,checkpoint机制能明在运行过程中出现失败时,从某一个检查点恢复,在此过程中,流快照是根据数据流入依次创建的。A)正确B)错误答案:对解析:[判断题]83.SparkStreaming计算基于DStream将流式计算分解成一系列短小的批处理作业()A)正确B)错误答案:对解析:[判断题]84.聚类将类似的值聚成簇。直观的,落在簇集合之外的值被视为离群点。A)正确B)错误答案:对解析:[判断题]85.Kafka是一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论