大数据CDA考试(习题卷6)_第1页
大数据CDA考试(习题卷6)_第2页
大数据CDA考试(习题卷6)_第3页
大数据CDA考试(习题卷6)_第4页
大数据CDA考试(习题卷6)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据CDA考试大数据CDA考试(习题卷6)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据CDA考试第1部分:单项选择题,共47题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.关系型数据库的完整性约束条件有()。A)主键约束B)非空约束C)唯一约束D)以上都是答案:D解析:完整性约束条件可以对字段进行限制,规定字段内容。[单选题]2.下选项不属于原始数据来源的是(。A)犯罪记录B)抽样调查C)统计年鉴D)模拟实验答案:C解析:[单选题]3.为Flask创建自定义命令,通过创建一个函数,为该函数添加()装饰器。A)@app.route()B)@mand()C)@app.cli()D)@mand()答案:B解析:[单选题]4.用于展示文本信息出现频率比较高的关键词的图形是(A)词云图B)气泡图C)热力图D)散点图答案:A解析:[单选题]5.存在关联规则为A→B,此规则的confidence为80%,则代表()。A)买B商品的顾客中,有80%的顾客会同时购买AB)同时购买A,B两商品的顾客,占所有顾客的80%C)买A商品的顾客中,有80%的顾客会同时购买BD)两商品A,B在交易数据库中同时被购买的机率为80%答案:C解析:[单选题]6.簇评估的作用有()。①确定数据集的聚类趋势。②确定正确的簇个数。③比较两个簇集,确定那个更好。④不引用附加信息,评估聚类分析结果对数据拟合情况A)①②B)②③④C)①②③D)①②③④答案:D解析:[单选题]7.在某回归模型中,数据分析员希望探索分类变量各类别之间增长率的差异,采用以下哪种方法比较合适?()A)加入固定效应变量B)加入工具变量C)加入高次项D)加入交互项答案:D解析:交互项可以分别度量斜率[单选题]8.为了提高Kafka的容错性,Kafka支持Partition的复制策略,以下关于LeaderPartition和FollowPartition的描述错误的是()A)Kafka针对Partition的制需要选出一个Leader。由该Leader负责Partition的读写操作。其他的副本节点只是负责数据同步B)由于LeaderServer承載了全部的请求压力。因此从集群的整体考虑,Kafka会将Leader,均衡的分散在每个实例上,来确保数据均衡C)一个Kafka集群各个节点间不可能互为Leader和FlowerD)如果Leader失效。那么将会有其他follower来接管(成为新的Leader)答案:C解析:[单选题]9.以下命令组成错误的是()A)vim/etc/profileB)source/etc/profileC)hadoopnamenode-formatD)bin/hadoopfs-cat/hadoopdata/y/txt答案:D解析:[单选题]10.安装fusioninsightHD的Streaming组件是,Nimbus角色要求安装几个节点?A)4B)3C)2D)1答案:C解析:[单选题]11.如果多元线性回归模型中残差不等于0,而是一个常数,那么()A)这个常数应该包含在常数项B)应该去除常数项C)应该去除残差项D)模型有效答案:A解析:如果残差的期望不等于0,而等于其他的某个常数,那么这个常数就应该出现在多元线性回归的常数项内。[单选题]12.相较于电话和面访调查,下面不属于自填式问卷调查弱点的是()A)问卷的返回率比较低B)不适合结构复杂的问卷C)调查周期比较长D)调查的成本较高答案:D解析:三个类型中,面访的成本最高[单选题]13.对于一个列联表来说,多维尺度分析关注的是()A)行变量和列变量两者的相关性B)变量之间的相关关系C)行变量之间的相似性D)维度的含义答案:C解析:主成分分析关注变量之间的相关关系。因子分析关注维度的含义。对应分析关注行变量和列变量两者的相关性。[单选题]14.分析师小A在对他的模型进行评估时,更倾向选用调整R²作为指标。因为相比较R²,调整R²对拟合度的估计更加()A)高估B)低估C)一样D)不确定答案:B解析:调整R²能够有效的改进这种对于拟合度的高估,如果在模型中存在不重要的变量,那么调整R²将会降低。[单选题]15.分析师小A在建立了多元线性回归模型后,发现残差出现了异方差,那么小A可以考虑()A)对因变量取自然对数B)对自变量取自然对数C)将模型的常数项强制为0D)对因变量乘以某一个系数A进行放大或者缩小答案:A解析:处理异方差可以对因变量进行非线性处理,这是通常应对异方差的方法之一。[单选题]16.下述概念中不属于面向对象方法的是()。A)对象、消息B)继承、多态C)类、封装D)过程调用答案:D解析:[单选题]17.在Webhcat架构中,用户能够通过安全的HTTPS协议执行以下哪些操作?A)执行HiveDDL操作B)运行Mapreduce任务C)运行HiveHOL任务D)以上全都正确答案:D解析:[单选题]18.以下不能进行系统日志数据采集的工具是()。A)HadoopB)PythonC)ScribeD)Flume答案:B解析:Scribe是Facebook开源的日志收集系统[单选题]19.以下哪个不是HDFS的守护进程A)SecondaryNameNodeB)NameNodeC)MrappMaster/YarnChildD)DataNode答案:C解析:[单选题]20.在Jinjia2模板引擎中实现模板的继承,使用的关键词是()。A)extendB)extendsC)fromD)import答案:B解析:[单选题]21.针对聚类分析,下面说法错误的是()。A)一定存在一个最优的分类B)聚类分析是无监督学习C)聚类分析可以用于判断异常值D)聚类分析即:物以类聚,人以群分答案:A解析:[单选题]22.一个gzip文件大小75MB,客户端设置Block大小为64MB,请问其占用几个Block?A)3B)2C)4D)1答案:B解析:[单选题]23.不属于HDFS优势是()。A)时间快B)超大文件C)大量小文件D)商用硬件答案:A解析:[单选题]24.下列哪一项方法对于发现异常值有帮助()A)减去均值,并除以标准差B)梯度下降法C)相关性分析D)归一化处理答案:A解析:标准化之后,利用正负3倍标准差识别异常值[单选题]25.在使用Flask-WTF自定义表单类时,自定义的类需要继承自()。A)FlaskFormB)FlaskFormsC)FlaskWTFD)Forms答案:A解析:[单选题]26.在评价多元线性回归模型拟合程度的时候,我们主要查看()的数值A)修正R2B)R2C)SSED)SSR答案:A解析:修正R2用于评价拟合情况。[单选题]27.以下关于层次聚类的描述中,错误的是()A)层次聚类也叫作系统聚类B)层次聚类法通常分为自底向上和自顶向下C)层次聚类的过程非常清楚,会形成类似树状的聚类图谱,便于理解和检查D)层次聚类适用于数据量非常大或者变量非常多的项目答案:D解析:层次聚类由于需要反复计算距离,限制了层次聚类的速度。因此不适用于数据量非常大或者变量非常多的项目。[单选题]28.Hive中的这条命令?ALTERTABLEemployeeADDcolumns(columnlstring).?是什么含义?A)创建表B)删除表C)添加列D)修改文件格式答案:C解析:[单选题]29.对student1和student2两张表进行innerjoin连接后,形成的新表中()A)一定包含student1中的所有行,不一定包含student2中的所有行B)不一定包含student1中的所有行,一定包含student2中的所有行C)一定包含student1中的所有行,一定包含student2中的所有行D)不一定包含student1中的所有行,不一定包含student2中的所有行答案:D解析:innerjoin连接,又叫做内连接,结果为两张表的共同信息。[单选题]30.在Hadoop生态组件中,个产品可用于复杂的批量数据处理。()A)MapReduce、HiveB)ImpalaC)StormD)Mahout答案:A解析:[单选题]31.下列选项中适合Mapreduce的场景()A)实时交互计算B)迭代计算C)流式计算D)离线计算答案:D解析:[单选题]32.有一段java应用程序,它的主类名是a1,那么保存它的源文件名可以是A)a1.javaB)a1.classC)a1D)都对答案:A解析:[单选题]33.以下哪个聚类方法又叫快速聚类法()A)K-means聚类法B)层次聚类法C)系统聚类法D)两步聚类法答案:A解析:K-means聚类法计算量非常小,因此又得名快速聚类法。[单选题]34.倒传递神经网络(BP神经网络)的训练顾序是什么(1:调整权重;2:计算误差值;3:利用随机的权重产生输出的结果)()。A)231B)312C)213D)321答案:D解析:[单选题]35.关于相关性rA,B说法错误的是()。A)rA,B>0,正相关。A随B的值得增大而增大B)rA,B=0,不相关。AB无关C)rA,B<0,负相关。A随B的值得增大而减少D)不能单纯依据rA,B<=0确定AB的相关性答案:D解析:[单选题]36.常用的分箱方法错误的是()。A)等深分箱法B)等宽分箱法C)等距分箱法D)用户自定义区间法答案:C解析:[单选题]37.下列哪个属性是hdfs-site.xml中的配置()。A)dfs.replicationB)fs.defaultFSC)D)yarn.resourcemanager.addresS答案:D解析:[单选题]38.关于Hadoop单机模式和伪分布式模式的说法正确的是()。A)两者都起守护进程,且守护进程运行在一台机器上B)单机模式不使用HDFS,但加载守护进程C)两者都不与守护进程交互,避免复杂性D)后者比前者增加了HDFS输入输出以及可检查内存使用情况答案:D解析:[单选题]39.矩估计的基本原理是()。A)用样本矩估计总体矩B)使得似然函数达到最小C)小概率事件在一次试验中是不可能发生的D)使得似然函数达到最大答案:A解析:[单选题]40.为什么要在类神经网络中计算误差值?()A)调整输入值B)调整隐藏层个数C)调整权重(Weight)D)调整真实值答案:C解析:[单选题]41.现在通过参数估计得到一个一元线性回归模型为y=3x+4。那么在回归系数检验中下列说法错误的是()A)检验统计量是t统计量B)原假设是C)如果拒绝原假设,就认为自变量与因变量存在显著的线性关系D)判断是否拒绝原假设,可以用P值与显著性水平进行比较答案:B解析:原假设是[单选题]42.一组数据为1、3、5、7、9,它们的样本方差为()A)8B)10C)12D)14答案:B解析:公式>[单选题]43.如果希望某个变量只可以被类本身访问和调用,则应该使用下列那一种访问控制修饰符A)privateB)protectedC)privateprotectedD)public答案:A解析:[单选题]44.欲构造ArrayList类的一个实例,此类继承了List接口,下列个方法是正确的?()A)ArrayListmyList=newObject0;B)ListmyList=newArrayList():C)ArrayListmyList=newList():D)ListmyList=newList():答案:B解析:[单选题]45.Java编程所必须的默认引用包为()A)java.sys包B)java.lang包C)java.util包D)以上都不是答案:B解析:[单选题]46.下面不属于简单随机抽样的局限性的是()A)当总体数量很大时,不易构造抽样框B)抽出的单位很分散,给实施调查增加了困难C)没有利用其它辅助信息以提高估计的效率D)不能用于推断总体答案:D解析:所有随机抽样都可以用于推断总体[单选题]47.在建立线性回归(LinearRegression)之前我们可以利用何种方法挑选重要属性,以降低模型的复杂度?()A)皮尔森相关系数B)卡方检定C)T-检定D)Z-Score答案:A解析:第2部分:多项选择题,共29题,每题至少两个正确答案,多选或少选均不得分。[多选题]48.大数据分析相关技术主要特征包括?A)机器学习,全量特征B)数据背后事件关联性分析C)基于海量数据为基础D)基于精确样本为基础答案:AC解析:[多选题]49.Spark有哪些特点?A)快B)灵C)轻D)1巧答案:ABCD解析:[多选题]50.下列关于大数据的说法中,错误的是()。A)大数据具有体量大、结构单一、时效性强的特征B)处理大数据需采用新型计算架构和智能算法等新技术C)大数据的应用注重相关分析而不是因果分析D)大数据的应用注重因果分析而不是相关分析答案:AD解析:[多选题]51.维归约即摒弃掉不重要的特征,用少数的关键特征来描述数据。常用的维归约处理方法有()。A)主成分分析B)特征提取C)奇异值分解D)特征加权答案:AC解析:[多选题]52.以下哪些是典型的关联规则应用场景。()A)穿衣搭配推荐B)依据用户轨迹的商户精准营销C)实时新闻推荐D)金融客户交叉销售答案:ABCD解析:[多选题]53.下面哪些不是spark的机器学习库?A)MapReduceB)HDFSC)HBaseD)MLlib答案:ABC解析:[多选题]54.目前Fusioninsight有哪些子产品()A)FusionInsightHDB)FusionInsightFarmerC)FusionInsightMinerD)FusionlnsightMPPDB答案:ABCD解析:[多选题]55.YARN主要包含的模块有以下哪些?A)ApplicationMasterB)ResourceManagerC)NodeManagerD)QuorumJournalManager答案:ABC解析:[多选题]56.在以下语句中,哪些是查询t1表中北京和上海的相关记录():A)selectB)selectC)selectD)select答案:AC解析:本题考查SQL语句中or、and和in的用法。其中D为语法错误,B中and表示城市名即等于?北京?且又等于?上海?的记录,不符合题意,故正确答案为AC。[多选题]57.大数据加电子商务的应用方向有()。A)用户画像B)精准营销C)个性化推荐D)动态定价答案:ABCD解析:[多选题]58.按照涉及自变量的多少,可以将回归分析分为()A)线性回归分析B)非线性回归分析C)一元回归分析D)多元回归分析答案:CD解析:[多选题]59.Hadoop是当大数据平台的事实标准,下列对Hadoop的描述中正确的是()。A)Hadoop是一个由Apache基金会开发的分布式系统开源架构B)Hadoop的初始设计思路来源于Google发布的学术论文C)Hadoop在当前衍生出一系列优秀的开源项目,包括Hbase、Hive、Pig等D)Hadoop的两个核心部分是HDFS(HbaseDistributedFileSystem)和MapReduce计算框架答案:ABCD解析:[多选题]60.Flink流式处理的数据源类型包括?()A)CollectionsB)JDBCC)SocketstreamsD)Flles答案:ABCD解析:[多选题]61.下列选项中,哪些是Spark的重要角色()A)NodemanagerB)ResourcemanagerC)DatanodeD)Driver答案:ABD解析:[多选题]62.Stage的Task的数量不是由什么决定()A)PartitionB)JobC)StageD)TaskScheduler答案:BCD解析:[多选题]63.以下哪些是Kafka实际的应用场景?A)网站活性跟踪B)日志收集C)聚合统计系统运营数据(监控数据D)资源管理答案:ABC解析:[多选题]64.以下有关误差的说法中,正确的是()。A)相对误差反映实际观测值与预测值之间差异的相对程度B)平均误差反映实际观测値与预测值之间的平均差异C)评价预测精度是通过测量与分析预测误差进行的D)绝对误差是实际观测值与预测值的离差答案:ABCD解析:[多选题]65.PEST分析法是指【】。A)政治环境B)经济环境C)社会环境D)技术环境答案:ABCD解析:[多选题]66.以下选项中属聚类算法的是()。A)K-MeansB)DBSCANC)AprioriD)KNN答案:AB解析:[多选题]67.下列关于worker(工作进程)、executor(线程)、Task(任务)说法正确的是?A)每个Execute(线程)可以运行多个task(任务)B)每个worker可以运行多个Executor(线程)C)每个Executor(线程)可以运行不同组件(Spout或Bolt)的rask(任务)D)每个worker只能为个拓扑运行executor(线程)答案:ABC解析:[多选题]68.消除时间序列中的不规则变动和季节变动的方法是()。A)移动平均法B)指数平滑法C)时间序列乘法模型D)季节指数答案:AD解析:[多选题]69.若检验统计量F近似等于1则表示()。A)组间方差中不包含系统因素的影响B)组内方差中不包含系统因素的影响C)组间方差中包含系统因素的影响D)方差分析中不应拒绝原假设答案:AD解析:[多选题]70.下列感些选项是安装HBase前所必须安装的?CA)操作系统B)JDKC)ShellScriptD)JavaCode答案:AB解析:[多选题]71.给你几万条用户数据,每条用户数据的电话号码是其唯一的关键字段,请选择合适的数据结构,将这些用户数据加载到内存中管理起来。这个数据结构支持基于电话号码的快速查询,同时又支持新数据的快速插入(有新的用户不断注册进来):(A)链表B)Hash表C)B+TreeD)队列答案:ABC解析:[多选题]72.下列属于描述性统计中,用来度量离散程度的有()。A)标准差B)协方差C)四分位差D)异众比率答案:ACD解析:协方差是度量相关性的[多选题]73.层次聚类的聚类方式有()。A)凝聚方式聚类B)分解方式聚类C)Q型聚类D)R型聚类答案:AB解析:[多选题]74.有关假设检验说法正确的是()A)采用反证法的逻辑B)应用了小概率原理C)不同的问题需要使用不同的检验统计量D)显著性水平是一个概率值,表示原假设为真时,拒绝原假设的概率答案:ABCD解析:这些都是假设检验的核心概念[多选题]75.Cloudera提供哪几种安装CDH的方法?A)ClouderamanagerB)TarbalC)YumD)Rpm答案:ABCD解析:[多选题]76.以下指标中,反应离散趋势的有()。A)方差B)四分位数C)变异系数D)D极差答案:ACD解析:第3部分:判断题,共24题,请判断题目是否正确。[判断题]77.Fusionis界面上,当收到Kafka磁盘容量不足告警,且该告警的原因已经排除硬件故障时系统管理员需要考虑扩容解决此问题。A)正确B)错误答案:对解析:[判断题]78.随机二次抽样法是通过多次重复的使用交叉检验法,来得到一组准确率等效果的指标。A)正确B)错误答案:错解析:[判断题]79.KafkaLogssegment文件命名规附局的第一个segment从0开始,后续每个segment文件名为上一个全局partionfset(偏移message数)。A)正确B)错误答案:对解析:[判断题]80.没有特别指明的浮点数都是属于双精度A)正确B)错误答案:对解析:[判断题]81.NameNode负责管理元数据信息metadata,client端每次读写请求,它都会从磁盘中读取或会写入metadata信息并反馈给cliént端。A)正确B)错误答案:错解析:[判断题]82.Channel的作用类似队列,用于临时缓存进来的数据,当Sink成功地将数据发送到下一跳的Channel或最终目的,数据会从Channe1移除()A)正确B)错误答案:对解析:[判断题]83.FusioninsightManage支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和补。()A)正确B)错误答案:对解析:[判断题]84.执行下列代码后,最终输出结果为201。()list1=[10,45,201,32,78,55];print(len(list1))A)正确B)错误答案:错解析:[判断题]85.在使用flask_moment模块进行格式化日期时间时,不需要进行实例化()。A)正确B)错误答案:错解

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论