版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
试卷科目:大数据CDA考试大数据CDA考试(习题卷3)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据CDA考试第1部分:单项选择题,共47题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.显著性检验中的P值小于多少时,可以认定为绝对显著相关。()A)1B)0.05C)0.01D)0.001答案:C解析:[单选题]2.Hadoop集群中存在的最主要瓶颈是(A)CPUB)网络C)磁盘I0D)内存答案:C解析:[单选题]3.HFile数据格式中的KeyValue数据格式中Value部分是()。A)拥有复杂结构的字符串B)字符串C)二进制数据D)压缩数据答案:C解析:[单选题]4.主成分分析算法认为数据的信息是包含在()中。A)方差B)均值C)误差D)极值答案:A解析:主成分分析算法认为,数据的信息是包含在其方差当中的。如果一个变量方差很大,获得它的抽样值可以帮助我们消除很大一部分不确定性,因此它包含的信息较多。[单选题]5.从数据表中查找记录用以下哪一项()A)UPDATEB)FINDC)SELECTD)CREATE答案:C解析:[单选题]6.HFile数据格式中的Metalndex字段用于()。A)Meta块的长度B)Meta块的结束点C)Meta块数据内容D)Meta块的起始点答案:D解析:[单选题]7.Hadoop的HBase不适合哪些数据类型的应用场景?A)大文件应用场景B)海量数据应用场景C)高吞吐率应用场景D)半结构化数据应用场景答案:A解析:[单选题]8.Hbase中以下对于LSM的描述正确的是()。A)LSM的读操作和写操作是独立B)LSM的读操作和写操作不是独立C)LSM井不区分读和写D)LSM中读写是同一种操作答案:A解析:[单选题]9.以下关于一元线性回归分析中(y=b0+b1x+ε),描述错误的是()。A)一元线性回归中F检验的作用与t检验是一致的B)一元线性回归中F检验的检验统计量与t检验是一致的C)即便建立了一元线性回归,也不能直接认为x是y的原因D)如果用来预测的x,与样本中的自变量偏差很大,那么预测得到y的可靠性也会很低。答案:B解析:D选项是正确的,这是因为自变量远离样本中的x,置信区间就会很大,可靠性就会降低。[单选题]10.以下哪一项属于时间序列可以解决的问题?()A)信用卡发卡银行发掘出的潜在的卡奴B)基金经理人针对某股票做出未来价格预测C)移动公司将用户区分为数个群体D)以上均不是答案:B解析:[单选题]11.Hive是基于Hadoop的数据仓库软件,可以查询和管理PB级别的分布式数据。以下关于hive特性的描述不正确的是?A)灵活方便的ETLB)易用易编程C)可直接访可HDFS文件以及HbaseD)仅支持mapreduce计算引擎答案:D解析:[单选题]12.Kafka集群中,Kafka服务端的角色是?A)BrokerB)ConsumerC)ZookeeperD)Producer答案:A解析:[单选题]13.关于Hive与Hadoop其他组件的关系。以下描述错误的是?()A)Hive最终将数据存储在HDFS中B)Hive是Hadoop平台的数据仓库工具C)HQL可以通过Mapreduce执行任务D)Hive对Hbase有强依赖答案:D解析:[单选题]14.Hadooptnryarnschedulercapacity.root.Queueafinim.m-user-limit-percent设置为50,下面说法错误的是?A)一个用户提交任务,可以使用Queue的100%的资源。B)如果Queue中已经有2个用户的任务运行,这时第3个用户提交的任务需要等待释放资源。C)Queue中必须保障每个用户至少得到50%的资源D)ueuea中的每个用户最多只能获得50%的资源答案:D解析:[单选题]15.HDFS有一个LZO(withindex)文件大小75MB,客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时inputsplit大小为?A)一个map读取64MB,另外一个map读取11MBB)64MBC)75MBD)128MB答案:A解析:[单选题]16.关于fusionInsightHDStreaming的Supervisor描述正确的是?A)Supervisor是在Topology中接受数据然后执行处理的组件B)Supervisor负责接受Nimbus分配的任务,启动和停止属于自己管理的Worker进程C)Supervisor负责资源分配和任务调度D)supervisor是运行具体处理逻辑的过程答案:B解析:[单选题]17.在Flask框架中,自定义错误页面使用的装饰器是A)error()B)handler(C)errorhandler()D)page(答案:C解析:[单选题]18.下列哪种方法不能用于检验一元线性回归残差是否服从正态分布()A)PP图B)SW检验C)KS检验D)ADF检验答案:D解析:ADF检验一般用于时序模型[单选题]19.请问以下哪个命令组成是错误的?A)sbin/stop-dfs.shB)sbin/hdfsdfsadmin-reportC)bin/hadoopnamenode-formatD)bin/hadoopfs-cat/hadoopdata/my.txt答案:B解析:hdfsdfsadmin-report[单选题]20.下列哪个类的声明是正确的?()A)abstractfinalclassHI}B)abstractprivatemove(0C)protectedprivatenumber;D)publicabstractclassCar{}答案:D解析:[单选题]21.下列哪一个关键字用于实现接口来定义类?A)extendsB)implementsC)abstractD)interface答案:B解析:[单选题]22.下列关于Flinkbarrier描述错误的是?A)一个barrier将本周期快照的数据与下一个周期快照的数据分隔开B)barrier是F1ink快照的核心C)在插入barrier的时候,会暂时阻断数据流D)barrier周期性插入到数据流中,并作为数湉流的一部分随之流动答案:C解析:[单选题]23.如果需要对HBase表中的数据进行列表查看,可以使用()命令进行操作。A)countB)scanC)putD)get答案:B解析:[单选题]24.下列关于逻辑回归模型中计算得到的发生概率p,阐述错误的是()A)任何情况下,临界值都是0.5。当p≥0.5,其分类取1;p<0.5,其分类取0B)p是相对概率C)p的取值在0至1之间D)被称为odds答案:A解析:p的阈值不是唯一确定的,需要根据测试集调整。[单选题]25.建模前的数据准备和数据处理将占整个数据分析流程的时间。A)20%左右B)60%左右C)80%左右D)99%左右答案:C解析:[单选题]26.在Spark生态组件中,哪个产品可用于基于实时数据流的数据处理()。A)SparkCoreB)SparkSalC)SparkStreamingD)MLlib答案:C解析:[单选题]27.某手机电池生产商对电池的生产工艺进行了改进,并对外宣称改进后的电池能够显著地提高手机待机时间,为了检验该改进工艺是否有效,你的建议是()。A)使用相关系数分析方法分析工艺改进前后的相关性。B)使用线性回归,检验工艺改进对待机时间的影响。C)使用t检验分析工艺改进前后的待机时间是否有显著差异。D)使用卡方的独立性检验查看工艺改进与待机时间是否相关。答案:C解析:本题需要检验工艺对待机时间的影响,其本质是分析工艺改进前后的待机时间均值是否有显著差异或显著提高,因此用t检验。[单选题]28.使用?select*from表1innerjoin表2on表1.员工id=表2.员工id?语句对下边两个表进行查询,查询结果中应有几行数据表1A)2B)3C)4D)5答案:C解析:本题考查对连接逻辑的正确理解能力。在连接两表的字段中有重复值且两个字段的值不是一对一匹配关系时,内连接的结果是把两表中都有的值列出来,并且有重复值的地方进行多对多匹配。所以正确答案是四个a001,选答案C。[单选题]29.下面属于有监督学习的是?A)数据统计B)分类C)聚类D)关联分析答案:B解析:[单选题]30.在因子分析中,为了帮助解释因子,我们可以使用()A)因子得分B)因子负载C)因子旋转D)主成分分析答案:C解析:在进行因子分析时,我们可以通过因子旋转来使得最终得到的因子更具有解释性。[单选题]31.下列不属于非平稳时间序列的确定性因素是(A)规则变动B)长期趋势C)季节变动D)循环变动答案:A解析:[单选题]32.FusioninsightManager用户权限管理不支持个配置?A)给用户配置角色B)给用户组配置角色C)给角色配置权限D)给用户组配置权限答案:D解析:[单选题]33.为了保障流应用的快照存储的可靠性,快照主要存储在哪里?A)jobmanager的内存中B)可靠性高的单机数据库中C)本地文件系统中D)hdfs中答案:D解析:[单选题]34.按组织市场调查的时间层次确定,调查可以分为()。A)经常性市场调查(不定期)B)定期市场调查C)临时性市场调查(一次性)D)以上都是答案:D解析:由题意[单选题]35.HBase来源哪篇博文?A)TheGoogleFileSystemB)MapReduceC)BigTableD)Chubby答案:C解析:[单选题]36.以下有关主成分分析,正确的是()。A)保留多少个主成分取决于累计方差在方差总和中所占百分比B)一般选择50%以上C)选择前两个就可以D)选择的数目和变量的个数一致答案:A解析:[单选题]37.分类模型评估指标呈现中,表示用了模型跟不用模型之间的差异的曲线叫做()。A)ROC曲线B)Lift曲线C)KS曲线D)捕获率曲线答案:B解析:[单选题]38.下列有关数据分析说法正确的是()。A)一类业务问题只能用同一种数据分析模型来解决。B)CRISP-DM是多个面向不同任务的分析模型的统称。C)数据分析的前期基础类数学知识只有概率论和微积分。D)数据分析是包含不同步骤的一整套流程。答案:D解析:A项,一类业务可以由多种不同模型来处理;B项CRISP-DM是数据挖掘流程;C项,还包括线性代数等。[单选题]39.字段?户籍所在省份?,下列方法最适宜的是()A)需要编码为数值变量B)需要编码为字符变量C)需要编码为二分变量D)需要编码为分类变量答案:D解析:省份更适合用分类变量。[单选题]40.什么是KDD?()A)数据挖掘与知识发现B)动态知识发现C)文档知识发现D)领域知识发现答案:A解析:[单选题]41.已知某一元线性回归模型的判定系数R2=0.64,则自变量与因变量之间的相关系数为()A)0.4B)0.6C)0.8D)1.0答案:C解析:cor^2=R2。[单选题]42.以下不属于因子分析计算过程的步骤有()A)估计因子载荷矩阵B)进行因子旋转C)估计特殊因子得分D)估计公共因子(因子得分)答案:C解析:因子分析的计算过程大致可分为三步:①估计因子载荷矩阵,②进行因子旋转,③估计公共因子(因子得分)。特殊因子是指每个变量的个性部分,不是因子分析的内容。[单选题]43.关于数据分析报告错误的是()。A)展示分析结果B)验证分析质量C)展示分析过程D)提供决策依据答案:C解析:[单选题]44.参照以下信息选择能够正确创建orderinfo表的语句A)createB)createC)createD)create答案:A解析:本题考查SQL语句中建表、字段约束条件以及字段数据类型相关知识。其中建表语句结构为createtable表名(…),字段的约束条件为非空=notnull、唯一=unique、主键=primarykey。定长字符串类型为char,可变长字符串类型为varchar,小数类型通常使用float,但?金额?这类对数据精度要求较高的情况,应考虑使用decimal,整数类型为int。所以综合以上内容,本题的正确答案为A。[单选题]45.下面说法错误的是()。A)Hadoop集群采用的是Master/Slave工作模式B)DataNode上保存着的是元数据,真正的数据是存放在NameNode上的C)HDFS采用了口种对文件切割后分别存放的存储方式。D)HDFS是为高数据吞吐量应用优化的。答案:B解析:[单选题]46.关于MapReduce框架中一个作业的reduce任务数,下列说法正确的是()。A)由自定义的Partitioner来确定B)是分块总数目的一半C)可以由用户来自定义,通过JobConf.setNumReducetTask(int)来设定一个作业中reduce的任务数目D)由MapReduce随机确定其数目答案:C解析:[单选题]47.设某工厂甲、乙、丙三个车间生产同一产品,产量依次占全厂的45%,35%,20%。且各车间的次品率依次为4%,2%,5%。现从待出厂的产品中抽取1个产品,该产品是次品的概率是()A)0、035B)0、04C)0、045D)0、05答案:A解析:设,,分别表示甲、乙、丙三厂生产;表示该产品是次品的概率第2部分:多项选择题,共29题,每题至少两个正确答案,多选或少选均不得分。[多选题]48.下面哪些选项正确描述了HBase的特性?A)4高可靠性B)高性能C)面向列D)可伸缩答案:ABCD解析:[多选题]49.变量?产品?的类型有?家电?,?五金?,?厨卫?,?其他?,如果将?行业?转为哑变量,某产品属于五金,那么下面对于这个产品分类类型记录正确的是()A)B)C)D)答案:BD解析:哑变量对应变量数=分类数-1;本题目中分类数是4,对应变量数应该是3、就从BCD里面选。接下来,这三类中只有?五金?能记录为1,其他应该记录成0,BD正确。[多选题]50.INT型数据是实际业务中经常需要用到的一类数据。以下可以对INT型数据使用的函数包括()。A)roundB)maxC)absD)now答案:ABC解析:now()表示返回当前的日期和时间。[多选题]51.HBase构建二级索引的实现方式有哪些?A)MapReduceB)CoprocessorC)BloomFilterD)Filter答案:AB解析:[多选题]52.小A针对产品特征进行了一次聚类分析,结果并不理想。以下哪些方法有助于获得更有效的聚类结果()A)标准化B)主成分分析C)因子分析D)变量聚类答案:ABCD解析:标准化可以帮助我们消除不同变量之间量纲的差异。通过主成分分析或者因子分析等方法对变量进行降维,或者先进行变量聚类,也可以帮助减少冗余变量,更有效地完成聚类。[多选题]53.以下关于主成分分析的描述正确的有()A)主成分分析选取能够最大化解释数据变异的成分B)在主成分分析中,对应最大特征值的特征向量,其方向正是协方差矩阵变异最大的方向C)主成分分析算法中第一个主成分对应的不应超过1D)我们一般使得保留的前k个主成分累计能够解释数据80%以上的变异答案:ABD解析:在主成分分析算法中,我们一般要求最后一个主成分对应的不应小于1。[多选题]54.关于spark中数据倾斜引发原因正确的选项有()A)key本身分布不均衡B)计算方式有误C)过多的数据在一个task里面D)shuffle并行度不够答案:ABCD解析:[多选题]55.关于HadoopHDFS名称节点中的元数据信息,下面说法正确的是()。A)文件是什么:包括目录自身的属性信息,例如文件名,目录名,修改信息等B)文件被分成了多少块C)每个块和文件之间的映射信息D)每个文件具体被存储到哪个服务器上答案:ABCD解析:[多选题]56.以下关于Kafkalogs中segmentfile的说法正确的是?A)通过素引信息可以快速定位messageB)稀疏存储即将原来的完整数据,只间隔的选择多条进行存储C)是index元数据全部映射到memory,可以避免segmentfile的index数据I0磁盘操作D)索引文件稀疏存储,可以大幅度降低index文件元数据占用空间大小答案:ABD解析:[多选题]57.ROC曲线是基于()来判断逻辑回归模型的效果A)灵敏度B)特异度C)效度D)速度答案:AB解析:ROC曲线是基于灵敏度和特异度来进行判断的。[多选题]58.以下哪些是Spark的常驻进程()?A)JobHistoryB)SparkResourceC)NodeManagerD)JDBCServer答案:AD解析:[多选题]59.下列哪些国家已经将大数据上升为国家战略?A)英国B)日本C)美国D)法国答案:ABCD解析:[多选题]60.若想分析分类变量之间的相关性,可以采用以下哪种方法()A)卡方检验B)t检验C)计算皮尔逊相关系数D)计算列联相关系数(coefficient答案:AD解析:BC只能用来分析数值型变量,分类变量用不了这两种方法。[多选题]61.统计分析方法的局限是()。A)不全面不深刻B)统计决断的结论并非绝对正确C)运用情况复杂,对方法要求高D)不能反映总体数量特征答案:ABC解析:[多选题]62.在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是()A)将负样本重复10次,生成10w样本量,打乱顺序参与分类B)直接进行分类,可以最大限度利用数据C)从10w正样本中随机抽取1w参与分类D)将负样本每个权重设置为10,正样本权重为1,参与训练过程答案:AB解析:[多选题]63.Hbase集群定时执行Compaction的目的是什么?A)减少同一个Region同个Columnfamily下的文件数目B)减少同一个Region的文件数目C)提升数据读取牲能D)提升数据写入能力答案:ABCD解析:[多选题]64.Spark可以接收哪些来源的数据?A)YARNB)HDFSC)HIVED)HBase答案:BCD解析:[多选题]65.关于HBase二级索引的描述,哪些是正确的?A)核心是倒排表B)二级索引概念是对应Rowkey这个?一级?索引C)二级索引使用平衡二叉树D)二级索引使用LSM结构答案:AB解析:[多选题]66.统计局进行CPI统计中的价格采集,采用的三定原则是(8A)定时B)定量C)定点D)定人答案:ACD解析:[多选题]67.下列哪些选项是安装HBase前所必须安装的?A)操作系统B)JDKC)ShellScriptD)JavaCode答案:AB解析:[多选题]68.以下哪种方法可以用于分析时间序列数据()A)差分法B)移动平均值法(MA)C)自回归法(AR)D)随机效应法(RM)答案:ABC解析:D是用于分析面板数据的。[多选题]69.SparkRdd转换算子有()A)mapB)filterC)mapPartitionsD)collect答案:ABC解析:[多选题]70.下列选项中,哪些是Mapreduce一定会有的过程?A)CombineB)MapC)ReduceD)Partition答案:BCD解析:[多选题]71.变量?行业?的类型有?制造?、?金融?、?通信?、?其他?,如果将?行业?转为哑变量,某企业属于金融行业,那么下面对于这个企业的行业类型记录正确的是()A)B)C)D)答案:BCD解析:哑变量对应的变量数=分类数-1[多选题]72.过程层网络实现()的数据通讯A)间隔层与过程层B)间隔层设备之间C)过程层设备之间D)间隔层和站控层答案:ABC解析:[多选题]73.以下关于异方差情况的说明,正确的有()A)条件异方差指的是残差的方差随自变量变化而变化B)条件异方差指的是残差的方差不随自变量变化而变化C)非条件异方差指的是残差的方差随自变量变化而变化D)非条件异方差指的是残差的方差不随自变量变化而变化答案:AD解析:条件异方差指的是残差的方差随自变量变化而变化,非条件异方差指的是残差的方差不随自变量变化而变化。[多选题]74.下列哪些方法属于非概率抽样()。A)判断抽样B)整群抽样C)配额抽样D)滚雪球抽样答案:ACD解析:B属于概率抽样。[多选题]75.对大数据的管理和使用包括哪些方面()A)大数据的运营B)大数据的挖掘C)大数据的应用D)大数据的存储答案:ABCD解析:[多选题]76.收集整理信息时的行业环境有()。A)行业规模及发展速度B)行业竞争状况C)行业挑战及机遇D)行业发展趋势及方向答案:ABCD解析:第3部分:判断题,共24题,请判断题目是否正确。[判断题]77.假设在写入数据时只存2份,那么写入过程中,HDFSCLIENT/编将数据写入Datanodel,再将数据写入Datanode2.A)正确B)错误答案:错解析:[判断题]78.在数据分析中,我们发现通常重要的结果只占其中一小部分,约20%,其余80%尽管是多数,却是次要的。这个法则叫帕累托法则。A)正确B)错误答案:对解析:[判断题]79.绘制词云时,发现词云中的中文全变成了小方框,是由于没有指定合适的中文字体。A)正确B)错误答案:对解析:[判断题]80.Hive中的?groupby?指的是通过一定规则将一个数据集划分成若干个小的数据集,然后针对若干个小的数据集进行数据分组处理。A)正确B)错误答案:对解析:[判断题]81.数据来源于信息,是经过加工后的信息。A)正确B)错误答案:错解析:[判断题]82.数据是指对客观事件进行记录并可以鉴别的数字。A)正确B)错误答案:错解析:[判断题]83.遗传算法与传统优化算法的极大区别是遗传算法从问题解的串集开始搜索,而不是从单个解开始。A)正确B)错误答案:对解析:[判断题]84.Hive中?Groupby?指的是通过一定的规将每一个数据集划分成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 海南职业技术学院《农业资源与利用区划》2023-2024学年第一学期期末试卷
- 海南体育职业技术学院《环境生态监测实验》2023-2024学年第一学期期末试卷
- 海南师范大学《视听广告创意与制作》2023-2024学年第一学期期末试卷
- 超星电脑显示课程设计
- 二零二五年夫妻财产净身出户分配执行合同3篇
- 艺术形体采集课程设计
- 2025年度新型节能板房租赁及租赁期满资产处理合同3篇
- 劳动合同法对医疗卫生行业医务人员的规制探讨
- 2025年度网络信息安全责任协议范本2篇
- 二零二五年度标准化办公文档制作与家政服务联合协议
- 2022-2023学年北京市海淀区高二(上)期末英语试卷(含答案解析)
- 2021-2022学年统编本五四制道德与法治五年级上册期末检测题及答案(共6套)
- (BRB)屈曲约束支撑施工专项方案
- 期末达标测试卷(试题)-2024-2025学年人教PEP版英语四年级上册
- 高职机电专业《液压与气动技术》说课稿
- 青岛版四年级上册简便计算400道及答案
- 员工积分制管理实施方案细则
- GB/T 19752-2024混合动力电动汽车动力性能试验方法
- 大湾区2023一2024学年第一学期末普通高中一年级联合考试地理附有答案
- 美的简单高效的管理逻辑
- 鲁科版小学英语三年级下册全册教案
评论
0/150
提交评论