大数据开发基础(习题卷85)_第1页
大数据开发基础(习题卷85)_第2页
大数据开发基础(习题卷85)_第3页
大数据开发基础(习题卷85)_第4页
大数据开发基础(习题卷85)_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据开发基础大数据开发基础(习题卷85)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.以下哪项用来排序()A)ORDEREDBYB)ORDERBYC)GROUPBYD)GROUPEDBY答案:B解析:[单选题]2.SparkSQL目前暂时不支持()语言.A)PythonB)JavaC)ScalaD)Lisp答案:D解析:[单选题]3.Hadoop平台中,要查看YARN服务中一个application的信息,通常需要使用什么命令?A)containerB)jarC)application-attemptD)Application答案:D解析:[单选题]4.Flink中的DataStream数据流转不包含以下哪项?A)DatasourceB)TransformationsC)DatasinkD)Actions答案:D解析:[单选题]5.以下关于spark错误的描述是A)利用内存保存job的中间输出结果B)可用以替代流式数据处理引擎C)迭代作业的性能优于MapReduceD)本身不提供分布式文件系统答案:B解析:[单选题]6.输入图像为32×32,经过步长为1、不进行padding、卷积核为5×5的卷积层后,得到的特征图尺寸是()。A)28×28B)27×27C)29×29D)32×32答案:A解析:(32+0-5)/1+1=28。[单选题]7.FuslonlnslghtHadoop集群中,在某节点上通过df-hT查询,看到的分区包含以下几个∶var/log/srv/BigData/srv/BigData/hadoopidata5/srv/BigData/solr/solrserver3/srv/BigData/dbdata_om这些分区所对应磁盘最佳Raid级别的规划组合是A)Raid0Raid1Raid0Non-RaidRaid1B)Raid1Raid1Non-RaidNon-raidRaid1C)Raid0Raid0Raid0Raid0Raid0D)Non-RaidNon-RaidNon-RaidNon-RaidRaid1答案:B解析:[单选题]8.np.eye(2)函数的作用是()。A)输出一个全都是0的数组B)输出一个全都是1的数组C)输出一个全都是2的数组D)输出一个二维单位矩阵答案:D解析:np.eye()的作用是创建单位矩阵。[单选题]9.以下()odpscmd命令是查看自己所拥有的权限。A)whoamiB)listusersC)showresourcesD)showgrants答案:D解析:[单选题]10.运行下面代码的输出结果为()。a=np.array([[1,2],[3,4],[5,6]])print(np.insert(a,3,[11,12]))A)[[12][34][56]]B)[1231112456]C)[[12][1111][34][56]]D)[[1112][3114][5116]]答案:B解析:与append()相同,insert()在没有指定axis时默认展平数组。[单选题]11.下列关于pandas数据处理的说法,不正确的是()A)用fillna()可以填补缺失值B)dropna(axis=1)表示丢弃某一行C)数据标准化可以使用sklearn.preprocessing模块D)用pandas.groupby()可以对数据分组索引答案:B解析:[单选题]12.Maxcompute的屏显行数可以通过管理控制台实现,最大的显示条数是:()。A)100条B)10000条C)1000条D)5000条答案:D解析:[单选题]13.学习率对机器学习模型结果会产生影响,通常希望学习率()。A)越小越好B)越大越好C)较小而迭代次数较多D)较大而迭代次数较小答案:C解析:[单选题]14.以下说法中正确的是有A)SVM对噪声(如来自其他分布的噪声样本)鲁棒B)在AdaBoost算法中,所有被分错的样本的权重不再更新C)Boosting和Bagging都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率决定其权重D)给定n个数据点,如果其中一半用于训练,一般用于测试,则训练误差和测试误差之间的差别会随着n的增加而减少答案:D解析:[单选题]15.下列选项中,不是Python语言特点的是()。A)简洁B)开源C)面向过程D)可移植答案:C解析:[单选题]16.池化层的作用是A)对无效节点进行删除B)对特征图进行特征选择和信息过滤C)对提取的特征进行非线性组合以得到输出D)直接输出每个像素的分类结果答案:B解析:[单选题]17.关于最大方差,描述准确的是()A)在信号处理中认为信号具有较大的方差,噪声有较小的方差;B)方差越大,说明样本数据质量越差;C)在信号处理中认为信号具有较小的方差,噪声有较大的方差;D)方差越小,说明样本数据质量越差;答案:A解析:[单选题]18.大数据参考架构的水平轴和垂直轴分别为()。A)信息(活动)价值链和信息技术价值链B)信息技术价值链和信息(活动)价值链C)信息交互价值链和信息技术价值链D)信息(活动)价值链和信息交互价值链答案:A解析:[单选题]19.以下()是对DMM(数据管理成熟度模型)中"已管理级"基本特点的正确表述。A)组织机构的数据管理关键活动能够根据结构自身的反馈以及外部环境的变革进行不断优化B)组织机构已用定量化的方式管理其关键过程的执行过程C)组织机构只有在项目管理过程中执行了D.M给出的关键过程,而缺乏机构层次的统筹与管理D)组织机构的数据管理工作超出了项目管理的范畴,由组织机构统一管理其数据管理关键过程答案:D解析:DMM(数据管理成熟度模型)中"已管理级"的基本特点是组织机构的数据管理工作超出了项目管理的范畴,由组织机构统一管理其数据管理关键过程。[单选题]20.下列关于Hive支持的文件存储格式TEXTFILE描述错误的是()A)TEXTFILE为默认格式B)TEXTFILE文件格式数据会压缩C)TEXTFILE文件格式磁盘开销大D)TEXTFILE文件格式数据解析开销大答案:B解析:[单选题]21.数据转换器中算法类型的使用用途正确的是()A)InverseNormalizer对应用途是使用ModelSquid的Model给出输入数据的预测值B)CsvAssemble对应用途是把多个字符串拼接成CSN格式的字符串C)Tokenization对应用途是把文本按照分词规则转化为CSND)Predict对应用途是逆标准化答案:C解析:Predict对应用途是使用ModelSquid的Model给出输入数据的预测值[单选题]22.关于贝叶斯网络,说法错误的是()A)、是由有向有环图构成B)、每个节点代表一个?事件?或者?随机变量?C)、贝叶斯网络是基于概率推理的模型D)、表示起因的假设和表示结果的数据均用结点表示答案:A解析:[单选题]23.创建一个HDFS客户端对象时,Configuration实例会自动加载HDFS的配置文件(),从中获取Hadoop集群的配置信息。A)hadoop-default.xmlB)hadoop-env.shC)hadoop-site.xmlD)core-site.xml答案:D解析:[单选题]24.知识图谱的基础单元叫什么?A)实体组B)二元组C)三元组D)关系组答案:C解析:[单选题]25.修改资源的化导入excel的操作列应该填写()。A)插入B)更新C)删除D)追加答案:B解析:[单选题]26.以下选项中,不属于大数据对人才能力的要求是()A)业务能力B)数学统计能力C)IT技术能力D)逻辑思维能力答案:C解析:[单选题]27.当特征值大致相等时。会发生的情况是()。A)PCA将表现出色B)PCA将表现不佳C)不知道D)以上都没有答案:B解析:当所有特征向量相同时将无法选择主成分,因为在这种情况下所有主成分相等。[单选题]28.HBase表设计为什么一般不超过两个列簇?A)过多的列簇不适合读写分离B)过多的列I0开销大C)过多的列簇StoreFile过多,Compaction压力大D)过多的列簇会导致memstoreflush时10压力过大答案:B解析:[单选题]29.以下对信息描述不正确的是()。A)信息与能源、材料属于同一层次的概念B)信息是客观的存在C)信息是人类社会赖以生存和发展的三大资源之一D)信息是对数据进行计量形成的记录答案:D解析:[单选题]30.业务中台方面,以业务为导向,优先建设()和客户服务业务中台,后期逐步视情况拓展账务结算等业务共享服务A)电网服务业务中台B)电网资源业务中台C)电网优化业务中台D)电网环境业务中台答案:B解析:[单选题]31.TF-IDF与一个词在文档中的出现次数成(__)。A)正比B)反比C)无关D)幂次答案:A解析:[单选题]32.有研究发现"页面的显示速度每延迟1s,网站访问量就会降低11%,从而导致营业额或者注册量减少7%,顾客满意度下降16%"。该项研究表明了()在数据产品开发中的重要性。A)查全率B)用户体验C)数据可视化D)查准率答案:B解析:在大数据时代,用户体验更加重要。[单选题]33.()的主要议题是如何实现和优化机器的自我学习。A)机器学习B)人工智能C)深度学习D)人机共生答案:A解析:[单选题]34.info='abc'Info[2]='d'的输出结果是()。A)TypeError:'str'objectdoesnotsupportitemassignmentB)bC)cD)d答案:A解析:字符串不能被修改。[单选题]35.以下不属于大数据系统端风险的是()A)数据系统的申请、查看流程B)数据查看权限C)系统平台的稳定性D)数据库管理、存储答案:A解析:[单选题]36.有如下程序:y=6z=lambdax:x*yprint(z(8))程序的输出结果是()。A)14B)24C)48D)64答案:C解析:[单选题]37.以下哪个数据转换器常用于空值替换,作用为?如果v1为null,则输出v2,否则输出v1?。()A)ConstantB)ChoiceC)NvlD)NumericCast答案:C解析:[单选题]38.以下描述不正确的是(__)。A)互动资源结算属于项目时间管理B)合同管理属于项目采购管理C)效绩报告属于项目沟通管理D)项目团队建设属于项目整体管理答案:D解析:[单选题]39.BI工具采用哪种分析方式?()A)自助式探索B)图表展示C)查询搜索D)人工互助答案:A解析:[单选题]40.Scikit-Learn中StandardScaler是将特征数据的分布调整成(),也就是使得数据的均值为0,方差为1。A)正态分布B)泊松分布C)均匀分布D)二项分布316答案:A解析:StandardScaler是将以特征数据的分布调整成标准正态分布,即每列数据减去均值,再除以方差,使得数据的均值为0,方差为1。[单选题]41.在转换操作中,可以实现从一个字符串中截取特定长度的子串的操作为()A)TermExtractB)SubstringC)TrimD)Concatenate答案:B解析:Trim去掉字符串左边或右边的空格。[单选题]42.Hive是建立在()之上的一个数据仓库A)HDFSB)MapReduceC)HadoopD)HBase答案:C解析:[单选题]43.以下哪个属于大数据在电信行业的数据商业化方面的应用()A)客服中心优化B)网络优化C)网络管理D)精准广告答案:D解析:[单选题]44.以下()是对DMM(数据管理成熟度模型)中"已管理级"基本特点的正确表述。A)组织机构的数据管理关键活动能够根据结构自身的反馈以及外部环境的变革进行不断优化B)组织机构已用定量化的方式管理其关键过程的执行过程C)组织机构只有在项目管理过程中执行了D.M给出的关键过程,而缺乏机构层次的统筹与管理D)组织机构的数据管理工作超出了项目管理的范畴,由组织机构统一管理其数据管理关键过程答案:D解析:[单选题]45.以下程序输出的结果是()。(提示:ord(:?a?)==97)list_demo=[1,2,3,4,5,'a','b']print(list_demo[1],list_demo[5])A)1,5B)2,aC)1,97D)2,97答案:B解析:[单选题]46.关于Pandas数据读写的说法中,下列描述错误的是()。A)read_csv()能够读取所有文本数据B)read_sql()可以读取数据库中的数据C)to_csv()能够将结构化数据写入到csv文件中D)to_excel()能够将结构化数据写入到excel文件中答案:A解析:[单选题]47.用于删除约束的命令是A)ALTERTABLEMODIFYCONSTRAINTB)DROPCONSTRAINTC)ALTERTABLEDROPCONSTRAINTD)ALTERCONSTRAINTDROP答案:C解析:[单选题]48.从复杂度及价值高低两个维度,可以将数据分析分为()。A)描述性分析、诊断性分析、预测性分析、探索性分析B)探索性分析、诊断性分析、预测性分析、规范性分析C)探索性分析、描述性分析、预测性分析、规范性分析D)描述性分析、诊断性分析、预测性分析、规范性分析答案:D解析:大数据分析使得决策有了科学基础,现在做决策可以基于实际的数据而不仅仅依赖于过去的经验或者直觉。根据分析结果的不同,我们大致可以将数据分析分为描述性分析、诊断性分析、预测性分析、规范性分析4类,不同的分析类型将需要不同的技术和分析算法。[单选题]49.HBase架构的四大组件中,()HBase集群的主控服务器。A)ZookeeperB)MasterC)RegionServerD)Client答案:B解析:[单选题]50.如图,以下关于Kafka消息消费者Consumer读取消息的描述,错误的有?A)Consumer使用Offset来记录读取的位置B)图片中的蓝色框为Kafka的一个Topic,即可以理解为一个队列,每个格子代表一条消息。C)生产者产生的消息逐条放到Topic的末尾D)消费者从右至左顺序读取消息答案:D解析:[单选题]51.下列选项中,不能创建一个Series对象的是()A)ser_obj=pd.Series([1,2,3,4,5])B)ser_obj=pd.Series({2001:17.8,2002:20.1,2003:16.5})C)ser_obj=pd.Series((1,2,3,4))D)ser_obj=pd.Series(1,2)答案:D解析:[单选题]52.()用于将关系型数据库或者其他结构化的数据导入到Hadoop的生态系统中。A)OozieB)FlumeC)SqoopD)Hue答案:C解析:[单选题]53.在支持向量机中,软间隔支持向量机的目标函数比硬间隔支持向量机多了一个()A)偏置项bB)系教C)松弛变量D)两种情况的目标函数相同答案:C解析:[单选题]54.贝叶斯决策论是在(__)框架下实施决策的基本方法。A)模型B)条件C)概率D)分类器答案:C解析:第2部分:多项选择题,共23题,每题至少两个正确答案,多选或少选均不得分。[多选题]55.一个好的分类模型必须具有(___)。A)低训练误差B)低泛化误差C)过拟合D)欠拟合答案:AB解析:[多选题]56.下面关于SparkStreaming的描述正确的是:()A)SparkB)SparkC)SparkD)Spark答案:ABCD解析:[多选题]57.低耗能存储及高效率计算的要求,需要以下多种技术协同合作()A)分布式云存储技术B)高性能并行计算技术C)多源数据清洗及数据整合技术D)分布式文件系统及分布式并行数据库E。可视化高维度展示技术答案:ABCD解析:[多选题]58.以下关于机器学习的发展历程描述正确的是(___)。A)机器学习是人工智能研究发展到一定阶段的必然产物B)二十世纪五十年代到七十年代出,人工智能研究处于?推理期?C)图灵在1950年关于图灵测试的文章中,就曾提到了机器学习的可能D)人工智能在二十世纪五十到八十年代经历了?推理期?和?知识期?答案:ABCD解析:[多选题]59.下面关于数字鸿沟问題的描述,正确的是:()A)数字鸿沟被认为是信息时代的?马太效应?,即先进技术的成果不能为人公享,于是造成?富者越富、穷者越穷?的情况B)数字鸿沟因为大数据技术的诞生而趋向弥合C)数字鸿沟是一个涉及公平公正的问题D)在我国,东中西部地区、城乡之间等都可以明显感受到数字鸿沟的存在答案:ACD解析:[多选题]60.数据标准化包括()A)最小最大标准化B)绝对值最小最大标准化C)零均值标准化D)Log函数标准化答案:ABCD解析:[多选题]61.在决策树基本算法中,有三种情形会导致递归返回,这三种情形分别是(__)。A)当前结点包含的样本全属于同一类别,无需划分B)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分C)当前结点包含的样本集合为空,不能划分D)当前结点包含的样本不属于同一类别,不可划分答案:ABC解析:[多选题]62.基于统计的分词方法的优点有(__)。A)分速度快B)效率高C)结合上下文识别生词D)消除歧义答案:ABCD解析:[多选题]63.以下关于L1和L2范数的描述,正确的是()。A)L1范数为x向量各个元素绝对值之和。B)L2范数为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或Frobenius范数C)L1范数可以使权值稀疏,方便特征提取D)L2范数可以防止过拟合,提升模型的泛化能力。答案:ABCD解析:L0是指向量中非0的元素的个数,L1范数是指向量中各个元素绝对值之和,L2范数向量元素绝对值的平方和再开平方。L1范数可以使权值稀疏,方便特征提取。L2范数可以防止过拟合,提升模型的泛化能力。[多选题]64.在存储过程中,ITERATE可以出现在()语句中。--A)IFB)CASEC)LOOPD)REPEAT答案:CD解析:[多选题]65.下列选项是关系型数据库基本特征的是()A)与列的次序无关B)与行的次序无关C)不同的列应有不同的列名D)不同的列应有不同的数据类型答案:ABC解析:[多选题]66.RNN在NLP领域的应用包括()A)语言模型与文本生成B)机器翻译C)语音识别D)图像描述生成答案:ABCD解析:[多选题]67.噪声数据的产生原因主要有()。A)采集设备有问题B)数据录入过程中产生错误C)数据传输过程出现错误D)数据采集源不完备答案:ABC解析:[多选题]68.下列关于Dropout的说法正确的有()。A)Dropout背后的思想其实就是把DNN当作一个集成模型来训练,之后取所有值的平均值,而不只是训练单个DNN194B)DNN网络将Dropout率设置为p,也就是说一个神经元被保留的概率是1-p。当一个神经元被丢弃时,无论输入或者相关的参数是什么,它的输出值就会被设置为0C)丢弃的神经元在训练阶段,对BP算法的前向和后向阶段都没有贡献。由于这个原因,每一次训练都像是在训练一个新的网络D)Dropout方法通常和L2正则化或其他参数约束技术(比如MaxNorm)一起使用,来防止神经网络的过拟合答案:ABCD解析:Dropout是指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。注意是暂时,对于随机梯度下降来说,由于是随机丢弃,故每一个mini-batch都在训练不同的网络。防止过拟合的方法:①提前终止(当验证集上的效果变差的时候);②L1和L2正则化加权;③softweightsharingdropout。dropout率的选择:经过交叉验证,隐含节点dropout率等于0.5的时候效果最好,此时dropout随机生成的网络结构最多。Dropout也可以被用作一种添加噪声的方法,直接对input进行操作。输入层设为更接近1的数,使得输入变化不会太大(0.8)。[多选题]69.数据能力的评价方法有哪些A)评价结果B)评价方法C)评价过程D)评价产品答案:AC解析:[多选题]70.有关数据仓库的开发特点,正确的描述是:()A)数据仓库开发要从数据出发B)数据仓库使用的需求在开发出去就要明确C)数据仓库的开发是一个不断循环的过程,是启发式的开发D)在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式答案:BCD解析:[多选题]71.当前,大数据产业发展的特点是()。A)规模大B)增速很快C)多产业交叉融合D)增速放缓答案:ABC解析:[多选题]72.SQL中SELECT语句的完整语法较复杂,但至少包含的有()A)SELECTB)FROMC)GROUPD)INTO答案:AB解析:[多选题]73.从IDC的大数据生态系统图可看出,大数据生态系统是一种的复杂系统,主要涉及()。A)数据采集B)数据生产C)数据处理D)业务流程答案:ABCD解析:[多选题]74.根据泛在电力物联网2019年建设方案,企业中台包括()A)业务中台B)能源中台C)技术中台D)数据中台答案:AD解析:[多选题]75.FusionlnsightManager与外部管理平台对接时,支持哪些接口A)SNMPB)VPNC)BGPD)Syslog答案:AD解析:[多选题]76.以下哪些是离线批处理的特点?A)处理数据格式多样B)支持SQL类作业和自定义作业C)处理数据量巨大D)处理时间要求高答案:ABC解析:[多选题]77.下列关于L1正则化与L2正则化描述正确的是(__)。A)L1范数正则化有助于降低过拟合风险B)L2范数正则化有助于降低过拟合风险C)L1范数正则化比L2范数正则化更有易于获得稀疏解D)L2范数正则化比L1范数正则化更有易于获得稀疏解答案:ABC解析:第3部分:判断题,共19题,请判断题目是否正确。[判断题]78.numpy使用savetxt函数将数据存储到文件中,当然我们需要指定文件名以及要保存的数组。A)正确B)错误答案:对解析:[判断题]79.Kafka可以同时解决在线应用消息和离线应用日志的数据处理问题。A)正确B)错误答案:对解析:[判断题]80.仪表板可以随数据变化是否正确()A)正确B)错误答案:对解析:[判断题]81.同时新增多个字段时不能指定字段的位置。--A)正确B)错误答案:对解析:[判断题]82.()LTRIM、RTRIM、TRIM函数既能去除半角空格,又能去除全角空格。A)正确B)错误答案:错解析:[判断题]83.在HDFS中,namenode用于决定数据存储到哪一个datanode节点上。A)正确B)错误答案:对解析:[判断题]84.HDFS系统支持数据的修改。A)正确B)错误答案:错解析:[判断题]85.默认情况下,MySQL5.7不支持SSL加密连接。--A)正确B)错误答案:对解析:[判断题]86.选择操作σ学号=1(R)表示在关系R中查找学号为1的学生。--A)正确B)错误答案:对解析:[判断题]87.在整个数据传输的过程中,Flume将流动的数据封装到一个event(事件)中,它是Flume内

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论