大数据练习卷附答案

上传人：喝*** IP属地：广西上传时间：2024-12-22 格式：DOC 页数：18 大小：37.69KB 积分：30 举报 版权申诉

已阅读5页，还剩13页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据练习卷附答案单选题（总共40题）1.()肯定是宽依赖操作。(1分)A、mapB、ﬂatMapC、reduceByKeyD、sample答案：C解析：

暂无解析2.有N个样本，一半用于训练，一半用于测试。若N增大，则训练误差和测试误差之间的差距会()。(1分)A、增大B、减小C、无法确定D、无明显变化答案：B解析：

暂无解析3.下列函数能够让所有单词的首字母变成大写的是()。(1分)A、capitalize（）B、title（）C、upper（）D、ijust（）答案：B解析：

暂无解析4.下列不属于模型集成方法的是()。(1分)A、直接集成法B、增强法C、堆叠法D、递归法答案：D解析：

暂无解析5.下列关于分类算法的准确率、召回率、F2值的描述错误的是()。(1分)A、准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率B、召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率C、正确率、召回率和F1值取值都在0和1之间，数值越接近0，查准率或查全率就越高D、为了解决准确率和召回率冲突问题，引入了F2分数答案：C解析：

暂无解析6.下列不属于PythonIDE的是()。(1分)A、PyCharmB、JupyterNotebookC、SpyderD、Rstudio答案：D解析：

暂无解析7.下列关于长短时神经网络的叙述错误的是()。(1分)A、引用自循环思想B、产生梯度长时间持续流动的路径C、积累的时间尺度不可以因输入序列而改变D、可应用于语音识别和机器翻译答案：C解析：

暂无解析8.利用到每个聚类中心和的远近判断离群值的方法，可以基于的算法为()。(1分)A、K-meansB、KNNC、SVMD、LinearRegression答案：A解析：

暂无解析9.下列算法中不属于基于深度学习的图像分割算法的是()。(1分)A、FCNB、DeeplabC、Mask-RCNND、KNN答案：D解析：

暂无解析10.分布式应用程序可以基于分布式应用程序协调服务实现同步服务，配置维护和命名服务等的工具是()。(1分)A、FlumeB、ZookeeperC、StormD、SparkStreaming答案：B解析：

暂无解析11.()不属于聚类性能度量外部指标。(1分)A、Jaccard系数B、FM系数C、Rand指数D、DB指数答案：D解析：

暂无解析12.当不知道数据所带标签时，可以使用()促使带同类标签的数据与带其他标签的数据相分离。(1分)A、分类B、聚类C、关联分析D、隐马尔可夫链答案：B解析：

暂无解析13.下列算法中更适合做时间序列建模的是。(1分)A、CNNB、决策树C、LSTMD、贝叶斯算法答案：C解析：

暂无解析14.下列方法中不属于图像分割方法的是()。(1分)A、边缘检测法B、阈值分割法C、区域分割法D、特征提取法答案：D解析：

暂无解析15.Python中定义私有属性的方法是()。(1分)A、使用private关键字B、使用public关键字C、使用××定义属性名D、使用××定义属性名答案：D解析：

暂无解析16.下列关于面向过程和面向对象的说法错误的是?(1分)A、面向过程和面向对象都是解决问题的一种思路B、面向过程是基于面向对象的C、面向过程强调的是解决问题的步骤D、面向对象强调的是解决问题的对象答案：B解析：

暂无解析17.下列函数用于向文件中写内容的是()。(1分)A、open（）B、write（）C、close（）D、read（）答案：B解析：

暂无解析18.下列描述不属于图像分割内容的是()。(1分)A、把不同类别分开B、提取不同区域的特征C、识别图像内容或对图像进行分类D、对未处理图像进行平滑答案：D解析：

暂无解析19.下列关于Boosting算法的描述错误的是。(1分)A、可将强学习器降为弱学习器B、从初始训练集训练基学习器C、对训练样本分布进行调整D、做错的训练样本多次训练答案：A解析：

暂无解析20.下列关于Sigmoid函数的说法错误的是。(1分)A、存在梯度爆炸的问题B、不是关于原点对称C、计算exp比较耗时D、存在梯度消失的问题答案：A解析：

暂无解析21.假负率是指()。(1分)A、正样本预测结果数/正样本实际数B、被预测为负的正样本结果数/正样本实际数C、被预测为正的负样本结果数/负样本实际数D、负样本预测结果数/负样本实际数答案：B解析：

暂无解析22.运行下面程序，输出的结果是()。defchanageInt(number2)：number2=number2+1print("changeInt：number2="，number2)#调用number1=2；ChanageInt(number1)print("number："，number1)(1分)A、changeInt：number2=3number：3B、changeInt：number2=3number：2C、number：2changeInt：number2=2D、number：2changeInt：number2=3答案：B解析：

暂无解析23.()是指针对用户非常明确的数据查询和处理任务，以高性能和高吞吐量的方式实现大众化的服务，是数据价值最重要也是最直接的发现方式。(1分)A、数据服务B、数据分析C、数据治理D、数据应用答案：A解析：

暂无解析24.信息增益、增益率分别对可取值数目()的属性有所偏好。(1分)A、较高，较高B、较高，较低C、较低，较高D、较低，较低答案：B解析：

暂无解析25.在一个线性回归问题中，通常使用R平方(R-Squared)来判断拟合度。此时，如果增加一个特征，模型不变，则下面说法正确的是()。(1分)A、如果R-Squared增加，则这个特征有意义B、如果R-Squared减小，则这个特征没有意义C、仅看R-Squared单一变量，无法确定这个特征是否有意义D、以上说法都不对答案：C解析：

暂无解析26.下列关于代码规范的描述错误的是()(1分)A、类总是使用驼峰格式命名，即所有单词首字母大写其余字母小写B、除特殊模块init之外，模块名称都使用不带下划线的小写字母C、不要滥用*args和**kwargsD、建议把所有方法都放在一个类中答案：D解析：

暂无解析27.下列内容符合物体识别任务的是()。(1分)A、不能对图像进行压缩或剪裁B、遵守误差最小准则和最佳近似准则C、可以不指定分类的类别数量D、事先给定样本的分布特征答案：B解析：

暂无解析28.下列关于组织机构的数据管理成熟度等级划分中的已执行级的描述错误的是?(1分)A、在具体项目中，DMM关键过程域（KPA）中给出的关键过程已被执行，但随意性和临时性较大B、DMM关键过程的执行不仅仅局限于特定业务范畴，存在跨越不同业务领域的关键过程C、缺少针对DMM关键过程的反馈与优化D、虽然有可能在特定业务过程中进行了基础性改进，但没有进行持续跟进，也未拓展到整个组织机构答案：B解析：

暂无解析29.下列方法中属于映射数据到新的空间的是()(1分)A、傅里叶变换B、特征加权C、渐进抽样D、维归约答案：A解析：

暂无解析30.BASE原则的含义不包括()。(1分)A、基本可用B、柔性状态C、最终一致D、基础条件答案：D解析：

暂无解析31.下列关于Python语言特点的描述错误的是。(1分)A、Python语言时非开源语言B、Python语言是跨平台语言C、Python语言时多模型语言D、Python语言时脚本语言答案：A解析：

暂无解析32.下列关于Hive说法正确的是。(1分)A、一种数据仓库工具B、一种数据处理工具C、一种可视化工具D、一种分析算法答案：A解析：

暂无解析33.下列关于数据的存储结构的描述正确的是()(1分)A、数据所占的存储空间量B、存储在外存中的数据C、数据在计算机中的顺序存储方式D、数据的逻辑结构在计算机中的表示答案：D解析：

暂无解析34.下列关于数据科学的描述错误的是()(1分)A、数据科学中的数据不仅仅是数值，也不等同于数值B、数据科学中的计算包括数据的查询、挖掘、洞见等C、数据科学强调的是跨学科视角D、数据科学不包括理论知识，只包括领域实务经验答案：D解析：

暂无解析35.运行代码，输出结果为()。#！/usr/bin/envpython3n=100sum=0counter=1whilecounter<=n：sum+countercounter+=1print("1到%d之和为：%d"%(n，sum))(1分)A、1到100之和为5000：B、1到100之和为：０C、1到100之和为：2050D、1到100之和为：5020答案：B解析：

暂无解析36.下列关于缺失值填补的说法不正确的是?(1分)A、填补数据可以用中位数或者众数等B、Pandas.dropna可以用来填补缺失值C、用平均值填补会引入相关性D、哑变量填补是将缺失值当做一类新特征处理答案：B解析：

暂无解析37.下列关于Boosting的说法错误的是?(1分)A、Boosting方法的主要思想是迭代式学习B、训练基分类器时采用并行的方式C、测试时，根据各层分类器的结果的加权得到最终结果D、基分类器层层叠加，每一层在训练时，对前一层基分类器分错的样本给予更高的权值答案：B解析：

暂无解析38.下列关于Python语句：f=open()中f的描述错误的是?(1分)A、*f是文件句柄，用来在程序中表达文件B、表达式print（f）执行将报错C、*f是一个Python内部变量类型D、将f当作文件对象，f.read（）可以读入文件全部信息答案：B解析：

暂无解析39.下列可分解为偏差、方差与噪声之和的是?(1分)A、训练误差（trainingerror）B、经验误差（empiricalerror）C、均方误差（meansquarederror）D、泛化误差（generalizationerror）答案：D解析：

暂无解析40.()的本质是将低层次数据转换为高层次数据的过程。(1分)A、数据处理B、数据计算C、数据加工D、整齐数据答案：C解析：

暂无解析多选题（总共30题）1.LSTM应用场景有()。(1分)A、翻译语言B、语音识别C、图像识别D、股票预测答案：ABD解析：

暂无解析2.可作为决策树选择划分属性的参数有()。(1分)A、信息增益B、信息增益率C、基尼指数D、密度函数答案：ABC解析：

暂无解析3.聚类性能度量的指标主要分为外部指标和内部指标，其中属于内部指标的是()。(1分)A、Jaccard指数B、FM指数C、DB指数D、Dunn指数答案：CD解析：

暂无解析4.name=np.array（['Liu'，'Wang'，'Zhu'，'Wang'，'Zhu'，'Wang'，'Zhu']），则下列可以得到['Liu'，'Wang'，'Zhu']的代码是()。(1分)A、np.unique（name）B、sorted（set（name））C、np.sort（name）D、name答案：AB解析：

暂无解析5.下列关于随机变量及其概率分布的说法正确的有()。(1分)A、随机变量可以分为离散型随机变量和连续型随机变量B、随机变量的概率分布指的是一个随机变量所有取值的可能性C、扔5次硬币，正面朝上次数的可能取值是0、1、2、3、4、5，其中正面朝上次数为0与正面朝上次数为5的概率是一样的D、扔5次硬币，正面朝上次数的可能取值是0、1、2、3、4、5，其中正面朝上次数为5的概率是最大的答案：ABC解析：

暂无解析6.卷积神经网络中常用的池化函数包括()。(1分)A、最大池化函数B、L2范数C、相邻矩形区域内的平均值D、基于据中心像素距离的加权平均函数答案：ABCD解析：

暂无解析7.HIS表色系的三属性包含()。(1分)A、色调B、饱和度C、亮度D、色度答案：ABC解析：

暂无解析8.Spark的基本流程主要涉及()等角色。(1分)A、DriverProgramB、ClusterManagerC、WorkerNodeD、Executor答案：ABCD解析：

暂无解析9.RNN在NLP领域的应用包括()。(1分)A、语言模型与文本生成B、机器翻译C、语音识别D、图像描述生成答案：ABCD解析：

暂无解析10.下列关于单样本Z检验的说法正确的有()。(1分)A、在Python中，单样本Z检验可以使用scipy.stats.ttest_1samp（）实现B、单样本Z检验适用于样本量较大的情况C、单样本Z检验假设要检验的统计量（近似）满足正态分布D、单样本Z检验常用于检验总体平均值是否等于某个常量答案：BCD解析：

暂无解析11.特征选择在子集生成与搜索方面引入了人工智能搜索技术和子集评价方法。其中人工智能搜索技术有()。(1分)A、分支界限法B、浮动搜索法C、信息熵D、AIC答案：ABCD解析：

暂无解析12.完整性约束通常包括()。.(1分)A、实体完整性B、域完整性C、参照完整性D、用户定义完整性答案：ABCD解析：

暂无解析13.如果将A、B、C三个分类器的P-R曲线画在一个图中，其中A、B的P-R曲线可以完全包含住C的P-R曲线，A、B的P-R曲线有交点，A、B、C的平衡点分别为0.79、0.66、0.58，则下列说法中正确的有（）。(1分)A、学习器A的性能优于学习器CB、学习器A的性能优于学习器BC、学习器B的性能优于学习器CD、学习器C的性能优于学习器B答案：ABC解析：

暂无解析14.特征选择方法有()。(1分)A、AIC赤池信息准则B、LARS嵌入式特征选择方法C、LVW包裹式特征选择方法D、Relief过滤式特征选择方法答案：BCD解析：

暂无解析15.类的特点有()。(1分)A、封装B、继承C、多态D、重复答案：ABC解析：

暂无解析16.数据科学以数据尤其是大数据为研究对象，主要研究内容包括()。(1分)A、数据加工B、数据管理C、数据计算D、数据产品开发答案：ABCD解析：

暂无解析17.在数据安全领域常用的P2DR模型中，P、D和R代表的是()。(1分)A、策略B、防护C、检测D、响应答案：ABCD解析：

暂无解析18.常用分词方法包含()。(1分)A、基于Binarytree的分词方法B、基于HMM的分词方法C、基于CRF的分词方法D、基于K-means的分词方法答案：BC解析：

暂无解析19.影响Apriori算法的计算复杂度的有()。(1分)A、支持度阈值B、项数（维度）C、事务数D、事务平均宽度答案：ABCD解析：

暂无解析20.长短时记忆神经网络三个门是()。(1分)A、进化门B、输出门C、输入门D、遗忘门答案：BCD解析：

暂无解析21.Hadoop的优点包括()。(1分)A、可靠性B、高效性C、可伸缩性D、成本低答案：ABCD解析：

暂无解析22.关于特征向量的缺失值处理方式如下：缺失值较多，直接将该特征舍弃掉，否则可能会带入较大的noise，对结果造成不良影响；缺失值较少，其余的特征缺失值都在10%以内，可以采取的处理方式有（）。(1分)A、把NaN直接作为一个特征，假设用0表示B、用均值填充C、用随机森林等算法预测填充D、以上选项都不正确答案：ABC解析：

暂无解析23.假设目标遍历的类别非常不平衡，即主要类别占据了训练数据的99%，假设现在模型在训练集上表现为99%的准确度，那么下列说法正确的有()。(1分)A、准确度并不适合衡量不平衡类别问题B、准确度适合衡量不平衡类别问题C、精确度和召回率适合于衡量不平衡类别问题D、精确度和召回率不适合衡量不平衡类别问题答案：AC解析：

暂无解析24.特征向量的归一化方法有()。(1分)A、线性函数转换B、对数函数转换C、反余切函数转换D、减去均值，除以方差答案：ABCD解析：

暂无解析25.数据可视化是利用计算机图形学和图像处理技术，将数据转换成()在屏幕上显示出来，并进行交互处理的理论、方法和技术。(1分)A、文字B、图形C、图像D、视频答案：BC解析：

暂无解析26.分布式列式存储的功能有()。(1分)A、支持在线快速读写B、支持线性扩展C、具备节点监控管理D、数据同源不压缩答案：ABC解析：

暂无解析27.如果希望减少数据集中的特征数量，则可以采取的措施有()。(1分)A、使用正向选择法（ForwardSelection）B、使用反向消除法（BackwardElimination）C、逐步选择消除法（Stepwise）D、计算不同特征之间的相关系数，删去相关系数高的特征之一答案：ABCD解析：

暂无解析28.()是scipy.stats可实现的连续随机变量方法。(1分)A、rvsB、pdfC、ppfD、cdf答案：ABCD解析：

暂无解析29.在数据科学中，计算模式发生了根本性的变化——从集中式计算、分布式计算、网格计算等传统计算过渡至云计算，有一定的代表性的是Google云计算三大技术，这三大技术包括()。(1分)A、HadoopYRN资源管理器B、GFS分布式存储系统C、MapRedue分布式处理技术D、BigTable分布式数据库答案：BCD解析：

暂无解析30.常见的回归分析的种类有()。(1分)A、线性回归B、系数回归C、逻辑回归D、曲线回归答案：ACD解析：

暂无解析判断题（总共30题）1.类中的每个属性必须有初始值（）(1分)A、正确B、错误答案：A解析：

暂无解析2.df1=pD.DataFrame([[5，2，3]，[4，5，6]，[7，8，9]]，index=['A'，'B'，'D']，columns=['C1'，'C2'，'C3'])，那么df1.loc[2，1]=8。()(1分)A、正确B、错误答案：B解析：

暂无解析3.分布式数据库是指物理上分散在不同的地点，但在逻辑上是统一的数据库因此，分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点（）(1分)A、正确B、错误答案：A解析：

暂无解析4.MapReduce性能优化的评估大部分都是基于Counter的数值表现出来的；()(1分)A、正确B、错误答案：A解析：

暂无解析5.大数据的存储方案通常对一份数据在不同节点上存储多份副本，以提高系统容错性()(1分)A、正确B、错误答案：A解析：

暂无解析6.关键字参数返回的是字典。()(1分)A、正确B、错误答案：A解析：

暂无解析7.关键字参数可以和其他类型的参数一起来使用，如果要一起使用的话，关键字参数必须在最后面。()(1分)A、正确B、错误答案：A解析：

暂无解析8.沿负梯度下降的方向一定是最优的方向；()(1分)A、正确B、错误答案：B解析：

暂无解析9.假设x是含有5个元素的列表，那么切片操作x[10：]是无法执行的，会抛出异常()(1分)A、正确B、错误答案：A解析：

暂无解析10.类的封装是将抽象得到的属性和方法封装到一个类中，增强安全性和简化编程，使用者不必了解具体的实现细节，只需要通过外部接口，依据特定的访问权限来使用类的成员和方法；（）(1分)A、正确B、错误答案：A解析：

暂无解析11.静态方法、类方法都可以被对象调用；()(1分)A、正确B、错误答案：A解析：

暂无解析12.对于文本分类来说，最重要的是如何将一句话映射到向量空间，同时保持其语义特征。(1分)A、正确B、错误答案：A解析：

暂无解析13.类多态是不同的对象调用相同的函数，产生不同的效果()(1分)A、正确B、错误答案：A解析：

暂无解析14.Spark基于内存计算，本身可以直接读写Hadoop上任何格式数据，其应用程序在集群上以独立的进程集合的形式运行()(1分)A、正确B、错误答案：A解析：

暂无解析15.类别不平衡就是指分类任务中相同类别的训练样例数目差别很大的情况。()(1分)A、正确B、错误答案：B解析：

暂无解析16.在Python中，元组与列表类似，区别是在列表中任意元素可以通过索引进行修改，而元组中元素不可更改只能读取；()(1分)A、正确B、错误答案：A解析：

暂无解析17.链式MapReduce计算中，对任意一个MapReduce作业，Map和Red

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据练习卷附答案

文档简介

温馨提示

最新文档

评论