




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据复习测试题单选题(总共40题)1.()肯定是宽依赖操作。(1分)A、mapB、flatMapC、reduceByKeyD、sample答案:C解析:
暂无解析2.下列不属于数据科学开源工具的是?(1分)A、MapReduceB、ERPC、HadoopD、Spark答案:B解析:
暂无解析3.下列语句在Python3中合法的是。(1分)A、printHello,World!B、print'Hello,World!'C、print('Hello,World!')D、print"Hello,World!"答案:C解析:
暂无解析4.具有体量大、来源多样、生成极快和多变等特征并且难以用传统数据体系机构有效处理的包含大量数据集的数据是()。(1分)A、海量数据B、大数据C、厚数据D、异构数据答案:B解析:
暂无解析5.下列可以作为文本分类准则的是?(1分)A、预测准确率B、鲁棒性C、可扩展性D、以上都对答案:D解析:
暂无解析6.在页面中看不见的表单元素是()。(1分)A、<inputtype="password"></input>$;$<inputtype="radio"></input>$;$<inputtype="hidden"></input>$;$<inputtype="reset"></input>B、<inputtype="radio"></input>$;$<inputtype="hidden"></input>$;$<inputtype="reset"></input>C、<inputtype="hidden"></input>$;$<inputtype="reset"></input>D、<inputtype="reset"></input>答案:C解析:
暂无解析7.下列不是NoSQL数据库的是()。(1分)A、MongoDBB、BigTableC、HBaseD、Access答案:D解析:
暂无解析8.下列关于Hadoop的说法错误的是()。(1分)A、它运行在通用硬件上B、它是Apache软件基金会(ASF)下的项目C、它是最好的实时流式数据处理框架D、Hadoop对数据的处理是有延迟的答案:C解析:
暂无解析9.感知机中,()是M-P神经元,也称为阈值逻辑单元。(1分)A、输入层B、输出层C、第一层D、第二层答案:B解析:
暂无解析10.在线性回归问题中,用R3来衡量拟合的好坏。关于在线性回归模型中增加特征值并再训练同一模型,下列说法正确的是()。(1分)A、如果R2上升,则该变量是显著的B、如果R2下降,则该变量不显著C、R3不能完全反映变量重要性,不能就此得出正确结论D、以上答案都不正确答案:C解析:
暂无解析11.()先对数据集进行特征选择,然后再训练学习器。(1分)A、过滤式选择B、包裹式选择C、稀疏表示D、嵌入式选择答案:A解析:
暂无解析12.将Python中的.py文件转换为.pyc文件的组件为()。(1分)A、编辑器B、编译器C、虚拟机D、解释器答案:B解析:
暂无解析13.在著名管理学家Thomas·H.Davernport在《哈佛商业论坛》上发表的题为《第三代分析学(Analytics3.0)》的经典论文中,Analytics3.1时代是指()。(1分)A、商务智能时代B、大数据时代C、数据富足供给时代D、数据智能时代答案:C解析:
暂无解析14.假设函数中不包括global保留字,则下列关于改变参数值的方法的说法错误的是()。(1分)A、参数是列表类型时,改变原参数的值B、参数的值是否改变与函数中对变量的操作有关,与参数类型无关C、参数是整数类型时,不改变原参数的值D、参数是组合类型(可变对象)时,改变原参数的值答案:B解析:
暂无解析15.下列关于IPython的说法错误的是()(1分)A、IPython集成了交互式Python的很多优点B、IPython的性能远远优于标准的Python的shellC、IPython支持变量自动补全,自动收缩D、与标准的Python相比,IPython缺少内置的功能和函数答案:D解析:
暂无解析16.下列数据类型中Numpy不支持的是()。(1分)A、?oatB、uintC、boolD、byte答案:D解析:
暂无解析17.下列不是开源工具特点的是()(1分)A、免费B、可以直接获取源代码C、用户可以修改源代码并不加说明用于自己的软件中D、开源工具一样具有版权答案:C解析:
暂无解析18.下列关于模块的说法错误的是()。(1分)A、一个xx.py就是一个模块B、任何一个普通的xx.py文件可以作为模块导入C、模块文件的扩展名不一定是.pyD、运行时会从指定的目录搜索导入的模块,如果没有会报错异常答案:C解析:
暂无解析19.下列关于HDFS特征的说法错误的是()(1分)A、支持超大文件B、基于商用硬件C、流式数据访问D、低吞吐量答案:D解析:
暂无解析20.假设已从标准库functools导入reduce()函数,那么表达式reduce(lambdax,y∶x+y,[1,2,3])的值为()。(1分)A、NoneB、6C、3D、9答案:B解析:
暂无解析21.下列判断错误的是()。(1分)A、XML数据属于半结构化数据B、JSON文件属于非结构化数据C、PPT文件属于非结构化数据D、音视频文件属于非结构化数据答案:B解析:
暂无解析22.下列关于混合模型聚类算法的优、缺点的说法正确的是()。(1分)A、当簇只包含少量数据点或者数据点近似协线性时,混合模型也能很好地处理B、混合模型很难发现不同大小和椭球形状的簇C、混合模型比K均值或模糊C均值更一般,因为它可以使用各种类型的分布D、混合模型在有噪声和离群点时不会存在问题答案:C解析:
暂无解析23.下列关于多层前馈神经网络的描述错误的是?(1分)A、输出层与输入层之间包含隐含层,且隐含层和输出层都拥有激活函数的神经元B、神经元之间存在同层连接以及跨层连接C、输入层仅仅是接收输入,不进行函数处理D、每层神经元上一层与下一层全互连答案:B解析:
暂无解析24.下面程序段执行后的输出结果是()n=1s=1whilen<5:s=s*nn=n+1print(s)(1分)A、24B、10C、120D、15答案:A解析:
暂无解析25.()不是Spark服务层的功能。(1分)A、SQL查询B、实时处理C、机器学习D、内存计算答案:D解析:
暂无解析26.在比较模型的拟合效果时,甲、乙、丙三个模型的相关指数R2的值分别约为0.71、0.85、0.90,则拟合效果较好的模型是()。(1分)A、甲B、乙C、丙D、效果一样答案:C解析:
暂无解析27.循环神经网络适合处理的数据是()。(1分)A、节点数据B、序列数据C、结构化数据D、图像数据答案:B解析:
暂无解析28.在大型数据集上训练决策树时,为了花费更少的时间来训练这个模型,下列做法正确的是()。(1分)A、增加树的深度B、增加学习率C、减小树的深度D、减少树的数量答案:C解析:
暂无解析29.当图像通过信道传输时,噪声一般与()无关。(1分)A、信道传输的质量B、出现的图像信号C、是否有中转信道的过程D、图像在信道前后的处理答案:B解析:
暂无解析30.下列算法中:①KNN;②线性回归;③对数几率回归。可以用神经网络去构造的()。(1分)A、①②B、②③C、①②③D、以上答案都不正确答案:B解析:
暂无解析31.下列不属于大数据重要意义的是()。(1分)A、大数据成为推动经济转型发展的新动力B、大数据成为重塑国家竞争优势的新机遇C、大数据成为提升政府治理能力的新途径D、大数据会增加经济发展的成本答案:D解析:
暂无解析32.下列关于Python文件处理的描述错误的是?(1分)A、Python能处理jpg图像文件B、Python不可以处理PDF文件C、Python能处理CSV文件D、Python能处理Excel文件答案:B解析:
暂无解析33.下列不属于数据科学与统计学区别的是()。(1分)A、数据科学中的数据不仅仅是数值B、数据科学关注的不仅仅是“单一学科”问题,超出了数学、统计学、计算机科学等单一学科的范畴C、数据科学不仅仅是理论研究,也不是纯领域实务知识,它关注和强调的是二者的结合D、数据科学和统计学中的计算一样,仅仅是加减乘除答案:D解析:
暂无解析34.下列Python赋值语句中不合法的是()(1分)A、x=1;y=1B、x=y=1C、x=(y=1)D、x,y=y,x答案:C解析:
暂无解析35.下列关于Python内存管理的说法错误的是?(1分)A、变量不必事先声明B、变量无须先创建和赋值而直接使用C、变量无须指定类型D、可以使用del释放资源答案:B解析:
暂无解析36.下列关于K均值与DBSCAN比较的说法不正确的是。(1分)A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇答案:A解析:
暂无解析37.下列关于Numpy的数组Ndarray对象属性的描述错误的是()(1分)A、Ndarray.ndim秩,即轴的数量或维度的数量B、Ndarray.shape数组的维度,对于矩阵来说是n行m列C、Ndarray.size数组元素的总个数,也是shape属性中n×m的值D、Ndarray.itemsizeNdarray对象的元素类型答案:D解析:
暂无解析38.下列关于数据分析的说法正确的是()。(1分)A、描述性分析和预测性分析是诊断性分析的基础B、诊断性分析是对规范性分析的进一步理解C、预测性分析是规范性分析的基础D、规范性分析是数据分析的最高阶段,可以直接产生产业价值答案:C解析:
暂无解析39.下列关于线性回归分析中的残差的说法正确的是。(1分)A、残差均值总是为零B、残差均值总是约等于零C、残差均值总是大于零D、以上答案都不正确答案:A解析:
暂无解析40.下列属于无监督学习的是()(1分)A、K-meansB、SVMC、最大熵D、CRF答案:A解析:
暂无解析多选题(总共30题)1.图像噪声一般可分为()。(1分)A、加性噪声B、乘性噪声C、量化噪声D、非量化噪声答案:ABC解析:
暂无解析2.下列关于随机变量及其概率分布的说法正确的有()。(1分)A、随机变量可以分为离散型随机变量和连续型随机变量B、随机变量的概率分布指的是一个随机变量所有取值的可能性C、扔5次硬币,正面朝上次数的可能取值是0、1、2、3、4、5,其中正面朝上次数为0与正面朝上次数为5的概率是一样的D、扔5次硬币,正面朝上次数的可能取值是0、1、2、3、4、5,其中正面朝上次数为5的概率是最大的答案:ABC解析:
暂无解析3.Spark提交工作的方式有()。(1分)A、ClientB、ClusterC、StandaloneD、YARN答案:AB解析:
暂无解析4.数据科学基本原则中,“三世界”原则指的是()。(1分)A、精神世界B、数据世界C、物理世界D、数字世界答案:ABC解析:
暂无解析5.Python中,复合赋值运算符包括()。(1分)A、简单的赋值运算符B、乘法赋值运算符C、取模赋值运算符D、取整除赋值运算符答案:ABCD解析:
暂无解析6.文件基本操作的函数有()。(1分)A、close()B、read()C、rename()D、remove()答案:ABCD解析:
暂无解析7.与相同步长的卷积层相比,使用池化层的优势不包含()。(1分)A、参数更少B、可以获得更大下采样C、速度更快D、有助于提升精度答案:BCD解析:
暂无解析8.NoSQL数据库常用的数据模型包括()。(1分)A、Key-ValueB、Key-DocumentC、Key-ColumnD、图存储答案:ABCD解析:
暂无解析9.Spark比MapReduce计算快的原因有()。(1分)A、基于内存的计算B、基于DAG的调度框架C、基于Lineage的容错机制D、基于分布式计算的框架答案:ABC解析:
暂无解析10.下列属于汉语未登录词类型的有()。(1分)A、存在于词典但出现频率较少的词B、新出现的普通词汇C、专有名词D、专业名词和研究领域名称答案:BCD解析:
暂无解析11.处理图像平滑的滤波有()。(1分)A、盒式滤波B、均值滤波C、高斯滤波D、中值滤波答案:ABCD解析:
暂无解析12.下列关于单样本Z检验的说法正确的有()。(1分)A、在Python中,单样本Z检验可以使用scipy.stats.ttest_1samp()实现B、单样本Z检验适用于样本量较大的情况C、单样本Z检验假设要检验的统计量(近似)满足正态分布D、单样本Z检验常用于检验总体平均值是否等于某个常量答案:BCD解析:
暂无解析13.Spark的组件包括()。(1分)A、SparkStreamingB、MlibC、GraphXD、SparkR答案:ABC解析:
暂无解析14.与自然语言处理相关的工具包Jieba、Gensim、NLTK、Scikit-Learn的区别有()。(1分)A、Jieba专注于中文分词操作B、NLTK主要用于一般自然语言处理任务(标记化、POS标记、解析等)C、Gensim主要用于题和向量空间建模、文档集合相似性等D、Scikit-learn为机器学习提供了一个大型库,其中包含了用于文本预处理的工具,例如词频—逆文档频率特征提取(T?dfVectorizer)等。答案:ABCD解析:
暂无解析15.Python的特点和优点有()。(1分)A、解释性强B、使用动态特性C、面向对象D、语法简洁答案:ABCD解析:
暂无解析16.下列描述中属于Analytics2.0主要特点的有()。(1分)A、侧重嵌入式分析B、重视非结构化数据的分析C、以决策支持为主要目的D、注重解释性分析和预测性分析答案:BCD解析:
暂无解析17.Scikit-Learn中可以实现()算法。(1分)A、分类B、聚类C、回归D、降维答案:ABCD解析:
暂无解析18.ApacheFlume主要解决的是日志数据的收集和处理问题,Flume的主要设计目的和特征包括()。(1分)A、高可靠性B、可扩展性C、管理复杂D、不支持用户自定义答案:AB解析:
暂无解析19.在Spark中,弹性分布式数据集的特点包括()。(1分)A、可分区B、可序列化C、可直接修改D、可持久化答案:ABD解析:
暂无解析20.Scikit-Learn中包含的算法有()。(1分)A、SVMB、随机森林C、Lasso回归D、密度聚类答案:ABCD解析:
暂无解析21.LSTM应用场景有()。(1分)A、翻译语言B、语音识别C、图像识别D、股票预测答案:ABD解析:
暂无解析22.可作为决策树选择划分属性的参数有()。(1分)A、信息增益B、信息增益率C、基尼指数D、密度函数答案:ABC解析:
暂无解析23.ETL技术主要涉及操作有()。(1分)A、抽取B、转换C、加载D、分析答案:ABC解析:
暂无解析24.如果希望减少数据集中的特征数量,则可以采取的措施有()。(1分)A、使用正向选择法(ForwardSelection)B、使用反向消除法(BackwardElimination)C、逐步选择消除法(Stepwise)D、计算不同特征之间的相关系数,删去相关系数高的特征之一答案:ABCD解析:
暂无解析25.聚类性能度量的指标主要分为外部指标和内部指标,其中属于内部指标的是()。(1分)A、Jaccard指数B、FM指数C、DB指数D、Dunn指数答案:CD解析:
暂无解析26.大数据处理流程可以概括为()。(1分)A、数据分析与挖掘B、数据采集C、数据储存D、结果展示答案:ABCD解析:
暂无解析27.Spark支持的计算模型有()。(1分)A、批处理B、实时计算C、机器学习模型D、交互式查询答案:ABCD解析:
暂无解析28.文本分类过程包括()。(1分)A、选择训练文本B、选择文本特征C、建立文本表示模型D、选择分类方法答案:ABCD解析:
暂无解析29.下列现象属于乘性噪声有()。(1分)A、电视光栅的退化B、二值图像上的椒盐噪声C、信道传输受扰D、胶片材料的退化答案:AD解析:
暂无解析30.Python中,字符串格式化的方式是()。(1分)A、%B、formatC、inD、input答案:AB解析:
暂无解析判断题(总共30题)1.当学习器把训练样本学得太好时,很可能把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,会导致泛化性能下降()(1分)A、正确B、错误答案:A解析:
暂无解析2.半结构化数据是经过一定转换处理后可以用传统关系数据库存储和管理的数据;()(1分)A、正确B、错误答案:A解析:
暂无解析3.在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可以采用极大似然估计直接进行参数估计;()(1分)A、正确B、错误答案:A解析:
暂无解析4.缩放训练数据和测试数据的方法不必相同(1分)A、正确B、错误答案:B解析:
暂无解析5.分布式数据库是指物理上分散在不同的地点,但在逻辑上是统一的数据库因此,分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点()(1分)A、正确B、错误答案:A解析:
暂无解析6.NameNode负责管理元数据信息MetaData,Client端每次读写请求,它都会从磁盘中读取或写入MetaData信息并反馈给Client端。()(1分)A、正确B、错误答案:B解析:
暂无解析7.LogisticRegression和SupportVectprMachine都可以处理分类问题,且一般都用于处理线性二分类问题.(1分)A、正确B、错误答案:A解析:
暂无解析8.Hadoop是Java开发的,所以MapReduce只支持Java编写;()(1分)A、正确B、错误答案:B解析:
暂无解析9.数据挖掘的目的是发现数据集中的模式或规律,数据挖掘有监督学习和无监督学习两种方式。()(1分)A、正确B、错误答案:A解析:
暂无解析10.以写模式打开的文件无法进读操作。()(1分)A、正确B、错误答案:A解析:
暂无解析11.数据产品的存在形式为数据集()(1分)A、正确B、错误答案:B解析:
暂无解析12.支持向量机是针对二分类任务设计的,也可直接应用于多分类任务。()(1分)A、正确B、错误答案:B解析:
暂无解析13.关键字参数可以和其他类型的参数一起来使用,如果要一起使用的话,关键字参数必须在最后面。()(1分)A、正确B、错误答案:A解析:
暂无解析14.均值滤波存在不希望的边缘模糊负面效应()(1分)A、正确B、错误答案:A解析:
暂无解析15.类中的每个属性必须有初始值()(1分)A、正确B、错误答案:A解析:
暂无解析16.Linux系统是为编程而设计的,因此在大多数Linux计算机中,都默认安装了Python;()(1分)A、正确B、错误答案:A解析:
暂无解析17.np.where(condition[,x,y]),基于条件condition,返回值来自x或者y;()(1分)A、正确B、错误答案:A解析:
暂无解析18.数据质量管理工作是指建立数据质量检查规则并运用数据质量检查规则与技术手段,对数据质量问题进行跟踪、检查、分析、评价
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年河南省职教高考《语文》核心考点必刷必练试题库(含答案)
- 2025年创意签名测试试题及答案
- 2025年神兽学游泳考试题及答案
- 2025年井下水泵考试题及答案
- 2025年龙岗聘员面试题及答案
- 2025年兰州铁路面试题及答案
- 2025年有趣的七巧板小班标准教案
- 2025年中学招聘面试试题及答案
- 2025年英语点外卖测试题及答案
- 2025年甲卷数学试题及答案
- 矿山救护队装备培训课件
- 光伏并网前单位工程验收报告-2023
- 《贝尔格里尔斯》课件
- 火锅店消防知识培训课件
- 手游测评报告模板
- 直肠癌健康宣教
- 回弹法检测混凝土强度自动计算表,测区混凝土强度换算表,回弹值
- 身份证A4直接打印word模版
- 视频自媒体创作学习通超星课后章节答案期末考试题库2023年
- 编程猫家长讲堂课件2
- 交通设备与控制工程
评论
0/150
提交评论