大数据竞赛理论题每日一测-10月24日附有答案

上传人：喝*** IP属地：广西上传时间：2023-03-29 格式：DOCX 页数：50 大小：42.70KB 积分：30 举报 版权申诉

已阅读5页，还剩45页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据竞赛理论题每日一测-10月24日[复制]您的姓名：[填空题]*_________________________________1.下列说法正确的是（）[单选题]*A.在使用KNN算法时.B.KNN是有监督学习算法(正确答案)C.在使用KNN算法时.上取值越大.模型越容易过拟合D.KNN和K-means都是无监督学习算法2.下列关于决策树的说法错误的是（）。[单选题]*A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复多次C.决策树算法对于噪声的干扰非常敏感(正确答案)D.寻找最佳决策树是NP完全问题3.相关关系是一种与函数关系区别的非确定性关系，而相关分析就是研究事物或现象之间是否存在这种非确定性关系的统计方法，下列不属于相关性分析方法的是（）。[单选题]*A.Pearson相关系数B.Spearman秩相关系数C.Kendall相关系数D.傅里叶系数(正确答案)4.信息增益、增益率分别对可取值数目（）的属性有所偏好。[单选题]*A.较高.较高B.较高.较低(正确答案)C.较低.较高D.较低.较低5.LSTM中，（）的作用是确定哪些新的信息留在细胞状态中，并更新细胞状态。[单选题]*A.输入门(正确答案)B.遗忘门C.输出门D.更新门6.傅里叶变换得到的频谱中，低频系数对应于（）o[单选题]*A.物体边缘B.噪声C.变化平缓部分(正确答案)D.变化剧烈部分7.数据科学基本原则中，基于数据的智能的主要特点是（）。[单选题]*A.数据简单，但算法简单B.数据复杂，但算法简单(正确答案)C.数据简单，但算法复杂D.数据复杂，但算法复杂8.Sigmoid函数作为神经元激活函数的特点是（）。[单选题]*A.连续但不光滑B.不连续但光滑C.连续且光滑(正确答案)D.不连续且不光滑9.离散程度的测度值愈大，则（）。[单选题]*A.反映变量值愈分散.算术平均数代表性愈差(正确答案)B.反映变量值愈集中.算术平均数代表性愈差C.反映变量值愈分散.算术平均数代表性愈好D.反映变量值愈集中.算术平均数代表性愈好10.当构建一个神经网络进行图片的语义分割时，通常采用的顺序是（）o[单选题]*A.

先用卷积神经网络处理输入，再用反卷积神经网络得到输出(正确答案)A.

先用反卷积神经网络处理输入，再用卷积神经网络得到输出A.

不能确定11.给定词汇表如下：（Bob,ok,likes,football,car}o则下面句子Boblikesfootball的词袋模型表示为（）o[单选题]*A.[11100]B.[10110](正确答案)C.[10010]D.[01101]12.BASE原则的含义不包括（）。[单选题]*A.基本可用B.柔性状态C.最终一致D.基础条件(正确答案)13.标准BP算法的目标是使训练集上的（）最小。[单选题]*A.累积方差B.累积误差(正确答案)C.累积协方差D.累积偏差14.DNN常用的激活函数有（）o[单选题]*A.sigmoidB.tanhC.ReLUD.以上答案都正确(正确答案)15.Spark比MapReduce快的原因不包括（[单选题]*A.Spark基于内存迭代，而MapReduce基于磁盘迭代B.DAG计算模型比MapReduce更有效率C.Spark是粗粒度的资源调度，而MapReduce是细粒度的资源调度D.Spark支持交互式处理，MapReduce善于处理流计算(正确答案)16.在训练的每一轮都要检查当前生成的基学习器是否满足基本条件的算法是（）。[单选题]*A.支持向量机B.Boosting算法(正确答案)C.贝叶斯分类器D.Bagging算法17.（）肯定是宽依赖操作。[单选题]*A.mapB.flatMapC.reduceByKey(正确答案)D.sample18.当合适的样本容量很难确定时，可以使用的抽样方法是（）。[单选题]*A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D.渐进抽样(正确答案)19.可用信息增益来进行决策树的（）。[单选题]*A.树高B.叶子结点数C.总结点数D.划分属性选择(正确答案)20.在Hadoop中，（）执行文件系统命名空间操作。[单选题]*A.DataNodeB.NameNode(正确答案)C.JobTrackerD.TaskTracker21.基于N-最短路径分词算法，其最后的粗分结果集合大小（）N。[单选题]*A.大于B.不小于(正确答案)C.小于D.不大于22.info='abc'info[2]=d的输出结果是（）。[单选题]*A.

TypeError：'str'objectdoesnotsupportitemassignment(正确答案)B.bC.cD.d23.bootstrap是指（）。[单选题]*A.

有放回地从总共M个特征中抽样m个特征B.

无放回地从总共M个特征中抽样m个特征C.

有放回地从总共N个样本中抽样n个样本(正确答案)D.

无放回地从总共N个样本中抽样〃个样本24.BP神经网络经常遭遇（）,其训练误差持续降低，但测试误差却可能上升。[单选题]*A.欠拟合B.误差过大C.误差过小D.过拟合(正确答案)25.在大型数据集上训练决策树时，为了花费更少的时间来训练这个模型，下列做法正确的是（）。[单选题]*A.增加树的深度B.增加学习率C.减小树的深度(正确答案)D.减少树的数量26.python字符串切片时，S[0,10]下标的取值范围为（）[单选题]*A.[0,10]B.（0,10）C.[0,10）(正确答案)D.（0,10]27.评估完模型之后，发现模型存在高偏差（highbias）,应采取的解决方法是（）。[单选题]*A.

减少模型的特征数量B.增加模型的特征数量(正确答案)C.增加样本数量D.以上答案都正确28.大数据平台技术架构不包含（）o[单选题]*A.数据整合B.数据存储C.数据计算D,数据溯源(正确答案)29.（）的基本想法是适当考虑一部分属性间的相互依赖信息，从而既不需要进行完全联合概率计算，又不至于彻底忽略了比较强的属性依赖关系。[单选题]*A.

贝叶斯判定准则B.贝叶斯决策论C.朴素贝叶斯分类器D.半朴素贝叶斯分类器(正确答案)30.DAGScheduler的作用是（[单选题]*A.负责分配任务B.负责调度Worker的运行C.负责创建执行计划(正确答案)D.负责清理执行完毕的任务31.采用幕次变换进行灰度变换时，当幕次大于1时，该变换是针对（）的图像进行增强。[单选题]*A.图像整体偏暗B.图像整体偏亮(正确答案)C.图像细节淹没在暗背景中D.图像同时存在过亮和过暗背景32.（）主要提供内存计算框架。[单选题]*A.Spark核心层(正确答案)B.资源管理层C.服务层D.Spark层33.下列关于数据仓库最终目的的描述正确的是（）。[单选题]*A.收集业务需求B.建立数据仓库逻辑模型C.开发数据仓库的应用分析D.为用户和业务部门提供决策支持(正确答案)34.下列不适合使用机器学习方法解决的是（）。[单选题]*A.判断电子邮件是否是垃圾邮件B.判断给定的图中是否有环(正确答案)C.判断是否给指定用户办理信用卡D.对滴滴拼车乘客分簇35.在Hadoop生态系统中，（）主要解决的是日志类数据的收集和处理问题。[单选题]*A.MahoutB.Flume(正确答案)C.SqoopD.HBase36.HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是（）o[单选题]*A.—次写入、少次读取B.多次写入、少次读取C.多次写入、多次读取D.—次写入、多次读取(正确答案)37.下列不属于深度学习内容的是（）o[单选题]*A.深度置信网络B.受限玻尔兹曼机C.卷积神经网络D.贝叶斯学习(正确答案)38.通过聚集多个分类器的预测来提高分类准确率的技术称为（）。[单选题]*A.组合(正确答案)B.聚集C.合并D.投票39.RDD的特点不包括（）o[单选题]*A.RDD之间有依赖关系，可溯源B.RDD由很多partition构成C.对RDD的每个split或partition做计算D.RDD可以增量更新(正确答案)40.把图像分割问题与图的最小割（mincut）问题相关联的方法是（）。[单选题]*A.基于图论的分割方法(正确答案)B.分水岭算法C.SLIC算法D.基于阈值的方法41.美国海军军官莫里通过对前人航海日志的分析，绘制了新的航海路线图，标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的（）。[单选题]*A.在数据基础上倾向于全体数据而不是抽样数据B.在分析方法上更注重相关分析而不是因果分析(正确答案)C.在分析效果上更追究效率而不是绝对精确D.在数据规模上强调相对数据而不是绝对数据42.RNN不同于其他神经网络的地方在于（）。[单选题]*A,实现了记忆功能(正确答案)B,速度快C.精度高D.易于搭建43.Python运算符中用来计算集合并集的是（）[单选题]*A.|(正确答案)B.&C.||D.+44.学习率对机器学习模型结果会产生影响，通常希望学习率（）[单选题]*A.越小越好B.越大越好C.较小而迭代次数较多(正确答案)D.较大而迭代次数较小45.Python语句print（OxA+OxB）的输出结果是（）[单选题]*A.OxA+OxBB.A+BC.OxAOxBD.21(正确答案)46.2003年，Tableau在斯坦福大学诞生，它起源于一种改变数据使用方式的新技术，即（）。[单选题]*A.VizQL语言(正确答案)B.SQL语言C.XSQL语言D.NewSQL语言47.釆用模板［-11］主要检测（）方向的边缘。[单选题]*A.水平B.45°C.垂直(正确答案)D.135°48.在Hadoop生态系统中，（）的主要设计目的是在Hadoop与传统数据库之间进行数据的ETL操作。[单选题]*A.HDFSB.FlumeC.HiveD.Sqoop(正确答案)49.利用到每个聚类中心和的远近判断离群值的方法，可以基于的算法为（）。[单选题]*A.K-means(正确答案)B.KNNC.SVMD.LinearRegression50.a=l,b=2,c=3,则下列表达式结果为True的是（）[单选题]*A.a>=bor（c+5）%3==1B.not（a==landb!=c）C.notaandb==cD.aanda+b>=c(正确答案)51.分布式应用程序可以基于分布式应用程序协调服务实现同步服务，配置维护和命名服务等的工具是（[单选题]*A.FlumeB.Zookeeper(正确答案)C.StormD.SparkStreaming52.所有预测模型在广义上都可称为一个或一组（）。[单选题]*A.公式B.逻辑C.命题D.规则(正确答案)53.下列关于选择L。gistic回归中的。ne-Vs-All方法的描述正确的是（）。[单选题]*A.我们需要在n类分类问题中适合n个模型(正确答案)B.我们需要适合〃-1个模型来分类为n个类C.我们需要只适合1个模型来分类为n个类D.以上答案都不正确54.Apriori算法的核心思想是（）。[单选题]*A.通过频繁项集生成和情节的向下封闭检测两个阶段来挖掘候选集B.通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集(正确答案)C.数据集中包含该项集的数据所占数据集的比例.度量一个集合在原始数据中出现的频率D.若某条规则不满足最小置信度要求.则该规则的所有子集也不满足最小置信度要求55.常用的灰度内插值法不包括（）o[单选题]*A.最近邻内插法B.三次内插法C.双线性内插值法D,三次样条插值法(正确答案)56.与生成方法、半监督SVM、图半监督学习等基于单学习机器利用未标记数据不同，基于分歧的方法（disagreement・basedmeth。ds）使用多学习器，而学习器之间的分歧（disagreement）对未标记数据的利用至关重要。（）是此类方法的重要代表。[单选题]*A.协同训练(正确答案)B.组合训练C.配合训练D.陪同训练57.依托（）,结合应用推进数据归集，形成统一的数据资源中心。[单选题]*A.全业务数据中心和数据平台(正确答案)B.营销基础数据平台和大数据平台C.全业务中心和营销基础数据平台D.全业务数据中心和大数据平台58.多分类学习中，最经典的三种拆分策略不包括（）。[单选题]*A.一对一(正确答案)B.一对其余C.一对多D.多对多59.决策树中的叶结点对应于（）。[单选题]*A.属性B.样本C.决策结果(正确答案)D.标签值60.Spark中Job的划分依据是（[单选题]*A.依赖B.Action算子(正确答案)C.Transfbrmation算子61.a=[l,2,3.4,5],切片时如果要取[2,3.4],则下列结果正确的是（）[单选题]*A.a[l:4]B.a[-2:]C.a[l:-1](正确答案)D.a[::2]62.如果我们现有一个安装2.6.5版本的Hadoop集群，在不修改默认配置的情况下存储200个200M的文本文件，那么最终会在集群中产生（）个数据块（包括副本）o[单选题]*A.200B.40000C.400D.1200(正确答案)63.（）是指对于数据局部不良行为的非敏感性，是探索性分析追求的主要目标之一。[单选题]*A.鲁棒性B.稳定性C.可靠性D.耐抗性(正确答案)64.下列关于情感分析的描述正确的是（）o[单选题]*A.情感分析的难点是语句太长导致精度降低(正确答案)B.为了降低复杂度，循环神经网络无须添加LSTM结构C.对文本进行停用词处理不可以提高情感分析的计算精度D.对文本进行无关词处理不可以提高情感分析的计算精度65.SLIC算法的主要目的是（）。[单选题]*A.目标识别B..前景和背景分C.超像素提取(正确答案)66.感知机中，（）是\1"神经元，也称为阈值逻辑单元。[单选题]*A.输入层B.输出层(正确答案)C.第一层D.第二层67.从连续图像到数字图像需要采取的措施是（）o[单选题]*A.图像灰度级设定B.图像分辨率设定C.确定图像的存储空间D.采样和量化(正确答案)68.（）算法是一种最有影响的挖掘关联规则频繁项目集的算法。[单选题]*A.FP-growthB.EClatC.聚类D.Apdori(正确答案)69.（）算法要求基学习器能对特定的数据分布进行学习，在训练过程的每一轮中，根据样本分布为每个训练样本重新赋予一个权重。[单选题]*A.

Boosting(正确答案)B.支持向量机C.贝叶斯分类器D.神经网络70.对连续图像的离散化釆样决定了图像的（）o[单选题]*A.空间分辨率(正确答案)B.时间分辨率C.地面分辨率D.灰度值71.二值图像中的分支点的连接数为（）o[单选题]*A.0B.1C.2D.3(正确答案)72.下列关于深度神经网络的说法正确的是（）o[单选题]*A.

增加神经网络层数，可能会增加测试数据集的分类错误率(正确答案)B.

减少神经网络层数，总是能减小测试数据集的分类错误率C.

增加神经网络层数，总是能减小训练数据集的分类错误率D.A、B都对73.下列关于ZooKeeper特点的描述错误的是（[单选题]*A,复杂性(正确答案)B.自我复制C.顺序访问D.高速读取74.HBase使用一个（）节点协调管理一个或多个RegionServer从属机。[单选题]*A.NameNodeB.DataNodeC.JobTrackerD.Master(正确答案)75.RDD中的数据被（）在集群中，使得任务可以并行执行。[单选题]*A.顺序存储B.连续存储C.分块存储D.分区存储(正确答案)76.当图像通过信道传输时，噪声一般与（）无关。[单选题]*A.

信道传输的质量A.

出现的图像信号(正确答案)A.

是否有中转信道的过程A.

图像在信道前后的处理77.关联规则的评价指标是（[单选题]*A.均方误差、均方根误差B.Kappa统计、显著性检验C.支持度、置信度(正确答案)D.平均绝对误差、相对误差78.机器学习训练时，Mini-Batch的大小优选为2的幕，如256或512。它背后的原因是（）。[单选题]*A.

Mini-Batch为偶数的时候.梯度下降算法训练的更快B.

Mini-Batch设为2的暴.是为了符合CPU、GPU的内存要求.利于并行化处理(正确答案)C.

不使用偶数时.损失函数是不稳定的D.

以上答案都不正确79.词袋模型中的文本向量每个元素表示该词的（）o[单选题]*A.频率(正确答案)B.顺序C.含义D.语义关系80.深度学习是当前很热门的机器学习算法，深度学习涉及大量的矩阵相乘，现在需要计算三个稠密矩阵A、B、C的乘积ABC,假设三个矩阵的尺寸分别为mxn,nxp,pxq,且m<n<p<q9则下列计算顺序效率最高的是（）。[单选题]*A.

（AB）C(正确答案)B.AC（B）C.A（BC）D.所有效率都相同81.常见的图像预处理方法不包括（）o[单选题]*A.图像降噪B.图像増强C.图像尺寸归一化D.图像标注(正确答案)82.DIKW金字塔模型中，顶层与底层的名称分别为（）。[单选题]*A.智慧与数据(正确答案)B.知识与数据C.智慧与数值D.知识与数值83.输入图像已被转换为大小为28x28的矩阵和大小为7x7的步幅为1的核心/滤波器，则卷积矩阵的大小是（）o[单选题]*A.

22x22(正确答案)B.21x21C.28x28D.7x784.下列关于神经网络的说法：①增加神经网络层数，可能会增加测试数据集的分类错误率；②减少神经网络层数，总是能减小测试数据集的分类错误率；③增加神经网络层数，总是能减小训练数据集的分类错误率。正确的是（）o[单选题]*A.①(正确答案)B.dXS）C.0X2）D.②85.HBase的一个典型应用是Webtable,它是一个以网页（）为主键的表。[单选题]*A.标题B.URL(正确答案)C.内容D.类别86.主成分分析的优化目标是一个（）[单选题]*A.

不含约束条件的二次规划问题B.

含有约束条件的二次规划问题(正确答案)C.不含约束条件的线性规划问D.

含有约束条件的线性规划问题87.常用的图像去噪方法包括（）。[单选题]*A.高斯滤波B.中值滤波C.P-M方程去噪D,以上答案都正确(正确答案)88.平滑图像处理可以釆用RGB彩色（）。[单选题]*A.直方图均衡化模型B.直方图均衡化模型C.加权均值滤波模型(正确答案)D.中值滤波模型89.在集成学习中，对于数据型输出，最常见的结合策略是（）。[单选题]*A.平均法(正确答案)B.投票法C.学习法D.以上答案都正确90.传统目标检测流程包括（）。[单选题]*A,区域选择B.特征提取C.分类器分类D,以上都对(正确答案)91.彩色图像增强时，（）处理可以采用RGBO[单选题]*A.直方图均衡化B.同态滤波C.均值滤波(正确答案)D.中值滤波92.（）在划分属性时是在当前结点的属性集合中选择一个最优属性。[单选题]*A.AdaBoostB.RFC.BaggingD.传统决策树(正确答案)93.属于卷积神经网络应用方向的是（）o[单选题]*A.

图像分类B.目标检测C.图像语义分割D.以上答案都正确(正确答案)94.在Hadoop生态系统中，（）建立在MapReduce之上，主要用来弥补MapReduce编程的复杂性。[单选题]*A.HbaseB.FlumeC.Pig(正确答案)D..Sqoop95.为提高计算性能，Spark中Transformation操作采用的计算模式是（[单选题]*A.活性计算模式B.惰性计算模式(正确答案)C.实时计算模式D.非实时计算模式96.下列方法中：①增加更多的数据；②使用数据扩增技术（dataaugmentati。n）；③使用归纳性更好的架构；④正规化数据；⑤降低架构的复杂度可以用来降低深度学习模型的过拟合问题的方法有（[单选题]*A.

①④⑤B.①②③C.①③④⑤D.所有项目都有用(正确答案)97.下列不属于Action操作的是（[单选题]*A.collectB.filter(正确答案)C.reduceD.count98.用决策树法训练大量数据集时，（）最节约时间。[单选题]*A.增加树的深度B.增加学习率C.减少数的深度(正确答案)D.减少树的个数99.（）算法是决策树学习的基本算法，其他多数决策树学习方法都是它的变体。[单选题]*A.Find-SB.KNNC.概念D.ID3(正确答案)100.下列关于集成学习模型中弱学习者的描述错误的是（）。[单选题]*A.

经常不会过拟合B.

通常带有高偏差.所以其并不能解决复杂学习问题C.

通常会过拟合(正确答案)D.

通常拥有低方差101.大数据中的小数据可能缺失、冗余、存在垃圾数据，但不影响大数据的可信数据，是大数据的（）的表现形式。[单选题]*A.价值涌现B.隐私涌现C.质量涌现(正确答案)D.安全涌现102.（）是实现数据战略的重要保障。[单选题]*A.数据管理B.数据分析C.数据治理(正确答案)D.数据规划103.基于统计的分词方法为（）o[单选题]*A,正向最大匹配法B.逆向最大匹配法C.最少切分法D.条件随机场(正确答案)104.下列关于Python程序格式框架的描述错误的是（）。[单选题]*A.Python语言不采用严格的缩进来表明程序的格式框架(正确答案)B.Python单层缩进代码属于之前最邻近的一行非缩进代码，多层缩进代码根据缩进关系决定所属范围C.Python语言的缩进可以采用Tab键实现D.判断、循环、函数等语法形式能够通过缩进包含一批Python代码，进而表达对应的语义105.下列关于Sigmoid函数的说法错误的是（[单选题]*A.

存在梯度爆炸的问题(正确答案)B.

不是关于原点对称C.

计算exp比较耗时D.

存在梯度消失的问题106.（）网络是一种竞争学习型的无监督神经网络，它能将高维输入数据映射到低维空间，同时保持输入数据在高维空间的拓扑结构，即将高维空间中相似的样本点映射到网络输出层中的邻近神经元。[单选题]*A.SOM(正确答案)B.RBFC.ARTD.ELman107.下列Python赋值语句中不合法的是（）[单选题]*A.x=l;y=lB.x=y=lC.x=（y=l）(正确答案)D.x,y=y,x108.（）不仅可用于多层前馈神经网络，还可用于其他类型的神经网络。[单选题]*A.感知机B.神经元C.神经系统D.误差逆传播(正确答案)109.下列进程中不是HDFS的守护进程的是（）。[单选题]*A.SecondaryNameNodeB.DataNodeC.MRAppMasterATamChild(正确答案)D.NameNode110.（）是数据库管理系统运行的基本工作单位。[单选题]*A.事务(正确答案)B.数据仓库C.数据单元D.数据分析111.Spark可以处理的数据任务包括（[单选题]*A.数据流处理B.交互式处理C.图数据处理D以上都是(正确答案)112.从网络的原理上来看，结构最复杂的神经网络是（）o[单选题]*A.卷积神经网络B.长短时记忆神经网络(正确答案)C.GRUD.BP神经网络113.下列不属于Transformation操作的是（）o[单选题]*A.mapB.filterC.sampleD.count(正确答案)114.CNN神经网络对图像特征提取带来了变革性的变化，使之前的人工特征提取升级到数据驱动的自动特征提取，在CNN中，起到特征提取作用的网络层是（）o[单选题]*A,卷积层(正确答案)B.全连接层C.池化层D,采样层115.对于一个分类任务，如果开始时神经网络的权重不是随机赋值的，而是都设成0,则下列叙述正确的是（）o[单选题]*A.

没有问题，神经网络会正常开始训练B.

神经网络可以训练，但是所有的神经元最后都会变成识别同样的东西(正确答案)C.

神经网络不会开始训练，因为没有梯度改变D.

以上选项都不对116.决策树的父节点和子节点的嫡的大小关系是（）。[单选题]*A.父节点的炳更小B.子节点的矯更小(正确答案)C.两者相等D.根据具体情况而定117.

二维图像可用二维函数表示，则下列说法正确的是（）o[单选题]*A.二维函数值表示点的灰度值(正确答案)B.对于模拟图像来讲，二维函数是离散函数C.（x,y）不是平面的二维坐标D.以上都不对118.输入图像为32x32,经过步长为1、不进行padding.卷积核为5x5的卷积层后,得到的特征图尺寸是（）o[单选题]*A.

28x28(正确答案)B.27x27C.29x29D.32x32119.（）的主要目标是提供可扩展的机器学习算法及其实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。[单选题]*A.Mahout(正确答案)B.FlumeC.SqoopD.HBase120.下列关于数据的描述错误的是（）。[单选题]*A.数据化与数字化是两个不同概念B.数据与数值是一个概念(正确答案)C.大数据与海量数据是两个不同的概念D.数据和信息是两个不同的概念121.下列关于HDFS特征的说法错误的是（）o[单选题]*A,支持超大文件B.基于商用硬件C.流式数据访问D.低吞吐量(正确答案)122.Spark中引入RDD概念的目的是（）o[单选题]*A.数据存储B.数据查重C.提升容错能力(正确答案)D.增强数据一致性123.随机森林与Bagging中基学习器多样性的区别是（[单选题]*A.

都来自样本扰动B.都来自属性扰动C.

来自样本扰动和属性扰动(正确答案)D.多样本集结合124.对于一个图像识别问题（在一张照片里找出一只猫），（）可以更好地解决这个问题[单选题]*A.循环神经网络B.感知机C.多层感知机D.

卷积神经网络(正确答案)125.随机森林是（））上的一个扩展变体[单选题]*A.

BoostingB.

AdasBoostC.RFD.Bagging(正确答案)126.TF-IDF中的TF是指（）。[单选题]*A.某个词在文档中出现的次数B.文章的总次数C.某个词在文档中出现的次数/文章的总次数(正确答案)D.以上都不对127.（）不是神经网络的代表。[单选题]*A,卷积神经网络B.递归神经网络C.残差网络D.xgboost算法(正确答案)128.下列关于描述性分析与探索性分析的描述正确的是（）。[单选题]*A.描述性分析是相对于验证性分析的一种提法B.探索性分析是验证性分析的基础C.探索性分析是相对于验证性分析的一种提法(正确答案)D.探索性分析是数据分析的第一步129.多分类图像识别任务常采用（）作为输出的编码方式。[单选题]*A.二进制编码B.one-hot编码(正确答案)C.霍夫曼编码D.曼彻斯特编码130.（）算法可以较好地避免样本的不平衡问题。[单选题]*A.KNN(正确答案)B.SVMC.BayesD.神经网络131.下列关于SOM神经网络的描述错误的是（）0[单选题]*A.

一种竞争学习型的无监督神经网络B.

将高维输入数据映射到低维空间，保持输入数据在高维空间的拓扑结构C.

SOM寻优目标为每个输出神经元找到合适的权重(正确答案)D.

输出层神经元以矩阵方式排列在二维空间132.type（1e6）的结果为（）[单选题]*A.<class'int'>B.<class'float'>(正确答案)C.<class'complex'>D.<class'bool'>133.a=[[l.,2.,1.],[1.,2.,1.]],a+3的值为（）[单选题]*A.[[l,2,1],[4,5,4]]B.[[4,5,4],[4,5,4]]C.[[4,5,4],[l,2,1]]D.以上都不对(正确答案)134.绝对多数投票法的基本思想是（）。[单选题]*A.

对于若干和弱学习器的输出进行平均得到最终的预测输出B.

少数服从多数.数量最多的类别为最终的分类类别C.

不光要求获得最高票.还要求票过半数(正确答案)D.

将训练集弱学习器的学习结果作为输入.将训练集的输出作为输出.重新训练一个学习器来得到最终结果135.（）认为，大数据时代的数据管理目标不一定理想和完美，一致性、可用性和分区容错性中的任何两个特征的保证（争取）可能导致另一个特征的损失（放弃）。[单选题]*A.CAP理论(正确答案)B.BASE原则C.数据一致性理论D.大数据法则136.假设拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型，训练所用的数据集由汽车和卡车的照片构成，而训练目标是检测出每种车辆的名称（车辆共有10种类型）。现在想要使用这个模型来解决另外一个问题，问题数据集中仅包含一种车（福特野马）而目标变为定位车辆在照片中的位置，则应采取的方法是（）o[单选题]*A.除去神经网络中的最后一层，冻结所有层然后重新训练B.对神经网络中的最后几层进行微调，同时将最后一层（分类层）更改为回归层(正确答案)C.使用新的数据集重新训练模型D.所有答案均不对137.Spark中Stage下Task的数量由（）决定。[单选题]*A.Partition(正确答案)B.JobC.StageD.TaskScheduler138.下列算法中不属于外推法的是（）。[单选题]*A.移动平均法B.回归分析法(正确答案)C.指数平滑法D.季节指数法139.词袋模型、TF-IDF.Word2vec等模型都有的作用是（）。[单选题]*A.文本情感分析B.文本特征向量化(正确答案)C.文本特征离散化D.文本特征分布式140.决策树中的叶节点对应于决策树结果，其他节点对应于（）。[单选题]*A.属性测试(正确答案)B.学习测试C.学习测试D.分类测试141.构造了一个词表：｛1.小明2.喜欢3.踢4.看5.足球6.篮球7.电影｝,利用上述词表的索引号，文档｛小明喜欢踢足球｝可以用一个7维向量表示为（）o[单选题]*A.[1101001]B.[1111111]C.[1111100]D.[1110100](正确答案)142.对一幅100x100像素的图像，若像元用8bit表示灰度值，霍夫曼编码压缩后的图像数据量为40000bit,则图像压缩比例为（）o[单选题]*A.2:1(正确答案)B.3：1C.4：1D.1：2143.（）是从（多条）信息中发现的共性规律、模式、模型、理论、方法。[单选题]*A.信息B.数据C.知识(正确答案)D.智慧144.高通滤波后的图像通常较暗，为改善这种情况，将高通滤波器的转移函数加上一常数量以便引入一些低频分量。这样滤波器叫（）o[单选题]*A.巴特沃斯高通滤波器B.高频提升滤波器(正确答案)C.高频加强滤波器D.理想高通滤波器145.数据变换的策略包括（）。[单选题]*A.平滑处理、特征构造、聚集、标准化、离散化(正确答案)B.平滑处理、特征构造、聚集、审计、离散化C.平滑处理、聚集、标准化、审计、离散化D.特征构造、聚集、标准化、审计、离散化146.随机森林中的随机是指（）。[单选题]*A.随便构建树模B.随机选择一个树模型C.随机选择多个树模型D.在构建每个树模型时随机选择样本和特征(正确答案)147.（）用于对RDD中的数据进行计算。[单选题]*A.分区B.算子(正确答案)C.日志D.数据块148.下列关于图像分割的说法正确的是（）o[单选题]*A.图像分割是对图像中的每个像素加标签的一个过程B.对像素加标签会使具有相同标签的像素具有某种共同视觉特性C.在电网的应用中，我们主要用来进行细粒度分析D.以上都对(正确答案)149.（）用于将非线性引入神经网络，它会将值缩小到较小的范围内。[单选题]*A.损失函数B.优化函数C.激活函数(正确答案)D.目标函数150.输入图像为37x37,经过第一层卷积（thenumberoffiltersF=25,kemelsize=5x5,paddingsvalid,stride=l）与池化层maxpooling（kernelsize=3x3,padding=valid）,输出特征图大小为（）o[单选题]*A,

10x10B.11x11(正确答案)C.12x12D.13x13151.下列选项是数值数据类型（即可用于算术表达式）的有（*A.Oxff(正确答案)B.99(正确答案)C.122(正确答案)D.”1002”152.下列关于字典的遍历的描述正确的有（）*A.forin变量i,字典：使用i遍历所有的键，有键就可以通过变量访问其值B.for变量iin字典：使用i遍历所有的键，有键就可以通过变量访问其值(正确答案)C.for变量i,变量jin字典items）：使用变量i遍历所有键，通过变量j遍历所有值(正确答案)D.forin变量i,变量j字典items）：使用变量i遍历所有键，通过变量j遍历所有值153.预剪枝使得决策树的很多分子都没有展开，则会导致的结果有（）o*A.显著减少训练时间开销(正确答案)B.显著减少测试时间开销(正确答案)C.降低过拟合风险(正确答案)D.提高欠拟合风险(正确答案)154.数据增值存在的过程有（）。*A.数据对象的封装(正确答案)B.数据系统的研发(正确答案)C.数据的集成应用(正确答案)D.基于数据的创新(正确答案)155.字符串的格式化可以使用（）*A.%(正确答案)B.format(正确答案)C.inputD.+156.可视分析学是一门以可视交互为基础，综合运用（）等技术等多个学科领域的知识，以实现人机协同完成可视化任务为主要目的的分析推理学科。*A.物理学B.图形学(正确答案)C.数据挖掘(正确答案)D.人机交互(正确答案)157.常见的原型聚类算法包括（）*A.K均值算法(正确答案)B.学习向量量化(正确答案)C.高斯混合聚类(正确答案)D.密度聚类158.下列关于RNN、LSTM、GRU的说法正确的有（）。*A.

RNN引入了循环的概念(正确答案)B.

LSTM可以防止梯度消失或者爆炸(正确答案)C.

GRU是LSTM的变体(正确答案)D.

RNN、LSTM、GRU是同一神经网络的不同说法，没有区别159.下列属于字符串匹配的分词方法的有（）o*A.

正向最大匹配法（由左到右的方向）(正确答案)B.

逆向最大匹配法（由右到左的方向）(正确答案)C.

最少切分法（使每一句中切出的词数最小）(正确答案)D.

双向最大匹配法（进行由左到右、由右到左两次扫描）(正确答案)160.决策树的划分选择有（）*A.增益系数B.信息增益(正确答案)C.增益率(正确答案)D.基尼系数(正确答案)E.信息增益量161.下列关于Python组合数据类型的描述正确的有（）*A.Python的str、tuple和list类型都属于序列类型(正确答案)B.Python组合数据类型能够将多个同类型或不同类型的数据组织起来，通过单一的表示使数据操作更有序更容易(正确答案)C.组合数据类型可以分为序列类型、集合类型和映射类型3类(正确答案)D.序列类型是二维元素向量，元素之间存在先后关系，通过序号访问162.可视分析学的特点包含（）。*A.强调数据到知识的转换过程(正确答案)B.强调可视化分析与自动化建模之间的相互作用(正确答案)C.强调数据映射和数据挖掘的重要性(正确答案)D.强调数据加工（DataWrangling或DataMunging）工作的必要性(正确答案)E.强调人机交互的重要性(正确答案)163.下列关于函数的递归调用的描述正确的有（）o*A.必须有一个明确的结束条件(正确答案)B.每次进入更深一层递归时，问题规模相比上次递归都应有所减少(正确答案)C.递归调用效率不高，递归层次过多会导致栈溢出。在计算机中，函数调用是通过栈（stack）这种数据结构实现的，每当进入一个函数调用，栈就会加一层栈帧，每当函数返回，栈就会减一层栈帧(正确答案)D.由于栈的大小不是无限的，所以，递归调用的次数过多，会导致栈溢出(正确答案)164.大数据处理流程可以概括为（）。*A.数据分析与挖掘(正确答案)B.数据采集(正确答案)C.数据储存(正确答案)D.结果展示(正确答案)165.决策树在（）情况下会导致递归返回。*A.

当前节点包含的样本全属于同一类(正确答案)B.

当前属性集为空(正确答案)C.

当前节点包含的样本集合为空(正确答案)D.

所有样本在所有属性上取值相同(正确答案)166.下列关于极大似然估计的说法正确的有（）o*A.

MLE可能并不存在(正确答案)B.

MLE总是存在C.

如果MLE存在，那么它的解可能不是唯一的(正确答案)D.

如果MLE存在，那么它的解一定是唯一的167.Spark组件包含（）两个算子。*A.MapB.Action(正确答案)C.Transformation(正确答案)D.Reduce168.下列关于现阶段大数据技术体系的说法正确的有（）。*A.基础设施提供数据计算、数据存储、数据加工（DataWrangling或DataMunging）等服务(正确答案)B.数据流处理、统计工具、日志分析都属于常用的开源工具(正确答案)C.数据资源代表的是生成数据的机构(正确答案)D.数据源与App为数据科学和大数据产业生态系统提供数据内容(正确答案)169.SparkRDD的依赖机制包括（）。*A.宽依赖(正确答案)B.深度依赖C.广度依赖）oD.窄依赖(正确答案)170.Spark的基本流程主要涉及（）。*A.DriverProgram(正确答案)B.ClusterManager(正确答案)C.WorkerNode）等角色。(正确答案)D.Executor(正确答案)171.常用分词方法包含（）*A.基于Binarytree的分词方法B.基于HMM的分词方法B.基于HMM的分词方法(正确答案)C.基于CRF的分词方法(正确答案)D.基于K-means的分词方法172.Spark比MapReduce计算快的原因有（）。*A.基于内存的计算(正确答案)B.基于DAG的调度框架(正确答案)C.基于Lineage的容错机制D.基于分布式计算的框架(正确答案)D.基于分布式计算的框架173.可作为决策树选择划分属性的参数有（）*A.

信息增益(正确答案)B.信息增益率(正确答案)C.基尼指数(正确答案)D.密度函数174.区块链是（）等计算机技术的新型应用模式。*A.分布式数据存储(正确答案)B.点对点传输(正确答案)C.共识机制(正确答案)D.加密算法(正确答案)175.Spark的技术架构可以分为（）。*A.资源管理层(正确答案)B.Spark核心层(正确答案)C.应用层D.服务层(正确答案)176.基于核的机器学习算法有（*A.最大期望算法B.径向基核函数(正确答案)C.线性判别分析法(正确答案)D.支持向量机(正确答案)177.下列属于CNN关键层的有（）o*A.输入层(正确答案)B.卷积层(正确答案)C.激活层(正确答案)D.池化层(正确答案)178.情感分析的途径有（）*A.关键词识别(正确答案)B.词汇关联(正确答案)C.统计方法(正确答案)D

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据竞赛理论题每日一测-10月24日附有答案

文档简介

温馨提示

最新文档

评论

大数据竞赛理论题每日一测-10月24日附有答案

文档简介

温馨提示

最新文档

评论

相关文档