大数据基础理论知识考核试题题库及答案

上传人：精*** IP属地：江苏上传时间：2024-07-29 格式：DOCX 页数：84 大小：79.29KB 积分：15.99 举报 版权申诉

已阅读5页，还剩79页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据基础理论知识考核一、选择题1.下列说法正确的是（）[单选题]*A.在使用KNN算法时.B.KNN是有监督学习算法√C.在使用KNN算法时.上取值越大.模型越容易过拟合D.KNN和K-means都是无监督学习算法2.下列关于决策树的说法错误的是（）[单选题]*A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复多次C.决策树算法对于噪声的干扰非常敏感√D.寻找最佳决策树是NP完全问题3.相关关系是一种与函数关系区别的非确定性关系，而相关分析就是研究事物或现象之间是否存在这种非确定性关系的统计方法，下列不属于相关性分析方法的是（）[单选题]*A.Pearson相关系数B.Spearman秩相关系数C.Kendall相关系数D.傅里叶系数√4.信息增益、增益率分别对可取值数目（）的属性有所偏好[单选题]*A.较高.较高B.较高.较低√C.较低.较高D.较低.较低5.LSTM中，（）的作用是确定哪些新的信息留在细胞状态中，并更新细胞状态[单选题]*A.输入门√B.遗忘门C.输出门D.更新门6.傅里叶变换得到的频谱中，低频系数对应于（）o[单选题]*A.物体边缘B.噪声C.变化平缓部分√D.变化剧烈部分7.数据科学基本原则中，基于数据的智能的主要特点是（）[单选题]*A.数据简单，但算法简单B.数据复杂，但算法简单√C.数据简单，但算法复杂D.数据复杂，但算法复杂8.Sigmoid函数作为神经元激活函数的特点是（）[单选题]*A.连续但不光滑B.不连续但光滑C.连续且光滑√D.不连续且不光滑9.离散程度的测度值愈大，则（）[单选题]*A.反映变量值愈分散.算术平均数代表性愈差√B.反映变量值愈集中.算术平均数代表性愈差C.反映变量值愈分散.算术平均数代表性愈好D.反映变量值愈集中.算术平均数代表性愈好10.当构建一个神经网络进行图片的语义分割时，通常采用的顺序是（）o[单选题]*A.先用卷积神经网络处理输入，再用反卷积神经网络得到输出√A.先用反卷积神经网络处理输入，再用卷积神经网络得到输出A.不能确定11.给定词汇表如下：（Bob,ok,likes,football,car}o则下面句子Boblikesfootball的词袋模型表示为（）o[单选题]*A.[11100]B.[10110]√C.[10010]D.[01101]12.BASE原则的含义不包括（）[单选题]*A.基本可用B.柔性状态C.最终一致D.基础条件√13.标准BP算法的目标是使训练集上的（）最小[单选题]*A.累积方差B.累积误差√C.累积协方差D.累积偏差14.DNN常用的激活函数有（）o[单选题]*A.sigmoidB.tanhC.ReLUD.以上答案都正确√15.Spark比MapReduce快的原因不包括（[单选题]*A.Spark基于内存迭代，而MapReduce基于磁盘迭代B.DAG计算模型比MapReduce更有效率C.Spark是粗粒度的资源调度，而MapReduce是细粒度的资源调度D.Spark支持交互式处理，MapReduce善于处理流计算√16.在训练的每一轮都要检查当前生成的基学习器是否满足基本条件的算法是（）[单选题]*A.支持向量机B.Boosting算法√C.贝叶斯分类器D.Bagging算法17.（）肯定是宽依赖操作[单选题]*A.mapB.flatMapC.reduceByKey√D.sample18.当合适的样本容量很难确定时，可以使用的抽样方法是（）[单选题]*A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D.渐进抽样√19.可用信息增益来进行决策树的（）[单选题]*A.树高B.叶子结点数C.总结点数D.划分属性选择√20.在Hadoop中，（）执行文件系统命名空间操作[单选题]*A.DataNodeB.NameNode√C.JobTrackerD.TaskTracker21.基于N-最短路径分词算法，其最后的粗分结果集合大小（）N[单选题]*A.大于B.不小于√C.小于D.不大于22.info='abc'info[2]=d的输出结果是（）[单选题]*A.TypeError：'str'objectdoesnotsupportitemassignment√B.bC.cD.d23.bootstrap是指（）[单选题]*A.有放回地从总共M个特征中抽样m个特征B.无放回地从总共M个特征中抽样m个特征C.有放回地从总共N个样本中抽样n个样本√D.无放回地从总共N个样本中抽样〃个样本24.BP神经网络经常遭遇（）,其训练误差持续降低，但测试误差却可能上升[单选题]*A.欠拟合B.误差过大C.误差过小D.过拟合√25.在大型数据集上训练决策树时，为了花费更少的时间来训练这个模型，下列做法正确的是（）[单选题]*A.增加树的深度B.增加学习率C.减小树的深度√D.减少树的数量26.python字符串切片时，S[0,10]下标的取值范围为（）[单选题]*A.[0,10]B.（0,10）C.[0,10）√D.（0,10]27.评估完模型之后，发现模型存在高偏差（highbias）,应采取的解决方法是（）[单选题]*A.减少模型的特征数量B.增加模型的特征数量√C.增加样本数量D.以上答案都正确28.大数据平台技术架构不包含（）o[单选题]*A.数据整合B.数据存储C.数据计算D,数据溯源√29.（）的基本想法是适当考虑一部分属性间的相互依赖信息，从而既不需要进行完全联合概率计算，又不至于彻底忽略了比较强的属性依赖关系[单选题]*A.贝叶斯判定准则B.贝叶斯决策论C.朴素贝叶斯分类器D.半朴素贝叶斯分类器√30.DAGScheduler的作用是（[单选题]*A.负责分配任务B.负责调度Worker的运行C.负责创建执行计划√D.负责清理执行完毕的任务31.采用幕次变换进行灰度变换时，当幕次大于1时，该变换是针对（）的图像进行增强[单选题]*A.图像整体偏暗B.图像整体偏亮√C.图像细节淹没在暗背景中D.图像同时存在过亮和过暗背景32.（）主要提供内存计算框架[单选题]*A.Spark核心层√B.资源管理层C.服务层D.Spark层33.下列关于数据仓库最终目的的描述正确的是（）[单选题]*A.收集业务需求B.建立数据仓库逻辑模型C.开发数据仓库的应用分析D.为用户和业务部门提供决策支持√34.下列不适合使用机器学习方法解决的是（）[单选题]*A.判断电子邮件是否是垃圾邮件B.判断给定的图中是否有环√C.判断是否给指定用户办理信用卡D.对滴滴拼车乘客分簇35.在Hadoop生态系统中，（）主要解决的是日志类数据的收集和处理问题[单选题]*A.MahoutB.Flume√C.SqoopD.HBase36.HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是（）o[单选题]*A.—次写入、少次读取B.多次写入、少次读取C.多次写入、多次读取D.—次写入、多次读取√37.下列不属于深度学习内容的是（）o[单选题]*A.深度置信网络B.受限玻尔兹曼机C.卷积神经网络D.贝叶斯学习√38.通过聚集多个分类器的预测来提高分类准确率的技术称为（）[单选题]*A.组合√B.聚集C.合并D.投票39.RDD的特点不包括（）o[单选题]*A.RDD之间有依赖关系，可溯源B.RDD由很多partition构成C.对RDD的每个split或partition做计算D.RDD可以增量更新√40.把图像分割问题与图的最小割（mincut）问题相关联的方法是（）[单选题]*A.基于图论的分割方法√B.分水岭算法C.SLIC算法D.基于阈值的方法41.美国海军军官莫里通过对前人航海日志的分析，绘制了新的航海路线图，标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的（）[单选题]*A.在数据基础上倾向于全体数据而不是抽样数据B.在分析方法上更注重相关分析而不是因果分析√C.在分析效果上更追究效率而不是绝对精确D.在数据规模上强调相对数据而不是绝对数据42.RNN不同于其他神经网络的地方在于（）[单选题]*A,实现了记忆功能√B,速度快C.精度高D.易于搭建43.Python运算符中用来计算集合并集的是（）[单选题]*A.|√B.&C.||D.+44.学习率对机器学习模型结果会产生影响，通常希望学习率（）[单选题]*A.越小越好B.越大越好C.较小而迭代次数较多√D.较大而迭代次数较小45.Python语句print（OxA+OxB）的输出结果是（）[单选题]*A.OxA+OxBB.A+BC.OxAOxBD.21√46.2003年，Tableau在斯坦福大学诞生，它起源于一种改变数据使用方式的新技术，即（）[单选题]*A.VizQL语言√B.SQL语言C.XSQL语言D.NewSQL语言47.釆用模板［-11］主要检测（）方向的边缘[单选题]*A.水平B.45°C.垂直√D.135°48.在Hadoop生态系统中，（）的主要设计目的是在Hadoop与传统数据库之间进行数据的ETL操作[单选题]*A.HDFSB.FlumeC.HiveD.Sqoop√49.利用到每个聚类中心和的远近判断离群值的方法，可以基于的算法为（）[单选题]*A.K-means√B.KNNC.SVMD.LinearRegression50.a=l,b=2,c=3,则下列表达式结果为True的是（）[单选题]*A.a>=bor（c+5）%3==1B.not（a==landb!=c）C.notaandb==cD.aanda+b>=c√51.分布式应用程序可以基于分布式应用程序协调服务实现同步服务，配置维护和命名服务等的工具是（[单选题]*A.FlumeB.Zookeeper√C.StormD.SparkStreaming52.所有预测模型在广义上都可称为一个或一组（）[单选题]*A.公式B.逻辑C.命题D.规则√53.下列关于选择L。gistic回归中的。ne-Vs-All方法的描述正确的是（）[单选题]*A.我们需要在n类分类问题中适合n个模型√B.我们需要适合〃-1个模型来分类为n个类C.我们需要只适合1个模型来分类为n个类D.以上答案都不正确54.Apriori算法的核心思想是（）[单选题]*A.通过频繁项集生成和情节的向下封闭检测两个阶段来挖掘候选集B.通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集√C.数据集中包含该项集的数据所占数据集的比例.度量一个集合在原始数据中出现的频率D.若某条规则不满足最小置信度要求.则该规则的所有子集也不满足最小置信度要求55.常用的灰度内插值法不包括（）o[单选题]*A.最近邻内插法B.三次内插法C.双线性内插值法D,三次样条插值法√56.与生成方法、半监督SVM、图半监督学习等基于单学习机器利用未标记数据不同，基于分歧的方法（disagreement・basedmeth。ds）使用多学习器，而学习器之间的分歧（disagreement）对未标记数据的利用至关重要。（）是此类方法的重要代表[单选题]*A.协同训练√B.组合训练C.配合训练D.陪同训练57.依托（）,结合应用推进数据归集，形成统一的数据资源中心[单选题]*A.全业务数据中心和数据平台√B.营销基础数据平台和大数据平台C.全业务中心和营销基础数据平台D.全业务数据中心和大数据平台58.多分类学习中，最经典的三种拆分策略不包括（）[单选题]*A.一对一√B.一对其余C.一对多D.多对多59.决策树中的叶结点对应于（）[单选题]*A.属性B.样本C.决策结果√D.标签值60.Spark中Job的划分依据是（[单选题]*A.依赖B.Action算子√C.Transfbrmation算子61.a=[l,2,3.4,5],切片时如果要取[2,3.4],则下列结果正确的是（）[单选题]*A.a[l:4]B.a[-2:]C.a[l:-1]√D.a[::2]62.如果我们现有一个安装2.6.5版本的Hadoop集群，在不修改默认配置的情况下存储200个200M的文本文件，那么最终会在集群中产生（）个数据块（包括副本）o[单选题]*A.200B.40000C.400D.1200√63.（）是指对于数据局部不良行为的非敏感性，是探索性分析追求的主要目标之一[单选题]*A.鲁棒性B.稳定性C.可靠性D.耐抗性√64.下列关于情感分析的描述正确的是（）o[单选题]*A.情感分析的难点是语句太长导致精度降低√B.为了降低复杂度，循环神经网络无须添加LSTM结构C.对文本进行停用词处理不可以提高情感分析的计算精度D.对文本进行无关词处理不可以提高情感分析的计算精度65.SLIC算法的主要目的是（）[单选题]*A.目标识别B..前景和背景分C.超像素提取√66.感知机中，（）是\1"神经元，也称为阈值逻辑单元[单选题]*A.输入层B.输出层√C.第一层D.第二层67.从连续图像到数字图像需要采取的措施是（）o[单选题]*A.图像灰度级设定B.图像分辨率设定C.确定图像的存储空间D.采样和量化√68.（）算法是一种最有影响的挖掘关联规则频繁项目集的算法[单选题]*A.FP-growthB.EClatC.聚类D.Apdori√69.（）算法要求基学习器能对特定的数据分布进行学习，在训练过程的每一轮中，根据样本分布为每个训练样本重新赋予一个权重[单选题]*A.Boosting√B.支持向量机C.贝叶斯分类器D.神经网络70.对连续图像的离散化釆样决定了图像的（）o[单选题]*A.空间分辨率√B.时间分辨率C.地面分辨率D.灰度值71.二值图像中的分支点的连接数为（）o[单选题]*A.0B.1C.2D.3√72.下列关于深度神经网络的说法正确的是（）o[单选题]*A.增加神经网络层数，可能会增加测试数据集的分类错误率√B.减少神经网络层数，总是能减小测试数据集的分类错误率C.增加神经网络层数，总是能减小训练数据集的分类错误率D.A、B都对73.下列关于ZooKeeper特点的描述错误的是（[单选题]*A,复杂性√B.自我复制C.顺序访问D.高速读取74.HBase使用一个（）节点协调管理一个或多个RegionServer从属机[单选题]*A.NameNodeB.DataNodeC.JobTrackerD.Master√75.RDD中的数据被（）在集群中，使得任务可以并行执行[单选题]*A.顺序存储B.连续存储C.分块存储D.分区存储√76.当图像通过信道传输时，噪声一般与（）无关[单选题]*A.信道传输的质量A.出现的图像信号√A.是否有中转信道的过程A.图像在信道前后的处理77.关联规则的评价指标是（[单选题]*A.均方误差、均方根误差B.Kappa统计、显著性检验C.支持度、置信度√D.平均绝对误差、相对误差78.机器学习训练时，Mini-Batch的大小优选为2的幕，如256或512。它背后的原因是（）[单选题]*A.Mini-Batch为偶数的时候.梯度下降算法训练的更快B.Mini-Batch设为2的暴.是为了符合CPU、GPU的内存要求.利于并行化处理√C.不使用偶数时.损失函数是不稳定的D.以上答案都不正确79.词袋模型中的文本向量每个元素表示该词的（）o[单选题]*A.频率√B.顺序C.含义D.语义关系80.深度学习是当前很热门的机器学习算法，深度学习涉及大量的矩阵相乘，现在需要计算三个稠密矩阵A、B、C的乘积ABC,假设三个矩阵的尺寸分别为mxn,nxp,pxq,且m<n<p<q9则下列计算顺序效率最高的是（）[单选题]*A.（AB）C√B.AC（B）C.A（BC）D.所有效率都相同81.常见的图像预处理方法不包括（）o[单选题]*A.图像降噪B.图像増强C.图像尺寸归一化D.图像标注√82.DIKW金字塔模型中，顶层与底层的名称分别为（）[单选题]*A.智慧与数据√B.知识与数据C.智慧与数值D.知识与数值83.输入图像已被转换为大小为28x28的矩阵和大小为7x7的步幅为1的核心/滤波器，则卷积矩阵的大小是（）o[单选题]*A.22x22√B.21x21C.28x28D.7x784.下列关于神经网络的说法：①增加神经网络层数，可能会增加测试数据集的分类错误率；②减少神经网络层数，总是能减小测试数据集的分类错误率；③增加神经网络层数，总是能减小训练数据集的分类错误率。正确的是（）o[单选题]*A.①√B.dXS）C.0X2）D.②85.HBase的一个典型应用是Webtable,它是一个以网页（）为主键的表[单选题]*A.标题B.URL√C.内容D.类别86.主成分分析的优化目标是一个（）[单选题]*A.不含约束条件的二次规划问题B.含有约束条件的二次规划问题√C.不含约束条件的线性规划问D.含有约束条件的线性规划问题87.常用的图像去噪方法包括（）[单选题]*A.高斯滤波B.中值滤波C.P-M方程去噪D,以上答案都正确√88.平滑图像处理可以釆用RGB彩色（）[单选题]*A.直方图均衡化模型B.直方图均衡化模型C.加权均值滤波模型√D.中值滤波模型89.在集成学习中，对于数据型输出，最常见的结合策略是（）[单选题]*A.平均法√B.投票法C.学习法D.以上答案都正确90.传统目标检测流程包括（）[单选题]*A,区域选择B.特征提取C.分类器分类D,以上都对√91.彩色图像增强时，（）处理可以采用RGBO[单选题]*A.直方图均衡化B.同态滤波C.均值滤波√D.中值滤波92.（）在划分属性时是在当前结点的属性集合中选择一个最优属性[单选题]*A.AdaBoostB.RFC.BaggingD.传统决策树√93.属于卷积神经网络应用方向的是（）o[单选题]*A.图像分类B.目标检测C.图像语义分割D.以上答案都正确√94.在Hadoop生态系统中，（）建立在MapReduce之上，主要用来弥补MapReduce编程的复杂性[单选题]*A.HbaseB.FlumeC.Pig√D..Sqoop95.为提高计算性能，Spark中Transformation操作采用的计算模式是（[单选题]*A.活性计算模式B.惰性计算模式√C.实时计算模式D.非实时计算模式96.下列方法中：①增加更多的数据；②使用数据扩增技术（dataaugmentati。n）；③使用归纳性更好的架构；④正规化数据；⑤降低架构的复杂度可以用来降低深度学习模型的过拟合问题的方法有（[单选题]*A.①④⑤B.①②③C.①③④⑤D.所有项目都有用√97.下列不属于Action操作的是（[单选题]*A.collectB.filter√C.reduceD.count98.用决策树法训练大量数据集时，（）最节约时间[单选题]*A.增加树的深度B.增加学习率C.减少数的深度√D.减少树的个数99.（）算法是决策树学习的基本算法，其他多数决策树学习方法都是它的变体[单选题]*A.Find-SB.KNNC.概念D.ID3√100.下列关于集成学习模型中弱学习者的描述错误的是（）[单选题]*A.经常不会过拟合B.通常带有高偏差.所以其并不能解决复杂学习问题C.通常会过拟合√D.通常拥有低方差101.大数据中的小数据可能缺失、冗余、存在垃圾数据，但不影响大数据的可信数据，是大数据的（）的表现形式[单选题]*A.价值涌现B.隐私涌现C.质量涌现√D.安全涌现102.（）是实现数据战略的重要保障[单选题]*A.数据管理B.数据分析C.数据治理√D.数据规划103.基于统计的分词方法为（）o[单选题]*A,正向最大匹配法B.逆向最大匹配法C.最少切分法D.条件随机场√104.下列关于Python程序格式框架的描述错误的是（）[单选题]*A.Python语言不采用严格的缩进来表明程序的格式框架√B.Python单层缩进代码属于之前最邻近的一行非缩进代码，多层缩进代码根据缩进关系决定所属范围C.Python语言的缩进可以采用Tab键实现D.判断、循环、函数等语法形式能够通过缩进包含一批Python代码，进而表达对应的语义105.下列关于Sigmoid函数的说法错误的是（[单选题]*A.存在梯度爆炸的问题√B.不是关于原点对称C.计算exp比较耗时D.存在梯度消失的问题106.（）网络是一种竞争学习型的无监督神经网络，它能将高维输入数据映射到低维空间，同时保持输入数据在高维空间的拓扑结构，即将高维空间中相似的样本点映射到网络输出层中的邻近神经元[单选题]*A.SOM√B.RBFC.ARTD.ELman107.下列Python赋值语句中不合法的是（）[单选题]*A.x=l;y=lB.x=y=lC.x=（y=l）√D.x,y=y,x108.（）不仅可用于多层前馈神经网络，还可用于其他类型的神经网络[单选题]*A.感知机B.神经元C.神经系统D.误差逆传播√109.下列进程中不是HDFS的守护进程的是（）[单选题]*A.SecondaryNameNodeB.DataNodeC.MRAppMasterATamChild√D.NameNode110.（）是数据库管理系统运行的基本工作单位[单选题]*A.事务√B.数据仓库C.数据单元D.数据分析111.Spark可以处理的数据任务包括（[单选题]*A.数据流处理B.交互式处理C.图数据处理D以上都是√112.从网络的原理上来看，结构最复杂的神经网络是（）o[单选题]*A.卷积神经网络B.长短时记忆神经网络√C.GRUD.BP神经网络113.下列不属于Transformation操作的是（）o[单选题]*A.mapB.filterC.sampleD.count√114.CNN神经网络对图像特征提取带来了变革性的变化，使之前的人工特征提取升级到数据驱动的自动特征提取，在CNN中，起到特征提取作用的网络层是（）o[单选题]*A,卷积层√B.全连接层C.池化层D,采样层115.对于一个分类任务，如果开始时神经网络的权重不是随机赋值的，而是都设成0,则下列叙述正确的是（）o[单选题]*A.没有问题，神经网络会正常开始训练B.神经网络可以训练，但是所有的神经元最后都会变成识别同样的东西√C.神经网络不会开始训练，因为没有梯度改变D.以上选项都不对116.决策树的父节点和子节点的嫡的大小关系是（）[单选题]*A.父节点的炳更小B.子节点的矯更小√C.两者相等D.根据具体情况而定117.二维图像可用二维函数表示，则下列说法正确的是（）o[单选题]*A.二维函数值表示点的灰度值√B.对于模拟图像来讲，二维函数是离散函数C.（x,y）不是平面的二维坐标D.以上都不对118.输入图像为32x32,经过步长为1、不进行padding.卷积核为5x5的卷积层后,得到的特征图尺寸是（）o[单选题]*A.28x28√B.27x27C.29x29D.32x32119.（）的主要目标是提供可扩展的机器学习算法及其实现，旨在帮助开发人员更加方便快捷地创建智能应用程序[单选题]*A.Mahout√B.FlumeC.SqoopD.HBase120.下列关于数据的描述错误的是（）[单选题]*A.数据化与数字化是两个不同概念B.数据与数值是一个概念√C.大数据与海量数据是两个不同的概念D.数据和信息是两个不同的概念121.下列关于HDFS特征的说法错误的是（）o[单选题]*A,支持超大文件B.基于商用硬件C.流式数据访问D.低吞吐量√122.Spark中引入RDD概念的目的是（）o[单选题]*A.数据存储B.数据查重C.提升容错能力√D.增强数据一致性123.随机森林与Bagging中基学习器多样性的区别是（[单选题]*A.都来自样本扰动B.都来自属性扰动C.来自样本扰动和属性扰动√D.多样本集结合124.对于一个图像识别问题（在一张照片里找出一只猫），（）可以更好地解决这个问题[单选题]*A.循环神经网络B.感知机C.多层感知机D.卷积神经网络√125.随机森林是（））上的一个扩展变体[单选题]*A.BoostingB.AdasBoostC.RFD.Bagging√126.TF-IDF中的TF是指（）[单选题]*A.某个词在文档中出现的次数B.文章的总次数C.某个词在文档中出现的次数/文章的总次数√D.以上都不对127.（）不是神经网络的代表[单选题]*A,卷积神经网络B.递归神经网络C.残差网络D.xgboost算法√128.下列关于描述性分析与探索性分析的描述正确的是（）[单选题]*A.描述性分析是相对于验证性分析的一种提法B.探索性分析是验证性分析的基础C.探索性分析是相对于验证性分析的一种提法√D.探索性分析是数据分析的第一步129.多分类图像识别任务常采用（）作为输出的编码方式[单选题]*A.二进制编码B.one-hot编码√C.霍夫曼编码D.曼彻斯特编码130.（）算法可以较好地避免样本的不平衡问题[单选题]*A.KNN√B.SVMC.BayesD.神经网络131.下列关于SOM神经网络的描述错误的是（）0[单选题]*A.一种竞争学习型的无监督神经网络B.将高维输入数据映射到低维空间，保持输入数据在高维空间的拓扑结构C.SOM寻优目标为每个输出神经元找到合适的权重√D.输出层神经元以矩阵方式排列在二维空间132.type（1e6）的结果为（）[单选题]*A.<class'int'>B.<class'float'>√C.<class'complex'>D.<class'bool'>133.a=[[l.,2.,1.],[1.,2.,1.]],a+3的值为（）[单选题]*A.[[l,2,1],[4,5,4]]B.[[4,5,4],[4,5,4]]C.[[4,5,4],[l,2,1]]D.以上都不对√134.绝对多数投票法的基本思想是（）[单选题]*A.对于若干和弱学习器的输出进行平均得到最终的预测输出B.少数服从多数.数量最多的类别为最终的分类类别C.不光要求获得最高票.还要求票过半数√D.将训练集弱学习器的学习结果作为输入.将训练集的输出作为输出.重新训练一个学习器来得到最终结果135.（）认为，大数据时代的数据管理目标不一定理想和完美，一致性、可用性和分区容错性中的任何两个特征的保证（争取）可能导致另一个特征的损失（放弃）[单选题]*A.CAP理论√B.BASE原则C.数据一致性理论D.大数据法则136.假设拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型，训练所用的数据集由汽车和卡车的照片构成，而训练目标是检测出每种车辆的名称（车辆共有10种类型）。现在想要使用这个模型来解决另外一个问题，问题数据集中仅包含一种车（福特野马）而目标变为定位车辆在照片中的位置，则应采取的方法是（）o[单选题]*A.除去神经网络中的最后一层，冻结所有层然后重新训练B.对神经网络中的最后几层进行微调，同时将最后一层（分类层）更改为回归层√C.使用新的数据集重新训练模型D.所有答案均不对137.Spark中Stage下Task的数量由（）决定[单选题]*A.Partition√B.JobC.StageD.TaskScheduler138.下列算法中不属于外推法的是（）[单选题]*A.移动平均法B.回归分析法√C.指数平滑法D.季节指数法139.词袋模型、TF-IDF.Word2vec等模型都有的作用是（）[单选题]*A.文本情感分析B.文本特征向量化√C.文本特征离散化D.文本特征分布式140.决策树中的叶节点对应于决策树结果，其他节点对应于（）[单选题]*A.属性测试√B.学习测试C.学习测试D.分类测试141.构造了一个词表：｛1.小明2.喜欢3.踢4.看5.足球6.篮球7.电影｝,利用上述词表的索引号，文档｛小明喜欢踢足球｝可以用一个7维向量表示为（）o[单选题]*A.[1101001]B.[1111111]C.[1111100]D.[1110100]√142.对一幅100x100像素的图像，若像元用8bit表示灰度值，霍夫曼编码压缩后的图像数据量为40000bit,则图像压缩比例为（）o[单选题]*A.2:1√B.3：1C.4：1D.1：2143.（）是从（多条）信息中发现的共性规律、模式、模型、理论、方法[单选题]*A.信息B.数据C.知识√D.智慧144.高通滤波后的图像通常较暗，为改善这种情况，将高通滤波器的转移函数加上一常数量以便引入一些低频分量。这样滤波器叫（）o[单选题]*A.巴特沃斯高通滤波器B.高频提升滤波器√C.高频加强滤波器D.理想高通滤波器145.数据变换的策略包括（）[单选题]*A.平滑处理、特征构造、聚集、标准化、离散化√B.平滑处理、特征构造、聚集、审计、离散化C.平滑处理、聚集、标准化、审计、离散化D.特征构造、聚集、标准化、审计、离散化146.随机森林中的随机是指（）[单选题]*A.随便构建树模B.随机选择一个树模型C.随机选择多个树模型D.在构建每个树模型时随机选择样本和特征√147.（）用于对RDD中的数据进行计算[单选题]*A.分区B.算子√C.日志D.数据块148.下列关于图像分割的说法正确的是（）o[单选题]*A.图像分割是对图像中的每个像素加标签的一个过程B.对像素加标签会使具有相同标签的像素具有某种共同视觉特性C.在电网的应用中，我们主要用来进行细粒度分析D.以上都对√149.（）用于将非线性引入神经网络，它会将值缩小到较小的范围内[单选题]*A.损失函数B.优化函数C.激活函数√D.目标函数150.输入图像为37x37,经过第一层卷积（thenumberoffiltersF=25,kemelsize=5x5,paddingsvalid,stride=l）与池化层maxpooling（kernelsize=3x3,padding=valid）,输出特征图大小为（）o[单选题]*A,10x10B.11x11√C.12x12D.13x13151.下列选项是数值数据类型（即可用于算术表达式）的有（[多选题]*A.Oxff√B.99√C.122√D.”1002”152.下列关于字典的遍历的描述正确的有（）[多选题]*A.forin变量i,字典：使用i遍历所有的键，有键就可以通过变量访问其值B.for变量iin字典：使用i遍历所有的键，有键就可以通过变量访问其值√C.for变量i,变量jin字典items）：使用变量i遍历所有键，通过变量j遍历所有值√D.forin变量i,变量j字典items）：使用变量i遍历所有键，通过变量j遍历所有值153.预剪枝使得决策树的很多分子都没有展开，则会导致的结果有（）o[多选题]*A.显著减少训练时间开销√B.显著减少测试时间开销√C.降低过拟合风险√D.提高欠拟合风险√154.数据增值存在的过程有（）。[多选题]*A.数据对象的封装√B.数据系统的研发√C.数据的集成应用√D.基于数据的创新√155.字符串的格式化可以使用（）[多选题]*A.%√B.format√C.inputD.+156.可视分析学是一门以可视交互为基础，综合运用（）等技术等多个学科领域的知识，以实现人机协同完成可视化任务为主要目的的分析推理学科。[多选题]*A.物理学B.图形学√C.数据挖掘√D.人机交互√157.常见的原型聚类算法包括（）[多选题]*A.K均值算法√B.学习向量量化√C.高斯混合聚类√D.密度聚类158.下列关于RNN、LSTM、GRU的说法正确的有（）。[多选题]*A.RNN引入了循环的概念√B.LSTM可以防止梯度消失或者爆炸√C.GRU是LSTM的变体√D.RNN、LSTM、GRU是同一神经网络的不同说法，没有区别159.下列属于字符串匹配的分词方法的有（）o[多选题]*A.正向最大匹配法（由左到右的方向）√B.逆向最大匹配法（由右到左的方向）√C.最少切分法（使每一句中切出的词数最小）√D.双向最大匹配法（进行由左到右、由右到左两次扫描）√160.决策树的划分选择有（）[多选题]*A.增益系数B.信息增益√C.增益率√D.基尼系数√E.信息增益量161.下列关于Python组合数据类型的描述正确的有（）[多选题]*A.Python的str、tuple和list类型都属于序列类型√B.Python组合数据类型能够将多个同类型或不同类型的数据组织起来，通过单一的表示使数据操作更有序更容易√C.组合数据类型可以分为序列类型、集合类型和映射类型3类√D.序列类型是二维元素向量，元素之间存在先后关系，通过序号访问162.可视分析学的特点包含（）。[多选题]*A.强调数据到知识的转换过程√B.强调可视化分析与自动化建模之间的相互作用√C.强调数据映射和数据挖掘的重要性√D.强调数据加工（DataWrangling或DataMunging）工作的必要性√E.强调人机交互的重要性√163.下列关于函数的递归调用的描述正确的有（）o[多选题]*A.必须有一个明确的结束条件√B.每次进入更深一层递归时，问题规模相比上次递归都应有所减少√C.递归调用效率不高，递归层次过多会导致栈溢出。在计算机中，函数调用是通过栈（stack）这种数据结构实现的，每当进入一个函数调用，栈就会加一层栈帧，每当函数返回，栈就会减一层栈帧√D.由于栈的大小不是无限的，所以，递归调用的次数过多，会导致栈溢出√164.大数据处理流程可以概括为（）。[多选题]*A.数据分析与挖掘√B.数据采集√C.数据储存√D.结果展示√165.决策树在（）情况下会导致递归返回。[多选题]*A.当前节点包含的样本全属于同一类√B.当前属性集为空√C.当前节点包含的样本集合为空√D.所有样本在所有属性上取值相同√166.下列关于极大似然估计的说法正确的有（）o[多选题]*A.MLE可能并不存在√B.MLE总是存在C.如果MLE存在，那么它的解可能不是唯一的√D.如果MLE存在，那么它的解一定是唯一的167.Spark组件包含（）两个算子。[多选题]*A.MapB.Action√C.Transformation√D.Reduce168.下列关于现阶段大数据技术体系的说法正确的有（）。[多选题]*A.基础设施提供数据计算、数据存储、数据加工（DataWrangling或DataMunging）等服务√B.数据流处理、统计工具、日志分析都属于常用的开源工具√C.数据资源代表的是生成数据的机构√D.数据源与App为数据科学和大数据产业生态系统提供数据内容√169.SparkRDD的依赖机制包括（）。[多选题]*A.宽依赖√B.深度依赖C.广度依赖）oD.窄依赖√170.Spark的基本流程主要涉及（）。[多选题]*A.DriverProgram√B.ClusterManager√C.WorkerNode）等角色。√D.Executor√171.常用分词方法包含（）[多选题]*A.基于Binarytree的分词方法B.基于HMM的分词方法B.基于HMM的分词方法√C.基于CRF的分词方法√D.基于K-means的分词方法172.Spark比MapReduce计算快的原因有（）。[多选题]*A.基于内存的计算√B.基于DAG的调度框架√C.基于Lineage的容错机制D.基于分布式计算的框架√D.基于分布式计算的框架173.可作为决策树选择划分属性的参数有（）[多选题]*A.信息增益√B.信息增益率√C.基尼指数√D.密度函数174.区块链是（）等计算机技术的新型应用模式。[多选题]*A.分布式数据存储√B.点对点传输√C.共识机制√D.加密算法√175.Spark的技术架构可以分为（）。[多选题]*A.资源管理层√B.Spark核心层√C.应用层D.服务层√176.基于核的机器学习算法有（[多选题]*A.最大期望算法B.径向基核函数√C.线性判别分析法√D.支持向量机√177.下列属于CNN关键层的有（）o[多选题]*A.输入层√B.卷积层√C.激活层√D.池化层√178.情感分析的途径有（）[多选题]*A.关键词识别√B.词汇关联√C.统计方法√D.概念级技术√179.Spark提交工作的方式有（）。[多选题]*A.Client√B.Cluster√C.Standalone）oD.YARN180.Spark容错性的方式有（[多选题]*A.数据检查点√B.存储原始数据C.记录数据的更新）o√D.自建数据版本181.大数据平台的计算组件主要有（）。[多选题]*A.Storm√B.Spark√C.MapReduce√D.Sqoop182.大数据参考架构的三个层次包含（）。[多选题]*A.角色√B.活动√C.逻辑构件D.功能组件√183.决策树递归返回的条件有（）o[多选题]*A.训练数据集使用完B,所有的类标签完全相同√C.特征用完√D.遇到丢失值184.下列现象属于乘性噪声有（）[多选题]*A.电视光栅的退化√B.二值图像上的椒盐噪声C.信道传输受扰D.胶片材料的退化√185.分布式列式存储的功能有（）。[多选题]*A.支持在线快速读写√B.支持线性扩展√C.具备节点监控管理√D.数据同源不压缩186.常见的聚类性能度量外部指标有（）o[多选题]*A.Jaccard系数√B.DB指数C.FM指数√D.以上答案都正确187.下列描述属于传统循环神经网络的性质有（）o[多选题]*A.上一时刻的网络状态信息将会作用于下一时刻的网络状态√B.并行处理序列中的所有信息C.容易梯度爆炸/消失√D.易于搭建188.下列方法属于词语情感分析的有（）o[多选题]*A.基于网络的分析方法√B.基于word-embedding的分析方法C.基于词典的分析方法√D.基于词频的分析方法189.下列关于Python中的for语句的描述正确的有（）。[多选题]*A.Python中for语句只有一种写法：forin√B.for语句可以用break终止当前循环，重新进入循环&C.continue语句可以跳过循环的当前一步√D.for语句可以有else部分√190.下列可以用来构造神经网络的算法有（）o[多选题]*A.KNNB.线性回归√C.逻辑回归√191.Spark支持的计算模型有（[多选题]*A.批处理√B.实时计算√C.机器学习模型√D.交互式查询√192.算法“歧视”现象可能出现的过程有（）。[多选题]*A.算法设计√B.算法实现√C.算法投入使用√D.算法验证193.下列关于密度聚类的说法错误的有（）o[多选题]*A.DBSCAN是一种著名的密度聚类算法B.密度聚类从样本数量的角度来考察样本之间的可连接性√C.密度聚类基于不可连接样本不断扩展聚类簇，以获得最终的聚类结果√D.密度直达关系通常满足对称性√194.下列关于决策树的优点的描述正确的有（）o[多选题]*A.可读性强√B,分类速度快√C.只用于回归问题D.是无监督学习195.下列关于Spark中RDD的描述正确的有（）。[多选题]*A.RDD（ResilientDistributedDataset）叫作弹性分布式数据集.是Spark中最基本的数据抽象√B.Resilient：表示弹性的√C.Destributed：分布式.可以并行在集群计算√D.Dataset：就是一个集合.用于存放数据√196.Spark的部署模式包括（）。[多选题]*A.本地模式√B.Standalone模式√C.SparkonYARN模式√D.SparkonMesos模式√197.下列不属于聚类性能度量内部指标的有（）o[多选题]*A.DB指数B.Dunn指数C.Jaccard系数√D.FM系数√198.RDD的特征有（）。[多选题]*A.可容错性√B.简洁性C.并行数据结构√D.结构化199.情感分析的应用场景有（）[多选题]*A.数据挖掘√B.信息检索√C.文本分词D.市场营销√200.下列属于TF-IDF的应用有（）[多选题]*A.搜索引擎√B.关键词提取√C.文本相似性√D.数据降维1.常见的数据的类型包括（）.[多选题]*A.文本√B.图片√C.模型D.音频√E.视频√2.更适应大数据时代的数据库类型是（）.[单选题]*A.层次数据库B.网状数据库C.关系型数据库D.NoSQL数据库√3.目前主流的数据库是（）[单选题]*A.层次数据库B.网状数据库C.关系型数据库√D.NoSQL数据库3.关于数据的使用和管理，下面正确的是（）[多选题]*A.想要使用数据，必须先进行数据清洗，将数据变成一个可用的状态√B.有些初始数据的质量不高，比如数据缺失、语意模糊，因此需要数据清洗√C.进行数据管理时，关系型数据库更擅长存储非结构化数据D.现代社会产生的大部分数据实际上是非结构化数据。√4.关于数据分析，下面说法正确的是（）[多选题]*A.数据分析需要借助数据挖掘和机器学习的相关算法√B.数据分析不需要用到大数据处理技术C.数据分析需要构建统计模型√D.利用数据可视化技术可以将数据分析的结果更清晰地展示√5.数据爆炸的时代对科学研究提出的挑战包括下面哪些（）。[多选题]*A.需要更低成本的、能更快响应的大规模分布式存储√B.需要更加及时的大数据处理能力√C.需要更多的数据用于数据价值的挖掘D.需要更加高效的数据分析工具√6.数据增速越来越快的原因在于?（）[多选题]*A.接入网络的设备越来越多√B.单条数据的所携带的信息也越来越多C.用户越来越积极地参与到主动生产内容和数据的环节√D.物联网中的设备源源不断产生数据√7第三次信息化浪潮的到来的标志是（）[单选题]*A.个人计算机的普及B.互联网的普及和发展C.人工智能时代的到来D.云计算、大数据、物联网的快速发展√8.华大基因公司2017年产出的数据达到1EB(艾字节)。那么1个EB的容量大约相当于多少部蓝光电影(以每部蓝光电影50G计算)（）[单选题]*A.二十亿(2·109)部B.两亿(2·108)部C.两千万(2·107)部√D.两百万(2·106)部答案解析：1EB约等于1,000PB，即1,000,000TB即1,000,000,000GB。9.信息科技为大数据时代提供了哪些支持（）[多选题]*A.同等价格下存储设备的性能和容量提升√B.同等价格下CPU处理性能的增加√C.同等价格下网络带宽的不断增加√D.同等价格下计算设备的逐渐微型化10.人类社会经历的数据产生方式的阶段包括（）[多选题]*A.运营式系统阶段√B.用户原创内容阶段√C.感知式系统阶段√D.智能式数据产生阶段11.关于大型超市销售、银行交易、股市交易等系统，下面说法正确的是（）[多选题]*A.这些系统通常是基于数据库存储数据的√B.这些系统中数据的产生和记录通常只发生在实际企业业务发生时√C.这些系统产生的通常是非结构化数据D.这些系统产生数据的方式属于运营式系统阶段√12.大数据的特点包括（）[多选题]*A.数据量大√B.数据类型繁多√C.处理速度快√D.价值密度低√13.下列说法正确的是（）[单选题]*A.有价值的数据是附属于企业经营核心业务的一部分数据;B.数据挖掘它的主要价值后就没有必要再进行分析了;C.所有真实数据都是有价值的;√D.在大数据时代，收集、存储和分析数据非常简单;14.A理论科学;B实验科学;C数据密集型科学;D计算科学;科学研究经历的4种范式依次是______、______、______、______（填入上面的选项）[填空题]*空1答案：B空2答案：A空3答案：D空4答案：C15.大数据对社会发展的影响包括以下哪些（）[多选题]*A.大数据使得IT资源的获取更加容易，促进了社会的数字化转型B.大数据决策逐渐成为一种新的决策方式√C.大数据成为提升国家治理能力的新途径√D.大数据应用有力促进了信息技术与各行业的深度融合√E.大数据开发大大推动了新技术和新应用的不断涌现√F.大数据技术使得社会上各类数据的来源更加丰富15.关于大数据说法正确的是（）[单选题]*A.有价值的数据是附属于企业经营核心业务的一部分数据;B.数据挖掘它的主要价值后就没有必要再进行分析了;C.所有真实数据都是有价值的;√D.在大数据时代，收集、存储和分析数据非常简单;16.大数据人才整体上需要具备（）等核心知识。[多选题]*A.数学与统计知识√B.计算机相关知识√C.马克思主义哲学知识D.市场运营管理知识E.在特定业务领域的知识√17.传统数据密集型行业积极探索和布局大数据应用的表现是（）。[多选题]*A.投资入股互联网电商行业B.打通多源跨域数据√C.提高分析挖掘能力√D.自行开发数据产品E.实现科学决策与运营√18.大数据产业之中，数据管理层面的企业或单位主要是指（）[单选题]*A.大数据生态圈里的数据提供者B.提供数据抽取、转换、存储和管理等服务的各类企业或产品√C.提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品D.提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品19.下列关于数据生命周期管理的核心认识中，正确的是（）。[多选题]*A.数据从产生到被删除销毁的过程中，具有多个不同的数据存在阶段√B:在不同的数据存在阶段，数据的价值是不同的√C.根据数据价值的不同应该对数据采取不同的管理策略√D.数据生命周期管理旨在产生效益的同时，降低生产成本E.数据生命周期管理最终关注的是社会效益20.智慧城市的构建，不包含（）[单选题]*A.数字城市B.物联网C.联网监控√D.云计算21.关于云计算的说法，正确的包括（）[多选题]*A.云计算是一种超大规模计算√B.云计算能够提供可扩展的计算能力√C.云计算经常用到虚拟化技术,使得一台物理主机同时为多名用户提供安全的计算机资源√D.云计算能够降低企业建设信息化系统的成本√22.云计算的服务模式包括（）[多选题]*A.基础设置即服务√B.硬件即服务C.平台即服务√D.软件即服务√23.云计算的时代，各种数据和应用并非在“天上云端”，而是位于______[填空题]*空1答案：数据中心24.以下属于软件即服务的场景为（）[多选题]*A.小明是一个程序员，他租用了一台阿里云的“云服务器”来进行网站开发B.小张也是一个程序员，他利用某企业的快速建站服务迅速搭建了自己的在线博客C.小红还是一个程序员，他用“腾讯会议”和同事开会√D.小刚不是程序员，他用某企业的“云游戏”软件在手机上畅玩各种电脑端的重量级游戏√25.数据中心的特点是（）[多选题]*A.耗电√B.发热量大√C.计算资源满负荷运行D.需要大量人员实地维护26.A网络层;B处理层;C感知层;D应用层;物联网的层次架构由低到高分别为______、______、______、______（填入上面的选项）[填空题]*空1答案：C空2答案：A空3答案：B空4答案：D27.物联网的关键技术包括（）[多选题]*A.识别和感知技术√B.网络与通信技术√C.数据挖掘与融合技术D.数据可视化技术√28.人工智能涉及的学科包括（）[多选题]*A.计算机学√B.心理学√C.物理学D.哲学√29.以下哪些场景是应用的人工智能（）[多选题]*A.用“百度翻译”翻译论文√B.交通摄像头捕捉车辆违章信息√C.能保证道路安全的自动驾驶√D.“抖音”推送你可能喜欢的视频√30.下列选项中，不属于生物特征识别技术的是（）[单选题]*A.步态识别B.声纹识别C.文本识别√D.虹膜识别32.关于机器学习，说法正确的是（）[多选题]*A.机器学习是人工智能技术的核心√B.利用机器学习无法对未知的数据进行预测C.机器学习的利用算法构建模型√D.机器学习的模型需要训练很多遍，才能优化算法调整模型，逐步提高性能√E.机器学习训练模型需要用到大量数据√33.关于大数据和人工智能，下面说法正确的是（）[多选题]*A.人工智能需要数据来建立其智能，特别是机器学习√B.大数据技术为人工智能提供了强大的存储能力和计算能力√C.人工智能运算目的在于“做出反应”，大数据技术的运算只在于“得出结果”√D.大数据偏向于“分析数据”，人工智能偏向于“代替人类”√34.关于大数据和云计算，下面说法正确的是（）[多选题]*A.云计算概念的提出比大数据早√B.早期的大数据技术实际上是云计算的一个方面，只是后来才从云计算分离出来√C.现在的云计算侧重的是“廉价地提供IT资源”√D.现在的大数据侧重的是“对海量数据的存储、处理和分析”√35.关于大数据和物联网，下面说法正确的是（）[多选题]*A.物联网中产生的数据是大数据的重要来源√B.物联网的实际应用中依靠大数据技术进行数据的存储、处理和分析√C.物联网的发展是导致数据产生方式变革的重要原因√D.随着大数据技术的发展，物联网能够应用的的场景也越来越多√36.通过数据我们可以记录事物的性质、状态以及相互关系等[判断题]*对√错37.数据一旦创建就不应被修改，否则有损其真实性[判断题]*对√错38.随着数据的不断被使用，其利用价值也在逐渐变低[判断题]*对错√39数据很重要，甚至可以用来出售赚钱[判断题]*对√错40.人工智能产业既包括软件业也包括硬件制造[判断题]*对√错1.大数据技术中，最先进行的一步是（）.[单选题]*A.数据预处理B.数据采集√C.数据分析D.数据处理2.数据采集的三大要点包括（）.[多选题]*A.采集的数据量要足够大、数据要足够全面，从而支撑分析√B.采集的数据应具备满足分析的多种属性和不同类型√C.采集的数据应该务必准确、完备，不能有缺失值或无效值D.采集数据时应该有目的地进行，根据分析的需求进行采集，以便提升效率√3.数据从结构上划分，可以划分为（）[多选题]*A.异构化数据B.结构化数据√C.半结构化数据√D.非结构化数据√4.数据清洗是大数据技术中的哪一步要完成的任务（）[单选题]*A.数据预处理√B.数据采集C.数据分析D.数据处理5.大数据采集的特点包括（）[多选题]*A.数据来源非常广泛√B.数据处理非常快速C.数据数据类型非常丰富√D.数据存储用量非常大，需要进行分布式存储√6.数据采集的数据源包括以下哪些（）。[多选题]*A.气象站的风力传感器√B.淘宝的商品数据√C.商品销售系统运行的日志文件√D.银行存储业务数据的数据库√7.关于数据清洗，说法错误的是（）[多选题]*A.数据清洗是指删除掉采集的数据中的“脏数据”√B.残缺数据、错误数据都需要被清洗C.如果数据中，关于体重的信息，出现了负数，说明该数据需要被清洗D.如果数据中缺失某些信息，则这些缺失数据可以不加处理√8.数据采集回来后，发现有一列数据总是错误的值，而且这一列数据对后续分析影响不大，这时候对这些错误的值，适合采用（）方法处理[单选题]*A.估算B.整例删除C.变量删除√D.成对删除9.假设一组数据采集回来后如上图。发现“印度”这一数据样本总有是错误或缺失值，而且这一行数据对后续分析影响不大，这时候对这些错误的值，适合采用（）方法处理[单选题]*A.估算B.整例删除√C.变量删除D.成对删除10.传统的数据存储和管理技术包括（）[多选题]*A.文件系统√B.关系型数据库√C.数据仓库√D.分布式数据库E.并行数据库√11.以下哪些数据库是关系型数据库（）[多选题]*A.HDFSB.MySQL√C.Oracle√D.Spanner12.银行转账或扣款涉及到2个账户的金额变化操作，这两个操作分别为①转出的账户减少金额②转入的账户增加金额。从数据库的角度讲，这两个操作形成了一个事务。假设老王账户A有足够余额，如果他向账户B转账时，在数据库减少了账户A金额后、还未增加账户B金额前，恰巧银行系统全部停电宕机。系统恢复后，老王发现并未出现账户A减少金额同时账户B未增加金额的情况。那么这体现了关系型数据库事务的（）特点[多选题]*A.原子性√B.一致性√C.隔离性D.持久性13.关于数据仓库说法正确的是（）[多选题]*A.数据仓库的体量通常比业务数据库更大√B.数据仓库中的数据需要及时更新修改C.数据仓库中保存业务数据库的历史记录√D.数据仓库通常需要对源数据库中的数据进行抽取加工后再存放√14.并行数据库的缺点在于（）[多选题]*A.将过大的表拆分开，不利于查询;B.向集群加入新的节点代价太高;√C.一台节点死机会导致整个查询失败;√D.并不能提升数据库性能;15.NoSQL数据库的特点在于（）[多选题]*A.扩展容易√B.数据约束少，灵活C.支持数据库事务的ACID特性√D.和云计算结合紧密√16.关于分布式文件系统，说法正确的是（）[多选题]*A.该系统由多台主机组成√B.主机之间通过网络连接√C.典型产品是HDFS√D.一般采用“客户端/服务器”模式对分布式文件系统进行访问√17.生物领域通过大数据技术，对数以万计的猫咪图片进行分析，将相似的猫咪分为不同的类，用以发现新品种的猫咪。这用到了机器学习算法中的（）[单选题]*A.分类算法B.聚类算法√C.回归分析算法D.关联规则算法18.银行通过大数据技术，对客户存款、交易、征信等数据进行分析，给将不同用户智能分配了不同的信用卡等级，这用到了机器学习算法中的（）[单选题]*A.分类算法√B.聚类算法C.回归分析算法D.关联规则算法19.淘宝通过大数据技术，对历年的双十一数据进行分析，预测明年的双十一销售数据，这用到了机器学习算法中的（）[单选题]*A.分类算法B.聚类算法C.回归分析算法√D.关联规则算法20.电信行业，基于文本内容的垃圾短信识别能够将短信自动识别区分为“正常短信”和“垃圾短信”，这是用到了机器学习算法中的（）[单选题]*A.分类算法√B.聚类算法C.回归分析算法D.关联规则算法21.A.批处理计算;B.流计算;C.图计算D.查询分析计算。大数据处理技术中，Storm、Flume等产品进行的计算模式为______;MapReduce、Spark等产品进行的计算模式为______;Hive、Cassandra等产品进行的计算模式为______（填入上面的选项）[填空题]*空1答案：B空2答案：A空3答案：D22.针对动态数据进行的实时计算，属于大数据计算模式中的（）[单选题]*A.批处理计算B.流计算√C.图计算D.查询分析计算23.针对超大规模数据的存储管理和查询，属于大数据计算模式中的（）[单选题]*A.批处理计算B.流计算C.图计算D.查询分析计算√24.关于数据可视化，下面说法错误的是（）[单选题]*A.数据可视化就是将数据用图形图像表示出来√B.数据可视化能帮助人类理解数据C.数据可视化让用户以更多的角度看待数据D.数据可视化过程中，也存着对数据的分析25.在进入QQ时，需要进行“登录”操作，用户需输入正确用户名和密码，才能访问软件中的数据。这实际上是一种数据安全技术，具体来说是下面的（）技术[单选题]*A.访问控制技术B.入侵检测技术C.加密技术√D.身份认证技术26.i鄂院APP中，为了数据隐私的保护，同学登录和老师登录看到的信息不同，这实际上是运用了下面的（）技术[单选题]*A.访问控制技术√B.入侵检测技术C.加密技术D.身份认证技术27.大数据时代的数据存储架构，数据库由原来的关系型数据库架构变为了NewSQL、NoSQL的数据库架构[判断题]*对错√28.分类算法和聚类算法的区别在于聚类算法提前不知道有哪些分类，只能通过样本之间的相似度进行分类[判断题]*对√错29.数据的使用中，应当对用户信息进行保护，但对于存储在数据库中待销毁的数据，已经没有保护的意义[判断题]*对错√30.NewSQL和NoSQL的区别是NoSQL仍然支持传统数据库的事物ACID特性[判断题]*对错√31.大数据时代下，主机集群的水平扩展比纵向扩展的性价比更高[判断题]*对√错1.关于电商领域的推荐系统，下面说法正确的是（）.[多选题]*A.能主动为用户提供其可能感兴趣的商品√B.能让没人买的低质量产品也能销售出去C.给每个人推荐的商品都一样D.长尾商品的市场份额也很大√2.推荐方法包括（）.[多选题]*A.专家推荐√B.基于统计的推荐√C.基于内容的推荐√D.协同过滤推荐√E.混合推荐√3.关于基于内容的推荐和协同过滤推荐，下面说法正确的是（）[多选题]*A.他们都是常见的推荐算法√B.协同过滤推荐优于基于内容的推荐C.协同过滤推荐会推荐用户买过的相似商品D.协同过滤推荐会推荐相似用户所喜欢的商品√4.关于推荐系统，下面说法错误的是（）[多选题]*A.推荐系统需要用户主动提供需求√B.推荐系统更多的是基于用户的历史行为进行推荐C.推荐系统使得我们的视野更加开阔√D.推荐系统可能导致“信息茧房”答案解析：“信息茧房”概念是由美国学者凯斯·桑斯坦在其2006年出版的著作《信息乌托邦》中提出的，指主动或被动地关注自己感兴趣的信息，久而久之形成信息的壁垒，人们就会将自身桎梏像蚕茧一般的“茧房”，即形成“信息茧房”。用户一旦形成阅读习惯，就会被自己的兴趣限定于特定领域，对其他问题和知识缺乏关注，使人们的注意力及兴趣在较小的范围内，随着时间的推移对外界的信息接收越小，人们对现实生活的认识变得越模糊。5.推荐系统模型分为（）[多选题]*A.用户建模模块√B.商品模块C.推荐对象建模模块√D.推荐算法模块√6.推荐系统可分为A离线计算部分，B实时计算部分。二者中能快速响应需求，推荐准确度较低的是______;计算数据量大、算法复杂、更花费时间，但推荐更加准确的是______。[填空题]*空1答案：B空2答案：A7.抖音APP能够推送用户可能喜欢看的视频，是因为它使用了（）[多选题]*A.云计算技术B.大数据技术√C.预测系统D.推荐系统√8.在抗击新冠疫情中，大数据技术可能用到哪些方面（）。[多选题]*A.流行病预测√B.疑似感染者的主动筛查√C.进行智慧医疗√D.生物信息学√答案解析：A选项对。用电信大数据对人员返城流动情况、城市企业复工复产相关情况，地区物资资源情况进行分析，从而预测疫情事态;B选项对;C选项对，医疗资源不发达地区的疫情感染者可以利用远程协助的智慧医疗手段进行治疗;D选项对，正对病毒的基因测序分析能够帮助研发新冠治疗药物。9.大数据时代的流感预测相比传统流感预测方式（）[多选题]*A.更准确B.更快速√C.更容易追踪判断疫区√D.更容易判断群众感染风险√10.智慧医疗可以（）[多选题]*A.让病人提前预约挂号、缴费√B.让医疗不发达的地区也能共享好的医疗资源√C.让病人转院更方便，避免重复检查√D.能实时监测人的体征状况并给出建议√11.以下哪项不属于生物信息学的作用（）[多选题]*A.分析致病基因有哪些B.预测个体将来可能患有的疾病C.帮助构建智能化医疗√D.辅助实现远程医疗√12.物流领域发展有3个阶段:A信息化;B网络化;C自动化。这3个阶段的顺序依次为______、______、______[填空题]*空1答案：C空2答案：A空3答案：B13.物流领域使用大数据技术的作用是（）[多选题]*A.降低物流成本和提高物流效率√B.提高物流的信息化和智能化水平√C.减少货物制造成本D.提高物流活动的一体化√14.城市管理领域，大数据技术可以用于（）[多选题]*A.智能交通√B.环保监测√C.城市规划√D.城市安防√15.城市规划领域可能用到哪些数据（）[多选题]*A.地理数据√B.上网数据√C.通话内容数据D.车辆定位数据答案解析：通话内容属于隐私不应使用;私家车定位信息同样不应使用，但公共出行的出租车信息可供使用16.金融领域大数据技术运用得当场合包括（）[多选题]*A.信贷风险分析√B.股票证券交易领域√C.市场情绪分析√D.大数据征信√17.大数据征信的优点（）。[多选题]*A.信息来源广√B.整合信息能力强√C.动态性、实时性强√D.无需历史信贷行为记录√18.无人驾驶技术的技术路线包括（）。[多选题]*A.以摄像头为主的视觉优先方案√B.以各种雷达、距离传感器等传感器为主的传感器方案C.以摄像头、毫米波雷达、激光雷达等多传感器融合的方案√D.基于人工智能机器人的方案19.沃尔玛通过大数据分析，了解顾客在其门店的购买习惯，从而合理优化商品排布，让啤酒与尿布摆放在一起使得销量更好。这是大数据在零售领域中（）的应用[单选题]*A.客户群体细分B.供应链管理C.客户价值分析D.发现关联购买行为√20.美国第二大零售超市Target电信行业，记录用户行为，获取海量用户的信息，借助大数据分析技术，识别特定需求的用户来进行精准营销孕妇用品，这是大数据在零售领域中（）的应用[单选题]*A.客户群体细分√B.供应链管理C.客户价值分析D.发现关联购买行为21.餐饮O2O的应用案例包括（）[多选题]*A.小红书app中博主推荐好吃的的门店B.麦当劳通过视频监控自动判断人流量，并进行调整菜单显示，从而减少顾客等待时间√C.快餐企业通过分析营业数据调整门店布局√D.美团分析用户评价后给用户推荐门店和菜品√22.体育娱乐领域，大数据分析可以（）[多选题]*A.帮助训练球队√B.帮助投资人投拍影视作品√C.帮助明星上热搜D.帮助预测比赛结果√23.网络攻击的危害包括（）[多选题]*A.客户个人信息被盗√B.财务信息失窃√C.网络硬件被破坏D.知识产权泄密√24.关于云杀毒，下面说法错误的是（）[单选题]*A.扫描秒病毒、杀毒时，需要将查杀的文件与云端的病毒库进行对比B.扫描秒病毒、杀毒时，需要将查杀的文件与本地的病毒库进行对比C.对新型病毒的防范性高D.对系统性能要求更大√答案解析：云杀毒不仅仅仅依靠对本地的病毒库的比对，同时也将病毒特征码上传，通过大数据技术在云端进行更全面的比较;有新病毒或恶意软件产生，一经客户端上报，云端的病毒库采集病毒就能及时更新，同时下发给各客户端，时效性更好;部分病毒查杀工作放在云端，对用户系统性能要求就更小了。25.大数据对美国总统选举的影响，反映了（）[多选题]*A.大数据技术有可能对人产生负面影响√B.利用大数据影响选举的行为与“民主”相违背√C.大数据技术是一把双刃剑√D.大数据技术需要在合理范围内使用√1.数据安全的威胁包括以下哪些（）.[多选题]*A.计算机病毒√B.黑客攻击√C.网络断开D.硬盘损坏√2.传统的信息安全理论，关注数据作为资料的（）.[多选题]*A.保密性√B.原子性C.可用性√D.完整性√3.大数据成为网络攻击的显著目标的原因在于（）[多选题]*A.大数据联网设备多，容易破坏B.大数据包含大量复杂敏感的数据，是更具吸引力的攻击目标√C.大数据将数据大量聚集，使得黑客一次成功的攻击能够获得更多的数据√D.大数据存储设备性能堪忧4.大数据安全特殊之处在于（）[多选题]*A.大数据成为网络攻击的显著目标√B.大数据加大隐私泄露风险√C.大数据能被应用到攻击手段中√D.大数据成为高级可持续攻击(APT)的载体√5.大数据安全涉及（）[多选题]*A.个人隐私保障√B.社会公共安全√C.环境资源保护D.国家安全维护√6.技术层面，大数据加大隐私泄露风险主要原因是（）[多选题]*A.数据聚在一个大平台中，增加泄露风险√B.数据包含太多敏感信息C.大数据安全技术不够完善D.数据保存的NoSQL数据库安全性不够完善√7.大数据时代的个人隐私包括以下哪些（）[多选题]*A.个人身份√B.银行卡账号√C.使用电子设备的型号√D.网络浏览记录√E.网上发布的评论、点赞√F.就读过的学校√8.大数据成为国家之间博弈的新战场原因在于（）。[多选题]*A.大数据内包含着个人隐私，一旦暴露危害较大B.关系国家安全和利益的数据一旦泄露，危害国家安全√C.大数据蕴含着极高的经济价值，不能随意泄露D.对于数据的跨国流通，若没有掌握数据主权，势必影响国家主权。√9.网络上自媒体发布的内容（）[多选题]*A.及时性高，传播性强√B.容易盲目追求点击而博眼球、刷下限、存在虚假内容√C.容易被境外势力利用，进而影响国内网民的价值观√D.全部都不可信10.哪些是大数据安全的典型案例（）[多选题]*A.棱镜门事件√B.Facebook数据泄露事件√C.手机软件采集必要的个人信息D.智能手环采集人的作息、健康数据帮助健康生活√11.大数据保护原则包括（）[多选题]*A.数据主权原则√B.数据分享原则C.数据自由流通原则√D.数据安全原则√E.数据保护原则√12.形态上划分，数据安全分为（）[多选题]*A.数据存储安全√B.数据传输安全√C.软件系统安全D.硬件数据安全13.关于数据安全原则和数据保护原则，下面说法正确的是（）[单选题]*A.数据安全原则的内容主要从法律角度，数据保护原则主要从技术角度B.数据保护原则确定了数据是人类的共同财产C.数据保护原则，保护数据的真实性和完整性D.数据安全原则主要是对数据的安全存储、安全传输、安全使用等方面进行约束√答案解析：数据保护原则主要是针对数据在在法律意义上的权属定义，像个人财产一样，从法律的角度赋予数据保护14.大数据时代，如何隐私保护隐私（）[多选题]*A.严厉禁止隐私数据的传输流通B.从国家法制层面进行管控√C.从企业端源头进行遏制√D.提高个人意识，应用安全技术√15.机械思维是基于（）的方法论而被后人总结出的[单选题]*A.莱布尼兹B.牛顿√C.哥白尼D.毕加索16.机械思维的内涵和要点主要包

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据基础理论知识考核试题题库及答案

文档简介

温馨提示

最新文档

评论

相关文档