大数据理论考试(习题卷2)

上传人：w*** IP属地：重庆上传时间：2023-11-15 格式：DOCX 页数：78 大小：114.09KB 积分：3.6 举报 版权申诉

已阅读5页，还剩73页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试卷科目：大数据理论考试大数据理论考试(习题卷2)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据理论考试第1部分：单项选择题，共195题，每题只有一个正确答案,多选或少选均不得分。[单选题]1.当构建一个神经网络进行图片的语义分割时，通常采用下面哪种顺序（）。A)先用卷积神经网络处理输入，再用反卷积神经网络得到输出B)先用反卷积神经网络处理输入，再用卷积神经网络得到输出C)不能确[单选题]2.下面对集成学习模型中的弱学习者描述错误的是（）。A)他们经常不会过拟合B)他们通常带有高偏差，所以其并不能解决复杂学习问题C)他们通常会过拟[单选题]3.如果字符串中有*需要匹配，需要输入的正则表达式为（）。A)\*B)\\*C)*D)(*)[单选题]4.在Python中，函数（）。A)不可以嵌套定义B)不可以嵌套调用C)不可以递归调用D)以上答案都不正确[单选题]5.在抽样方法中，当合适的样本容量很难确定时，可以使用的抽样方法是（）。A)有放回的简单随机抽样B)无放回的简单随机抽样C)分层抽样D)渐进抽样[单选题]6.一般将原始业务数据分为多个部分，（）用于模型的构建。A)训练集B)测试集C)验证集D)全部数据[单选题]7.数据科学家可能会同时使用多个算法（模型）进行预测，并且最后把这些算法的结果集成起来进行最后的预测（集成学习），以下对集成学习说法正确的是（）。A)单个模型之间具有高相关性B)单个模型之间具有低相关性C)在集成学习中使用?平均权重?而不是?投票?会比较好D)单个模型都是用的一个算法[单选题]8.以下字符串表示plot线条颜色、点的形状和类型为红色五角星点短虚线的是（）。A)'bs-'B)'go-.'C)'r+-.'D)'r*-.'[单选题]9.不参与Hadoop系统读过程的组件是（）A)flinkB)NameNodeC)DataNodeD)读流程中生成的临时文[单选题]10.Stage的Task的数量由什么决定A)PartitionB)JobC)StageD)TaskSchedule[单选题]11.下面购物篮能够提取的3-项集的最大数量是多少（）ID：购买项1牛奶，啤酒，尿布2面包，黄油，牛奶3牛奶，尿布，饼干4面包，黄油，饼干5啤酒，饼干，尿布6牛奶，尿布，面包，黄油7面包，黄油，尿布8啤酒，尿布9牛奶，尿布，面包，黄油10啤酒，饼干A)1B)2C)3D)4[单选题]12.为了观察测试Y与X之间的线性关系，X是连续变量，使用下列（）比较适合。A)散点图B)柱形图C)直方图D)以上答案都不正[单选题]13.下列对于sigmoid函数的说法，错误的是（）A)存在梯度爆炸的问题B)不是关于原点对称C)计算exp比较耗时D)存在梯度消失的问[单选题]14.select*fromstudent该代码中的*号，表示的正确含义是A)普通的字符*号B)错误信息C)所有的字段名D)模糊查[单选题]15.关于可视分析学，下列说法错误的是（）。A)可视分析学比较典型的模型是D.Keim等（2008年）提出的数据分析模型。B)数据可视化的本质是将数据转换为知识，而不仅仅停留在数据可视化化呈现层次之上。C)可视分析学流程强调可视化分析与自动化建模之间的相互作用。D)数据映射和数据挖掘是数据可视化的两个重要支撑技术。[单选题]16.HBase是一种可伸缩、高可靠、高性能、分布式和面向（）的动态模式数据库。A)列B)行C)行和列D)元组[单选题]17.下面代码的输出结果是（）。Print（0.1+0.2==0.3）A)TrueB)FalseC)trueD)false[单选题]18.由于不同类别的关键词对排序的贡献不同，检索算法一般把查询关键词分为几类，以下哪一类不属于此关键词类型的是（）。A)引用词B)普通关键词C)高频词汇D)扩展关键[单选题]19.（）算法是分类算法。A)DBSCANB)C4.5C)K-MeanD)EM[单选题]20.机器学习中，基于样本分布的距离是以下哪一个（）A)马氏距离B)欧式距离C)曼哈顿距离D)闵可夫斯基距离[单选题]21.Spark的特点不包括（）A)速度快B)通用性C)易用性D)单一操作性[单选题]22.生产者通过（）将对象转换成字节数组发送给Kafka。A)拦截器B)序列化器C)分区器D)反序列化[单选题]23.留出法直接将数据集划分为（）个互斥的集合。A)一B)二C)三D)四[单选题]24.大数据计算服务（MaxCompute，原ODPS）的MapReduce由多个步骤组成，以下（）步骤不是必须的。A)combineB)shuffleC)mapD)reduce[单选题]25.下列哪个组件不属于Hive架构（）A)MySQLB)TaskManagerC)HDFSD)Clien[单选题]26.一个MapReduce程序中的MapTask的个数由什么决定（）A)输入的总文件数B)客户端程序设置的mapTask的个数C)FileInputFormat.getSplits(Jobntextjob)计算出的逻辑切片的数量D)输入的总文件大小/数据块大小[单选题]27.下列关于IPython的说法，错误的是（）。A)IPython集成了交互式Python的很多优点；B)IPython的性能远远优于标准的Python的shell；C)IPython支持变量自动补全，自动收缩；D)与标准的Python相比，IPython缺少内置的功能和函数；[单选题]28.执行下面操作后，list2的值是（）。List1=[4,5,6]List2=list1List1[2]=3A)[4,5,6]B)[4,3,6]C)[4,5,3]D)以上答案都不正确[单选题]29.聚类是一种典型的无监督学习任务，然而在现实聚类任务中我们往往能获得一些额外的监督信息，于是可通过（）来利用监督信息以获得更好的聚类效果。A)监督聚类B)半监督聚类C)聚类D)直推聚类[单选题]30.pynlpir是一种常用的自然语言理解工具包，其中进行分词处理的函数是（）。A)open（）B)segment（）C)AddUserWord（）D)generate（[单选题]31.以下关于DNN说法不正确的是(__)。A)层数多B)抽象能力强C)模拟更复杂模型D)广义上包含CNN，N，SVM等[单选题]32.以下不属于基于图像灰度分布的阈值分割方法的是（）。A)类间最大距离法B)最大类间方差法C)Otsu方法D)区域生长[单选题]33.列表中可以放多少个字符串（）。A)1B)255C)无限个D)由用户自己定义[单选题]34.缓解过拟合的一个办法是允许支持向量机在一些样本上出错，以下哪种形式适合这种方法（）。A)硬间隔支持向量机B)软间隔支持向量机C)线性核函数支持向量机D)多项式核函数支持向量机[单选题]35.为了提高系统性能，Spark采取?惰性计算模式?，具体为（）。A)执行Transformation操作时不会提交，只有执行Action操作时才会被提交到集群中开始被执行B)执行Action操作时不会提交，只有执行Transformation操作时才会被提交到集群中开始被执行C)只有执行完Action操作和Transformation操作时，所有操作才会被提交到集群中开始被执行D)执行完Action操作或Transformation操作时都不会提交到集群[单选题]36.（）的本质是将低层次数据转换为高层次数据的过程。A)数据处理B)数据计算C)数据加工（DataWrangling或DataMunging）D)整齐数据[单选题]37.通常来说，下面哪种方法能够用来预测连续因变量（）A)线性回归B)逻辑回归C)线性回归和逻辑回归D)以上答案都不正确[单选题]38.数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的（）、不可恢复，如数据销毁软件、硬盘消磁机、硬盘粉碎机等。A)暂时隔离B)暂时删除C)永久删除D)不作处理[单选题]39.考虑这么一种情况：一个对象碰巧与另一个对象相对接近，但属于不同的类，因为这两个对象一般不会共享许多近邻，所以应该选择（）的相似度计算方法。A)平方欧几里德距离B)余弦距离C)直接相似度D)共享最近邻[单选题]40.大数据环境下的隐私担忧,主要表现为（）A)人信息的被识别与暴露B)户画像的生成C)意广告的推送D)毒入侵[单选题]41.数据变换的策略包括（）。A)平滑处理、特征构造、聚集、标准化、离散化B)平滑处理、特征构造、聚集、审计、离散化C)平滑处理、特征构造、聚集、审计、离散化D)特征构造、聚集、标准化、审计、离散化[单选题]42.按照姓名降序排列()A)ORDERBYDESCNAMEB)ORDERBYNAMEDESCC)ORDERBYNAMEASCD)ORDERBYASCNAM[单选题]43.有关Hadoop的陈述哪个是错误的（）。A)它运行在通用硬件上；B)它是Apache软件基金会（ASF）下的项目；C)它是最好的实时流式数据处理框架；D)Hadoop对数据的处理是有延迟的；[单选题]44.数据管理成熟度模型--DMM模型将一个机构的数据管理工作抽象成6个关键过程域，即数据战略、（）、数据质量、平台与架构、数据操作以及辅助性过程。A)数据管理B)数据治理C)数据策略D)数据安全[单选题]45.scipy中模块stats的作用是（）。A)统计B)差值计算C)程序输入输出D)稀疏矩阵[单选题]46.以下描述中错误的是（）。A)数据化与数字化是两个不同概念B)数据与数值是一个概念C)大数据与海量数据是两个不同的概念D)数据和信息是两个不同的概[单选题]47.如果需要训练的特征维度成千上万，在高维情形下出现的数据样本稀疏、距离计算困难。我们通过什么方法可以缓解这个问题（）。A)K均值算法B)支持向量机C)降维D)以上答案都不正确[单选题]48.下面哪一项用决策树法训练大量数据集最节约时间（）。A)增加树的深度B)增加学习率C)减少数的深度D)减少树的个[单选题]49.Scipy中计算偏度的函数是哪个（）。A)scipy.stats.skewtest()B)scipy.stats.norm.rvs()C)scipy.stats.kurtosis()D)scipy.stats.poisson.rvs()[单选题]50.以下聚合函数求最大值的是()A)AVGB)SUMC)MAXD)COUN[单选题]51.下面哪种不属于数据预处理的方法？()A)变量代换B)离散化C)聚集D)估计遗漏值[单选题]52.彩色图像增强时，（）处理可以采用RGB。A)直方图均衡化B)同态滤波C)加权均值滤波D)中值滤[单选题]53.PageRank是一个函数,它对Web中的每个网页赋予一个实数值。它的意图在于网页的PageRank越高,那么它就（）。A)相关性越高B)越不重要C)相关性越低D)越重要[单选题]54.关于SecondaryNameNode哪项是正确的（）A)它是NameNode的热备B)它对内存没有要求C)它的目的是帮助NameNode合并编辑日志，减少NameNode的负担和冷启动时的加载时间D)SecondaryNameNode应与NameNode部署到一个节点[单选题]55.下列常用模块功能描述错误的是（）。A)datetime：datetime对象不可将日期对象格式化为可读字符串的方法B)json：JSON(JavaScriptObjectNotation,JS对象标记)是一种轻量级的数据交换格式C)sys：这个模块可供访问由解释器使用或维护的变量和与解释器进行交互的函数D)scipy：应用广泛的科学计算包[单选题]56.给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离，这说的是（）算法。A)PCB)SVMC)K-meansD)LD[单选题]57.以下关于Hadoop中MapReduce说法正确的是（）。A)可以没有reduce任务B)Reducer输入为随机输入C)shuffle主要实现数据可视化功能D)一个reducer只能从一个map复制所需要的partition[单选题]58.Spark那个组件用于支持实时计算需求（）。A)SparkSQLB)SparkStreamingC)SparkGraphXD)SparkMLLib[单选题]59.下列方法中，用于获取当前目录的是（）。A)openB)writeC)GetpwdD)read[单选题]60.数据资产维护是指为保证数据质量，对数据进行（）等处理的过程。A)更正B)删除C)补充录入D)以上答案都正确[单选题]61.卷积的过程是让过滤器在图像上（）。A)缩放B)剪切C)窗口滑动D)镜像对[单选题]62.后剪枝是先从训练集生成一颗完整的决策树，然后（）对非叶结点进行考察。A)自上而下B)在划分前C)禁止分支展开D)自底向上[单选题]63.Adaboost的核心思想是（）。A)给定一个弱学习算法和一个训练集，将该学习算法使用多次,得出预测函数序列,进行投票B)针对同一个训练集训练不同的弱分类器集合起来，构成一个强分类器C)利用多棵树对样本进行训练并预测的一种分类器D)基于前向策略的加法模型,每阶段使用一个基模型去拟合上一阶段基模型的残差[单选题]64.传统目标检测流程包括（）。A)区域选择B)特征提取C)分类器分类D)以上答案都正[单选题]65.在深度学习中，我们经常会遇到收敛到localminimum,下面不属于解决localminimum问题的方法是（）A)随机梯度下降B)设置MomentumC)设置不同初始值D)增大batchsiz[单选题]66.数据科学基本原则中，?基于数据的智能?的主要特点是（）。A)数据简单、但算法简单B)数据复杂、但算法简单C)数据简单、但算法复杂D)数据复杂、但算法复杂[单选题]67.a=[1,2,3.4,5]，切片时如果要取[2,3.4]，正确的选项是（）。A)a[1:4]B)a[-2:]C)a[1:-1]D)a[::2][单选题]68.（）是以样本统计量作为未知总体参数的估计量，并通过对样本单位的实际观察取得样本数据，计算样本统计量的取值作为被估计参数的估计值A)参数估计B)逻辑分析C)方差分析D)回归分析[单选题]69.在TF-IDF算法中，在计算完词频与逆文档频率后，将二者（）后得到最终的结果。A)相加B)相减C)相乘D)相[单选题]70.BP神经网络具有很的表示能力，它经常遭遇（），其训练误差持续降低，但测试误差却可能上升。A)欠拟合B)误差过大C)误差过小D)过拟[单选题]71.创建表时,不允许某列为空可以使用()命令。A)notnullB)nonullC)notblankD)noblan[单选题]72.从数据到智慧的转换依次递进过程是（）。A)数据、知识、信息、理解、智慧B)数据、信息、理解、知识、智慧C)数据、信息、知识、理解、智慧D)数据、理解、信息、知识、智慧[单选题]73.gateway在ElasticSearch中的含义是?A)网关B)索引的存储方式C)rpc请求接口D)索引快照的存储方[单选题]74.Redis中String数据类型不含以下哪种操作?A)mgetB)sizeC)strlenD)append[单选题]75.回归分析的任务，就是根据（）和因变量的观察值，估计这个函数，并讨论与之有关的种种统计推断的问题A)相关变量B)样本C)已知数据D)自变[单选题]76.从网络的原理上来看，结构最复杂的神经网络是（）。A)卷积神经网络B)长短时记忆神经网络C)GRUD)BP神经网[单选题]77.对于SVM分类算法，待分样本集中的大部分样本不是支持向量，下列说法正确的是（）。A)需要将这些样本全部强制转换为支持向量B)需要将这些样本中可以转化的样本转换为支持向量，不能转换的直接删除C)移去或者减少这些样本对分类结果没有影响D)以上都不对[单选题]78.随机森林等树状算法通过哪个模块进行调用（）。A)dummyB)ensembleC)treeD)experimental[单选题]79.（）试图学得一个属性的线性组合来进行预测的函数。A)决策树B)贝叶斯分类器C)神经网络D)线性模[单选题]80.假设已从标准库functools导入reduce()函数，那么表达式reduce(lambdax,y:x+y,[1,2,3])的值为（）。A)NoneB)6C)3D)9[单选题]81.DIKW金字塔模型中，顶层与底层的名称分别为（）。A)智慧与数据B)知识与数据C)智慧与数值D)知识与数值[单选题]82.解析：最大概率分词基本思想：一句话有多种切割方法，我们选择联合概率最大的结果。A)南京市*长江*大桥B)南京*市长*江大桥C)南京市长*江大桥D)南京市*长江大[单选题]83.关于boosting下列说法错误的是（）。A)boosting方法的主要思想是迭代式学习B)训练基分类器时采用并行的方式C)测试时，根据各层分类器的结果的加权得到最终结果D)基分类器层层叠加，每一层在训练时，对前一层基分类器分错的样本给予更高的权[单选题]84.关于Python文件处理，以下选项中描述错误的是（）。A)Python能处理JPG图像文件B)Python不可以处理PDF文件CPython能处理C)SV文件D)Python能处理Excel文件[单选题]85.以下哪项是Spark2.x程序统一入口?A)StreamingContextB)SqlContextC)HiveContextD)SparkSessio[单选题]86.下列缩进格式描述不正确的是（）。A)缩进指在代码行前面添加空格或Tab；B)在Python程序中，缩进不是任意的；C)缩进可以使程序更有层次感、更有结构感，从而是程序更易读。D)平级的语句行（代码块）的缩进可以不相同。[单选题]87.以下跟RNN相关的是(__)。A)梯度消失B)时间步C)梯度爆炸D)以上答案都正[单选题]88.输入图片大小为37×37，经过第一层卷积（thenumberoffilters=25,kernelsize=5×5，padding=valid，stride=1），与池化层maxpooling（kernelsize=3×3，padding=valid），输出特征图大小为?(__)A)10×10B)11×11C)12×12D)13×1[单选题]89.大数据计算服务中，临时数据表tmp_item是一张非分区表，开发人员在建表时指定了lifecycle属性为30，且使用一次后未再进行任何操作和访问。30天后这张表会（）。A)tmp_item会被自动重命名为tmp_item.deletedB)tmp_item表会被自动删除掉C)不会任何变更D)tmp_item中的数据会被清空，表结构仍存在[单选题]90.下列说法错误的是（）A)生产者和消费者面向的都是一个topicB)生产者发送数据的对象是leaderC)当集群中的某个节点发生故障时，Replica上的partition数据不会丢失D)partition是一个没有顺序的队[单选题]91.以下不属于基于区域的图像分割方法的是（）。A)区域生长法B)分水岭算法C)大津算法D)基于图论的分割算[单选题]92.对组织机构的数据管理成熟度等级划分中的已执行级的描述错误的是（）。A)在具体项目中，DMM关键过程域（KP中给出的关键过程已被执行，但随意性和临时性较大B)DMM关键过程的执行不仅仅局限于特定业务范畴，存在跨越不同业务领域的关键过程C)缺少针对DMM关键过程的反馈与优化D)虽然有可能在特定业务过程中进行了基础性改进，但没有进行持续跟进，也未拓展到整个组织机构[单选题]93.（）是Spark中的抽象数据模型。A)RDDB)SchedulerC)StorageD)Shuffl[单选题]94.以下哪些方法不可以直接来对文本分类（）A)KmeansB)决策树C)支持向量机D)KN[单选题]95.下列不属于Statsmodels模块的主要特点的是（）。A)线性模型B)方差分析C)时间序列D)插值运算[单选题]96.我们建立一个5000个特征,100万数据的机器学习模型.我们怎么有效地应对这样的大数据训练（）。A)我们随机抽取一些样本,在这些少量样本之上训练B)我们可以试用在线机器学习算法C)我们应用PCA算法降维,减少特征数D)以上答案都正确[单选题]97.以下属于浅层学习模型的是（）。A)DBNB)CNNC)SVMD)RN[单选题]98.以下哪一种分布是二维随机变量的分布（）。A)正态分布B)二项分布C)边缘分布D)指数分布[单选题]99.过滤式特征选择与学习器（）,包裹式特征选择与学习器（）。A)相关相关B)相关不相关C)不相关相关D)不相关不相关[单选题]100.以下哪种参数须以正确的顺序传入函数，调用时的数量必须和声明时的一样（）。A)位置参数B)默认值参数C)可变参数D)关键字参数[单选题]101.下面的语句哪个会无限循环下去（）。A)forainrange(10):timesleep(10)B)while1<10:timesleep(10)C)whileTrue:breakD)a=[3,-1,',']foriina[:]:ifnota:break[单选题]102.现阶段的大数据技术体系主要类型不包括（）。A)数据源与APPB)基础设施C)HadoopD)数据资源[单选题]103.以下选项中说法不正确的是（）。A)解释是将源代码逐条转换成目标代码同时逐条运行目标代码的过程B)编译是将源代码转换成目标代码的过程C)C语言是静态语言，Python语言是脚本语言D)静态语言采用解释方式执行，脚本语言采用编译方式执行[单选题]104.以下聚合函数，用于求数据平均值的是A)MAXB)SUMC)COUNTD)AV[单选题]105.因子分析把每个原始变量分解为两部分因素：一部分为（），另一部分为（）。A)公共因子和特殊因子B)特殊因子和相关因子C)相关因子和独立因子D)独立因子和公共因子[单选题]106.大数据计算服务提供了大数据的存储和计算服务，非常适合应用于大数据分析的领域。以下说法中错误的是:（）。A)可以实现大型互联网企业的数据仓库和BI分析B)提供了便捷的分析处理海量数据的手段，用户可以不必关心分布式计算细节，从而达到分析大数据的目的C)可以支持实时OLAP分析D)可以基于历史数据，进行用户特征和兴趣挖掘[单选题]107.@app.route的作用为（）。A)程序代码的规范，没什么作用B)类似装饰器，返回本地网络测试地址C)返回127005000D)以上答案都不正确[单选题]108.LSTM中，(__)的作用是确定哪些新的信息留在细胞状态中，并更新细胞状态。A)输入门B)遗忘门C)输出门D)更新门[单选题]109.若A与B是任意的两个事件，且P（AB）＝P（A）·P（B），则可称事件A与B（）。A)等价B)互不相容C)相互独立D)相互对[单选题]110.新兴数据管理技术主要包括NoSQL技术、NewSQL技术和（）。A)数据仓库B)关系云C)数据库系统D)文件系统[单选题]111.假设你正在训练一个LSTM网络，你有一个10,000词的词汇表，并且使用一个激活值维度为100的LSTM块，在每一个时间步中，Γu的维度是多少（）A)1B)100C)300D)1000[单选题]112.可视化视觉下的数据类型不包括（）。A)定类数据B)定序数据C)定宽数据D)定比数据[单选题]113.以下可以应用关键词提取的是（）。A)文献检索B)自动文摘C)文本聚类/分类D)以上答案都正[单选题]114.以下哪种方法不属于特征选择的标准方法：（）。A)嵌入B)过滤C)包装D)抽样[单选题]115.下面关于Hive导表写入指定格式表时的描述正确的是（）A)导表时，如果建表语句指定为ORC格式的表，那么数据会先存储为ORC格式B)导表时，如果建表语句指定为SequenceFile格式的表，那么数据会先存储为SequenceFile格式C)导表时，如果建表语句指定为PARQUET格式的表，那么数据会先存储为PARQUET格式D)导表时，如果建表语句指定为ORC格式的表，那么数据会先存储为TEXTFILE格[单选题]116.考虑某个具体问题时，你可能只有少量数据来解决这个问题。不过幸运的是你有一个类似问题已经预先训练好的神经网络。可以用下面哪种方法来利用这个预先训练好的网络（）A)把除了最后一层外所有的层都冻住，重新训练最后一层B)对新数据重新训练整个模型C)只对最后几层进行调参(finetune)D)对每一层模型进行评估，选择其中的少数来[单选题]117.下列属于无监督学习的是（）。A)K-meansB)SVMC)最大熵D)CRF[单选题]118.以下哪些节点在DWS中不存在：A)管理节点B)数据节点C)计算节点D)控制节[单选题]119.下列（）算法更适合做时间序列建模。A)CNNB)决策树C)LSTMD)贝叶斯算法[单选题]120.在空间维度上刻画数据连续性是数据的（）特点。A)可关联性B)可溯源性C)可理解性D)可复制性[单选题]121.RDD的特点不包括（）A)DD之间有依赖关系，可溯源B)DD由很多partition构成C)对RDD的每个split或partition做计算D)RDD可以增量更新[单选题]122.下列哪个程序通常与NameNode在一个节点启动（）A)SecondaryNameNodeB)DataNodeC)TaskTrackerD)Jobtracker[单选题]123.matplotlib中的axvspan函数作用是什么（）。A)在x轴标示不同图形的文本标签图例B)绘制垂直于x的区域C)添加x轴内容细节的指向性注释文本D)添加x轴标题；[单选题]124.（）反映数据的精细化程度，越细化的数据，价值越高。A)规模B)灵活性C)关联度D)颗粒度[单选题]125.关于脏数据和乱数据的区分，以下哪种不属于脏数据（）。A)含有缺失数据B)冗余数据C)噪声数据D)不规则形态数据[单选题]126.大数据平台技术架构不包含的是（）A)数据整合B)数据存储C)数据计算D)数据溯[单选题]127.kNN最近邻算法在什么情况下效果较好（）。A)样本较多但典型性不好B)样本较少但典型性好C)样本呈团状分布D)样本呈链状分[单选题]128.Hbase依靠（）提供强大的计算能力A)ZoopkeeperB)ChubbyC)RPCD)MapReduce[单选题]129.若建立一个5000个特征,100万数据的机器学习模型，则应该怎么有效地应对这样的大数据训练（）。A)随机抽取一些样本，在这些少量样本之上训练B)可以试用在线机器学习算法C)应用P算法降维，减少特征数D)以上答案都正[单选题]130.离散程度的测度值愈大，则（）。A)映变量值愈分散，算术平均数代表性愈差B)映变量值愈集中，算术平均数代表性愈差C)映变量值愈分散，算术平均数代表性愈好D)映变量值愈集中，算术平均数代表性愈好[单选题]131.K折交叉验证器是以下哪个方法（）。A)model_selection.GroupKFold()B)model_selection.GroupShuffleSplit()C)model_selection.KFold()D)model_selection.RepeatedKFold()[单选题]132.数据使用环节的安全技术措施除防火墙、（）、防病毒、防DDOS、漏洞检测等网络安全防护技术措施外，还需实现以下安全技术能力：账号权限管理、数据安全域、数据脱敏、日志管理和审计、异常行为实时监控和终端数据防泄漏。A)入侵检测B)病毒检测C)程序检测D)进程检测[单选题]133.Hadoop生态系统中，HBase是一种（）。A)分布式文件系统B)数据仓库C)实时分布式数据库D)分布式计算系统[单选题]134.采用幂次变换进行灰度变换时，当幂次取小于1时，该变换可以改善如下哪一类图像？（）A)图像整体偏亮B)图像整体偏暗C)图像同时存在过亮和过暗背景D)图像细节淹没在暗背景中[单选题]135.下列哪个不是stats模块中的功能（）。A)连续性分布B)线性方程求解C)离散型分布D)核密度估计[单选题]136.DataFrame和RDD最大的区别是（）。A)科学统计支持B)多了schemaC)存储方式不一样D)外部数据源支持[单选题]137.关于装饰器，下列说法错误的是()。A)装饰器是一个包裹函数B)装饰器只能有一个参数C)通过在函数定义的面前加上@符号和装饰器名，使得装饰器函数生效D)如果装饰器带有参数，则必须在装饰函数的外层再嵌套一层函数[单选题]138.以下代码的输出结果为（）。Arr=np.array([1，5，3])Arr1=np.array([2，4，6])Print(arr<arr1)A)TRUEB)FALSEC)[Ture，False，Ture]D)([Ture，Ture，Ture])[单选题]139.下列哪种架构的数据库数据是分布式存储的：A)share-everythingB)share-diskC)share-nothingD)share-anythin[单选题]140.从连续图像到数字图像需要（）。A)图像灰度级设定B)图像分辨率设定C)确定图像的存储空间D)采样和量[单选题]141.Python中Statsmodel库和（）库关系密切。A)NumpyB)ScipyC)jiebaD)Pandas[单选题]142.在方差分析中，（）反映的是样本数据与其组平均值的差异。A)总离差B)组间误差C)抽样误差D)组内误差[单选题]143.下面检索结果最多只有一行的命令是A)SELECTDISTINCT*FROMorders;B)SELECT*FROMordersLIMIT1,2;C)SELECT*FROMordersGROUPBY1;D)SELECT*FROMordersLIMIT1[单选题]144.Hive的数据最终存储在（）A)HDFSB)HseC)RDBMSD)Metastor[单选题]145.开发Maxcompute的用户自定义标量函数，主要是实现其中的（）方法。A)evaluateB)mainC)iterateD)process[单选题]146.以下不属于有监督的词义消歧方法的是（）。A)Flip-Flop算法B)贝叶斯分类器C)最大熵消歧D)基于词典的消[单选题]147.当Spark发生Shuffle时，MapTask的运算结果会通过()的形式把运算结果分发到对应的任务上去。A)序列化B)键值对C)二进制D)RD[单选题]148.以下那个选项是在局部生效的，出了这个变量的作用域，这个变量就失效了（）。A)局部变量B)全局变量C)字典D)集合[单选题]149.有研究发现?页面的显示速度每延迟1s,网站访问量就会降低11%,从而导致营业额或者注册量减少7%,顾客满意度下降16%?。该项研究表明了(__)在数据产品开发中的重要性。A)查全率B)用户体验C)数据可视化D)查准率[单选题]150.RDD中的数据被（）在集群中，使得任务可以并行执行。A)顺序存储；B)连续存储；C)分块存储；D)分区存储；[单选题]151.以下算法中，sklearn中未提及的是（）。A)K-Means聚类算法B)LogisticRegressionC)KNN最近邻分类算法D)Apriori关联规则算法[单选题]152.使用MaxcomputeSQL：createtablet1liket2；建表时，表t1不会具有表t2的（）属性。A)分区B)生命周期C)二级分区D)字段的注释[单选题]153.下列不是数据科学项目的主要角色（）。A)项目发起人B)项目经理C)操作人员D)验收人员[单选题]154.假设你有5个大小为7x7、边界值为0的卷积核，同时卷积神经网络第一层的深度为1。此时如果你向这一层传入一个维度为224x224x3的数据，那么神经网络下一层所接收到的数据维度是多少（）A)218x218x5B)217x217x8C)217x217x3D)220x220x[单选题]155.下列（）不是神经网络的代表。A)卷积神经网络B)递归神经网络C)残差网络D)xgboost算[单选题]156.以下可以作为文本分类准则的是（）。A)预测准确率B)鲁棒性C)可扩展性D)以上答案都正[单选题]157.下面哪个色彩空间最接近人的视觉系统的特点（）。A)RGB空间B)CMY空间C)YK空间D)HSI空[单选题]158.在数据科学中，R的包通常从（）下载。A)PIPB)CRANC)RstudioD)Pypi[单选题]159.机器学习中发生过拟合的主要原因不包括（）。A)使用过于复杂的模型B)数据噪声较大C)训练数据少D)训练数据充[单选题]160.如果要清空文件，需要使用的命令是（）。A)close()B)seek(0)C)truncate(0)D)Dwrite('stuff')[单选题]161.（）是一个观测值，它与其它观测值的差别如此之大，以至于怀疑它是由不同的机制产生的。A)边界点B)质心C)离群点D)核心点[单选题]162.下面哪个功能不是大数据平台安全管理组件提供的功能（）。A)接口代理B)接口认证C)接口授权D)路由代理[单选题]163.在灰度线性变换s=ar+b中，要使输出图像对比度增大，则：（）A)a>1B)a<1C)a=1D)b>1[单选题]164.bootstrap数据是什么意思（）。A)有放回地从总共M个特征中抽样m个特征B)无放回地从总共M个特征中抽样m个特征C)有放回地从总共N个样本中抽样n个样本D)无放回地从总共N个样本中抽样n个样本[单选题]165.（）在训练的每一轮都要检查当前生成的基学习器是否满足基本条件。A)支持向量机B)osting算法C)贝叶斯分类器D)Bagging算[单选题]166.（）是指为最小化总体风险，只需在每个样本上选择能使特定条件风险最小的类别标记。A)支持向量机B)间隔最大化C)线性分类器D)贝叶斯判定准则[单选题]167.下列关于线性模型的描述错误的是（）。A)支持向量机的判别函数一定属于线性函数B)在样本为某些分布情况时，线性判别函数可以成为最小错误率或最小风险意义下的最优分类器C)在一般情况下，线性分类器只能是次优分类器D)线性分类器简单而且在很多期情况下效果接近最优，所以应用比较广[单选题]168.Sigmoid函数作为神经元激活函数的特点是（）。A)连续但不光滑B)不连续但光滑C)连续且光滑D)不连续且不光[单选题]169.关于以下深度学习框架描述正确的是(__)。A)Tensorflow是一款使用C++语言开发的开源数学计算软件B)Caffe对于卷积网络的支持特别好，同时提供的C++接口，也提供了matlab接口和python接口C)PyTorch的前身便是Torch，其底层和Torch框架一样，但是使用Python重新写了很多内容D)以上答案都正[单选题]170.以下描述中不属于?规整数据(TidyData)?三个基本原则的是（）。A)每一类观察单元构成一个关系（表）B)每个观察占且仅占一行C)每个变量占且仅占一列D)每个观察占且仅占一个关系（表）[单选题]171.最早被提出的循环神经网络门控算法是什么（）A)长短期记忆网络B)门控循环单元网络C)堆叠循环神经网络D)双向循环神经网[单选题]172.以下代码的输出结果为（）。ImportnumpyasnpA=np.array([[1,2],[3,4],[5,6]])Print(np.insert(a,3,[11,12]))A)[[12][34][56]]B)[1231112456]C)[[12][1111][34][56]]D)[[1112][3114][5116]][单选题]173.语音识别的应用场景包括（）。A)语音转文本B)语音合成C)人机交互D)以上答案都正[单选题]174.（）是指针对用户非常明确的数据查询和处理任务，以高性能和高吞吐量的方式实现大众化的服务，是数据价值最重要也是最直接的发现方式。A)数据服务B)数据分析C)数据治理D)数据应用[单选题]175.（）的基本想法是适当考虑一部分属性间的相互依赖信息，从而既不需要进行完全联合概率计算，又不至于彻底忽略了比较强的属性依赖关系。A)贝叶斯判定准则B)贝叶斯决策论C)朴素贝叶斯分类器D)半朴素贝叶斯分类器[单选题]176.（）是一种基于日志的结构化数据复制软件，能够实现大量数据的实时捕捉、变换和投递。A)NosqlB)ETLC)OGGD)Hive[单选题]177.下面关于HiveSQL编译顺序正确的是（）(1)遍历QueryBlock，翻译为执行操作树OperatorTree(2)遍历OperatorTree，翻译为MapReduce任务(3)遍历ASTTree，抽象出查询的基本组成单元QueryBlock(4)逻辑层优化器进行OperatorTree变换，合并不必要的ReduceSinkOperator，减少shuffle数据量(5)物理层优化器进行MapReduce任务的变换，生成执行计划(6)将SQL转化为抽象语法树ASTTreeA)(3)(1)(2)(4)(5)(6)B)(5)(3)(1)(2)(4)(5)C)(6)(3)(1)(2)(4)(5)D)(5)(3)(1)(2)(4)(6[单选题]178.以下不能创建一个字典的语句是A)dic1={}B)dic2={123:345}C)dic3={[1,2,3]:'ustc'}D)dic3={(1,2,3):'ustc'}[单选题]179.下列哪项不是HDFS的设计目标（）。A)流式数据访问B)大规模数据集C)移动计算D)"多次写入多次读取"的文件访问模型[单选题]180.下列哪些不是目前机器学习所面临的问题是（）。A)测试集的规模B)维度灾难C)特征工程D)过拟[单选题]181.不属于判别式模型的是（）。A)决策树B)神经网络C)支持向量机D)贝叶[单选题]182.下列关于Kafka描述正确的是（）？A)数据实时传输，没有延迟B)不支持物联网传感数据直接接入C)可以实现全局消息有序D)监控完善，可以独立监[单选题]183.考虑值集{12243324556826}，其四分位数极差是：（）A)21B)24C)55D)3[单选题]184.Zookeeper主要解决的是（）问题。A)数据存储B)模型训练C)分布式环境协作服务D)数据管理[单选题]185.下列关于聚类挖掘技术的说法中,错误的是（）。A)不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别B)要求同类数据的内容相似度尽可能小C)要求不同类数据的内容相似度尽可能小D)与分类挖掘技术相似的是,都是要对数据进行分类处[单选题]186.下列方法中，能够返回某个子串在字符串中出现次数的是（）。A)lengthB)indexC)countD)find[单选题]187.大数据涌现现象的形式有多种，不属于大数据涌现的形式（）。A)价值涌现B)隐私涌现C)物质涌现D)隐私涌现[单选题]188.以下描述中错误的是（）。A)数据科学中的?数据?不仅仅是?数值?，也不等同于?数值?B)数据科学中的?计算?包括数据的查询、挖掘、洞见等C)数据科学强调的是跨学科视角D)数据科学不包括?理论知识?，只包括?领域实务经验?[单选题]189.Hadoop常用命令中，查看指定目录下的所有文件及子目录的命令是（）A)hdfsdfs-ls[文件目录]B)hdfsdfs-du[文件目录]C)hdfsdfs-ls-R[文件目录]D)hdfsdfs-du-R[文件目录][单选题]190.下列不属于action操作的是（）A)collectB)filterC)reduceD)count[单选题]191.生成多项式和交互特征使用preprocessing模块中的（）函数。A)preprocessing.binarize()B)preprocessing.Normalizer()C)preprocessing.LabelEncoder()D)preprocessing.PolynomialFeatures()[单选题]192.通常?落伍者?是影响MapReduce总执行时间的主要影响因素之一，为此MapReduce采用（）机制来解决。A)分布式计算B)惰性计算C)推测性执行的任务备份D)先进先出[单选题]193.以下选项中哪个不属于数据预处理的方法（）。A)数据清洗B)数据集成C)数据变换D)数据统计[单选题]194.以下选项中不参与hdfs写流程的组件是A)ClientB)DistributedFileSystemC)NameNodeD)YAR[单选题]195.下列对于等距离散化和等频离散化的叙述中，不正确的是（）。A)等距离散化是将连续型特征的取值区间均匀的划分成多个区间段B)等距离散化对数据离群值不敏感C)等频离散化考虑了区间段中的样本个数，使每个区间段的样本数相同D)等频离散化会将相似的样本划分到不同的区间第2部分：多项选择题，共65题，每题至少两个正确答案,多选或少选均不得分。[多选题]196.当我们构造线性模型时,我们注意变量间的相关性。在相关矩阵中搜索相关系数时,如果我们发现3对变量的相关系数是(Var1和Var2,Var2和Var3,Var3和Var1)是-0.98,0.45,1.23.我们可以得出什么结论（）。A)Var1和Var2是非常相关的B)因为Va1r和Var2是非常相关的,我们可以去除其中一个C)Var3和Var1的1.23相关系数是不可能的[多选题]197.为什么RNN网络的激活函数要选用双曲正切而不是sigmod呢（）A)使用sigmod函数容易出现梯度消失B)sigmod的导数形式较为复杂C)双曲正切更简单D)sigmoid函数实现较为复[多选题]198.下列关于AUC面积描述正确的是（）。A)C被定义为ROC曲线下与坐标轴围成的面积B)AUC面积的值大于1C)AU于0.5时，则真实性最低，无应用价值D)AUC越接近1.0，检测方法真实性越[多选题]199.以下有关特征数据归一化的说法正确的是（）。A)特征数据归一化加速梯度下降优化的速度B)特征数据归一化有可能提高模型的精度C)线性归一化适用于特征数值分化比较大的情况D)概率模型不需要做归一化处[多选题]200.Hadoop生态系统中，核心是（）。A)FlumeB)MapReduceC)PigD)HS[多选题]201.可视分析学是一门以可视交互为基础，综合运用（）等技术等多个学科领域的知识，以实现人机协同完成可视化任务为主要目的分析推理学科。A)物理学B)图形学C)数据挖掘D)人机交互[多选题]202.基于Boosting的集成学习代表算法有（）。A)AdaboostB)GBDTC)XGBOOSTD)随机森林[多选题]203.Hadoop组件Zookeeper的设计目标和主要特点包括（）。A)简单性B)自我复制C)顺序访问D)高速读取[多选题]204.plt.axhline(y=0.0,c="r",ls="--",lw=2)，对这句代码说法正确的是（）。A)在0.0处添加竖直线B)添加水平线C)线是虚线形式D)网格线是红色的[多选题]205.建立线性模型时，我们看变量之间的相关性。在寻找相关矩阵中的相关系数时，如果发现3对变量（Var1和Var2、Var2和Var3、Var3和Var1）之间的相关性分别为-0.98、0.45和1.23。我们能从中推断出什么呢（）A)Var1和Var2具有很高的相关性B)Var1和Var2存在多重共线性，模型可以去掉其中一个特征C)Var3和Var1相关系数为1.23是不可能的D)以上答案都不正确[多选题]206.通过数据挖掘过程所推倒出的关系和摘要经常被称为：()A)模型B)模式C)模范D)模具[多选题]207.以下图像技术中属于图像处理技术的是（）。A)图像编码B)图像合成C)图像增强D)图像分[多选题]208.某单位运用随机森林算法思想建立抢修热点模型。该模型主要预测下期台区工单数量，构建抢修热点。以下模型算法构建步骤中合理的顺序是：（）。A)将历史数据进行随机自助法重抽样，生成N个训练样本集B)将N个训练样本集分别做决策树，生成N棵决策树C)将N棵决策树随机构成随机森林D)未来根据预测样本气候环境、设备属性、设备工况进行随机森林决策投票，得出针对该预测样本最优的决策树进行运算，并计算出最终结果[多选题]209.下面关于单样本Z检验的说法，正确的是（）。A)在Python中，单样本Z检验可以使用scipy.stats.ttest_1samp（）实现B)单样本Z检验适用于样本量较大的情况C)单样本Z检验假设要检验的统计量（近似）满足正态分布D)单样本Z检验常用于检验总体平均值是否等于某个常量[多选题]210.Analytics1.0的主要特点有（）。A)分析活动滞后于数据的生成B)重视结构化数据的分析C)以对历史数据的理解为主要目的D)注重描述性分析[多选题]211.下列哪些是常用分词方法（）。A)基于Binarytree的分词方法B)基于HMM的分词方法C)基于F的分词方法D)基于Kmeans的分词方[多选题]212.数据增值存在于哪些过程中（）。A)数据对象的封装B)数据系统的研发C)数据的集成应用D)基于数据的创新[多选题]213.关于数据流转和应用，以下说法正确的是（）。A)数据流转和应用过程中应确保可追溯、可复查B)前序环节应保证数据的真实、完整C)前序环节应及时传递到后序环节D)前后环节数据应保持衔接一致[多选题]214.以下选项中，不是Python语言保留字的是（）。A)doB)passC)exceptD)until[多选题]215.数据科学基本原则中，三世界原则指的是（）A)我们的世界B)数据世界C)物理世界D)数字世界[多选题]216.下列属于字符串匹配的分词方法的是（）。A)正向最大匹配法（由左到右的方向）B)逆向最大匹配法（由右到左的方向）C)最少切分（使每一句中切出的词数最小）D)双向最大匹配法（进行由左到右、由右到左两次扫描[多选题]217.以下属于关键词提取算法的有（）。A)TF-IDF算法B)TextRank算法C)LSA（潜在语义分析）D)LD[多选题]218.下列哪些项属于传统循环神经网络的性质（）A)上一时刻的网络状态信息将会作用于下一时刻的网络状态B)并行处理序列中所有信息C)容易梯度爆炸/消失D)易于搭[多选题]219.下列属于DWS列存表支持的窗口函数的是：A)RANK()B)ROW_NUMBER()C)DENSE_RANK()D)PERCENT_RANK([多选题]220.下列关于特征的稀疏性说法正确的是（）。A)稀疏性指的是矩阵中有许多列与当前学习任务无关B)稀疏样本可减少学习任务的计算开销C)学习任务难度可能有所降低D)稀疏矩阵没有高效的存储方[多选题]221.下列哪些是面向对象技术的特征（）。A)封装B)继承C)多态D)分布性[多选题]222.HadoopMapReduce是MapReduce的具体实现之一。HadoopMapReduce数据处理过程涉及四个独立的实体，包括（）。A)ClientB)JobTrackerC)TaskTrackerD)HDFS[多选题]223.聚类性能度量的指标主要分为外部指标和内部指标，其中属于内部指标的是（）。A)Jaccard指数B)FM指数C)DB指数D)Dunn指数[多选题]224.关于降维说法正确的是（）。A)P根据方差这一属性降维的B)降维可以防止模型过拟合C)降维降低了数据集特征的维度D)降维方法有PLA等[多选题]225."噪声"是指测量变量中的随机错误或偏差，噪声数据的主要表现有那几种形式（）A)错误数据B)假数据C)异常数据D)僵尸数据[多选题]226.下列关于词袋模型说法正确的是（）。A)词袋模型可以忽略每个词出现的顺序B)词袋模型不可以忽略每个词出现的顺序C)TensorFlow支持词袋模型D)词袋模型可以表出单词之间的前后关[多选题]227.关于神经网络，下列说法正确的是（）A)增加网络层数，可能会增加测试集分类错误率B)增加网络层数，一定会增加训练集分类错误率C)减少网络层数，可能会减少测试集分类错误率D)减少网络层数，一定会减少训练集分类错误率[多选题]228.关于Hive的说法正确的是（）。A)Hive是基于Hadoop的数据仓库工具B)Hive可以将结构化的数据文件映射为一张数据库表C)最初，Hive由Google开源，用于解决海量结构化日志数据统计问题D)Hive的主要应用场景是离线分析[多选题]229.在数据科学中，计算模式发生了根本性的变化--从集中式计算、分布式计算、网格计算等传统计算过渡至云计算，有一定的代表性的是Google云计算三大技术，这三大技术包括（）。A)HadoopYRN资源管理器B)GFS分布式存储系统C)MaoRedue分布式处理技术D)BigTable分布式数据库[多选题]230.Python的模块符合以下哪些说法（）。A)模块让你能够有逻辑地组织你的Python代码段B)Python拥有丰富的模块，不支持自定义模块C)把相关的代码分配到一个模块里能让你的代码更好用，更易懂D)模块能定义函数，类和变量，模块里也能包含可执行的代码。[多选题]231.Spark支持的计算模型有（）。A)批处理；B)实时计算；C)机器学习模型；D)交互式查询；[多选题]232.机器学习的三个关键组成要素是（）。A)任务TB)性能指标PC)目标函数VD)经验来源[多选题]233.Scikit-Learn中可以实现（）算法。A)分类B)聚类C)回归D)降维[多选题]234.下面关于随机变量及其概率分布的说法，正确的是（）。A)随机变量可以分为离散型随机变量和连续型随机变量B)随机变量的概率分布指的是一个随机变量所有取值的可能性C)扔5次硬币，正面朝上次数的可能取值是0，1，2，3，4，5，其中正面朝上次数为0与正面朝上次数为5的概率是一样的D)扔5次硬币，正面朝上次数的可能取值是0，1，2，3，4，5，其中正面朝上次数为5的概率是最大的[多选题]235.对于大数据计算服务（MaxCompute，原ODPS）内置绝对值函数abs描述正确的有:（）。A)当输入参数是bigint时，返回值是bigint类型B)当输入参数是string类型时，一定会导致异常C)输入类型是boolean则返回值是TrueD)当输入参数是double时，返回值是double类型[多选题]236.常用的数据审计方法可以分为（）。A)预定义审计B)自定义审计C)可视化审计D)结构化审计[多选题]237.数据集成功能包括：()。A)表/文件/整库迁移B)增量数据迁移C)事务模式迁移D)字段转[多选题]238.关于HDFS集群中的DataNode的描述不正确的是（）。A)DataNode之间都是独立的，相互之间不会有通信B)存储客户端上传的数据的数据块C)一个D.taNode上存储的所有数据块可以有相同的D)响应客户端的所有读写数据请求，为客户端的存储和读取数据提供支撑[多选题]239.下列属于数值优化算法的是（）。A)梯度下降法B)牛顿法C)极大似然法D)逻辑回[多选题]240.数据可视化涉及到（）等多个领域，成为研究数据表示、数据处理、决策分析等一系列问题的综合技术。A)计算机图形学B)图像处理C)计算机视觉D)计算机辅助设计[多选题]241.统计模式分类问题中，当先验概率未知时，可以使用（）。A)最小最大损失准则B)最小误判概率准则C)最小损失准则D)N-P判决[多选题]242.(__)可以帮助解决训练集在特征空间中线性不可分的问题。A)硬间隔B)软间隔C)核函数D)拉格朗日乘子[多选题]243.下面关于连续型随机变量以及连续型概率密度函数的说法，正确的是。A)?一个客服一天可能接听到多少个电话?是一个连续型随机变量B)正态分布是一种连续型随机变量的概率分布C)可以使用概率密度函数来描述连续型随机变量的概率分布D)连续型概率密度函数曲线下方的面积之和为1[多选题]244.在DRS的标签管理服务中，下列存在的功能有：()。A)添加标签B)编辑标签C)备份标签D)删除标[多选题]245.哪些项不属于使用池化层相比于相同步长的卷积层的优势（）A)参数更少B)可以获得更大下采样C)速度更快D)有助于提升精[多选题]246.区块链是（）等计算机技术的新型应用模式。A)分布式数据存储B)点对点传输C)共识机制D)加密算法[多选题]247.HBase性能优化包含下面的哪些选项（）。A)读优化B)写优化C)配置优化D)JVM优化[多选题]248.在MapReduce1.0版本中，JobTracker功能是（）。A)负责资源管理B)作业控制C)作业存储D)作业审核[多选题]249.下列哪些是情感分析的应用场景（）。A)数据挖掘B)信息检索C)文本分词D)市场营[多选题]250.算法?歧视?现象可能出现在（）。A)算法设计B)算法实现C)算法投入使用D)算法验证[多选题]251.卷积神经网络通过哪些措施来保证图像对位移、缩放、扭曲的鲁棒性(__)。A)局部感受野B)共享权值C)池采样D)正则[多选题]252.在数据安全领域常用的P2DR模型中，P、D和R代表的是（）。A)策略B)防护C)检测D)响[多选题]253.下列跟人工智能场景相关的是（）。A)图像识别B)人脸识别C)语音识别D)语义分[多选题]254.假设一个随机变量服从正态分布，则随机变量的概率分布跟其（）和（）有关。A)众数B)频数C)平均值D)方差[多选题]255.我们想要减少数据集中的特征数,即降维.选择以下适合的方案:（）。A)使用前向特征选择方法B)使用后向特征排除方法C)我们先把所有特征都使用,去训练一个模型,得到测试集上的表现.然后我们去掉一个特征,再去训练,用交叉验证看看测试集上的表现.如果表现比原来还要好,我们可以去除这个特征D)查看相关性表,去除相关性最高的一些特征[多选题]256.处理图像平滑处理的滤波有（）。A)盒式滤波B)均值滤波C)高斯滤波D)中值滤[多选题]257.在数据集成中，CDM支持对已经创建的链接进行（）操作A)删除连接B)测试连通性C)备份连接D)编[多选题]258.K均值聚类和层次聚类在一些方面有重大差异。以下哪些说法是正确的（）A)在K均值聚类中，必须在运行算法前选定想要的簇的个数B)在k均值聚类中，可以在运行算法后选定想要的簇的个数C)在层次聚类中，可以在运行算法后选定想要的簇的个数D)k均值聚类算法所需的计算量比层次聚类算法小得多[多选题]259.Hadoop组件Flume三层架构包括（）。A)entB)GossipC)llectorD)Storage[多选题]260.从Hadoop实现角度看，HadoopMapReduce1.0主要由（）组成。A)编程模型B)数据处理引擎C)运行时环境D)算法1.答案:A解析:处理图片需要先使用卷积神经网络对图像局部特征进行提取和分割，然后反卷积还原图像信息，卷积类似于编码，反卷积类似于解码。2.答案:C解析:弱学习者是问题的特定部分。所以他们通常不会过拟合，这也就意味着弱学习者通常拥有低方差和高偏差。3.答案:A解析:*号用在匹配前面的子表达式零次或多次；要匹配*字符，请使用\*进行转义。4.答案:D解析:python可以嵌套定义、嵌套调用和递归调用5.答案:D解析:Value（价值密度低或价值发现难度大）、Velocity（速度快)。6.答案:A解析:训练集、测试集和验证集的功能分别为训练模型、测试模型以及模型选择与超级参数的调优。7.答案:B解析:集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型，集成学习潜在的思想是即便某一个弱模型得到了错误的预测，其他的弱模型也可以将错误纠正回来。某一个弱模型要有一定的?准确性?，即学习器不能太坏，并且要有多样性，即个体学习器间具有差异。集成中即可包含同种类型的弱模型，也可包含不同类型的弱模型。8.答案:D解析:'r'代表红色，'*'代表五角星。'-.'代表点短虚线。9.答案:A解析:10.答案:A解析:11.答案:C解析:12.答案:A解析:散点图反映了两个变量之间的相互关系，在测试Y与X之间的线性关系时，使用散点图最为直观。13.答案:A解析:对于sigmoid函数，S型函数图像向两边的斜率逼近0，因此随着网络层增加，梯度消失比梯度爆炸更容易发生的多。14.答案:C解析:15.答案:A解析:欧洲学者DanielKeim等人提出了可视化分析学的标准流程,数据可视化分析流程中的核心要素包括四个方面：数据表示与转换、数据的可视化呈现、用户交互、分析推理。16.答案:A解析:HBase支持的是列式存储。17.答案:B解析:由于存在精度的关系，所以0.1+0.2得到的是一个无限接近0.3的数而不是0.3，故输出False。18.答案:C解析:高频词汇信息量较少不能充当关键词，多数为无用词。19.答案:B解析:C4.5是分类算法；DBSCAN、K-Mean、EM是聚类算法。20.答案:A解析:马氏距离是基于样本分布的一种距离。21.答案:D解析:Spark是一个快速、通用和易于使用的计算平台。22.答案:B解析:23.答案:B解析:留出法(hold-out)直接将数据集D划分为两个互斥的集合，其中一个集合作为训练集，另一个作为测试集T。24.答案:C解析:25.答案:B解析:26.答案:C解析:MapReduce编程模型中的mapTask的并行度决定机制是由FileInputFormat.getSplits(JobContextjob)决定的。该方法的返回值是Listsplits，这个结果集合中的每个InputSplit就是一个逻辑输入切片，每个逻辑输入切片在默认情况下是会要启动一个MapTask任务进行计算的，因此C对。27.答案:D解析:与标准的Python相比，IPython同样具有内置的功能和函数。28.答案:C解析:赋值语句是浅复制操作，没有复制子对象，所以原始数据改变，子对象会改变29.答案:B解析:聚类是一种典型的无监督学习任务，然而在现实聚类任务中我们往往能获得一些额外的监督信息，于是可通过半监督聚类来利用监督信息以获得更好的聚类效果。30.答案:B解析:pynlpir是python中分词工具包，用于分词处理的函数是segment（）31.答案:D解析:DNN不包括SVM和DBM。32.答案:D解析:区域生长法是基于图像区域的阈值分割方法33.答案:C解析:列表中的元素个数不限制。34.答案:B解析:软间隔允许某些样本不满足约束，可缓解过拟合。35.答案:A解析:Spark?惰性计算模式?定义。36.答案:C解析:数据加工（DataWrangling或DataMunging）的本质是将低层次数据转换为高层次数据的过程。从加工程度看，数据可以分为零次、一次、二次、三次数据。37.答案:A解析:逻辑回归被用来处理分类问题。38.答案:C解析:数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的永久删除、不可恢复，如数据销毁软件、硬盘消磁机、硬盘粉碎机等。39.答案:D解析:SNN相似度通过共享最近邻的个数考虑了对象的环境，因此可以处理两个对象相对接近却不属于同一类的情况。40.答案:A解析:大数据环境下的隐私担忧,主要表现为人信息的被识别与暴露。41.答案:A解析:数据变换的策略不包括审计。42.答案:B解析:43.答案:C解析:Hadoop不善于处理除批处理计算模式之外的其他计算模式，如流计算等，故C错。44.答案:B解析:DMM模型将一个机构的数据管理工作抽象成6个关键过程域，即数据战略、数据治理、数据质量、平台与架构、数据操作以及辅助性过程。45.答案:A解析:scipy中，stats是进行统计分析的模块。46.答案:B解析:除了?数值?，数据科学中所说的?数据?还包括文字、图形、图像、动画、文本、语音、视频、多媒体和富媒体等多种类型47.答案:C解析:如果需要训练的特征维度成千上万，在高维情形下出现的数据样本稀疏、距离计算困难，可懂过降维降低特征维度。48.答案:C解析:减少树的深度，相当于加入了一个正则化项，可以降低模型复杂度。49.答案:A解析:利用stats.skewtest()计算偏度，有两个返回值，第二个为p-value，即数据集服从正态分布的概率（0~1）。50.答案:C解析:51.答案:D解析:52.答案:C解析:RGB是彩色图像的三通道像素值，均值滤波进行的是线性操作，不影响原本图像的相对亮度。53.答案:D解析:PageRank认为，如果A页面有一个链接指向B页面，那就可以看作是A页面对B页面的一种信任或推荐。所以，如果一个页面的反向链接越多，再根据这些链接的价值加权越高，那搜索引擎就会判断这样的页面更为重要。54.答案:C解析:SecondaryNameNode是为了给namenode减轻压力的角色，工作职责就是定期合并磁盘元数据文件为序列化的镜像文件，以减少namenode冷启动时需要加载元数据的时间。在合并的时候也需要把之前的元数据都加载到内存，所以对内存也有一定的依赖，即不能和namenode启动在同一个节点，否则就起不到任何减轻压力的作用。55.答案:A解析:strftime()是datetime库将日期对象格式化为可读字符串的方法。56.答案:D解析:LDA算法对给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离。57.答案:A解析:MapReduce中的reduce并不是必须存在的。58.答案:B解析:SparkStreaming用于实时处理。59.答案:C解析:用于获取当前目录的方法是Getcwd。60.答案:D解析:数据资产维护是指为保证数据质量，对数据进行更正、删除、补充录入等处理的过程。61.答案:C解析:卷积的过程是让过滤器在图像上进行窗口滑动。62.答案:D解析:后剪枝是先从训练集生成一颗完整的决策树，然后自底向上对非叶结点进行考察。63.答案:B解析:Adaboost的核心思想是给定一个弱学习算法和一个训练集，将该学习算法使用多次,得出预测函数序列,进行投票。64.答案:D解析:传统目标检测需要选择检测区域，然后提取特征，分类器再根据特征进行分类。65.答案:D解析:增大batchsize无法无法解决ocalminimum问题。66.答案:B解析:数据科学对?智能的实现方式?有了新的认识--从?基于算法的智能?到?基于数据的智能?的过渡。?基于数据的智能?的重要特点是?数据复杂，但算法简单?。67.答案:C解析:此题应注意是'3.4'而不是'3，4',有以下取法：a[1:3]、a[1:-1]68.答案:A解析:参数估计，是统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。69.答案:C解析:TF-IDF算法基本知识。70.答案:D解析:由于其强大的表示能力,BP神经网络经常遭遇过拟合,其训练误差持续降低,但测试误差却可能上升。71.答案:A解析:72.答案:C解析:DIKW金字塔（DIKWPyramid）模型揭示了数据（Data）与信息（Information）、知识（Knowledge）、智慧（Wisdom）之间的区别与联系，自底向上分别为数据、信息、知识、智慧。73.答案:D解析:74.答案:D解析:75.答案:D解析:回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少，分为一元回归和多元回归分析；按照因变量的多少，可分为简单回归分析和多重回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。76.答案:B解析:从网络的原理上来看，结构最复杂的神经网络是LSTM。77.答案:C解析:支持向量机的一个重要性质:训练完成后，大部分的训练样本都不需保留，最终模型仅与支持向量有关。78.答案:B解析:sklearn.ensemble模块包含了很多集成学习的算法，包括随

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据理论考试(习题卷2)

文档简介

温馨提示

最新文档

评论

大数据理论考试(习题卷2)

文档简介

温馨提示

最新文档

评论

相关文档