大数据理论考试(习题卷14)_第1页
大数据理论考试(习题卷14)_第2页
大数据理论考试(习题卷14)_第3页
大数据理论考试(习题卷14)_第4页
大数据理论考试(习题卷14)_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据理论考试大数据理论考试(习题卷14)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据理论考试第1部分:单项选择题,共64题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.下列哪项关于模型能力(modelcapacity指神经网络模型能拟合复杂函数的能力)的描述是正确的()A)隐藏层层数增加,模型能力增加B)Dropout的比例增加,模型能力增加C)学习率增加,模型能力增加D)都不正[单选题]2.美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的()。A)在数据基础上倾向于全体数据而不是抽样数据B)在分析方法上更注重相关分析而不是因果分析C)在分析效果上更追究效率而不是绝对精确D)在数据规模上强调相对数据而不是绝对数据[单选题]3.以下不属于有监督的词义消歧方法的是()。A)Flip-Flop算法B)贝叶斯分类器C)最大熵消歧D)基于词典的消[单选题]4.SparkJob默认的调度模式是()。A)FIFOB)FAIRC)无D)运行时指定[单选题]5.以下属于图像处理的常用方法有()。A)图像变换B)图像编码压缩C)图像增强和复原D)以上答案都正[单选题]6.Kafka对于某一topic中指定数据默认保存时间为()A)12小时B)24小时C)48小时D)168小[单选题]7.神经网络感知机只有(__)神经元进行激活函数处理,即只拥有一层功能神经元。A)输出层B)输入层C)感知层D)网络[单选题]8.语音识别的应用场景包括()。A)语音转文本B)语音合成C)人机交互D)以上答案都正[单选题]9.解析:最大概率分词基本思想:一句话有多种切割方法,我们选择联合概率最大的结果。A)南京市*长江*大桥B)南京*市长*江大桥C)南京市长*江大桥D)南京市*长江大[单选题]10.大数据是指不用随机分析法这样的捷径,而采用()的方法。A)所有数据B)部分数据C)少量数据D)抽样数据[单选题]11.特征工程的目的是()。A)找到最合适的算法B)得到最好的输入数据C)减低模型复杂度D)加快计算速度[单选题]12.有关Hadoop的陈述哪个是错误的()。A)它运行在通用硬件上;B)它是Apache软件基金会(ASF)下的项目;C)它是最好的实时流式数据处理框架;D)Hadoop对数据的处理是有延迟的;[单选题]13.以下关于情感分析说法错误的是()。A)情感分类是一个领域相关的问题B)情感分类往往牵涉样本的正负类别分布不平衡的问题C)情感分析属于nlp范围D)以上答案都不正[单选题]14.以下哪些算法,可以用神经网络去构造(__)。1)KNN2)线性回归3)对数几率回归A)1和2B)2和3C)1,2和3D)以上答案都不正[单选题]15.()是指数据减去一个总括统计量或模型拟合值时的残余部分A)极值B)标准值C)平均值D)残[单选题]16.以下哪个不是HDFS的守护进程()A)secondarynamenodeB)datanodeC)mrappmaster/yarnchildD)namenode[单选题]17.Hadoop中combiner()函数的功能是()。A)数据排序B)数据标记C)数据分析D)数据合并[单选题]18.深度学习是当前很热门的机器学习算法,在深度学习中,涉及到大量的矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m∗n,n∗p,p∗q,且mA)()CB)AC(C)A(BD)所有效率都相[单选题]19.通过KMeans算法进行聚类分析后得出的聚类结果的特征是()。A)同一聚类中的对象间相似度高,不同聚类中的对象间相似度高B)同一聚类中的对象间相似度高,不同聚类中的对象间相似度低C)同一聚类中的对象间相似度低,不同聚类中的对象间相似度低D)同一聚类中的对象间相似度低,不同聚类中的对象间相似度[单选题]20.对于一组数据,我们应该如何将每个要素缩放到[-1,1]范围,而不会破坏稀疏性()。A)使用preprocessing.MaxAbsScaler()方法B)使用preprocessing.LabelEncoder()方法C)使用preprocessing.maxabs_scale()方法D)使用preprocessing.MinMaxScaler()方法[单选题]21.Spark可以处理的数据任务包括()A)数据批处理任务;B)交互式处理任务;C)图数据处理任务;D)A,B和C;[单选题]22.下列哪个方法不属于情感分析的评测()。A)CO评测B)cifar10数据集评测C)FTI评测D)TAC评[单选题]23.不属于模型集成方法的是()。A)直接集成法B)增强法C)堆叠法D)递归[单选题]24.以下哪一种分布是二维随机变量的分布()。A)正态分布B)二项分布C)边缘分布D)指数分布[单选题]25.下列关于数据交易市场的说法中,错误的是()。A)数据交易市场是大数据产业发展到一定程度的产物B)商业化的数据交易活动催生了多方参与的第三方数据交易市场C)数据交易市场通过生产数据、研发和分析数据,为数据交易提供帮助D)数据交易市场是大数据资源化的必然产物[单选题]26.下列关于IPython的说法,错误的是()。A)IPython集成了交互式Python的很多优点;B)IPython的性能远远优于标准的Python的shell;C)IPython支持变量自动补全,自动收缩;D)与标准的Python相比,IPython缺少内置的功能和函数;[单选题]27.下列不属于深度学习内容的是(__)。A)深度置信网络B)受限玻尔兹曼机C)卷积神经网络D)贝叶斯学[单选题]28.DAGScheduler的作用是什么()A)负责分配任务;B)负责调度Worker的运行;C)负责创建执行计划;D)负责清理执行完毕的任务;[单选题]29.以下()是对DMM(数据管理成熟度模型)中?已管理级?基本特点的正确表述。A)组织机构的数据管理关键活动能够根据结构自身的反馈以及外部环境的变革进行不断优化。B)组织机构已用定量化的方式管理其关键过程的执行过程。C)组织机构只有在项目管理过程中执行了D)M给出的关键过程,而缺乏机构层次的统筹与管理组织机构的数据管理工作超出了项目管理的范畴,由组织机构统一管理了其数据管理关键过程[单选题]30.在HadoopMapReduce中,()是客户端需要执行的一个工作单元。A)InputB)JobC)ientD)Task[单选题]31.SLIC算法的主要目的是()。A)目标识别B)前景和背景分离C)超像素提取D)语义分[单选题]32.下列属于小波去噪步骤的是()。A)对图象信号进行小波分解B)对经过层次分解后的高频系数进行阈值量化C)利用二维小波重构图象信号D)以上答案都正[单选题]33.哪种聚类方法采用概率模型来表达聚类()。A)K-meansB)LVQC)DBSCAND)高斯混合聚类[单选题]34.长短时记忆网络属于一种()。A)全连接神经网络B)门控RNNC)BP神经网络D)双向RN[单选题]35.下面关于Hive四种排序方式的区别,描述正确的是()A)orderby是要对输出的结果进行全局排序,多个reducer可以实现全局排序B)sortby不是全局排序,只是在进入到reducer之前完成排序C)distributeby指的是按照指定的字段划分到不同的输出reduce文件中,常见使用方式是orderbydistributebyD)clusterby不仅支持正序排序,也支持逆序排[单选题]36.下列哪项选择是直接把最终将要使用的学习器的性能作为特征子集的评价准则()。A)嵌入式B)过滤式C)包裹式D)一体式[单选题]37.已知一个数据集,n为特征数,m为训练样本数,如果n较小,而且m大小中等(例如n在1-1000之间,而m在10-10000之间),则一般选择什么核函数的支持向量机()。A)逻辑回归模型B)不带核的支持向量机C)高斯核的支持向量机D)多项式核的支持向量机[单选题]38.评估完模型之后,发现模型存在高偏差(highbias),应该如何解决()。A)减少模型的特征数量B)增加模型的特征数量C)增加样本数量D)以上答案都正[单选题]39.对参数进行L2正则,是机器学习常用的防止过拟合的方法。请问对参数做L2正则,下列()是对参数本身做先验分布假设。A)高斯分布B)拉普拉斯分布C)泊松分布D)均匀分[单选题]40.关联规则的评价指标是()。A)均方误差、均方根误差B)Kappa统计、显著性检验C)支持度、置信度D)平均绝对误差、相对误[单选题]41.令N为数据集的大小(注:设训练样本(xi,yi),N即训练样本个数),d是输入空间的维数(注:d即向量xi的维数)。硬间隔SVM问题的原始形式(即在不等式约束(注:yi(wTxi+b)≥1)下最小化(1/2)wTw)在没有转化为拉格朗日对偶问题之前,是()。A)一个含N个变量的二次规划问题B)一个含N+1个变量的二次规划问题C)一个含d个变量的二次规划问题D)一个含d+1个变量的二次规划问题[单选题]42.信息增益对可取值数目()的属性有所偏好,增益率对可取值数目()的属性有所偏好。A)较高,较高B)较高,较低C)较低,较高D)较低,较[单选题]43.一幅灰度均匀分布的图像,其灰度范围在[0,255],则该图像的信息量为()。A)0B)6C)8D)25[单选题]44.数据产品的定义是()。A)数据产品是指能够供给市场,被人们使用和消费,并能满足人们某种需求的任何东西B)数据产品是可以发挥数据价值去辅助用户更优的做决策(甚至行动)的一种产品形式C)数据产品是指为了满足自身的需要,通过科技发明或经验总结而形成的技术D)数据产品是是数据科学的结果,创造了新的实物形态和使用价值的产品。[单选题]45.关于欠拟合(under-fitting),()是正确的。A)训练误差较大,测试误差较小B)训练误差较小,测试误差较大C)训练误差较大,测试误差较大D)训练误差较小,测试误差较[单选题]46.在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于1,则表明模型中存在()。A)异方差B)序列相关C)多重共线性D)高拟合优[单选题]47.Numpy.array数组的简称是()。A)arrayB)nparrayC)NdarrayD)pyarray[单选题]48.某工厂共有100名员工,他们的月工资方差是s,现在给每个员工的月工资增加3000元,那么他们的新工资的方差()。A)为s+3000B)小了C)大了D)不变[单选题]49.设计为8层的卷积神经网络AlexNet网络成功使用(__)函数,其效果远远地超过了Sigmoid函数。A)ReLU函数B)sigmoid函数C)tanh函数D)sin函数[单选题]50.()选择成为支持向量机的最大变数。A)核函数B)样本空间C)模型D)算[单选题]51.下列哪一种架构有反馈连接(__)。A)循环神经网络B)卷积神经网络C)受限玻尔兹曼机D)都不[单选题]52.以下不属于基于区域的图像分割方法的是()。A)区域生长法B)分水岭算法C)大津算法D)基于图论的分割算[单选题]53.卷积神经网络(convolutionalneuralnetwork,CNN),是一种专门用来处理具有类似(__)的数据的神经网络。A)网格结构B)数组结构C)序列结构D)表格结[单选题]54.著名的C4.5决策树算法使用()来选择最优划分属性。A)信息增益B)增益率C)基尼指数D)均值[单选题]55.中文同义词替换时,常用到Word2Vec,以下说法错误的是()。A)Word2Vec基于概率统计B)Word2Vec结果符合当前预料环境C)Word2Vec得到的都是语义上的同义词D)Word2Vec受限于训练语料的数量和质[单选题]56.以下描述中错误的是()。A)数据化与数字化是两个不同概念B)数据与数值是一个概念C)大数据与海量数据是两个不同的概念D)数据和信息是两个不同的概[单选题]57.决策树中的叶结点对应于()。A)属性B)样本C)决策结果D)标签值[单选题]58.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()A)分类B)聚类C)关联分析D)隐马尔可夫链[单选题]59.以下统计量中表示数据分布是否为对称性的是()。A)方差B)中位数C)偏态D)峰[单选题]60.如果需要训练的特征维度成千上万,在高维情形下出现的数据样本稀疏、距离计算困难。我们通过什么方法可以缓解这个问题()。A)K均值算法B)支持向量机C)降维D)以上答案都不正确[单选题]61.多分类学习中,最经典的三种拆分策略不包括()。A)一对一B)一对其余C)一对多D)多对多[单选题]62.以下选项中哪个不属于数据预处理的方法()。A)数据清洗B)数据集成C)数据变换D)数据统计[单选题]63.以下哪种说法是正确的?A)数组可以包括不同类型的元素B)数组是不可变的C)数组最多不可以超过50个元素D)数组最多不可以超过22个元[单选题]64.图像降噪一般可分为以下哪几类()。A)加性噪声B)乘性噪声C)量化噪声D)以上答案都正第2部分:多项选择题,共22题,每题至少两个正确答案,多选或少选均不得分。[多选题]65.通过数据挖掘过程所推倒出的关系和摘要经常被称为:()A)模型B)模式C)模范D)模具[多选题]66.在Python中,执行importdatetimeasdt语句后,如下时间或日期定义方式正确的是()。A)dt.datetime(2019,12,12,23,23,23)B)dt.datetime(2019,0,0,23,23,23)C)dt.datetime(2019,12,12,0)D)dt.time(23,23,23)[多选题]67.python中,字符串格式化的方式()。A)%B)formatC)inD)input[多选题]68.MaxComputeSQL采用的是类似于SQL的语法,适用于海量数据,实时性要求不高的场合。关于MaxComputeSQL,以下说法正确的包括:()。A)MaxCompute可以等价成一个数据库,可以完成事务及回滚的功能B)MaxCompute的每个作业准备以及提交都需要花费较长时间,因此不适用对于要求响应时间较短的准实时查询C)MaxComputeSQL支持多种操作,如含join,where,orderby,groupby等D)MaxComputeSQL包括的数据类型有Bigint,Float,Double,String,DateTime,Boolean[多选题]69.统计模式分类问题中,当先验概率未知时,可以使用()。A)最小最大损失准则B)最小误判概率准则C)最小损失准则D)N-P判决[多选题]70.在建立模型时,需要用到()。A)训练数据B)测试数据C)原始数据D)验证数据[多选题]71.以下描述中正确的是()。A)统计学是数据科学的理论基础之一B)Python语言是统计学家发明的语言C)机器学习是数据科学的理论基础之一D)数据科学是统计学的一个分支领域(子学科)[多选题]72.传统关系数据库的优点包括()。A)数据一致性高B)数据冗余度低C)简单处理的效率高D)产品成熟度高[多选题]73.决策树递归停止的条件为()。A)训练数据集使用完B)所有的类标签完全相同C)特征用完D)遇到丢失[多选题]74.建立线性模型时,我们看变量之间的相关性。在寻找相关矩阵中的相关系数时,如果发现3对变量(Var1和Var2、Var2和Var3、Var3和Var1)之间的相关性分别为-0.98、0.45和1.23。我们能从中推断出什么呢()A)Var1和Var2具有很高的相关性B)Var1和Var2存在多重共线性,模型可以去掉其中一个特征C)Var3和Var1相关系数为1.23是不可能的D)以上答案都不正确[多选题]75.随机森林的随机性主要体现在()。A)决策树选择的随机性B)数据集的随机性C)待选特征的随机性D)参数选择的随机性[多选题]76.有两种策略常用来缓解BP网络的过拟合,分别是()和()。A)晚停B)早停C)正则化D)加入损失函[多选题]77.参数估计可以分为()。A)点估计B)一致估计C)区间估计D)无偏估计[多选题]78.基于Hadoop开源大数据平台主要提供了针对数据分布式计算和存储能力,如下属于分布式存储组件的有()。A)MRB)SparkC)HDFSD)Hbase[多选题]79.以下方法中可用于图像分割的有()。A)霍夫曼编码B)分水岭算法C)K-meansD)区域增长[多选题]80.常用的冲突消解策略有包括()。A)投票法B)排序法C)元规则法D)调研[多选题]81.下列关于探索型数据分析常用图表的说法,正确的有:A)绝大部分情况下使用饼图代替条形图能更加直观地展示数据之间的特征和对比B)探索型数据分析常用的图表包括条形图、直方图、饼图、折线图、散点图、箱型图等C)在探索型数据分析时应该尽量避免使用饼图,然而在数据报告中可以使用饼图达到更加美观的效果D)直方图和箱型图都可以用来展示数据的分布情况[多选题]82.下列在Python中描述正确的是()。A)pass语句不会执行任何操作,一般作为占位符或者创建占位程序B)sorted可以对列表进行排序,如:i=[5,1,2,3,4]i=sorted(i)C)内建的数据类型丰富,除了字典和列表外,还有集合(set)元组(tuple)等类型D)分号在Python中是无用途[多选题]83.客户端使用get方式读取HBase用户数据时,需要查询meta表哪些数据?A)Region分裂时间B)Region大小C)RegionServer地址D)Region起始rowkey[多选题]84.关于CAP理论说法正确的是()。A)一个分布式系统不能同时满足一致性、可用性和分区容错性等需求B)一致性主要指强一致性C)一致性、可用性和分区容错性中的任何两个特征的保证(争取)可能导致另一个特征的损失(放弃)D)可用性指每个操作总是在?给定时间?之内得到返回?所需要的结果?。[多选题]85.RNN在NLP领域的应用包括(__)。A)语言模型与文本生成B)机器翻译C)语音识别D)图像描述生[多选题]86.CNN相比于全连接的DNN有哪些优势()A)参数更少B)泛化更好C)训练更快D)更容易搭建第3部分:判断题,共12题,请判断题目是否正确。[判断题]87.Key和Value可以是未经加工的字节数据()。A)正确B)错误[判断题]88.关于布尔值:整型、浮点型的"0"和复数0+0j也可以表示False,浮点数不可以精确表示。A)正确B)错误[判断题]89.大数据分析是对总体数据,尤其是针对传统手段捕捉到的数据之外的非结构化数据进行分析。A)正确B)错误[判断题]90.如果自变量X和因变量Y之间存在高度的非线性和复杂关系,那么树模型很可能优于经典回归方法()。A)正确B)错误C)无法确定D)模型效果差别不[判断题]91.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。A)正确B)错误[判断题]92.数据体现业务本质和内涵,遵从业务的逻辑和关联关系,依据业务才能更好实现对数据的全生命周期统一管理。A)正确B)错误[判断题]93.假设x是含有5个元素的列表,那么切片操作x[10:]是无法执行的,会抛出异常。A)正确B)错误[判断题]94.情感分析这个任务还有一个升级版--细腻度的情感分析。升级版希望模型不仅能识别出情感的好坏,而且能识别出是由于什么原因导致这种情感发生。A)正确B)错误[判断题]95.数据科学是根据?数据世界?的分析结果,对?现实世界?进行预测、洞见、解释或决策的新兴科学。A)正确B)错误[判断题]96.数据科学家需要拥有数据产品的研发能力,不需要团队合作与协同工作。A)正确B)错误[判断题]97.继承自threading.Thread类的派生类中不能有普通的成员方法。A)正确B)错误[判断题]98.对遗漏数据的处理方法主要有:忽略该条记录;手工填补遗漏值;利用默认值填补遗漏值;利用均值填补遗漏值;利用同类别均值填补遗漏值;利用最可能的值填充遗漏值。A)正确B)错误第4部分:问答题,共2题,请在空白处填写正确答案。[问答题]99.MapReduce中,(key,value)在本地磁盘上的存储位置将传给Master,由Master负责把这些存储位置再传送给_____。[问答题]100.误差逆传播算法(BP)仅可用于多层前馈神经网络的学习算法(__)。A)正确B)错1.答案:A解析:Dropout比例增加,可能会丢失过多参数影响模型能力;学习率过大,梯度下降可能会越过最低点,无法收敛。2.答案:B解析:本次分析主要分析了大风和洋流可能发生的地与安全航路的相关性。3.答案:D解析:基于词典的消歧属于无监督的词义消歧方法。4.答案:A解析:Spark中的调度模式主要有两种FIFO和FAIR。默认情况下Spark的调度模式是FIFO(先进先出)。5.答案:D解析:图像处理的常用方法包括图像变换,图像解码和压缩和图像增强和复原。6.答案:D解析:7.答案:A解析:神经网络感知机只有输入层神经元进行激活函数处理,即只拥有一层功能神经元。8.答案:D解析:语音识别应用包含语音转文本,语音合成和人机交互等。9.答案:B解析:A=0;B=0.8*0.6*0.4=0.192C=0D=0.3*0.5=0.15所以这道题选择B。10.答案:A解析:大数据的一种表现形式为接近其总体的?所有数据?。11.答案:B解析:特征工程的目的是筛选出更好的特征,获取更好的训练数据。12.答案:C解析:Hadoop不善于处理除批处理计算模式之外的其他计算模式,如流计算等,故C错。13.答案:D解析:情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,情感分类不属于邻域相关的问题,不涉及样本的正负类别分布不平衡的问题,不属于nlp范围。14.答案:B解析:1、KNN算法不需要训练参数,而所有神经网络都需要训练参数,因此神经网络帮不上忙。2、最简单的神经网络,感知器,其实就是线性回归的训练。3、我们可以用一层的神经网络构造对数几率回归。15.答案:D解析:残差在数理统计中是指实际观察值与估计值()之间的差。16.答案:C解析:namenode是HDFS集群的主节点,datanode是HDFS集群的从节点,secondarynamenode是HDFS集群启动的用来给namenode节点分担压力的角色。这个三个服务进程会一直启动着。mrappmaster/yarnchild进程是只有在YARN集群运行了MapReduce程序之后才会启动的程序17.答案:D解析:在MapReduce中,当map生成的数据过大时,带宽就成了瓶颈,怎样精简压缩传给Reduce的数据,有不影响最终的结果呢。有一种方法就是使用Combiner,Combiner号称本地的Reduce,Reduce最终的输入,是Combiner的输出。18.答案:A解析:B选项中A的列数与C的行数不相等,无法相乘,B选项排除。A选项需要的乘法次数为m*n*p+m*p*q,C选项需要的乘法次数为n*p*q+m*n*q,由于m19.答案:B解析:通过KMeans算法进行聚类分析后得出的聚类结果的特征是:同一聚类中的对象间相似度高,不同聚类中的对象间相似度低。20.答案:C解析:preprocessing.maxabs_scale()函数会将将每个要素缩放到[-1,1]范围,而不会破坏稀疏性。21.答案:D解析:Spark可以很好地支持流计算、交互式处理、图计算等多种计算模式。22.答案:B解析:cifar10数据集Cifar-10由60000张32*32的RGB彩色图片构成,这个数据集最大的特点在于将识别迁移到了普适物体,而且应用于多分类,不属于情感分析的测评。23.答案:D解析:模型集成方法包括直接集成法、自助法、随机森林、增强法和堆叠法等。24.答案:C解析:二维随机变量的分布有边缘分布和条件分布25.答案:C解析:数据交易市场不生产数据。26.答案:D解析:与标准的Python相比,IPython同样具有内置的功能和函数。27.答案:D解析:贝叶斯学习属于传统的机器学习算法。28.答案:C解析:Scheduler模块分为两个部分DAGScheduler和TaskScheduler。DAGScheduler负责创建执行计划;TaskScheduler负责分配任务并调度Worker的运行。29.答案:D解析:DMM(数据管理成熟度模型)中?已管理级?基本特点的正确表述是组织机构的数据管理工作超出了项目管理的范畴,由组织机构统一管理了其数据管理关键过程。30.答案:B解析:MapReduce作业(job)是客户端需要执行的一个工作单元它包括输入数据、MapReduce程序和配置信息。31.答案:C解析:SLIC是基于K-means算法的生成超像素新方法,SLIC是超像素中心周围的区域2S×2S中进行类似像素的搜索32.答案:D解析:小波去噪是通过短波实现噪音消除,与高斯去噪的基本原理一致。小波去噪方法包括三个基本的步骤:对含噪声信号进行小波变换;对变换得到的小波系数进行某种处理,以去除其中包含的噪声;对处理后的小波系数进行小波逆变换,得到去噪后的信号。33.答案:D解析:高斯混合聚类(MixtureofGaussian)采用概率模型来表达聚类。34.答案:B解析:LSTM是一种改进后的RNN,其增加了三个门用来控制信息传递和最后的结果计算,三个门分别为遗忘门、输入门、输出门。35.答案:B解析:36.答案:C解析:包裹式特征选择直接把最终将要使用的学习器的性能作为特征于集的评价准则。37.答案:C解析:高斯核函数需要选择合适的sigma^2参数,适用于少量特征,大量样本的情况,可以拟合出非常复杂的非线性决策边界。38.答案:B解析:如果模型存在高偏差,意味着模型过于简单,为了使模型更加健壮,可以在特征空间中添加更多的特征。而增加样本数量将减少方差。39.答案:A解析:L2正则假设参数的先验分布是Gaussian分布,可以保证模型的稳定性,也就是参数的值不会太大或太小。40.答案:C解析:支持度、置信度是关联规则的评价指标。41.答案:D解析:欲找到具有最大间隔的划分超平面,也就是要找到能满足式题中不等式约束的参数w和b,是一个含d+1个变量的二次规划问题。42.答案:B解析:信息增益准则对可取值数目较多的属性有所偏好,增益率对可取值数目较少的属性有所偏好。43.答案:C解析:把255拆成二进制以后是11111111所以是8。44.答案:B解析:数据产品是可以发挥数据价值去辅助用户更优的做决策(甚至行动)的一种产品形式。45.答案:C解析:欠拟合是指对训练样本的一般性质尚未学好,因此训练误差和测试误差均较大46.答案:C解析:在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于1,则表明模型中存在多重共线性。47.答案:C解析:Numpy的array数组类被调用的是N维数组对象Ndarray。48.答案:D解析:方差用来计算每一个变量(观察值)与总体均数之间的差异。49.答案:A解析:AlexNet网络用ReLU代替sigmoid,效果得到大幅提升。50.答案:A解析:在不知道特征映射的形式时,我们并不知道什么样的核函数是合适的,而核函数也仅是隐式地定义了这个特征空间.于是,核函数选择成为支持向量机的最大变数。51.答案:A解析:循环神经网络RNN的本质特征是在处理单元之间既有内部的反馈连接又有前馈连接。从系统观点看,它是一个反馈动力系统,在计算过程中体现过程动态特性,比前馈神经网络具有更强的动态行为和计算能力。52.答案:C解析:大津算法是基于图像灰度分布的图像分割方法。53.答案:A解析:卷积神经网络是一种专门用来处理具有类似网格结构的数据的神经网络。54.答案:B解析:C4.5决策树算法使用增益率来选择最优划分属性。55.答案:C解析:Word2Vec只会输出词向量,并不关心是否为同义词。56.答案:B解析:除了?数值?,数据科学中所说的?数据?还包括文字、图形、图像、动画、文本、语音、视频、多媒体和富媒体等多种类型57.答案:C解析:决策树中的叶结点对应于决策结果。58.答案:B解析:59.答案:C解析:偏态(Skewness)描述数据分布的对称性。当?偏态系数?等于0时,对应数据的分布为对称,否则分布为非对称;峰态(Kurtosis)描述数据分布的平峰或尖峰程度。当?峰态系数?等于0时,数据分布为标准正态分布,否则比正态分布更平或更尖。60.答案:C解析:如果需要训练的特征维度成千上万,在高维情形下出现的数据样本稀疏、距离计算困难,可懂过降维降低特征维度。61.答案:C解析:多分类学习中,最经典的三种拆分策略包括一对多,多对多,一对其余。62.答案:D解析:数据统计并非为数据预处理的常见内容。63.答案:A解析:64.答案:D解析:噪声是图像干扰的重要原因。一幅图像在实际应用中可能存在各种各样的噪声,这些噪声可能在传输中产生,也可能在量化等处理中产生。根据噪声和信号的关系可将其分为三种形式:(f(x,y)表示给定原始图像,g(x,y)表示图像信号,n(x,y)表示噪声。)1、加性噪声,此类噪声与输入图像信号无关,含噪图像可表示为f(x,y)=g(x,y)+n(x,y),信道噪声及光导摄像管的摄像机扫描图像时产生的噪声就属这类噪声;2、乘性噪声,此类噪声与图像信号有关,含噪图像可表示为f(x,y)=g(x,y)+n(x,y)g(x,y),飞点扫描器扫描图像时的噪声,电视图像中的相干噪声,胶片中的颗粒噪声就属于此类噪声。3、量化噪声,此类噪声与输入图像信号无关,是量化过程存在量化误差,再反映到接收端而产生。65.答案:AB解析:66.答案:AC解析:datetime(x,x,x,x,x,x)函数前三个参数为年月日,需要正确输入,后三个参数为时分秒,为可选参数。67.答案:AB解析:input输入in判断。68.答案:ABCD解析:三、:69.答案:AD解析:统计模式分类问题中,当先验概率未知时,可以使用最小最大损失准则和最小损失准则。70.答案:ABD解析:在机器学习中,通常将数据分为训练集、测试集和验证集。71.答案:AC解析:Python发明者是GuidoVanRossum,并非为统计学家;数据科学是一门独立学科,已经超出了统计学一个学科的研究范畴,并非为统计学的一个分支。72.答案:ABD解析:在关系数据库中,SQL语言编写的查询语句需要完成处理才能进行。因此,当数据操作非常简单时,也需要进行、加锁、解锁等操作,导致关系数据库对数据的简单处理效率较低。73.答案:BC解析:决策树的生成是一个递归过程.在决策树基本算法中,有三种情形会导致递归返回:(1)当前结点包含的样本全属于同一类别,无需划分;(2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;(3)当前结点包含的样本集合为空,不能划分.74.答案:ABC解析:Var1和Var2之间的相关性非常高,并且是负的,可视为多重共线性的情况,可以去掉一个。一般来说,如果相关大于0.7或小于

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论