大数据理论考试(习题卷10)

上传人：1*** IP属地：重庆上传时间：2024-02-03 格式：DOCX 页数：27 大小：48.40KB 积分：3.6 举报 版权申诉

已阅读5页，还剩22页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试卷科目：大数据理论考试大数据理论考试(习题卷10)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据理论考试第1部分：单项选择题，共64题，每题只有一个正确答案,多选或少选均不得分。[单选题]1.下列关于L1正则化与L2正则化描述错误的是（）。A)L1范数正则化有助于降低过拟合风险B)L2范数正则化有助于降低过拟合风险C)L1范数正则化比L2范数正则化更有易于获得稀疏解D)L2范数正则化比L1范数正则化更有易于获得稀疏答案:D解析:周志华机器学习[单选题]2.CNN神经网络对图像特征提取带来了变革性的变化，使之前的人工特征提取升级到数据驱动的自动特征提取，在CNN中，起到特征提取作用的网络层是：(__)。A)convolution层B)fullconnect层C)maxpooling层D)norm答案:A解析:卷积层负责提取特征，采样层负责特征选择，全连接层负责分类。[单选题]3.逻辑回归将输出概率限定在[0,1]之间。下列哪个函数起到这样的作用（）。A)Sigmoid函数B)tanh函数C)ReLU函数D)LeakyReLU函数答案:A解析:Sigmoid函数输出值限定在[0,1]之间。[单选题]4.以下哪些方法不可以直接来对文本分类（）A)KmeansB)决策树C)支持向量机D)KN答案:A解析:Kmeans是聚类方法，属于无监督学习。BCD都是常见的分类方法。[单选题]5.关于Hive中窗口函数下列描述正确的是（）A)LAG用于统计窗口内往上第n行值，空不计入窗口中B)LEAD用于统计窗口内往下第n行值，空不计入窗口中C)FIRST_VALUE取分组排序后，截止到当前行的第一个值D)LAST_VALUE取分组不需要指定ORDERBY后，截止到当前行的最后一个答案:C解析:[单选题]6.在神经网络学习中，感知机输出层中的M-P神经元通常被称为（）。A)阈值逻辑单元B)激活函数C)挤压函数D)连接函答案:A解析:深度学习基础知识。[单选题]7.在一个线性回归问题中，我们使用R平方（R-Squared）来判断拟合度。此时，如果增加一个特征，模型不变，则下面说法正确的是（）。A)如果R-Squared增加，则这个特征有意义B)如果R-Squared减小，则这个特征没有意义C)仅看R-Squared单一变量，无法确定这个特征是否有意义。D)以上说法都不对答案:C解析:单独看R-Squared，并不能推断出增加的特征是否有意义。通常来说，增加一个特征，R-Squared可能变大也可能保持不变，两者不一定呈正相关。[单选题]8.在留出法、交叉验证法和自助法三种评估方法中，（）更适用于数据集较小、难以划分训练集和测试集的情况。A)留出法B)交叉验证法C)自助法D)留一答案:C解析:自助法更适用于数据集较小、难以划分训练集和测试集的情况。[单选题]9.np.exp(x).round(5)的结果是2.71828，x的值是（）。A)0B)1C)2D)2.71828答案:B解析:e的1次方。[单选题]10.（）是交叉验证法的一种特例。A)自助法B)留一法C)交叉验证法D)错误率分答案:B解析:留一法是交叉验证法的一种特例。[单选题]11.设有关系模式EMP(职工号，姓名，年龄，技能)。假设职工号唯一，每个职工有多项技能，则EMP表的主键是A)职工号B)姓名，技能C)技能D)职工号，技答案:A解析:[单选题]12.以下关于图像识别任务的叙述，错误的是（）。A)目标在于检测出图像中的对象是什么B)在识别前往往需要对图像进行预处理C)N是一种常用的图像识别网络D)图像的采集和传输方式对于图像识别结果没有影答案:D解析:图像处理基础知识。[单选题]13.核矩阵是（）的。A)没有规律B)半正定C)正定D)样本矩阵答案:B解析:只要一个对称函数所对应的核矩阵半正定，它就能作为核函数使用。[单选题]14.LSTM中，(__)的作用是确定哪些新的信息留在细胞状态中，并更新细胞状态。A)输入门B)遗忘门C)输出门D)更新门答案:A解析:LSTM中，输入门的作用是确定哪些新的信息留在细胞状态中，并更新细胞状态；遗忘门决定我们会从细胞状态中丢弃什么信息；输出门确定输出。[单选题]15.关于eval函数，以下选项中描述错误的是（）.A)eval函数的作用是将输入的字符串转为Python语句，并执行该语句B)如果用户希望输入一个数字，并用程序对这个数字进行计算，可以采用eval(input(<输入提示字符串>))组合C)执行eval("Hello")和执行eval("'Hello'")得到相同的结果D)eval函数的定义为：eval(source，globals=None，locals=None，/)答案:C解析:eval()函数将去掉字符串的两个引号，将其解释为一个变量，因此C应该分别报错和输出'Hello'[单选题]16.下列关于特征编码的叙述中，不正确的是（）。A)特征编码是将非数值型特征转换成数值型特征的方法；B)数字编码与特征的排序无关；C)One-Hot编码中，原始特征有n种取值，转换后就会产生n列新特征；D)哑变量编码解决了One-Hot编码中存在线性关系的问题；答案:B解析:数字编码与特征的排序有关，先出现的优先排序。[单选题]17.Numpy中对数组进行转置的函数是哪个（）。A)transpose()B)rollaxis()C)swapaxes()D)tan()答案:A解析:transpose()对矩阵进行矩阵转置，rollaxis()向后滚动指定的轴，swapaxes()对换数组的两个轴，tan()求三角函数，[单选题]18.已知一组数据的协方差矩阵P,下面关于主分量说法错误的是（）。A)主分量分析的最佳准则是对一组数据进行按一组正交基分解,在只取相同数量分量的条件下,以均方误差计算截尾误差最小B)在经主分量分解后,协方差矩阵成为对角矩阵C)主分量分析就是K-L变换D)主分量是通过求协方差矩阵的特征值得到答案:C解析:主分量分析的变换矩阵是协方差矩阵，K-L变换的变换矩阵可以有很多种（二阶矩阵、协方差矩阵、总类内离散度矩阵等等）。当K-L变换矩阵为协方差矩阵时，等同于PCA。[单选题]19.Python内置函数（）可以返回列表、元组、字典、集合、字符串以及range对象中元素个数。A)len()B)lengthC)sizeof()D)max()答案:A解析:len()返回元素个数，max()返回最大值，python中无length()和sizeof()。[单选题]20.select*fromstudent该代码中的*号，表示的正确含义是A)普通的字符*号B)错误信息C)所有的字段名D)模糊查答案:C解析:[单选题]21.下列算法中属于图像平滑处理的是（）。A)梯度锐化B)直方图均衡化C)中值滤波D)Laplacian增答案:C解析:中值滤波是一种非线性平滑技术，是常用的图像平滑处理方法。[单选题]22.（）技术可以将所有数据的特性通过图的方式展现出来。A)支持向量机B)神经网络C)数据可视化D)数据挖掘答案:C解析:数据可视化技术可以将所有数据的特性通过图的方式展现出来，而支持向量机、神经网络为具体数据分析方法，数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。[单选题]23.数据库服务器、数据库和表的关系，正确的说法是A)一个数据库服务器只能管理一个数据库，一个数据库只能包含一个表B)一个数据库服务器可以管理多个数据库，一个数据库可以包含多个表C)一个数据库服务器只能管理一个数据库，一个数据库可以包含多个表D)一个数据库服务器可以管理多个数据库，一个数据库只能包含一个答案:B解析:[单选题]24.如下哪些不是最近邻分类器的特点（）。A)它使用具体的训练实例进行预测，不必维护源自数据的模型B)分类一个测试样例开销很大C)最近邻分类器基于全局信息进行预测D)可以生产任意形状的决策边答案:C解析:k-近邻中的近邻指的是距离待预测数据的数据点，而k-近邻就指的是取前k近的数据点，并非基于全局信息进行预测。[单选题]25.下列关于数据科学流程与方法的描述中，错误的是（）。A)数据科学的基本流程包括数据化、数据加工（DataWrangling或DataMunging）、数据规整化、探索性分析、数据分析与洞见、结果展现以及数据产品的提供B)对于数据形态不符合要求的乱数据，要通过清洗成为规整数据C)数据分析包括描述性分析、诊断性分析、预测性分析和规范性分析D)数据可视化会遇到视觉假象问题，人眼对亮度和颜色的相对判断容易造成视觉假象答案:B解析:对于数据形态不符合要求的乱数据，要通过规整化处理（DataTyding）成为规整数据[单选题]26.卷积神经网络能通过卷积以及池化等操作将不同种类的鸟归为一类。关于卷积神经网络能达到该效果的原因，下列说法不正确的是（）。A)同样模式的内容（如鸟嘴）在图像不同位置可能出现B)池化之后的图像主体内容基本不变C)不同种类鸟的相同部位（如鸟嘴）形状相似D)池化作用能使不同种类鸟变得相答案:D解析:D:特征维数的减少并不会让之前的特征丢失[单选题]27.数据仓库仅仅是提供存储的，提供一种()的服务，不面向最终分析用户，而数据集市是()的，面向最终用户。A)面向分析应用.面向数据管理B)面向事务交互.面向数据管理C)面向数据管理.面向分析应用D)面向分析应用.面向事务交答案:A解析:[单选题]28.pyplot.title()的作用是（）。A)绘制垂直线B)为图设置标题C)为图添加文本D)绘制互相关答案:B解析:pyplot.title()可以设置绘图标题。[单选题]29.平滑图像（）处理可以采用RGB彩色模型。A)直方图均衡化B)直方图均衡化C)加权均值滤波D)中值滤波答案:C解析:平滑图像处理可以采用RGB彩色加权均值滤波模型。[单选题]30.线性回归的基本假设不包括哪个（）。A)随机误差项是一个期望值为0的随机变量B)对于解释变量的所有观测值，随机误差项有相同的方差C)随机误差项彼此相关D)解释变量是确定性变量不是随机变量，与随机误差项之间相互独立答案:C解析:线性回归的基本假设：(1)线性关系假设(2)正态性假设，指回归分析中的Y服从正态分布。(3)独立性假设，包含两个意思：①与某一个X值对应的一组Y值和与另一个X值对应的一组Y值之间没有关系，彼此独立。②误差项独立，不同的X所产生的误差之间应相互独立，无自相关。(4)误差等分散性假设：特定X水平的误差，除了应呈随机化的常态分配，其变异量也应相等，称为误差等分散性。[单选题]31.以下选项中，不属于函数的作用的是（）。A)提高代码执行速度B)降低编程复杂度C)增强代码可读性D)复用代码答案:A解析:函数可以降低编程复杂度$;$增强代码可读性$;$复用代码[单选题]32.在运行时，由MaxCompute依据上下文使用环境及类型转换规则自动进行的类型转换是:（）。A)显示转换B)影式专换C)cast转换D)SQL转换答案:B解析:[单选题]33.数据资产应用以安全可控为前提，按照（）的原则，落实安全与保密责任。A)谁经手，谁使用，谁负责B)谁主管，谁负责C)谁使用，谁主管，谁负责D)谁录入，谁使用，谁负责答案:A解析:数据资产应用以安全可控为前提，按照谁经手，谁使用，谁负责的原则，落实安全与保密责任。[单选题]34.下列关于配置机架感知的相关描述哪项不正确（）A)如果一个机架出问题，不会影响数据读写和正确性B)写入数据的时候多个副本会写到不同机架的DataNode中C)MapReduce会根据机架的拓扑获取离自己比较近的数据块D)数据块的第一个副本会优先考虑存储在客户端所在节点答案:D解析:在HDFS的副本存放策略中，数据块的第一个副本和第二个副本会存放在不同的机架中，但是第三个副本会优先考虑存放在跟第二个副本相同机架的不同节点中，也有可能存放在跟第一个副本相同机架的不同节点中，因此D错。[单选题]35.生成多项式和交互特征使用preprocessing模块中的（）函数。A)preprocessing.binarize()B)preprocessing.Normalizer()C)preprocessing.LabelEncoder()D)preprocessing.PolynomialFeatures()答案:D解析:preprocessing.PolynomialFeatures用于生成多项式和交互特征，可以将线性回归模型应用于多项式回归中。[单选题]36.对矩阵[[0,0,3],[1,1,0],[0,2,1],[1,0,2]]进行独热编码训练后，对矩阵[[0,1,3]]进行独热编码输出结果为（）。A)[0,1,0,1,0,0,0,1,0]B)[1,0,0,1,0,0,0,0,1]C)[0,1,0,0,1,0,0,0,1]D)[1,0,0,0,1,0,0,1,0]答案:B解析:对于训练矩阵第一列为第一个特征维度，有两种取值01，所以对应编码方式为10、01；同理，第二列为第二个特征维度，有三种取值012，所以对应编码方式为100、010、001；同理，第三列为第三个特征维度，有四中取值0123，所以对应编码方式为1000、0100、0010、0001，再来看要进行编码的参数[0,1,3]，0作为第一个特征编码为10，1作为第二个特征编码为010，3作为第三个特征编码为0001，故此编码结果为[1,0,0,1,0,0,0,0,1]。[单选题]37.以下选项正确的是（）。ImportnumpyasnpNm=('raju','anil','ravi','amar')Dv=('f.y.','s.y.','s.y.','f.y.')Ind=np.lexsort((nm,dv))Print(ind)A)[3012]B)[1359]C)[3198]D)['amar,f.y.''anil,s.y.''raju,f.y.''ravi,s.y.']答案:A解析:np.lexsort()按照多列排序,返回排序后的行索引。[单选题]38.选择Logistic回归中的One-Vs-All方法中的哪个选项是真实的（）。A)我们需要在n类分类问题中适合n个模型B)我们需要适合n-1个模型来分类为n个类C)我们需要只适合1个模型来分类为n个类D)以上答案都不正确答案:A解析:如果存在n个类，那么n个单独的逻辑回归必须与之相适应，其中每个类的概率由剩余类的概率之和确定。[单选题]39.可用信息增益来进行决策树的（）。A)树高B)叶子结点数C)总结点数D)划分属性选答案:D解析:可用信息增益来进行决策树的划分属性选择。[单选题]40.AGNES是一种采用（）策略的层次聚类算法。A)自顶向下B)自底向上C)自左至右D)自右至答案:B解析:AGNES是一种采用自底向上策略的层次聚类算法。[单选题]41.表达式select(9+6*5+3%2)/5-3的运算结果是多少?A)1B)3C)5D)7答案:C解析:[单选题]42.有N个样本，一般用于训练，一般用于测试。若增大N值，则训练误差和测试误差之间的差距会如何变化（）。A)增大B)减小C)无法确定D)无明显变化答案:B解析:增加数据，能够有效减小过拟合，减小训练样本误差和测试样本误差之间的差距。[单选题]43.构造了一个词表：{1.小明2.喜欢3.踢4.看5.足球6.篮球7.电影}，利用上述词表的索引号，文档{小明喜欢踢足球}可以用一个7维向量表示为（）。A)[1101001]B)[1111111]C)[1111100]D)[1110100答案:D解析:统计文档中每个词的数量，根据词表的位置，将各个词的数量拼接成一个向量即可。[单选题]44.结构化数组不能使用以下哪种数据类型创建（）。A)元组列表B)字符串C)字典D)整数答案:D解析:结构化数组类型创建有四种不同的规范形式：元组列表、逗号分割的数据类型规范字符串、字段参数组字典、字段名称字典，不包含整数。[单选题]45.关于Python的全局变量和局部变量，以下选项中描述错误的是（）。A)局部变量指在函数内部使用的变量，当函数退出时，变量依然存在，下次函数调用可以继续使用B)使用global保留字声明简单数据类型变量后，该变量作为全局变量使用C)简单数据类型变量无论是否与全局变量重名，仅在函数内部创建和使用，函数退出后变量被释放D)全局变量指在函数之外定义的变量，一般没有缩进，在程序执行全过程有效答案:A解析:局部变量指在函数内部使用的变量，当函数退出时，变量即不存在。[单选题]46.关于脏数据和乱数据的区分，以下哪种不属于脏数据（）。A)含有缺失数据B)冗余数据C)噪声数据D)不规则形态数据答案:D解析:在数据库技术中,脏数据在临时更新(脏读)中产生。事务A更新了某个数据项X,但是由于某种原因,事务A出现了问题,于是要把A回滚。但是在回滚之前,另一个事务B读取了数据项X的值(A更新后),A回滚了事务,数据项恢复了原值。事务B读取的就是数据项X的就是一个?临时?的值,就是脏数据。[单选题]47.当ElasticSearch集群有节点加入或退出时集群数据会发生什么动作?A)数据重载B)数据重建C)数据重分布D)数据更答案:C解析:[单选题]48.高通滤波后的图像通常较暗，为改善这种情况，将高通滤波器的转移函数加上一常数量以便于引入一些低频分量。这样滤波器叫（）。A)巴特沃斯高通滤波器B)高频提升滤波器C)高频加强滤波器D)理想高通滤波答案:B解析:高频增强滤波器由于相对削弱了低频成分,因而滤波所得的图像往往偏暗。[单选题]49.阿里云MaxCompute中，Table的名字描述中错误的是:（）。A)使用Createtable建表时，可以使用中文作为表的名字B)表中不能有特殊字符C)表名只能用英文的a-z,A-Z及数字和下划线」，且以字母开头D)名称的长度不超过128答案:A解析:[单选题]50.对于SVM分类算法，待分样本集中的大部分样本不是支持向量，下列说法正确的是（）。A)需要将这些样本全部强制转换为支持向量B)需要将这些样本中可以转化的样本转换为支持向量，不能转换的直接删除C)移去或者减少这些样本对分类结果没有影响D)以上都不对答案:C解析:支持向量机的一个重要性质:训练完成后，大部分的训练样本都不需保留，最终模型仅与支持向量有关。[单选题]51.子集搜索中，逐渐增加相关特征的策略称为（）。A)前向搜索B)后向搜索C)双向搜索D)不定向搜答案:A解析:子集搜索中，逐渐增加相关特征的策略称为前向搜索。[单选题]52.下面哪个不属于数据的属性类型：()A)标称B)序数C)区间D)相异答案:D解析:[单选题]53.基于Bagging的集成学习代表算法有（）。A)AdaboostB)GBDTC)XGBOOSTD)随机森林答案:D解析:随机森林是基于Bagging的集成学习算法。[单选题]54.下面python循环体执行的次数与其他不同的是（）。A)i=0while(i<=10):print(i)i=i+1B)i=10while(i>0):print(i)i=i-1C)forIinrange(10):Print(i)D)forIinrange(10,0,-1):print(i)答案:A解析:A循环次数为11次；B循环次数为10次；C循环次数为10次；D循环次数为10次。[单选题]55.下列关于描述性分析与探索性分析描述正确的是（）。A)描述性分析是相对于验证性分析的一种提法B)探索性分析是探索性性分析的基础C)探索性分析是相对于验证性分析的一种提法D)探索性分析是数据分析的第一步答案:C解析:二者的区别：1）描述性分析（DescriptiveAnalytics）是相对于诊断性分析、预测性分析和规范性分析的一种提法，主要指的是对一组数据的各种统计特征（如平均数、标准差、中位数、频数分布、正态或偏态程度等）进行分析，以便于描述测量样本的各种特征及其所对应总体的特征。2）探索性数据分析（ExploratoryDataAnalysis,EDA）是相对于验证性分析的一种提法，主要指的是指在尽量少的先验假定下，对已有的数据(特别是调查或观察得来的原始数据)进行探索，并通过作图、制表、方程拟合、计算特征量等较为简单方法，探索数据的结构和规律的一种数据分析方法。[单选题]56.给定一个长度为n的不完整单词序列，我们希望预测下一个字母是什么。比如输入是predictio(9个字母组成)，希望预测第十个字母是什么。下面哪种神经网络结构适用于解决这个工作（）A)循环神经网络B)全连接神经网络C)受限波尔兹曼机D)卷积神经网答案:A解析:循环神经网络具有记忆性、参数共享并且图灵完备，因此在对序列的非线性特征进行学习时具有一定优势。循环神经网络在自然语言处理（NaturalLanguageProcessing,NLP），例如语音识别、语言建模、机器翻译等领域有应用，也被用于各类时间序列预报。[单选题]57.关于Maxcompute中的运算符的说法，正确的是:（）。A)String类型可以和其他任意类型进行隐式转换：Boolean不行B)除boolean外，其他类型不允许参与逻辑运算，也不允许其他类型的隐式类型转换C)只有bigint、double才能参与算数运算：只有string、bigint、double和Decimal才能参与算术运算D)特殊的关系运算符rlike表示右侧开始匹配答案:B解析:[单选题]58.DWS实例中，下列哪项不是主备配置的：A)CMSB)GTMC)OMSD)coordinato答案:D解析:[单选题]59.Hadoop常用命令中，查看指定目录下的所有文件及子目录的命令是（）A)hdfsdfs-ls[文件目录]B)hdfsdfs-du[文件目录]C)hdfsdfs-ls-R[文件目录]D)hdfsdfs-du-R[文件目录]答案:C解析:[单选题]60.pynlpir是一种常用的自然语言理解工具包，其中进行分词处理的函数是（）。A)open（）B)segment（）C)AddUserWord（）D)generate（答案:B解析:pynlpir是python中分词工具包，用于分词处理的函数是segment（）[单选题]61.关于python类说法错误的是（）。A)类的实例方法必须创建对象后才可以调用B)类的实例方法必须创建对象前才可以调用C)类的类方法可以用对象和类名来调用D)类的静态属性可以用类名和对象来调用答案:B解析:类的实例方法必须创建对象后才可以调用。[单选题]62.（）反映数据的精细化程度，越细化的数据，价值越高。A)规模B)灵活性C)关联度D)颗粒度答案:D解析:颗粒度反映的是数据的精细化程度。[单选题]63.数据科学中，人们开始注意到传统数据处理方式中普遍存在的?信息丢失?现象，进而数据处理范式从（）转向（）。A)产品在先，数据在后范式；数据在先，产品在后范式或无模式B)模式在先，产品在后范式；产品在先，模式在后范式或无模式C)数据在先，模式在后范式或无模式；模式在先，数据在后范式D)模式在先，数据在后范式；数据在先，模式在后范式或无模式答案:D解析:传统关系数据库中，先定义模式，然后严格按照模式要求存储数据；当需要调整模式时，不仅需要数据结构，而且还需要修改上层应用程序。然而，NoSQL技术则采用了非常简单的Key-Value等模式在后（SchemaLater）和无模式（Schemaless）的方式提升了数据管理系统的自适应能力。当然，模式在后（SchemaLater）和无模式（Schemaless）也会带来新问题，如降低了数据管理系统的数据处理能力。[单选题]64.选择哪一个解作为输出，将由学习算法的归纳偏好决定，常见的做法是引入（）。A)线性回归B)线性判别分析C)正则化项D)偏置项答案:C解析:选择哪一个解作为输出，将由学习算法的归纳偏好决定，常见的做法是引入正则化(regularization)项。第2部分：多项选择题，共22题，每题至少两个正确答案,多选或少选均不得分。[多选题]65.以下关于神经网络模型描述正确的是(__)。A)神经网络模型是许多逻辑单元按照不同层级组织起来的网络，每一层的输出变量都是下一层的输入变量B)神经网络模型建立在多神经元之上C)神经网络模型中，无中间层的神经元模型的计算可用来表示逻辑运算D)神经网络模型一定可以解决所有分类问题答案:ABC解析:现在很多分类问题的准确率都很低尤其是医学图像方面，而且容易受环境，如光照影响。[多选题]66.以下选项对GraphBase概念描述正确的是?A)Edge:边，用于表示关系度B)VertexLabel:节点的标签，用于表示现实世界中的实体类型C)Vertex:节点/顶点，用于表示现实世界中的实体对象D)EdgeLabel:边的标签，用于表示现实世界中的关系类答案:BCD解析:[多选题]67.实时计算类应用主要通过（）来实现。A)流计算组件B)内存计算组件C)MPP数据库D)Hadoop的后台定时分析计算任务答案:AB解析:实时计算类应用主要通过流计算组件、内存计算组件来实现。[多选题]68.属于特征选择的优点有（）。A)解决模型自身的缺陷B)减少过拟合C)提升模型的性能D)增强模型的泛化能力答案:BCD解析:特征选择无法克服模型自身的缺陷，二者是独立的。[多选题]69.对于主成分分析方法，降维后低维空间的维数d可以通过（）方法确定。A)由用户事先指定B)通过在d值不同的低维空间中对开销较小的学习器进行交叉验证来选取C)可从重构的角度设置一个重构阈值，选取使得特定公式成立的最小值D)随机设置答案:ABC解析:降维后低维空间的维数通常是由用户事先指定，或通过在d值不同的低维空间中对k近邻分类器(或其他开销较小的学习器)进行交叉验证来选取较好的d值。从重构的角度还可以设置一个重构阈值，选取使得特定公式成立的最小值。[多选题]70.关于梯度消失和梯度消失，以下说法正确的是：(__)。A)根据链式法则，如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话，那么即使这个结果是0.99，在经过足够多层传播之后，误差对输入层的偏导会趋于0B)可以采用ReLU激活函数有效的解决梯度消失的情况C)根据链式法则，如果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话，在经过足够多层传播之后，误差对输入层的偏导会趋于无穷大D)可以通过减小初始权重矩阵的值来缓解梯度爆答案:ABCD解析:使用标准化初始w，那么各个层次的相乘都是0-1之间的小数，而激活函数f的导数也是0-1之间的数，其连乘后，结果会变的很小，导致梯度消失。若我们初始化的w是很大的数，w大到乘以激活函数的导数都大于1，那么连乘后，可能会导致求导的结果很大，形成梯度爆炸。[多选题]71.下面对范数规则化描述正确的是（）。A)L0是指向量中0的元素的个数B)L1范数是指向量中各个元素绝对值之和C)L2范数向量元素绝对值的平方和再开平方D)L0是指向量中非0的元素的个答案:BCD解析:L0是指向量中非0的元素的个数，L1范数是指向量中各个元素绝对值之和，L2范数向量元素绝对值的平方和再开平方。[多选题]72.下列既可以用于分类，又可以用于回归的机器学习算法有：A)k近邻B)逻辑回归C)决策树D)线性回归答案:AC解析:逻辑回归只用于分类，线性回归只用于回归。[多选题]73.深度学习的实质及其与浅层学习的说法正确的是(__)。A)DL强调模型深度B)DL突出特征学习的重要性.特征变换+非人工C)没有区别D)以上答案都不正答案:AB解析:深度模型是手段，特征学习是目的。[多选题]74.Python逻辑表达式（）会导致逻辑短路，即不会继续向下推算而直接返回结果。A)False开头的and语句B)False开头的or语句C)True开头的and语句D)True开头的or语句答案:AD解析:两种情况：False开头的and语句，True开头的or语句。[多选题]75.在DAYU数据集成中，在表/文件迁移的任务中，CDM支持定时执行作业，重复周期单位有（）A)秒B)小时C)月D)天答案:BCD解析:[多选题]76.许多功能更为强大的非线性模型可在线性模型基础上通过引入（）和（）而得。A)层级结构B)高维映射C)降维D)分答案:AB解析:许多功能更为强大的非线性模型可在线性模型基础上通过引入层级结构和高维映射而得。[多选题]77.以下关于数据维度的描述，正确的是（）。A)采用列表表示一维数据，不同数据类型的元素是可以的B)JSON格式可以表示比二维数据还复杂的高维数据C)二维数据可以看成是一维数据的组合形式D)字典不可以表示二维以上的高维数据答案:ABC解析:字典可以表示二维以上的高维数据。[多选题]78.以下说法正确的是（）。A)条件独立性假设不成立时，朴素贝叶斯分类器仍有可能产生最优贝叶斯分类器B)在估计概率值时使用的拉普拉斯修正避免了因训练集样本不充分而导致概率估值为零的问题C)由于马尔可夫链通常很快就能趋于平稳分布，因此吉布斯采样算法的收敛速度很快D)二分类任务中两类数据满足高斯分布且方差相同时，线性判别分析产生贝叶斯最优分类器答案:ABD解析:由于马尔可夫链通常需要很长时间才能趋于平稳分布,因此吉布斯采样算法的收敛速度较慢。[多选题]79.K均值聚类和层次聚类在一些方面有重大差异。以下哪些说法是正确的（）A)在K均值聚类中，必须在运行算法前选定想要的簇的个数B)在k均值聚类中，可以在运行算法后选定想要的簇的个数C)在层次聚类中，可以在运行算法后选定想要的簇的个数D)k均值聚类算法所需的计算量比层次聚类算法小得多答案:ACD解析:在k均值聚类中，需要在运行算法前确定想要的簇的个数k。[多选题]80.已定义级（DefinedLevel）的主要特点包括（）。A)组织机构已明确给出了关键过程的?标准定义?，并定期对其进行改进。B)已提供了关键过程的测量与预测方法。C)关键过程的执行过程并不是简单或死板地执行组织机构给出的?标准定义?，而是根据具体业务进行了一定的?裁剪?工作。D)数据的重要性已成为组织机构层次的共识，将数据当作成功实现组织机构使命的关键因素之一答案:ABCD解析:DMM的已定义级（DefinedLevel）：组织机构已经定义了自己的?标准关键过程?。其主要特点如下：1）组织机构已明确给出了关键过程的?标准定义?，并定期对其进行改进；2）已提供了关键过程的测量与预测方法；3）关键过程的执行过程并不是简单或死板地执行组织机构给出的?标准定义?，而是根据具体业务进行了一定?裁剪?工作；4）数据的重要性已成为组织机构层次的共识，将数据当做成功实现组织机构使命的关键因素之一。[多选题]81.Python函数包括下述哪些内容（）。A)函数名称B)参数C)执行语句D)返回值答案:ABCD解析:Python函数包括下述哪些内容函数名称、参数、执行语句、返回值。[多选题]82.下列哪些是常用分词方法（）。A)基于Binarytree的分词方法B)基于HMM的分词方法C)基于F的分词方法D)基于Kmeans的分词方答案:BC解析:k均值一般用于聚类，二叉树也不用于分词[多选题]83.下列属于数值优化算法的是（）。A)梯度下降法B)牛顿法C)极大似然法D)逻辑回答案:AB解析:在机器学习的优化问题中,梯度下降法和牛顿法是常用的两种凸函数求极值的方法,他们都是为了求得目标函数的近似解。极大似然法是一种应用非常广泛的参数估计方法。逻辑回归是一种广义的线性回归分析模型，常用于分类问题。[多选题]84.下列关于数据科学中常用的统计学知识说法错误的是（）。A)从行为目的与思维方式看，数据统计方法可以分为基本分析方法和元分析方法B)从方法论角度看，基于统计的数据分析方法又可分为描述统计和推断统计C)描述统计可分为集中趋势分析、离中趋势分析、参数估计和假设检验D)推断统计包括采样分布和相关分析答案:ABCD解析:从行为目的与思维方式看，数据统计方法包括描述统计、假设检验、相关分析、方差分析、回归分析、聚类分析等；从方法论角度看，描述统计可分为集中趋势分析和离散趋势分析；推断统计包括两方面的内容：总体参数估计和假设检验。[多选题]85.下列关于情感分析的说法正确的是（）。A)简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程B)情感分析的发展得益于社交媒体的兴起C)按照处

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据理论考试(习题卷10)

文档简介

温馨提示

最新文档

评论

大数据理论考试(习题卷10)

文档简介

温馨提示

最新文档

评论

相关文档