大数据理论考试(习题卷2)_第1页
大数据理论考试(习题卷2)_第2页
大数据理论考试(习题卷2)_第3页
大数据理论考试(习题卷2)_第4页
大数据理论考试(习题卷2)_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据理论考试大数据理论考试(习题卷2)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据理论考试第1部分:单项选择题,共64题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.关于数据分析,下列说法正确的是()。A)描述性分析和预测性分析是对诊断性分析的基础B)断性分析分析是对规范性分析的进一步理解C)预测性分析是规范性分析的基础D)规范性分析是数据分析的最高阶段,可以直接产生产业价值答案:C解析:在数据分析中,流程分为以下方式:描述性分析、诊断性分析、预测性分析、规范性分析。[单选题]2.如果要清空文件,需要使用的命令是()。A)close()B)seek(0)C)truncate(0)D)Dwrite('stuff')答案:C解析:truncate(size)方法将截断文件,大小为size,size为0即清空[单选题]3.在pandas中,描述统计信息的是哪个函数()。A)describe()B)desc()C)information()D)info()答案:A解析:describe()用于描述统计信息。[单选题]4.声明变量的关键字是A)dimB)decimalC)declareD)dealcr答案:C解析:[单选题]5.通过HDFS的Shell命令来操作HDFS,表示删除文件的命令是A)hdfsdfs-catB)hdtsdrs-rmC)hdfsdfs-mkdirD)hdfsdfs-put答案:B解析:[单选题]6.数据库中有A表,包括学生,学科,成绩三个字段,如何统计每个学科的最高分A)select学生,max(成绩)fromAgroupby学生;B)select学生,max(成绩)fromAgroupby学科;C)select学生,max(成绩)fromAorderby学生;D)select学生,max(成绩)fromAgroupby成绩答案:B解析:[单选题]7.以下代码的输出结果为()。Arr=np.array([1,5,3])Arr1=np.array([2,4,6])Print(arr<arr1)A)TRUEB)FALSEC)[Ture,False,Ture]D)([Ture,Ture,Ture])答案:C解析:数组进行逻辑运算生成逻辑数组。[单选题]8.()表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。A)偏差B)方差C)噪声D)泛化误差答案:C解析:泛化误差可分解为偏差、方差与噪声之和。偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力;方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响;噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的F界,即刻画了学习问题本身的难度。[单选题]9.长短时记忆神经网络通过什么来缓解梯度消失问题()A)增加网络深度B)减少网络神经元C)使用双向的网络结构D)增加一个用来保存长期状态的单答案:D解析:长短时记忆神经网络增加一个用来保存长期状态的单元来解决梯度消失问题。[单选题]10.Matplotlib的主要功能是()。A)科学计算B)绘图库C)爬取网站数据、提取结构性数据D)机器学习库答案:B解析:Matplotlib是一个Python2D绘图库,它以多种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形。[单选题]11.Hadoop环境下MapReduce中,()实现中间结果中的重复key做合并A)OutputKeyClassB)OutputValueClassC)CombinerClassD)ReducerClass答案:C解析:CombinerClass实现输出结果的合并。[单选题]12.下列关于Hive特性归纳正确的选项是()(1)为了数据仓库而设计(2)迭代式算法无法表达(3)数据挖掘方面不擅长(4)分布式拓展能力强,适合高吞吐量、批量、海量数据处理(5)不属于MapReduce框架(6)低容错性A)(1)(2)(3)(4)B)(1)(2)(3)(6)C)(2)(3)(5)(6)D)(1)(2)(3)(4)(6答案:A解析:[单选题]13.下面哪一项用决策树法训练大量数据集最节约时间()。A)增加树的深度B)增加学习率C)减少数的深度D)减少树的个答案:C解析:减少树的深度,相当于加入了一个正则化项,可以降低模型复杂度。[单选题]14.在用户验证权限时,应当在?服务列表?中选择数据复制服务,进入DRS主界面,单击右上角(),尝试购创建迁移任务。A)修改迁移任务B)创建迁移任务C)查阅权限D)删除迁移任答案:B解析:[单选题]15.假定你使用SVM学习数据X,数据X里面有些点存在错误。现在如果你使用一个二次核函数,多项式阶数为2,使用松弛变量C作为超参之一。当你使用较大的C(C趋于无穷),则()。A)仍然能正确分类数据B)不能正确分类C)不确定D)以上均不正确答案:A解析:采用更大的C,误分类点的惩罚就更大,因此决策边界将尽可能完美地分类数据。[单选题]16.下列哪种算法可以用神经网络构建?(__)1.K-NN最近邻算法2.线性回归3.逻辑回归A)1and2B)2and3C)1,2and3D)Noneoftheabov答案:B解析:KNN是关于距离的学习算法,没有任何参数,所以无法用神经网络构建。[单选题]17.plt.scatter()函数中的参数c表示的含义是()。A)x轴上的数值B)y轴上的数值C)散点图中的标记颜色D)标记图形内容的标签文件答案:C解析:c是color关键字,指颜色。[单选题]18.()在训练的每一轮都要检查当前生成的基学习器是否满足基本条件。A)支持向量机B)osting算法C)贝叶斯分类器D)Bagging算答案:B解析:Boosting算法在训练的每一轮都要检查当前生成的基学习器是否满足基本条件。[单选题]19.下面哪个操作是窄依赖A)joinB)filterC)groupD)sor答案:B解析:[单选题]20.假设有列表a=['name','age','sex']和b=['Dong',38,'Male'],请使用一个语句将这两个列表的内容转换为字典,并且以列表a中的元素为?键?,以列表b中的元素为?值?,这个语句可以写为()。A)c=dict(cross(a,b))B)c=dict(zip(a,b))C)c=map(zip(a,b))D)c=b答案:B解析:zip()将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后用dict生成器生成字典[单选题]21.大数据中的小数据可能缺失、冗余、存在垃圾数据不影响大数据的可信数据,体现大数据?涌现?的()表现形式。A)价值涌现B)隐私涌现C)质量涌现D)安全涌现答案:C解析:大数据的?质量涌现?是指大数据中的成员小数据可能有质量问题(不可信的数据),如缺失、冗余、垃圾数据的存在,但不影响大数据的质量(可信的数据)。[单选题]22.彩色图像增强时,()处理可以采用RGB。A)直方图均衡化B)同态滤波C)加权均值滤波D)中值滤答案:C解析:RGB是彩色图像的三通道像素值,均值滤波进行的是线性操作,不影响原本图像的相对亮度。[单选题]23.卷积神经网络可以对一个输入进行多种变换(旋转、平移、缩放),这个表述正确吗()A)对的B)不知道C)看情况D)不答案:D解析:把数据传入神经网络之前需要做一系列数据预处理(也就是旋转、平移、缩放)工作,神经网络本身不能完成这些变换。[单选题]24.以下关于Hive内置函数描述正确的是A)to.date(),获取当前日期B)descfunctionsupper:查看系统自带的函数C)substr(),求字符串长度D)trim():去除空字符串答案:C解析:[单选题]25.视觉编码的前提是分析并了解目标用户的(),尽量降低目标用户的()。A)视觉感知特征;感知障碍B)视觉感知特征;感知时间C)视觉感知习惯;感知障碍D)视觉感知习惯;感知时答案:A解析:视觉编码的前提是分析并了解目标用户的视觉感知特征,尽量降低目标用户的感知障碍。[单选题]26.数据可视化的本质是()。A)将数据转换为知识B)将知识转换为数据C)将数据转换为信息D)将信息转换为智慧答案:A解析:可视化分析学模型认为,数据可视化的本质是将数据转换为知识,而不能仅仅停留在数据的可视化呈现层次之上,并提出从数据到知识的转换途径有两个:一是可视化分析,另一个是自动化建模。[单选题]27.阅读下面的程序:deffunc():print(x)x=100func()执行上述语句后,输出的结果为()。A)0B)100C)程序出现异常D)程序编译失败答案:C解析:[单选题]28.()是指通过训练而得到一种识别规则,通过此识别规则可以得到一种特征分类,使图像识别技术能够得到高识别率。A)预处理B)特征抽取和选择C)分类器设计D)分类决答案:C解析:分类器设计是指通过训练而得到一张识别规则,通过此识别规则可以得到的一种特征分类,使图像识别技术能够得到高识别率。[单选题]29.下面关于Hive导表写入指定格式表时的描述正确的是()A)导表时,如果建表语句指定为ORC格式的表,那么数据会先存储为ORC格式B)导表时,如果建表语句指定为SequenceFile格式的表,那么数据会先存储为SequenceFile格式C)导表时,如果建表语句指定为PARQUET格式的表,那么数据会先存储为PARQUET格式D)导表时,如果建表语句指定为ORC格式的表,那么数据会先存储为TEXTFILE格答案:D解析:[单选题]30.()的基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。A)贝叶斯判定准则B)贝叶斯决策论C)朴素贝叶斯分类器D)半朴素贝叶斯分类器答案:D解析:半朴素贝叶斯的基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。[单选题]31.关于神经网络结构的权重共享现象,下面哪个选项是正确的()A)只有全连接神经网络会出现B)只有卷积神经网络(CNN)会出现C)只有循环神经网络(RNN)会出现D)卷积神经网络和循环神经网络都会出答案:D解析:卷积神经网络和循环神经网络会产生权重共享现象。[单选题]32.sklearn.naive_bayes模块实现了朴素贝叶斯算法,基于贝叶斯定理和特征独立性假设的监督学习方法,下列哪个模型不是朴素贝叶斯分类器的模型()。A)BernoulliNB()B)GaussianN()C)NeighborsNB()D)MultinomialNB()答案:C解析:sklearn的朴素贝叶斯算法,根据输入特征的不同类型分为BernoulliNB,GaussianNB,MultinomialNB三种。[单选题]33.讨论变量之间的关系,主要有三个方法:()、方差分析和回归分析A)参数分析B)逻辑分析C)假设分析D)相关分析答案:D解析:相关分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。例如,人的身高和体重之间;空气中的相对湿度与降雨量之间的相关关系都是相关分析研究的问题。方差分析用于两个及两个以上样本均数差别的显著性检验。[单选题]34.下列关于数据转换,正确的是()。A)json内的取值只能有统一格式B)pdf文件在不同平台上打开显示不同C)可以通过python将csv文件转换成Excel格式D)excel存储数据的量无限制答案:C解析:json内的取值可以有多种格式,pdf文件在不同平台上打开显示相同,excel存储数据的量在Excel2007及以后版本,一个工作表最多可有1048576行,16384列。[单选题]35.图灵奖获得者JimGray提出的?科学研究第四范式?的全称为()。A)数据密集型科学发现B)以数据为中心的科学发现C)数据驱动型的科学发现D)大数据科学研究答案:A解析:2007年,图灵奖获得者JimGray提出了科学研究的第四范式--数据密集型科学发现(Data-intensiveScientificDiscovery)。在他看来,人类科学研究活动已经历过三种不同范式的演变过程(原始社会的?实验科学范式?、以模型和归纳为特征的?理论科学范式?和以模拟仿真为特征的?计算科学范式?),目前正在从?计算科学范式?转向?数据密集型科学发现范式?。[单选题]36.下列说法错误的是()A)当目标函数是凸函数时,梯度下降算法的解一般就是全局最优解B)进行PCA降维时,需要计算协方差矩C)沿负梯度的方向一定是最优的方向D)利用拉格朗日函数能解带约束的优化问题答案:C解析:沿负梯度的方向是函数值减少最快的方向但不一定就是最优方向。[单选题]37.K-Means算法无法聚以下哪种形状的样本()A)圆形分布B)螺旋分布C)带状分布D)凸多边形分布答案:B解析:K-Means算法是基于距离测量的,无法聚非凸形状的样本。[单选题]38.以下聚合函数求和的是()A)AVGB)SUMC)MAXD)COUN答案:B解析:[单选题]39.大数据计算服务中,临时数据表tmp_item是一张非分区表,开发人员在建表时指定了lifecycle属性为30,且使用一次后未再进行任何操作和访问。30天后这张表会()。A)tmp_item会被自动重命名为tmp_item.deletedB)tmp_item表会被自动删除掉C)不会任何变更D)tmp_item中的数据会被清空,表结构仍存在答案:B解析:[单选题]40.基于词的n元文法模型,其最后的粗分结果集合大小()N。A)大于B)大于等于C)小于D)小于等于答案:B解析:基于N-最短路径分词算法,其基本思想是根据词典,找出字串中所有可能的词,构造词语切分有向无环图。每个词对应图中的一条有向边,并赋给相应的边长(权值)。然后针对该切分图,在起点到终点的所有路径中,求出长度值按严格升序排列(任何两个不同位置上的值一定不等,下同)依次为第1,第2,…,第i,…,第N的路径集合作为相应的粗分结果集。如果两条或两条以上路径长度相等,那么他们的长度并列第i,都要列入粗分结果集,而且不影响其他路径的排列序号,最后的粗分结果集合大小大于或等于N。[单选题]41.a=np.array([1,0,0,3,4,5,0,8]),b=np.nonzero(a)B[0]的值为()。A)[0,3,4,5,7]B)[1,3,4,5,8]C)[03457]D)[13458]答案:A解析:np.nonzero()函数是提取数组中不为0的下标,返回的结果为每一个位置的下标数组组成的元组。[单选题]42.执行下面操作后,list2的值是()。List1=[4,5,6]List2=list1List1[2]=3A)[4,5,6]B)[4,3,6]C)[4,5,3]D)以上答案都不正确答案:C解析:赋值语句是浅复制操作,没有复制子对象,所以原始数据改变,子对象会改变[单选题]43.对于数据3,3,2,3,6,3,10,3,6,3,2.①这组数据的众数是3;②这组数据的众数与中位数的数值不相等;③这组数据的中位数与平均数的数值不相等;④这组数据的平均数与众数的数值相等.其中正确结论的个数为()。A)1B)2C)3D)4答案:B解析:众数是指一组中出现次数最多的数,中位数是按顺序排列的一组数据中居于中间位置的数,平均值是各数值加总求和再除以总的个数。此题中众数为3,中位数为3,平均值为4,故①和③正确。[单选题]44.决策树模型的规模应当是()。A)越复杂越好B)越简单越好C)适当限制其复杂程度D)尽可能利用所有特答案:C解析:决策树模型的规模复杂可能产生过拟合,因此并非越复杂做好,应适当限制其复杂程度。[单选题]45.数据安全技术保护与信息系统?三同步?原则不包括以下哪项()。A)同步规划B)同步建设C)同步使用D)同步运维答案:D解析:数据安全技术保护与信息系统包含同步规则、同步建设、同步适用三项原则。[单选题]46.下列哪个不属于常用的文本分类的特征选择算法()。A)卡方检验值B).互信息C).信息增益D).主成分分答案:D解析:以文档频率为基础的特征选择算法有文档频次方法(直接依据文档频率大小排序的方法)、卡方检验、信息增益、互信息等,不包括主成分分析法。[单选题]47.()是数据库管理系统运行的基本工作单位。A)事务B)数据仓库C)数据单元D)数据分析答案:A解析:在关系数据库中,事务(Transaction)是保证数据一致性的重要手段,可以帮助用户维护数据的一致性。事务是用户定义的一个数据库操作序列,这些操作要么全做,要么全不做,是一个不可分割的工作单位。[单选题]48.假设有4个数据节点,每个节点上有2个主DN实例,那么每个节点上有几个DN实例:A)4个B)6个C)8个D)12答案:B解析:[单选题]49.把图像分割问题与图的最小割(mincut)问题相关联的方法是()。A)基于图论的分割方法B)分水岭算法C)SLI法D)基于阈值的方答案:A解析:基于图论的分割方法把图像分割问题与图的最小割(mincut)问题相关联。首先将图像映射为带权无向图,图中每个节点对应于图像中的每个像素,每条边的权值表示了相邻像素之间在灰度、颜色或纹理方面的非负相似度。[单选题]50.通常来说,下面哪种方法能够用来预测连续因变量()A)线性回归B)逻辑回归C)线性回归和逻辑回归D)以上答案都不正确答案:A解析:逻辑回归被用来处理分类问题。[单选题]51.下面关于Hive内外表描述正确的是()A)内部表数据由HDFS自身管理,外部表数据由Hive管理;B)内部表数据存储的位置是hive.metastore.warehouse.dir设置配置(默认:/user/hive/warehouse)C)外表存储必须指定LOCATIOND)内外表删除时,都会删除元数据和存答案:B解析:[单选题]52.SQL语句中修改表结构的命令是A)modifytableB)modifystructureC)altertableD)alterstructure答案:C解析:[单选题]53.假设你有5个大小为7x7、边界值为0的卷积核,同时卷积神经网络第一层的深度为1。此时如果你向这一层传入一个维度为224x224x3的数据,那么神经网络下一层所接收到的数据维度是多少()A)218x218x5B)217x217x8C)217x217x3D)220x220x答案:A解析:(224-7)/1+1=218,因为是5个卷积核,所以输出通道肯定是5,选A。[单选题]54.下面()负责MapReduce任务调度。A)NameNodeB)JobtrackerC)TaskTrackerD)secondaryNameNode答案:B解析:Jobtracker负责MapReduce任务调度,TaskTracker负责任务执行。[单选题]55.下列不属于action操作的是()A)collectB)filterC)reduceD)count答案:B解析:Action常用的函数为reduce、collect、count、take、first、foreach等[单选题]56.()是指给目标用户产生的错误或不准确的视觉感知,而这种感知与数据可视化者的意图或数据本身的真实情况不一致。A)视觉假象B)视觉认知C)视觉感知D)数据可视答案:A解析:视觉假象(VisualIllusion)是数据可视化工作中不可忽略的特殊问题。视觉假象是指给目标用户产生的错误或不准确的视觉感知,而这种感知与数据可视化者的意图或数据本身的真实情况不一致。视[单选题]57.ApacheSqoop主要设计目的是()。A)数据清洗B)数据转化C)数据ETLD)数据可视化答案:C解析:在Hadoop与传统的数据库之间进行数据的ETL操作。[单选题]58.Kafka通过()避免任务重复执行。A)实现记录唯一键约束B)对每个Producer分配唯一IDC)通过事务检查是否重复执行D)利用Redis的原子性去实答案:B解析:[单选题]59.绝对多数投票法的基本思想是()。A)对于若干和弱学习器的输出进行平均得到最终的预测输出B)少数服从多数,数量最多的类别为最终的分类类别C)不光要求获得最高票,还要求票过半数D)将训练集弱学习器的学习结果作为输入,将训练集的输出作为输出,重新训练一个学习器来得到最终结果答案:C解析:绝对多数投票法若某标记得票过半数,则预测为该标记;否则拒绝预测。[单选题]60.下列不是数据科学项目的主要角色()。A)项目发起人B)项目经理C)操作人员D)验收人员答案:D解析:数据科学项目涉及的主要角色有:项目发起人(ProjectSponsor)、项目经理(ProjectManager)、客户(Client)、数据科学家(DataScientist)、数据工程师(DataEngineer)、操作员(Operations)等[单选题]61.假如我们使用Lasso回归来拟合数据集,该数据集输入特征有100个(X1,X2,...,X100)。现在,我们把其中一个特征值扩大10倍(例如是特征X1),然后用相同的正则化参数对Lasso回归进行修正。那么,下列说法正确的是()A)特征X1很可能被排除在模型之外B)特征X1很可能还包含在模型之中C)无法确定特征X1是否被舍D)以上答案都不正答案:B解析:将特征X1数值扩大10倍,它对应的回归系数将相应会减小,但不为0,仍然满足β的正则化约束,因此可能还包含在模型之中。[单选题]62.下列关于支持向量的说法正确的是()。A)到分类超平面的距离最近的且满足一定条件的几个训练样本点是支持向量B)训练集中的所有样本点都是支持向量C)每一类样本集中都分别只有一个支持向量D)支持向量的个数越多越答案:A解析:在支持向量机中,距离超平面最近的且满足一定条件的几个训练样本点被称为支持向量。一般情况下,支持向量的个数等于训练样本数目,并不是越多越好。[单选题]63.Base原则的含义不包括()A)基本可用B)柔性状态C)最终一致D)基础条答案:D解析:BASE原则是BasicallyAvailable(基本可用)、SoftState(柔性状态)和EventuallyConsistent(最终一致)的缩写。BasicallyAvailable是指可以容忍系统的短期不可用,并不追求全天候服务;SoftState是指不要求一直保持强一致状态;EventuallyConsistent是指最终数据一致,而不是严格的实时一致,系统在某一个时刻后达到一致性要求即可。[单选题]64.下列哪一种方法的系数没有封闭形式(closed-form)的解()。A)Ridge回归B)LassoC)Ridge回归和LassoD)以上答案都不正确答案:B解析:Ridge回归是一般的线性回归再加上L2正则项,它具有封闭形式的解,可以基于最小二乘法求解。第2部分:多项选择题,共22题,每题至少两个正确答案,多选或少选均不得分。[多选题]65.语音识别的方法包括()。A)声道模型方法B)模板匹配的方法C)利用仍神经网络的方法D)语音知识方答案:ABCD解析:一般来说,语音识别的方法有:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。[多选题]66.云上DWS部署架构中,BMS裸金属方式部署相较于ECS虚机方式的优势有哪些:A)BMS部署具有更好的IO性能B)BMS部署方式具备更好的安全性C)BMC部署方式更易维护D)集群发生DN主备切换不影响BMS集群性答案:ABC解析:[多选题]67.大数据偏见包括()A)数据源的选择偏见B)算法与模型偏见C)结果解读方法的偏见D)数据呈现方式的偏见答案:ABCD解析:大数据偏见是数据科学项目中必须关注和加以避免的问题,上述四个活动中均可能出现偏见。[多选题]68.下列方法中,可以用于特征降维的方法包括()。A)主成分分析PCAB)线性判别分析LDAC)深度学习SparseAutoEncoderD)矩阵奇异值分解SVD答案:ABD解析:主成分分析PCA、线性判别分析LDA、矩阵奇异值分解SVD均可用于特征降维。[多选题]69.下列关于PCA说法正确的是()。A)在使用PC之前,我们必须标准化数据B)应该选择具有最大方差的主成分C)应该选择具有最小方差的主成分D)可以使用PCA在低维空间中可视化数答案:ABD解析:PCA对数据中变量的尺度非常敏感,因此需要对各个变量进行标准化。方差越大,说明在该特征上分布越广泛,说明该特征越有用,影响越大。PCA有时在较低维度上绘制数据是非常有用,可以提取前2个主要组成部分,在二维平面上使用散点图可视化数据。[多选题]70.下列关于词袋模型说法正确的是()。A)词袋模型可以忽略每个词出现的顺序B)词袋模型不可以忽略每个词出现的顺序C)TensorFlow支持词袋模型D)词袋模型可以表出单词之间的前后关答案:AC解析:词袋模型的缺点之一就是不考虑词语的顺序关系,因此AC错误。[多选题]71.以下哪些滤波器能在卷积窗口的边界上使卷积掩膜中心像素和它的4-邻接点的系数降至0附近()。A)同态滤波B)高斯滤波C)巴特沃斯滤波D)中值滤答案:BC解析:图像处理基础知识。[多选题]72.以下属于数据挖掘与分析工具的有()。A)TableauB)PythonC)SPSSD)Altey答案:ABCD解析:常用的数据挖掘工具有:RapidMiner、IBMSPSSModeler、OracleDataMining、Teradata、Python。常用的数据分析工具有:Tableau、Alteyx、R&Python语言、FineReport、PowerBI。[多选题]73.下列对字符串函数或方法说法正确的有()。A)istitle()如果字符串是标题化的(见title())则返回True,否则返回FalseB)max(str)返回字符串str中最大的字母。C)replace(old,new,max)把将字符串中的str1替换成str2,如果max指定,则替换不超过max次D)upper()转换字符串中所有大写字符为小写答案:ABC解析:upper()转换字符串中所有小写字符为大写。[多选题]74.特征选择在子集生成与搜索方面引入了()人工智能搜索和评价方法。A)分支界限法B)浮动搜索法C)信息熵D)AIC答案:ABCD解析:特征选择在子集生成与搜索方面引入了很多人工智能搜索技术,如分支界限法,浮动搜索法等;在子集评价方法则采用了很多源于信息论的准则,如信息熵、AIC等。[多选题]75.MaxcomputeSQL支持的Join操作类型包括:()。A)INNERB)LEFTC)FULLD)RIGHT答案:ABCD解析:[多选题]76.Spark支持的计算模型有()。A)批处理;B)实时计算;C)机器学习模型;D)交互式查询;答案:ABCD解析:Spark支持的计算模型有批处理、实时计算、机器学习模型、交互式查询。[多选题]77.请问下面哪些是离散型变量()。A)示波器B)心电图及脑动电图扫描器对脑电波的测量C)过去数月的总销售额D)公司每年的红利答案:CD解析:在统计学中,变量按其数值表现是否连续,分为连续变量和离散变量。离散变量指变量值可以按一定顺序一一列举,通常以整数位取值的变量。如职工人数、工厂数、机器台数等。有些性质上属于连续变量的现象也按整数取值,即可以把它们当做离散变量来看待。例如年龄、评定成绩等虽属连续变量,但一般按整数计算,按离散变量来处理。离散变量的数值用计数的方法取得。[多选题]78.字符串的格式化可以使用()。A)%B)formatC)inputD)+答案:AB解析:input输入,+加法运算符。[多选题]79.以下网络结构中可以应用于图像识别任务的是()。A)LeNet-5B)AlexNetC)ND)VGG-ne答案:ABCD解析:四者均为经典的卷积神经网络。[多选题]80.31、以下哪些选项是Kafka的特点?A)支持消息随机读取B)高吞吐C)分布式D)消息持久化答案:BCD解析:[多选题]81.哪些是离线批处理的特点?A)处理数据量巨大,PB级B)处理时间要求高C)容易产生资源抢占D)多个作业调度复答案:ACD解析:[多选题]82.以下关于降维方法,叙述正确的是()。A)主成分分析是一种常用的非线性降维方法B)核化线性降维是一种常用的线性降维方法C)流形学习是一种借鉴拓扑流形概念的降维方法D)度量学习绕过降维的过程,将学习目标转化为对距离度量计算的权重矩阵的学习答案:CD解析:本质上讲,主成分分析是一种线性降维方法,在处理非线性问题时,效果不太理想。核化线性降维是一种非的线性降维方法。[多选题]83.可作为决策树选择划分属性的参数是()。A)信息增益B)增益率C)基尼指数D)密度函答案:ABC解析:特征选择的准则主要有三种:信息增益,信息增益率,基尼指数。[多选题]84.数据可视化涉及到()等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术。A)计算机图形学B)图像处理C)计算机视觉D)计算机辅助设计答案:ABCD解析:数据可视化涉及到计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论