大数据理论考试(习题卷3)_第1页
大数据理论考试(习题卷3)_第2页
大数据理论考试(习题卷3)_第3页
大数据理论考试(习题卷3)_第4页
大数据理论考试(习题卷3)_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据理论考试大数据理论考试(习题卷3)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据理论考试第1部分:单项选择题,共64题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.ZooKeeper的特点描述错误的是()。A)复杂性B)自我复制C)顺序访问D)高速读取答案:A解析:ZooKeeper的设计目标和特点包括简单性、自我复制、顺序访问和高速读取。[单选题]2.二维图像可用二维函数表示,下列说法正确地是()。A)表示点的灰度值B)对于模拟图像来讲,是离散函数C)x,y不是平面的二维坐标D)以上答案都不正答案:A解析:二维函数值表示像素点的灰度值。模拟图像的二维函数是连续的,数字图像的是离散的。x,y是平面二维坐标,表示的是图像的横纵方向。[单选题]3.下列哪个组件不属于Hive架构()A)MySQLB)TaskManagerC)HDFSD)Clien答案:B解析:[单选题]4.概率模型的训练过程就是()过程。A)分类B)聚类C)参数估计D)参数选答案:C解析:概率模型的训练过程就是参数估计的过程。[单选题]5.执行一个job,如果这个job的输出路径已经存在,那么程序会()A)覆盖这个输出路径B)抛出警告,但是能够继续执行C)抛出一个异常,然后退出D)创建一个新的输出路径答案:C解析:MapReduce编程模型中的输出目录必须是不存在的目录。否则程序抛出异常,并且退出运行。[单选题]6.下面()属于SVM应用。A)文本和超文本分类B)图像分类C)新文章聚类D)以上均是答案:D解析:SVM可用于分类与回归,文本和超文本分类、图像分类、新文章聚类均属于SVM的应用。[单选题]7.下面哪个操作肯定是宽依赖A)mapB)flatMapC)reduceByKeyD)sampl答案:C解析:[单选题]8.scipy.stats模块中随机变量的概率密度函数是()。A)statsB)fitC)pdfD)ppf答案:C解析:pdf是概率密度函数(probabilitydensityfunction)。[单选题]9.数据预处理方法不包括()。A)数据清洗:去噪声和无关数据B)数据集成:将多个数据源中的数据结合起来存在一个一致的数据存储中C)数据变换:把原始数据转换成为适合数据挖掘的形式D)数据转化:把连续数据转换为离散数据答案:D解析:数据转化多为将字符型数据转换为数值型数据。例如将性别【男,女】分别转换为【0,1】。[单选题]10.在HDFS中()是文件系统的工作节点。A)DataNodeB)ClientC)NameNodeD)Flume答案:A解析:数据节点(DataNode)是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据客户端或者是名称节点的调度来进行数据的存储和检索,并且向名称节点定期发送自己所存储的块的列表。每个数据节点中的数据会被保存在各自节点本地Linux文件系统中。[单选题]11.数据科学基本原则中,?基于数据的智能?的主要特点是()。A)数据简单、但算法简单B)数据复杂、但算法简单C)数据简单、但算法复杂D)数据复杂、但算法复杂答案:B解析:数据科学对?智能的实现方式?有了新的认识--从?基于算法的智能?到?基于数据的智能?的过渡。?基于数据的智能?的重要特点是?数据复杂,但算法简单?。[单选题]12.一幅数字图像是:()A)一个观测系统B)一个有许多像素排列而成的实体C)一个2-D数组中的元素D)一个3-D空间的场景答案:B解析:[单选题]13.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?()A)频繁模式挖掘B)分类和预测C)数据预处理D)数据流挖掘答案:C解析:[单选题]14.Spark比mapreduce快的原因不包括()A)park基于内存迭代,而MapReduce基于磁盘迭代B)AG计算模型相比MapReduce更有效率C)park是粗粒度的资源调度,而MR是细粒度的资源调度。D)park支持交互式处理,MapReduce善于处理流计算。答案:D解析:A、B、C是Spark比mapreduce快的原因。MapReduce不善于处理除批处理计算模式之外的其他计算模式,如流计算、交互式计算和图计算等。[单选题]15.在Hadoop生态系统中,()可以将结构化的数据文件映射成一张数据库表,并提供简单的查询语言。A)PigB)HbaseC)HiveD)MapReduce答案:C解析:Hive是构建在hadoop上的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,可以用来进行数据提取转化加载(ETL),并提供简单的SQL查询功能。[单选题]16.留出法直接将数据集划分为()个互斥的集合。A)一B)二C)三D)四答案:B解析:留出法(hold-out)直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集,另一个作为测试集T。[单选题]17.在MaxComputeSQL中,concat('a',null,'b')的执行结果是:()。A)aB)anullbC)abD)null答案:D解析:[单选题]18.下列哪个不是stats模块中的功能()。A)连续性分布B)线性方程求解C)离散型分布D)核密度估计答案:B解析:stats模块包含了随机变量样本抽取、84个连续性分布、12个离散型分布、分布的密度分布函数、核密度估计、分布构造、分布检验等功能,但不包括线性方程求解。[单选题]19.关于Apriori算法的原理中叙述错误的是()。A)riori算法通常使用先验知识或者假设B)如果某个项集是频繁的,那么它的所有子集也是频繁的C)如果一个项集是非频繁集,那么它的所有超集也是非频繁的Apriori算法不可以用来发现频繁D)Apriori算法不可以用来发现频繁集答案:D解析:Apriori算法可以用来发现频繁集。[单选题]20.Spark的劣势()A)运算速度快B)业务实现需要较少代码C)提供很多现成函数D)需要更多机器内答案:D解析:Spark采用的是内存计算模式,需要的内存较多[单选题]21.()是指理解挖掘项目的目标业务需求。A)业务理解B)数据理解C)数据准备D)数据建模答案:A解析:根据CRISP-DM(cross-industrystandardprocessfordatamining,跨行业数据挖掘标准流程)模型,业务理解是指从业务的角度了解项目的要求和最终目的是什么,并将这些目的与数据挖掘的定义以及结果结合起来。[单选题]22.()是指对于数据局部不良行为的非敏感性,它是探索性分析追求的主要目标之一。A)鲁棒性B)稳定性C)可靠性D)耐抗性答案:D解析:耐抗性(Resistance)为探索性数据分析的四个指标之一,是指对于数据的局部不良行为的非敏感性,它是探索性分析追求的主要目标之一。对于具有耐抗性的分析结果,当数据的一小部分被新的数据代替时,即使它们与原来的数值差别很大,分析结果也只会有轻微的改变。[单选题]23.(假设precision=TP/(TP+FP),recall=TP/(TP+FN))在二分类问题中,当测试集的正例和负例数量不均衡时,以下评价方案哪个是相对不合理的()。A)curacy:(TP+TN)/allB)F-value:2recallprecision/(recall+precision)C)G-mean:sqrt(precision*recall)D)AUC:曲线下面答案:A解析:测试集正例和负例数量不均衡,那么假设正例数量很少占10%,负例数量占大部分90%。而且算法能正确识别所有负例,但正例只有一半能正确判别。那么TP=0.05×all,TN=0.9×all,Accuracy=95%。虽然Accuracy很高,precision是100%,但正例recall只有50%。[单选题]24.()将观测值分为相同数目的两部分,当统计结果为非对称分布时,经常使用它。A)众数B)标准差C)中位数D)均值答案:C解析:中位数是指一组数据排序后处于中间位置的变量值。[单选题]25.a=[1,2,3.4,5],切片时如果要取[2,3.4],正确的选项是()。A)a[1:4]B)a[-2:]C)a[1:-1]D)a[::2]答案:C解析:此题应注意是'3.4'而不是'3,4',有以下取法:a[1:3]、a[1:-1][单选题]26.下列缩进格式描述不正确的是()。A)缩进指在代码行前面添加空格或Tab;B)在Python程序中,缩进不是任意的;C)缩进可以使程序更有层次感、更有结构感,从而是程序更易读。D)平级的语句行(代码块)的缩进可以不相同。答案:D解析:Python强制缩进,平级的语句行与代码块的缩进必须相同。[单选题]27.数据科学家可能会同时使用多个算法(模型)进行预测,并且最后把这些算法的结果集成起来进行最后的预测(集成学习),以下对集成学习说法正确的是()。A)单个模型之间具有高相关性B)单个模型之间具有低相关性C)在集成学习中使用?平均权重?而不是?投票?会比较好D)单个模型都是用的一个算法答案:B解析:集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱模型得到了错误的预测,其他的弱模型也可以将错误纠正回来。某一个弱模型要有一定的?准确性?,即学习器不能太坏,并且要有多样性,即个体学习器间具有差异。集成中即可包含同种类型的弱模型,也可包含不同类型的弱模型。[单选题]28.对于线性回归模型,包括附加变量在内,以下的可能正确的是()。1)R-Squared和AdjustedR-squared都是递增的2)R-Squared是常量的,AdjustedR-squared是递增的3)R-Squared是递减的,AdjustedR-squared也是递减的4)R-Squared是递减的,AdjustedR-squared是递增的A)1和2B)1和3C)2和4D)以上都不是答案:D解析:R-squared不能决定系数估计和预测偏差。每次在模型中加入预测器,R-squared递增或不变。[单选题]29.图像平滑会造成()。A)图像边缘模糊化B)图像边缘清晰化C)无影响D)以上答案都不正答案:A解析:为了抑制噪声,使图像亮度趋于平缓的处理方法就是图像平滑。图像平滑实际上是低通滤波,平滑过程会导致图像边缘模糊化。[单选题]30.下列不能作为数据科学数据源的是()。A)医院里的病历、检查、诊断等与健康相关的数据B)物联网中涉及到设备运行情况的日志数据C)金融领域客户的借款记录以及信用情况D)个人电脑中用于备忘的日记答案:D解析:数据科学数据源的前提条件是数据需要具备:规律性、周期性等特征,个人电脑中用于备忘的日记一般不具备规律性。[单选题]31.随机森林等树状算法通过哪个模块进行调用()。A)dummyB)ensembleC)treeD)experimental答案:B解析:sklearn.ensemble模块包含了很多集成学习的算法,包括随机森林、Adaboost、GBDT等。[单选题]32.假设我们拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型,训练所用的数据集由汽车和卡车的照片构成,而训练目标是检测出每种车辆的名称(车辆共有10种类型)。现在想要使用这个模型来解决另外一个问题,问题数据集中仅包含一种车(福特野马)而目标变为定位车辆在照片中的位置()。A)除去神经网络中的最后一层,冻结所有层然后重新训练B)对神经网络中的最后几层进行微调,同时将最后一层(分类层)更改为回归层C)使用新的数据集重新训练模型D)所有答案均不答案:B解析:由于神经网络浅层网络主要提取图像的低维特征,对于相近领域进行迁移学习时,这些低维特征相同,因此只需要对最后几层进行微调,而检测位置相当于回归任务。[单选题]33.关于数据相关性,以下说法错误的是()。A)关性体现了大数据的灵魂B)关性思维实现了从?为什么?到?是什么?的思维转变C)关性关注事物的因果关系D)关性关注事物的相关关系答案:C解析:相关性,是指两个变量的关联程度,可以有正相关、负相关、不相关。[单选题]34.下列说法错误的是()A)生产者和消费者面向的都是一个topicB)生产者发送数据的对象是leaderC)当集群中的某个节点发生故障时,Replica上的partition数据不会丢失D)partition是一个没有顺序的队答案:D解析:[单选题]35.直方图均衡化适用于增强直方图呈()分布的图像。A)尖峰B)波形C)随机D)高答案:A解析:直方图均衡化适用于增强直方图呈尖峰分布的图像。[单选题]36.Hadoop-2.6.5集群中的HDFS的默认的数据块的大小是()A)32MB)64MC)128MD)256M答案:C解析:[单选题]37.下面关于HiveSQL创建表时描述正确的是()A)LIKE允许复制表结构和表数据B)COMMENT可以为表与字段增加描述,必须有,不加会报错C)ROWFORMAT设置行数据压缩格式D)如果相同名字的表已经存在,则建表抛出异答案:D解析:[单选题]38.在k近邻学习算法中,随着k的增加,上界将逐渐降低,当k区域无穷大时,上界和下界碰到一起,k近邻法就达到了()。A)贝叶斯错误率B)渐进错误率C)最优值D)上答案:A解析:在k近邻学习算法中,随着k的增加,上界将逐渐降低,当k区域无穷大时,上界和下界碰到一起,k近邻法就达到了贝叶斯错误率。[单选题]39.关于数据服务中,app说法正确的是:()。A)一个用户只能创建一个APPB)一个APP只能申请一个API的权限C)一个用户可以创建多个APP,一个APP可以申请多个API的权限D)一个API只能被一个APP使答案:C解析:[单选题]40.下列对于sigmoid函数的说法,错误的是()A)存在梯度爆炸的问题B)不是关于原点对称C)计算exp比较耗时D)存在梯度消失的问答案:A解析:对于sigmoid函数,S型函数图像向两边的斜率逼近0,因此随着网络层增加,梯度消失比梯度爆炸更容易发生的多。[单选题]41.Hadoop中,Reducer的三个阶段是__。A)Shuffle-Sort-ReduceB)Shuffle-Reduce-SortC)Reduce-Shuffle-SortD)Sort-Shuffle-Reduce答案:A解析:Reducer主要分为三个步骤Shuffle洗牌、Sort排序和Reduce[单选题]42.你正在训练一个RNN网络,你发现你的权重与激活值都是NaN,下列选项中,哪一个是导致这个问题的最有可能的原因()A)梯度消失B)梯度爆炸C)ReLU函数作为激活函数g(.),在计算g(z)时,z的数值过大了D)Sigmoid函数作为激活函数g(.),在计算g(z)时,z的数值过大答案:B解析:训练过程中出现梯度爆炸会伴随一些细微的信号,如:1、模型无法从训练数据中获得更新(如低损失)。2、模型不稳定,导致更新过程中的损失出现显著变化。3、训练过程中,模型损失变成NaN。[单选题]43.锐化(高通)滤波器的作用()。A)能消减或削弱傅立叶空间的低频分量,但不影响高频分量B)能消减或削弱傅立叶空间的高频分量,但不影响低频分量C)对傅立叶空间的低、高频分量均有削弱或削除作用D)对傅立叶空间的低、高频分量均有增强作答案:A解析:高通滤波与低通滤波正好相反,是频域图像的高频部分通过而抑制低频部分。在图像中图像的边缘对应高频分量,因此高通滤波的效果是图像锐化。[单选题]44.考虑某个具体问题时,你可能只有少量数据来解决这个问题。不过幸运的是你有一个类似问题已经预先训练好的神经网络。可以用下面哪种方法来利用这个预先训练好的网络()A)把除了最后一层外所有的层都冻住,重新训练最后一层B)对新数据重新训练整个模型C)只对最后几层进行调参(finetune)D)对每一层模型进行评估,选择其中的少数来答案:C解析:如果有个预先训练好的神经网络,就相当于网络各参数有个很靠谱的先验代替随机初始化。若新的少量数据来自于先前训练数据(或者先前训练数据量很好地描述了数据分布,而新数据采样自完全相同的分布),则冻结前面所有层而重新训练最后一层即可;但一般情况下,新数据分布跟先前训练集分布有所偏差,所以先验网络不足以完全拟合新数据时,可以冻结大部分前层网络,只对最后几层进行训练调参(这也称之为finetune)。[单选题]45.视觉通道表现力评价指标不包括()。A)精确性B)可辨认性C)可分离性D)可转换性答案:D解析:在数据来源和目标用户已定的情况下,不同视觉通道的表现力不同。视觉通道的表现力的评价指标包括精确性、可辨认性、可分离性和视觉突出性。[单选题]46.假设你在卷积神经网络的第一层中有5个卷积核,每个卷积核尺寸为7×7,具有零填充且步幅为1。该层的输入图片的维度是224×224×3。那么该层输出的维度是多少()A)217x217x3B)217x217x8C)218x218x5D)220x220x答案:C解析:如果原始图片尺寸为nxn,filter尺寸为fxf,则卷积后的图片尺寸为(n-f+1)x(n-f+1),注意f一般为奇数。若考虑存在填充和步幅,用s表示stride长度,p表示padding长度,如果原始图片尺寸为nxn,filter尺寸为fxf,则卷积后的图片尺寸为:[(n+2p-f)/s+1]x[(n+2p-f)/s+1](中括号内向下取整).此例中,n=224,p=0,f=7,s=1,因此,该层输出的尺寸为218x218.输出的第三个维度由滤波器的个数决定,即为5。[单选题]47.下面那种情况不会触发ConsumerRebalance操作()A)某个消费者崩溃B)某个生产者崩溃C)消费者消费的多个topic中某个topic被删除D)新增消费答案:B解析:[单选题]48.采用模板[-1,1]主要检测()方向的边缘A)水平B)45°C)垂直D)135°答案:C解析:[单选题]49.假设我们已经在ImageNet数据集(物体识别)上训练好了一个卷积神经网络。然后给这张卷积神经网络输入一张全白的图片。对于这个输入的输出结果为任何种类的物体的可能性都是一样的,对吗()。A)对的B)不知道C)看情况D)不答案:D解析:不对,神经网络对于未知的数据不是均匀预测的,会对莫一种或多种类别存在偏向。[单选题]50.对于一个图像识别问题(在一张照片里找出一只猫),下面哪种神经网络可以更好地解决这个问题()A)循环神经网络B)感知机C)多层感知机D)卷积神经网答案:D解析:卷积神经网络可以提取图像特征,且具有平移不变性.循环神经网络适合语言类数据。[单选题]51.字符串的strip方法的作用是()A)删除字符串头尾指定的字符B)删除字符串末尾的指定字符C)删除字符串头部的指定字符D)通过指定分隔符对字符串切片答案:A解析:[单选题]52.sklearn库中对数据进行预处理和规范化主要依靠()模块。A)neighbors模块B)preprocessing模块C)pipeline模块D)datasets模块答案:B解析:sklearn.preprocessing模块包括缩放,居中,归一化,二值化和插补方法,主要是对数据进行预处理和规范化。[单选题]53.通过聚集多个分类器的预测来提高分类准确率的技术称为()。A)组合(ensemble)B)聚集(aggregate)C)合并(combination)D)投票(voting)答案:A解析:通过聚集多个分类器的预测来提高分类准确率的技术称为组合。[单选题]54.建立在相关关系分析法基础上的预测是大数据的()。A)基础B)前提C)核心D)条件答案:C解析:建立在相关关系分析法基础上的预测是大数据的核心。[单选题]55.请把下划处的代码补充完整:______intostudent(s_name)______(?王大军?);A)update,valuesB)insert,valueC)insert,valuesD)delete,lik答案:C解析:[单选题]56.为提高计算性能,Spark中Transformation操作采用的是()计算模式。A)活性B)惰性C)实时D)非实时答案:B解析:Spark的所有Trandformation操作采取的是?惰性计算模式?[单选题]57.以下关于Hadoop中MapReduce说法正确的是()。A)可以没有reduce任务B)Reducer输入为随机输入C)shuffle主要实现数据可视化功能D)一个reducer只能从一个map复制所需要的partition答案:A解析:MapReduce中的reduce并不是必须存在的。[单选题]58.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。A)统计方法B)邻近度C)密度D)机器学习技术答案:A解析:检测一元正态分布中的离群点,属于异常检测中的基于统计的离群点检测。[单选题]59.在MaxComputeSQL中,对两个double类型的时间进行比较,正确的做法是:()。A)使用关系运算符B)使用关系运算符"!=?C)使用关系运算符?<>?D)使用两个double类型相减,然后取绝对值的方式进行答案:D解析:[单选题]60.K-means++算法选择初始seeds的基本思想就是:初始的聚类中心之间的相互距离要尽可能的远。那么算法流程为()。1.从输入的数据点集合中随机选择一个点作为第一个聚类中心2.对于数据集中的每一个点x,计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)3.选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大4.重复2和3直到k个聚类中心被选出来5.利用这k个初始的聚类中心来运行标准的k-means算法A)2.5.4.3.1B)1.5.4.2.3C)1.2.3.4.5D)4.3.2.1.答案:C解析:k-means++算法基本流程为:1.从输入的数据点集合中随机选择一个点作为第一个聚类中心2.对于数据集中的每一个点x,计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)3.选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大4.重复2和3直到k个聚类中心被选出来5.利用这k个初始的聚类中心来运行标准的k-means算法[单选题]61.下列哪种机器学习算法不需要归一化处理()A)DecisionTreeB.SVMC.KmeansD.LogisticRegressioB)C)KmeansD)LogisticRegressio答案:A解析:DecisionTree属于概率模型,不需要归一化处理;SVM、Kmeans和LogisticRegression之类的最优化问题需要归一化处理。[单选题]62.()是表现数据分布对称性的指标。A)斜率B)偏斜度C)偏度D)偏离答案:B解析:偏斜度是对统计数据分布偏斜方向及程度的度量。在偏态分布中,当偏斜度为正值时,分布正偏,即众数位于算术平均数的左侧;当偏斜度为负值时,分布负偏,即众数位于算术平均数的右侧。[单选题]63.图像的形态学处理方法包括()。A)图像增强B)图像锐化C)图像分割D)腐蚀答案:D解析:图像的形态学处理方法最常用的几种操作:腐蚀、膨胀、开操作、闭操作、形态学滤波、形态学梯度、顶帽、黑帽以及测地腐蚀、测地膨胀。[单选题]64.HBase使用一个()节点协调管理一个或多个regionserver从属机。A)namenode;B)datanode;C)jobtracker;D)master;答案:D解析:Hbase中由一个Master节点负责协调管理一个或多个RegionServer从属机第2部分:多项选择题,共22题,每题至少两个正确答案,多选或少选均不得分。[多选题]65.下列的函数转换哪一个是正确的(语法正确):A)int("abcdef")ValueErrorB)float(''')SyntaxErrorC)bool((3,',"))SyntaxErrorD)str(')SyntaxError答案:BD解析:[多选题]66.DWS支持的事务隔离级别有:A)READUNCOMMITTED(读未提交)B)READCOMMITTED(读提交)C)REPEATABLEREAD(可重复读)D)SERIALIZABLE(序列化答案:BC解析:[多选题]67.大数据计算服务(MaxCompute,原ODPS)提供的是海量数据的存储和计算能力,和我们熟悉的关系型数据库存在较大的差别。以下说法中正确的是:()。A)不支持事务B)不支持deleteC)不支持索引D)不支持压缩答案:ABC解析:[多选题]68.下列关于RNN、LSTM、GRU说法正确的是(__)。A)RNN引入了循环的概念B)LSTM可以防止梯度消失或者爆炸C)GRU是LSTM的变体D)RNN、LSTM、GRU是同一神经网络的不同说法,没有区答案:ABCD解析:RNN:循环神经网络,是非线性动态系统,将序列映射到序列;LSTM:LSTM通过刻意的设计来避免长期依赖问题。记住长期的信息在实践中是LSTM的默认行为,而非需要付出很大代价才能获得的能力;GRU:LSTM有很多变体,其中较大改动的是GatedRecurrentUnit(GRU),它将忘记门和输入门合成了一个单一的更新门。同样还混合了细胞状态和隐藏状态,和其他一些改动。最终的模型比标准的LSTM模型要简单。效果和LSTM差不多,但是参数少了1/3,不容易过拟合。[多选题]69.下面是Python的特点和优点是()。A)解释性B)动态特性C)面向对象D)语法简洁答案:ABCD解析:Python的特点和优点是基于面向对象设计,代码解释性强,使用动态特性、语法简洁。[多选题]70.关于Hive的说法正确的是()。A)Hive是基于Hadoop的数据仓库工具B)Hive可以将结构化的数据文件映射为一张数据库表C)最初,Hive由Google开源,用于解决海量结构化日志数据统计问题D)Hive的主要应用场景是离线分析答案:ABD解析:Hive不是由谷歌提出和开源的,谷歌提出的三大核心技术是GFS,BigTable,MapReduce。[多选题]71.下列哪些是传统RDBMS的缺点()A)表结构schema扩展不方便B)全文搜索功能较弱C)大数据场景下I/O较高D)存储和处理复杂关系型数据功能较弱答案:ABCD解析:传统RDBMS的缺点包括表结构schema扩展不方便、全文搜索功能较弱、大数据场景下I/O较高、存储和处理复杂关系型数据功能较弱。[多选题]72.以下关于HTML标签嵌套规则的说法,正确的是()。A)块元素可以包含内联元素或某些块元素,但内联元素也可以包含块元素B)HTML标签包括块级元素和内嵌元素C)内嵌元素一般用在网站内容之中的某些细节或部位,用以?强调区分样式上标下标锚点?等,通常包括:aabbrbbrfontiimginputkbdlabelqsselectsmallspansubttuvar等D)其中块级元素一般用来搭建网络架构布局承载内容,通常包括的标签有:addressdirdivdldtddformh1~h6hrisindexmenunoframesnoscriptolppretableul等答案:BCD解析:块元素可以包含内联元素或某些块元素,但内联元素却不能包含块元素,它只能包含其他的内联元素。[多选题]73.DWS提供的用于数仓迁移的工具包括以下哪些:A)DBSB)GDSC)MigrationToolD)TransferToo答案:BC解析:[多选题]74.HIS表色系的三属性包含:()。A)色调B)色饱和度C)亮度D)色答案:ABC解析:HIS表色系包含色调,色饱和度和亮度。[多选题]75.神经网络的拓扑结构可以分为()和随机型网络等。A)前向型B)后向型C)反馈型D)自组织竞争答案:ACD解析:神经网络的拓扑结构有前向型、反馈型、自组织竞争型和随机型网络等。[多选题]76.Spark容错性的方式有哪些()。A)数据检查点;B)存储原始数据;C)记录数据的更新;D)自建数据版本;答案:AC解析:Spark容错性有两种方式数据检查点和记录数据的更新。[多选题]77.关于数据流转和应用,以下说法正确的是()。A)数据流转和应用过程中应确保可追溯、可复查B)前序环节应保证数据的真实、完整C)前序环节应及时传递到后序环节D)前后环节数据应保持衔接一致答案:ABCD解析:数据流转和应用主要包括可追溯、复查,数据真实、完整,环节衔接完整,环节衔接数据一致。[多选题]78.DGI定义的数据治理任务包括()。A)数据质量的评估B)主动定义或序化规则C)为数据利益相关者提供持续跨职能的保护与服务D)应对并解决因不遵守规则而产生的问题答案:BCD解析:DGI(TheDataGover略ceInstitute)认为数据治理是对数据相关的决策及数据使用权限控制的活动。它是一个信息处理过程中根据模型来执行的决策权和承担责任的系统,规定了谁可以在什么情况下对哪些信息做怎样的处理。[多选题]79.下面哪些是循环神经网络的输出模式(__)。A)多输出B)单输出C)同步多输出D)异步多输答案:ABD解析:循环神经网络是递归的,不可能同步多输出。[多选题]80.在假设检验中,当原假设为?伪?,但数据分析人员没有拒绝它时犯的错误叫()。A)α错误B)β错误C)取伪错误D)弃真错误答案:BC解析:α错误(弃真错误):当原假设为真时,但我们错误地认为?原假设是不成立的?,进而导致拒绝这个正确假设;β错误(取伪错误):当原假设为假时,但我们错误地认为?原假设是成立的?,进而导致接受此错误假设[多选题]81.在大数据计算服务(MaxCompute,原ODPS)SQL中可以用逻辑运算连接多个条件,以下逻辑运算结果正确的有:()。A)TrueorNULL=TrueB)FalseORFalse=FalseC)TrueANDFalse=FalseD)TrueANDTrue=True答案:ABCD解析:[多选题]82.关于Python组合数据类型,以下选项中描述正确的是()。A)Python的str,tuple和list类型都属于序列类型B)Python组合数据类型能够将多个同类型或不同类型的数据组织起来,通过单一的表示使数据操作更有序更容易C)组合数据类型可以分为3类:序列类型,集合类型和映射类型D)序列类型是二维元素向量,元素之间存在先后关系,通过序号访问答案:ABC解析:序列类型是一维元素向量。[多选题]83.关于Python语言的特点,以下选项描述不正确的是()。A)Python语言不支持面向对象B)Python语言是解释型语言C)Python语言是编译型语言D)Python语言是非跨平台语言答案:ACD解析:Python语言是面向对象的解释型语言,可跨平台使用。[多选题]84.下面有关HTML叙述正确的是()。A)一个HTML文件可以用记事本来编辑B)HTML的意思是超文本标记语言C)一个HTML文件必须是一个以htm或html为扩展名的文件D)HTML区分大小写,如写成<B>是错误的答案:ABC解析:在HTML文件是不区分大小写的。[多选题]85.关于分析学习和归纳学习的比较,说法正确的是()。A)归纳学习拟合数据假设,分析学习拟合领域理论的假设B)归纳学习论证方式为统计推理,分析学习为演绎推理C)归纳学习不需要隐式的先验知识D)训练数据不足时归纳学习可能会失败答案:ABCD解析:分析学习是相对于归纳学习的一种提法,其特点是使用先验知识来分析或解释每个训练样本,以推理出样本的哪些特征与目标函数相关或不相关。因此,这些解释能使机器学习系统比单独依靠数据进行泛化有更高的精度。分析学习使用先验知识来减小待搜索假设空间的复杂度,减小了样本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论