大数据理论考试(习题卷8)_第1页
大数据理论考试(习题卷8)_第2页
大数据理论考试(习题卷8)_第3页
大数据理论考试(习题卷8)_第4页
大数据理论考试(习题卷8)_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

试卷科目:大数据理论考试大数据理论考试(习题卷8)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据理论考试第1部分:单项选择题,共64题,每题只有一个正确答案,多选或少选均不得分。[单选题]1.在选择神经网络的深度时,下面那些参数需要考虑()1神经网络的类型(如MLP,CNN)2输入数据3计算能力(硬件和软件能力决定)4学习速率5映射的输出函数A)1,2,4,5B)2,3,4,5C)都需要考虑D)1,3,4,答案:C解析:所有上述因素对于选择神经网络模型的深度都是重要的。特征抽取所需分层越多,输入数据维度越高,映射的输出函数非线性越复杂,所需深度就越深。另外为了达到最佳效果,增加深度所带来的参数量增加,也需要考虑硬件计算能力和学习速率以设计合理的训练时间。[单选题]2.Spark的Stage的Task的数量由什么决定__。A)PartitionB)JobC)StageD)TaskScheduler答案:A解析:task是stage下的一个任务执行单元,一般来说,一个rdd中有多少个partition就有多少个task。[单选题]3.以下不属于大数据在社会活动中的典型应用的是()。A)美团实现了快速精准的送餐服务B)享单车、滴滴打车方便了人们的日常出行C)快递实现了订单的实时跟踪D)供电公司提供电费账单查询答案:D解析:电费账单查询属于简单报表查询,用电情况分析、窃电行为分析、基于交易大数据分析用户的购买习惯、基于传感器感知的海量数据分析自然灾害的危害程度、基于搜索引擎的搜索关键词分析社会热点等属于大数据应用。[单选题]4.python不支持的数据类型有A)charB)intC)floatD)list答案:A解析:[单选题]5.傅里叶变换得到的频谱中,低频系数对应于()。A)物体边缘B)噪声C)变化平缓部分D)变化剧烈部答案:C解析:图像的主要成分是低频信息,它形成了图像的基本灰度等级,对图像结构的决定作用较小;中频信息决定了图像的基本结构,形成了图像的主要边缘结构;高频信息形成了图像的边缘和细节,是在中频信息上对图像内容的进一步强化。[单选题]6.某企业的数据仓库运行在大数据计算服务上,开发人员在加工数据时发现用户表user中的用户标识字段user_id有部分脏数据,正确的格式应该是8位的字符串。可以使用SQL语句()将脏数据过滤出来。A)select*B)select*C)select*D)select*fromuserwherelength(userid)<>8oruseridisnull答案:D解析:[单选题]7.探索性分析与验证性分析的不同点是()。A)探索性分析需要事先假设B)探索性分析比验证性分析复杂C)探索性分析在前D)验证性分析在前答案:C解析:验证性分析需要事先假设,因数据不同复杂程度也不同,探索性分析一般在前,为验证性分析提供参考。[单选题]8.在深度学习中,下列对于sigmoid函数的说法,错误的是()。A)存在梯度爆炸的问题B)不是关于原点对称C)计算exp比较耗时D)存在梯度消失的问答案:A解析:sigmoid函数存在的是梯度消失问题。[单选题]9.()是Scikit-Learn中的支持向量机模块。A)MinBatchKMeansB)SVCC)LinearRegressionD)Regression答案:B解析:SVM是sklearn中的支持向量机模块,包括分类svc和回归svr。[单选题]10.在Python中,下列不是int整型数据的是()。A)160B)010C)-78D)0x234答案:B解析:B不符合python语法[单选题]11.利用到每个聚类中心和的远近判断离群值的方法,可以基于的算法为()。A)K-MeansB)KNNC)SVMD)LinearRegression答案:A解析:K-means算法又名k均值算法。其算法思想大致为:先从样本集中随机选取k个样本作为簇中心,并计算所有样本与这k个?簇中心?的距离,对于每一个样本,将其划分到与其距离最近的?簇中心?所在的簇中,对于新的簇计算各个簇的新的?簇中心?。[单选题]12.机器学习和深度学习的关系是(__)。A)深度学习包含机器学习B)机器学习包含深度学习C)二者是独立的D)二者相互促答案:B解析:机器学习包含深度学习。[单选题]13.通常?落伍者?是影响MapReduce总执行时间的主要影响因素之一,为此MapReduce采用()机制来解决。A)分布式计算B)惰性计算C)推测性执行的任务备份D)先进先出答案:C解析:MapReduce采用?推测性执行的任务备份?机制-当作业中大多数的任务都已经完成时,系统在几个空闲的节点上调度执行剩余任务的备份,并在多个Worker上同时进行相同的剩余任务。[单选题]14.Spark支持的分布式部署方式中哪个是错误的A)standaloneB)sparkonmesosC)sparkonYARND)Sparkonloca答案:D解析:[单选题]15.大数据平台技术架构不包含的是()A)数据整合B)数据存储C)数据计算D)数据溯答案:D解析:利用大数据平台可以实现数据整合、数据存储、数据计算等技术,无法实现数据溯源。[单选题]16.对连续图像的离散化采样决定了图像的()。A)空间分辨率B)时间分辨率C)地面分辨率D)灰度答案:A解析:连续图像变为离散图像需要每隔一定距离取一次样,这里的一定距离就是采样距离,采样距离越大,而像素点越少,图像越模糊,反之亦然。[单选题]17.HadoopMapReduce2.0中,()负责资源的管理和调度。A)JobTrackerB)YARNC)TaskTrackerD)ApplicationMaster答案:B解析:Hadoop2.0比起Hadoop1.0来说,最大的改进是加入了资源调度框架Yarn,引入了ApplicationManager和NodeManager的概念。[单选题]18.以下不是开源工具特点的是()。A)免费B)可以直接获取源代码C)用户可以修改源代码并不加说明用于自己的软件中D)开源工具一样具有版权答案:C解析:在延伸的代码中(修改和有源代码衍生的代码中)需要带有原来代码中的协议,商标,专利声明和其他原来作者规定需要包含的说明。如果再发布的产品中包含一个Notice文件,则在Notice文件中需要带有开源工具的Licence。你可以在Notice中增加自己的许可,但不可以表现为对开源工具Licence构成更改。[单选题]19.有订单表orders,包含用户信息userid、产品信息productid两列,以下语句能够返回至少被订购过两回的productid的语句是A)SELECTproductidFROMordersWHEREcount(productid)>1B)SELECTproductidFROMordersWHEREmax(productid)>1C)SELECTproductidFROMordersWHEREhavingcount(productid)>1GROUPBYproductidD)SELECTproductidFROMordersGROUPBYproductidHAVINGcount(productid)>答案:D解析:[单选题]20.对于Boosting算法描述错误的是()。A)可将强学习器降为弱学习器B)从初始训练集训练基学习器C)对训练样本分布进行调整D)做错的训练样本多次训答案:A解析:boosting是一种集成学习算法,由一系列基本分类器按照不同的权重组合成为一个强分类器。[单选题]21.spark的master和worker通过什么方式进行通信的?A)httpB)nioC)nettyD)Akk答案:D解析:[单选题]22.gateway在ElasticSearch中的含义是?A)网关B)索引的存储方式C)rpc请求接口D)索引快照的存储方答案:D解析:[单选题]23.可视化视觉下的数据类型不包括()。A)定类数据B)定序数据C)定宽数据D)定比数据答案:C解析:从可视化处理视角看,可以将数据分为4个类型:定类数据、定序数据、定距数据和定比数据,并采用不同的视觉映射方法。在可视化领域,对数据进行分类分析的目的在于不同类型的数据可支持的操作类型不同。[单选题]24.以下两种描述分别对应哪两种对分类算法的评价标准?()a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。b)描述有多少比例的小偷给警察抓了的标准。A)Precision,RecallB)Recall,PrecisionC)Precision,ROCD)Recall,ROC答案:A解析:precision即为预测为正确的数据中,真实值为正确的比例,而recall即为在所有的真实值为正确的数据中,有多少能预测正确[单选题]25.有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是()。A)2x+y=4B)x+2y=5C)x+2y=3D)2x-y=答案:C解析:对于两个点来说,最大间隔就是垂直平分线,因此求出垂直平分线即可。斜率是两点连线的斜率的负倒数-1/((-1-3)/(0-2))=-1/2,可得y=-(1/2)x+c,过中点((0+2)/2,(-1+3)/2)=(1,1),可得c=3/2,故方程为x+2y=3。[单选题]26.运营人员为了搞促销,需要找出目标客户名单,这批客户的信息存储在大数据计算服务(MaxCompute,原ODPS)的user表中,并且用户名字段username中包含?vip?字样,通过执行SQL语句()可以找出这批客户。A)select*fromuserwhereusernamecontains(?vip?)B)select*fromuserwhereusername=?vip?C)select*fromuserwhereusernamelike?*vip*?D)select*fromuserwhereusernamelike?%vip%?答案:D解析:[单选题]27.数据产品开发的关键环节是()A)数据收集B)数据预处理C)数据学习D)数据加工(DataWrangling或DataMunging)答案:D解析:数据加工(DataWrangling或DataMunging)是数据产品开发的关键环节。[单选题]28.以下关于绘图标准流程说法错误的是()。A)绘制最简单的图形可以不用创建画布B)添加图例可以在绘制图形之前C)添加x轴、y轴的标签可以在绘制图形之前D)修改x轴标签、y轴标签和绘制图形没有先后答案:B解析:绘制图例需要在绘制图形之后。[单选题]29.从网络的原理上来看,结构最复杂的神经网络是()。A)卷积神经网络B)长短时记忆神经网络C)GRUD)BP神经网答案:B解析:从网络的原理上来看,结构最复杂的神经网络是LSTM。[单选题]30.Numpy.linspace(0,3,3)的结果为()。A)[0,1,2]B)[1,2,3]C)[0,1.5,3]D)[0,3,6]答案:C解析:np.linspace()指定开始值、结束值和值的个数,默认包含结束值,注意与arange区别。[单选题]31.在数据科学中,R的包通常从()下载。A)PIPB)CRANC)RstudioD)Pypi答案:B解析:CRAN的全称为TheComprehensiveRArchiveNetwork,在R编程中通常从该服务器下载所需包。[单选题]32.HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是()。A)一次写入,少次读B)多次写入,少次读C)多次写入,多次读D)一次写入,多次读答案:D解析:HDFS的设计以?一次写入、多次读取?为主要应用场景。[单选题]33.表达式int('101',2)的值为()。A)5B)6C)"10"D)3答案:A解析:二进制101等于5[单选题]34.对于神经网络的说法,下面正确的是(__)。A)增加神经网络层数,可能会增加测试数据集的分类错误率B)减少神经网络层数,总是能减小测试数据集的分类错误率C)增加神经网络层数,总是能减小训练数据集的分类错误率D)1、2都答案:A解析:增加神经网络层数,可能会增加测试数据集的分类错误率。[单选题]35.()操作属于预剪枝。A)信息增益B)计算最好的特征切分点C)限制树模型的深度D)可视化树模答案:C解析:预剪枝是指在决策树生成过程中,对每个结点在划分前先进行估计,若当前结点的划分不能带来决策树泛化性能提升,则停止划分并将当前结点标记为叶结点。限制树模型的深度属于预剪枝。[单选题]36.下面的语句哪个会无限循环下去()。A)forainrange(10):timesleep(10)B)while1<10:timesleep(10)C)whileTrue:breakD)a=[3,-1,',']foriina[:]:ifnota:break答案:B解析:B中条件1<10恒成立。[单选题]37.在著名管理学家ThomasH.Davernport在《哈佛商业论坛》上发表的题为《第三代分析学(Analytics3.0)》的经典论文中,Analytics3.0时代是指()。A)商务智能时代B)大数据时代C)数据富足供给时代D)数据智能时代答案:C解析:Analytics3.0的名称为数据富足供给时代(Data-enrichedOfferings)。与Analytics2.0不同的是,Analytics3.0中数据分析更为专业化,从技术实现和常用工具角度看,Analytics3.0将采用更为专业的分析工具,而不再直接采用Hadoop、Spark、NoSQL等大数据分析技术。同时,数据分析工作也由专业从事数据分析的数据科学家--首席分析师完成,数据科学家的类型将得到进一步细化[单选题]38.以下哪种情况LDA会失败()。A)如果有辨识性的信息不是平均值,而是数据的方差B)如果有辨识性的信息是平均值,而不是数据方差C)如果有辨识性的信息是数据的均值和方差D)以上答案都不正答案:A解析:LDA的思想是投影后类内方差最小,类间方差最大。[单选题]39.主成分分析的优化目标是一个()。A)不含约束条件的二次规划问题B)含有约束条件的二次规划问题C)不含约束条件的线性规划问题D)含有约束条件的线性规划问题答案:B解析:主成分分析的优化目标是一个含有约束条件的二次规划问题。[单选题]40.()是指为最小化总体风险,只需在每个样本上选择能使特定条件风险最小的类别标记。A)支持向量机B)间隔最大化C)线性分类器D)贝叶斯判定准则答案:D解析:贝叶斯判定准则:为最小化总体风险,只需在每个样本上选择那个能使条件风险最小的类别标记。[单选题]41.以下算法中不属于基于深度学习的图像分割算法是()。A)FCNB)deeplabC)Mask-RND)kN答案:D解析:KNN为传统机器学习方法并非深度学习方法。[单选题]42.在MapReduce中,通常将Map拆分成M个片段、Reduce拆分成R个片段,下面描述中错误的是()。A)MapReduced中单台机器上执行大量不同的任务可以提高集群的负载均衡能力B)Master必须执行O(M+R)次调度C)Master在内存中保存O(M+R)个状态D)M和R要比集群中Worker数量多答案:C解析:master必须执行O(M+R)次调度,并且在内存中保存O(M*R)个状态,故C错。[单选题]43.关于基本数据的元数据是指()。A)基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息B)基本元数据包括与企业相关的管理方面的数据和信息C)基本元数据包括日志文件和简历执行处理的时序调度信息D)基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息答案:D解析:元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(dataaboutdata)。[单选题]44.数据科学项目应遵循一般项目管理的原则和方法,涉及()。A)整体、范围、时间、成本、质量、沟通、风险、宣传、消费B)整体、范围、时间、成本、质量、人力资源、沟通、风险、采购C)整体、范围、时间、成本、质量、人力资源、运维、采购、宣传D)整体、范围、时间、成本、质量、人力资源、采购、宣传、运维答案:B解析:数据科学项目应遵循一般项目管理的原则和方法,涉及整体、范围、时间、成本、质量、人力资源、沟通、风险、采购。[单选题]45.下面关于词袋模型说法错误的是()。A)词袋模型使用一个多重集对文本中出现的单词进行编码B)词袋模型不考虑词语原本在句子中的顺序C)词袋模型可以应用于文档分类和检索,同时受到编码信息的限制D)词袋模型产生的灵感来源于包含类似单词的文档经常有相似的含答案:C解析:文本处理基础知识。[单选题]46.下列哪种架构的数据库数据是分布式存储的:A)share-everythingB)share-diskC)share-nothingD)share-anythin答案:C解析:[单选题]47.()和假设检验又可归结为统计推断的范畴,即对总体的数量特征做出具有一定可靠程度的估计和判断.A)参数估计B)逻辑分析C)方差分析D)回归分答案:A解析:推断统计包括两方面的内容:参数估计和假设检验。[单选题]48.Numpy的数组中Ndarray对象属性描述错误的是()。A)Ndarray.ndim秩,即轴的数量或维度的数量B)Ndarray.shape数组的维度,对于矩阵,n行m列C)Ndarray.size数组元素的总个数,也是shape属性中n*m的值D)Ndarray.itemsizeNdarray对象的元素类型答案:D解析:itemsize是每个数组元素的字节大小。[单选题]49.以下使用其本身可以达成数据透视功能的函数是()。A)groupbyB)transformC)crosstabD)pivot_table答案:D解析:pivot_table用于创建数据透视表。[单选题]50.一幅图像在采样时,行、列的采样点与量化级数()。A)既影响数字图像的质量,也影响到该数字图像数据量的大小B)不影响数字图像的质量,只影响到该数字图像数据量的大小C)只影响数字图像的质量,不影响到该数字图像数据量的大小D)既不影响数字图像的质量,也不影响到数字图像数据量的大答案:A解析:图像在空间上的离散化称为采样,也就是用空间上部分点的灰度值代表图像,这些点称为采样点。图像在采样时,行、列的采样点与量化时每个像素量化的级数,既影响数字图像的质量,也影响到该数字图像数据量的大小。[单选题]51.数据的原始内容及其备份数据,是数据产品的研发的哪个阶段()。A)零次数据B)一次数据C)二次数据D)采集数据答案:A解析:零次数据是数据的原始内容及其备份数据,如各种感知仪器设备中直接生成的数据。零次数据中往往存在缺失值、噪声、错误或虚假数据等质量问题。[单选题]52.已知数组trans_cnt[1,2,3,4],trans_cnt[2]获取的结果为()A)1B)2C)3D)4答案:C解析:[单选题]53.以下哪项是Spark2.x程序统一入口?A)StreamingContextB)SqlContextC)HiveContextD)SparkSessio答案:D解析:[单选题]54.数据安全不只是技术问题,还涉及到()。A)人员问题B)管理问题C)行政问题D)领导问题答案:B解析:数据安全不只是技术问题,还涉及到管理问题。[单选题]55.Python中定义私有属性的方法是()。A)使用private关键字B)使用public关键字C)使用__XX__定义属性名D)使用__XX定义属性名答案:D解析:使用__XX定义属性名定义私有属性的方法。[单选题]56.Spark中Job的划分是依据()A)依赖B)ction算子C)依赖D)aransformation算子答案:B解析:action的触发会生成一个job,Job会提交给DAGScheduler,分解成Stage,因此Job是由action算子划分的,B正确。[单选题]57.关于数据产品,以下说法错误的是()。A)数据产品的存在形式是数据集B)与传统物质产品不同的是,数据产品的消费者不仅限于人类用户.还可以是计算机以及其他软硬件系统C)数据产品不仅包括数据科学项目的最终产品,也包括其中间产品以及副产品D)数据产品开发涉及数据科学项目流程的全部活动答案:A解析:数据产品的存在形式不仅限于数据集,还包括文档、知识库、应用系统、硬件系统、服务、洞见、决策或它们的组合。[单选题]58.因子分析把每个原始变量分解为两部分因素:一部分为(),另一部分为()。A)公共因子和特殊因子B)特殊因子和相关因子C)相关因子和独立因子D)独立因子和公共因子答案:A解析:因子分析把每个原始变量分解为两部分因素:一部分为公共因子,另一部分为特殊因子。[单选题]59.以下哪项关于决策树的说法是错误的()。A)冗余属性不会对决策树的准确率造成不利的影响B)子树可能在决策树中重复多次C)决策树算法对于噪声的干扰非常敏感D)寻找最佳决策树是NP完全问题答案:C解析:决策树算法对于噪声的干扰具有相当好的鲁棒性。[单选题]60.关于装饰器,下列说法错误的是()。A)装饰器是一个包裹函数B)装饰器只能有一个参数C)通过在函数定义的面前加上@符号和装饰器名,使得装饰器函数生效D)如果装饰器带有参数,则必须在装饰函数的外层再嵌套一层函数答案:B解析:[单选题]61.数据探索是指针对目标可变、持续、多角度的搜索或分析任务,下列哪项不是其搜索过程的特点()。A)有选择B)有策略C)有目标D)反复进行的答案:C解析:数据探索是指针对目标可变、持续、多角度的搜索或分析任务,其搜索过程是有选择、有策略和反复进行的。[单选题]62.文本信息往往包含客观事实和主观情感,对于文本的情感分析主要是识别文章中的主观类词语,其中()不适用于情感分析。A)表达观点的关键词B)表达程度的关键词C)表达情绪的关键词D)表达客观事实的关键答案:D解析:D中表达客观事实的关键词是对事物的客观性描述,不带有感情色彩和情感倾向,即为客观性文本,不适用于情感分析。而主观性文本则是作者对各种事物的看法或想法,带有作者的喜好厌恶等情感倾向,如ABC中表观点、程度和情绪的关键词都是带有情感倾向的主观性文本,适用于情感分析。[单选题]63.当特征值大致相等时会发生什么()A)PCA将表现出色B)PCA将表现不佳C)不知道D)以上都没有答案:B解析:当所有特征向量相同时将无法选择主成分,因为在这种情况下所有主成分相等。[单选题]64.以下哪个数据库出现时间最早A)oracleB)postgresqlC)sybaseD)greeplu答案:A解析:第2部分:多项选择题,共22题,每题至少两个正确答案,多选或少选均不得分。[多选题]65.直方图修正法包括()。A)直方图统计B)直方图均衡C)直方图过滤D)直方图规定化答案:BD解析:直方图统计是对图像特征值的统计;直方图过滤属于图像处理技术。[多选题]66.在数据集成中,CDM支持对已经创建的链接进行()操作A)删除连接B)测试连通性C)备份连接D)编答案:ABD解析:[多选题]67.Analytics1.0的主要特点有()。A)分析活动滞后于数据的生成B)重视结构化数据的分析C)以对历史数据的理解为主要目的D)注重描述性分析答案:ABCD解析:著名管理学家ThomasH.Davernport于2013年在《哈佛商业论坛(HarvardBusinessReview)》上发表一篇题为《第三代分析学(Analytics3.0)》的论文,将数据分析的方法、技术和工具--分析学(Analytics)分为三个不同时代--商务智能时代、大数据时代和数据富足供给时代,即Analytics1.0、Analytics2.0和Analytics3.0.其中,Analytics1.0:商务智能时代(1950~2000)的主要数据分析技术、方法和工具。Analytics1.0中常用的工具软件为数据仓库及商务智能类软件,一般由数据分析师或商务智能分析师负责完成。Analytics1.0的主要特点有:分析活动滞后于数据的生成;重视结构化数据的分析;以对历史数据的理解;重视描述性分析。[多选题]68.以下描述中属于Analytics2.0的主要特点的是()。A)侧重嵌入式分析B)重视非结构化数据的分析C)以决策支持为主要目的D)注重解释性分析和预测性分析答案:BCD解析:著名管理学家ThomasH.Davernport于2013年在《哈佛商业论坛(HarvardBusinessReview)》上发表一篇题为《第三代分析学(Analytics3.0)》的论文,将数据分析的方法、技术和工具--分析学(Analytics)分为三个不同时代--商务智能时代、大数据时代和数据富足供给时代,即Analytics1.0、Analytics2.0和Analytics3.0.其中,Analytics2.0的主要特点有:分析活动与数据的生成几乎同步,强调数据分析的实时性;重视非结构化数据的分析;以决策支持为主要目的;注重解释性分析和预测性分析。[多选题]69.DataStudio的基本功能包含以下哪些A)SQL编辑B)查询结果C)存储过程管理D)对象浏览答案:ABCD解析:[多选题]70.以下图像技术中属于图像处理技术的是()。A)图像编码B)图像合成C)图像增强D)图像分答案:AC解析:图像合成输入是数据,图像分类输出是类别数据。[多选题]71.数据科学以数据尤其是大数据为研究对象,主要研究内容包括()。A)数据加工(DataWrangling或DataMunging)B)数据管理C)数据计算D)数据产品研发答案:ABCD解析:数据科学是一门以?数据?,尤其是?大数据?为研究对象,并以数据统计、机器学习、数据可视化等为理论基础,主要研究数据加工、数据管理、数据计算、数据产品开发等活动的交叉性学科。[多选题]72.下列哪个是Hadoop运行的模式()。A)单机版B)伪分布式C)分布式D)全分布式答案:ABC解析:Hadoop运行模式包括单机版、伪分布式和分布式。[多选题]73.假设一个随机变量服从正态分布,则随机变量的概率分布跟其()和()有关。A)众数B)频数C)平均值D)方差答案:CD解析:正态分布一般用均值和方差来刻画。[多选题]74.下列属于文本处理流程的是()。A)NormalizationB)TokenizationStopwordsC)Part-of-speechTaggingD)NamedEntityRecognitio答案:ABCD解析:文本处理的流程为正则化、引入停止词、词性标注、命名实体识别。[多选题]75.Python的模块符合以下哪些说法()。A)模块让你能够有逻辑地组织你的Python代码段B)Python拥有丰富的模块,不支持自定义模块C)把相关的代码分配到一个模块里能让你的代码更好用,更易懂D)模块能定义函数,类和变量,模块里也能包含可执行的代码。答案:ACD解析:Python不仅支持自带的模块/库,还支持第三方库导入。[多选题]76.下列关于AUC面积描述正确的是()。A)C被定义为ROC曲线下与坐标轴围成的面积B)AUC面积的值大于1C)AU于0.5时,则真实性最低,无应用价值D)AUC越接近1.0,检测方法真实性越答案:ACD解析:AUC面积的值小于等于1。[多选题]77.Spark组件包含哪两个算子()。A)Map;B)Action;C)Transformation;D)Reduce;答案:BC解析:Spark针对RDD提供了多种基础操作,可以大致分为两种即Action和Transformation。[多选题]78.DWS建表时,COMPRESSION关键字指定压缩级别有哪些A)YESB)HIGHC)LOWD)N答案:BCD解析:[多选题]79.数据集成中,CDM迁移支持的数据源有哪些()A)文件服务器B)NoSQL数据库C)传统关系型数据库D)大数据存答案:ABCD解析:[多选题]80.图像识别的一般步骤包括()。A)预处理B)特征提取C)超像素生成D)识别分答案:ABD解析:图像识别中的一般步骤包括预处理、特征提取和识别分类。超像素生成并非必要步骤。[多选题]81.下列哪些属于TF-IDF的应用()。A)搜索引擎B)关键词提取C)文本相似性D)数据降答案:ABC解析:TF-IDF只用来提取关键词,不做降维。[多选题]82.数据集成功能包括:()。A)表/文件/整库迁移B)增量数据迁移C)事务模式迁移D)字段转答案:ABCD解析:[多选题]83.下列哪些是面向对象技术的特征()。A)封装B)继承C)多态D)分布性答案:ABC解析:面向对象技术的特征封装、继承、多态。[多选题]84.关于降维说法正确的是()。A)P根据方差这一属性降维的B)降维可以防止模型过拟合C)降维降低了数据集特征的维度D)降维方法有PLA等答案:ACD解析:降维不能用于防止模型过拟合。[多选题]85.大数据计算服务(MaxCompute,原ODPS)中的MapReduce是一种编程模型,用于大规模数据集的并行运算,它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。其中,两个主要阶段Map和Redu

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论