大数据开发基础(习题卷17)

上传人：1*** IP属地：重庆上传时间：2024-02-28 格式：DOCX 页数：59 大小：73.49KB 积分：3.6 举报 版权申诉

已阅读5页，还剩54页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

试卷科目：大数据开发基础大数据开发基础(习题卷17)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大数据开发基础第1部分：单项选择题，共145题，每题只有一个正确答案,多选或少选均不得分。[单选题]1.Spark中Job的划分是依据()。A)依赖B)Action算子C)Transformation算子答案:B解析:Action的触发会生成一个Job,Job会提交给DAGScheduler分解成Stage。因此Job是由Action算子划分的,B正确。[单选题]2.（）一般采用图表或数学方法描述数据的统计特征,如分布状态、数值特征等。A)推断统计B)预测分析C)描述统计D)诊断分析答案:C解析:[单选题]3.以下方法中，更适用于处理序列数据的有()。A)卷积神经网络B)全连接神经网络C)BP神经网络D)循环神经网络答案:D解析:[单选题]4.关于GaussDB200的数据导入导出下列说法正确的是（）?A)GDs在数据导入时可以做预处理,比如非法字符詟换密错处理教据聚合等。B)COPY方式使用简单,一般用在大量数据的导入导出中。C)INSERT数据写入适合数据量不大,并发度不高的场景D)使用gsq元命令和cOPY命令在使用和用法上是样的。答案:A解析:[单选题]5.最简单的Series是由（）的数据构成A)一个数组B)两个数组C)三个数组D)以上都不是答案:A解析:[单选题]6.相对于HadoopMapReduce1.0,Spark的特点不包括()。A)速度快B)并发多C)通用性D)易用性答案:B解析:相较于HadoopMapReduce,Spark的特点为速度快、通用性和易用性。[单选题]7.如果字符串中有*需要匹配，需要输入的正则表达式为（）。A)\*B)\\*C)*D)（*）答案:A解析:*用在匹配前面的子表达式零次或多次；要匹配*字符，请使用\*进行转义。[单选题]8.（）是指理解挖掘项目的目标业务需求。A)业务理解B)数据理解C)数据准备D)数据建模答案:A解析:根据跨行业数据挖掘标准流程（cross-industrystandardprocessfordatamining，CRISP-DM）模型，业务理解是指从业务的角度了解项目的要求和最终目的，并将这些目的与数据挖掘的定义以及结果结合起来。[单选题]9.Spark中引入RDD概念的目的是（）。A)数据存储B)数据查重C)提升容错能力D)增强数据一致性答案:C解析:在Spark中引入RDD概念的目的是实现Spark的并行操作和灵活的容错能力。[单选题]10.关于面向过程和面向对象，下列说法错误的是（）。A)面向过程和面向对象都是解决问题的一种思路B)面向过程是基于面向对象的C)面向过程强调的是解决问题的步骤D)面向对象强调的是解决问题的对象答案:B解析:[单选题]11.下面属于流计算技术的是：()A)SparkB)GraphXC)S4D)Hive答案:C解析:[单选题]12.各业务部门、各单位要按照《国家电网公司保护商业秘密规定》要求，结合本专业大数据应用以及专业领域需要重点保护的数据，认真分析梳理重要数据，其工作内容不包括（）。A)明确保护对象B)建立数据资源目录C)考虑和识别海量大数据在挖掘、计算、分析后的重要性和保护要求D)确保足够的存储空间答案:D解析:[单选题]13.大数据时代（）A)不允许不精确的数据B)允许不精确的数据C)为精确可以牺牲效率D)只要因果数据答案:B解析:[单选题]14.HDfS中的block默认保存几份？A)3份B)2份C)1份D)不确定答案:A解析:HDFS默认BlockSize64MB，block默认保存3份。记住即可[单选题]15.以下哪个是国网营销部的职责（）A)负责泛在电力物联网组织优化诊断B)负责开展商业模式的创新研究C)统一组织项目管控和架构管控D)组织审核各单位泛在电力物联网建设方案答案:B解析:[单选题]16.SDK是消费者在调用API时，需要在请求Header头中添加身份认证信息，而这个操作比较繁琐，故我们为使用者提供了SDK，简化用户操作。目前华为SDK支持:（）种语言的支持。A)7B)8C)9D)10答案:C解析:[单选题]17.为了返回组中所有值的和,应使用的聚合函数为()A)AVGB)SUMC)COUNTD)DISTINCT答案:B解析:[单选题]18.下列关于批量数据迁移系统级限制和约束的说法错误的是：（）。A)批量数据迁移系统不会自动备份用户的作业配置，需要用户通过作业的导出功能进行备份。B)集群创建好以后支持修改规格。C)文件迁移时，单个任务支持千万数量的文件，如果待迁移目录下文件过多，建议拆分到不同目录并创建多个任务。D)不支持集群自动升级到新版本，需要用户通过作业的导出和导入功能，实现升级到新版本。答案:B解析:[单选题]19.在著名管理学家Thomas.H.Davernport在《哈佛商业论坛》上发表的题为《第兰代分析学(Analytics3.0)}的经典论文中，Analytics3.0时代是指()。A)商务智能时代B)唱大数据时代C)数据富足供给时代D)数据智能时代答案:C解析:[单选题]20.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。A)统计方法B)邻近度C)密度D)机器学习技术答案:A解析:略。[单选题]21.和RDBMS相比，ApacheHadoop:（）A)具有更高的数据完整性B)支持ACID事物C)适合多次读写D)对非结构化和半结构化数据支持更好答案:D解析:[单选题]22.大数据作为一种数据集合，它的含义不包括A)数据很大B)很有价值C)构成复杂D)变化很快答案:B解析:[单选题]23.列哪一个命令可以清空Redis实例下所有数据库的资料？A)FlushdbB)DropdbC)FlushallD)Dropall答案:C解析:[单选题]24.下列是正确的变量名的是（）A)ifB)elseC)inputD)IF答案:D解析:[单选题]25.numpy对数组进行排序用什么函数？A)np.sqrt()B)np.eye()C)np.identity()D)np.sort()答案:D解析:[单选题]26.回归分析的任务,就是根据()和因变量的观察值,估计这个函数,并讨论与之有关的种种统计推断的问题。A)相关变量B)样本C)已知数据D)自变量答案:D解析:回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重间归分析:按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。[单选题]27.下列不属于专家系统的解释功能的主要作用是（）。A)对用户说明为什么得到这个结论B)对用户说明如何得到这个结论C)提高专家系统的信赖程度D)对用户说明专家系统的知识结构答案:D解析:[单选题]28.以下描述中不正确的是（___）。A)整个数据集可以称作一个样本B)样本不可以是单个示例C)一个样本可以称为一个?特征向量?D)样本中反映事件或对象在某方面的表现或性质的事项，可以称为?特征?答案:B解析:[单选题]29.下面对LSM结构描述正确的是?（）A)顺序存储B)直接写硬盘C)需要将数据Flush到磁盘D)是一种搜索平衡树答案:C解析:[单选题]30.为了应对大数据时代的信息安全问题，下列措施中不恰当的做法是（）。A)遵循历史经验B)事前主动预防C)事中即时应对D)事后总结改进答案:A解析:[单选题]31.HDFS读取文件时用的是哪一个read方法?A)DataInputStreamB)FSDataInputStreamC)DataOutputStreamD)FSDataOutputStream答案:B解析:[单选题]32.下列关于图像中的噪声特性的说法错误的是（）。A)具有随机性B)具有规律性C)具有叠加性D)具有不可预测性答案:B解析:噪声是干扰和妨碍人类认知和理解信息的重要因素，而图像噪声则是图像中干扰和妨碍人类认识和理解图像信息的重要因素。由于噪声本身具有不可预测性，可以将它当作一种随机误差（这种误差只有通过概率统计的方法来识别）。因此，图像噪声可以视为一种多维随机过程，可以选择随机过程的概率分布函数和概率密度函数来作为对图像噪声进行描述的方法。[单选题]33.创建一个HDFS客户端对象时，Configuration实例会自动加载HDFS的配置文件()，从中获取Hadoop集群的配置信息。A)hadoop-default.xmlB)hadoop-env.shC)hadoop-site.xmlD)core-site.xml答案:D解析:[单选题]34.执行"abcdef"[-1:]语句时输出是()。A)aB)abcdeC)bcdefD)f答案:D解析:[单选题]35.?最为成功的商业运作模式是价格最低的资源将会被尽可能的消耗，以此来保存最昂贵的资源?，这是下列哪个定律的内涵？（）A)牛顿定律B)麦特卡尔夫定律C)摩尔定律D)吉尔德定律答案:D解析:[单选题]36.假设我们使用原始的非线性可分版本的Soft-SVM优化目标函数。我们可通过()来保证得到的模型是线性可分离的。A)C=0B)C=1C)C正无穷大D)C负无穷大答案:C解析:C为分类错误项的参数,即正则化中的惩罚因子,C越大,边界越窄,尽可能把更多点正确分类,分类错误越少。C越小,边界越宽,分类错误点的个数增加。因此,C正无穷大时,可以实现没有分类错误的点,模型线性可分。[单选题]37.在数据管理技术的发展过程中，经历了人工管理阶段、文件系统阶段和数据库系统阶段。在这几个阶段，数据独立性最高的是（）阶段A)数据库系统B)文件系统C)人工管理D)数据项管理答案:A解析:[单选题]38.大数据服务（MaxCompute,原ODPS)中客户表customer是一张非分区表，现在想要清空表的内容然后重新上传数据，可以通过：（）。A)insertoverwritetablecustomerselect*fromcustomer;B)deletefromcustomer;C)truncatetablecustomer;D)droptablecustomer;答案:A解析:[单选题]39.当原始数据的存在形式不符合目标算法的要求时，需要对原始数据进行(__)。A)数据变换B)数据加工C)数据清洗D)数据集成答案:A解析:[单选题]40.RDD的（）算子会会触发执行，向Spark引擎提交，生成一个job，并返回相应的结果。A)创建B)转换C)控制D)执行答案:D解析:[单选题]41.本行数据治理归口管理部门为（）A)风险管理部B)内审监督部C)科技部D)数据运管部答案:D解析:[单选题]42.调用以下函数返回的值()defmyfun():passA)0B)出错不能运行C)空字符串D)None答案:D解析:[单选题]43.下列代码的作用是?StringgraphName="graphbase;Api.createGraph（graphName）;A)删除图B)获得图C)修改图D)创建图答案:D解析:[单选题]44.()不是HDFS的守护进程。A)SecondaryNameNodeB)DataNodeC)MRAppMaster/YarnChildD)NameNode答案:C解析:[单选题]45.下面哪种部署方式不是Spark集群部署方式()A)standaloneB)sparkonmesosC)sparkonYARND)Sparkonlocal答案:D解析:[单选题]46.关系云的一个重要功能是提供()。A)数据库即服务B)虚拟服务C)弹性计算D)按需服务答案:A解析:[单选题]47.python语句print(type((1,2,3,4)))的输出结果是。（）A)class?tuple?B)class?dict?C)class?set?D)class?list?答案:A解析:[单选题]48.下列操作不属于Numpy对数组得操作范畴的是？A)索引和切片B)拼接和分割C)数组的添加、删除和去重D)数组中数据的压缩答案:D解析:[单选题]49.在Hadoop中，下面哪个是默认的InputFormat类型，它将每行内容作为新值，而将字节偏移量作为key（）A)FileInputFormatB)TextInputFormatC)KeyValueTextInputFormatD)CombineTextInputFormat答案:B解析:[单选题]50.下列哪种函式参数定义不合法（）。A)defmyfunc(args):B)defmyfunc(arg1=1):C)defmyfunc(args,a=1):D)defmyfunc(a=1,args):答案:D解析:[单选题]51.下列选项中，关于HBase特性描述不正确的一项是（）。A)高可靠性B)高性能C)面向行D)可伸缩答案:C解析:[单选题]52.传统RNN有什么特别大的弊端？A)无法进行长久记忆B)精度太低C)速度太慢D)效果太差答案:A解析:[单选题]53.以下关于数据仓库的叙述中，正确的是（）A)数据仓库主要用于支持决策管理B)数据仓库的数据源相对比较单一C)存放在数据仓库中的数据一般是实时更新的D)数据仓库为企业的特定应用服务、强调处理的响应时间，数据的安全性和完整性等答案:A解析:[单选题]54.关于缺失值填补,不正确的说法是()。A)填补数据可以用中位数或者众数等B)Pandas.dropna可以用来填补缺失值C)用平均值填补会引入相关性D)哑变量填补是将缺失值当做一类新特征处理答案:B解析:Pandas.dropna可以用来删除缺失值。[单选题]55.启动HBase需先在hbase/conf/目录下修改的配置文件是（）A)hbase-env.shB)hbase-conf.shC)hbase-cmd.shD)hbase-file.sh答案:A解析:[单选题]56.定义域为{1,2,3}的离散属性也可称为称为（__）。A)无序属性B)有序属性C)连续属性D)离散属性答案:B解析:[单选题]57.Spark的Stage的Task的数量由()决定。A)PartitionB)JobC)StageD)TaskScheduler答案:A解析:Task是Stage下的一个任务执行单元,一般来说,一个RDD中有多少个Partition就有多少个Task。[单选题]58.以下两种描述分别对应哪两种对分类算法的评价标准（）（a）警察抓小偷，描述警察抓的人中有多少个是小偷的标准。（b）描述有多少比例的小偷给警察抓了的标准。A)Precision,RecallB)Recall,PrecisionC)Precision,ROCD)Recall,ROC答案:A解析:[单选题]59.TaskScheduler是以()为单元来调度任务。A)TaskSetB)TaskSetManagerC)ExecutorD)Stage答案:B解析:[单选题]60.假设要计算洞庭湖的银鱼数量，现均匀投入其中10000条带标记的银鱼，一段时间后捕捞10000条鱼，通过其中带标记的鱼的数量来预估洞庭湖中银鱼的数量。这个例子体现的思想是（）A)全样的思想B)抽样的思想C)精确的思想D)因果的思想答案:B解析:[单选题]61.图像平滑从信号处理的角度看就是去除其中的(__)。A)高频信息B)低频信息C)噪声D)亮度信息答案:A解析:[单选题]62.以下不属于数据仓库的特性是（）A)面向主题B)集成的C)跨平台性D)非易失答案:C解析:[单选题]63.在网络日志数据分析场景中，日志服务器通过1og4将数据传给（），（）会对数据进行简单的处理过滤，然后将数据按照日期存储到（）上。A)Flume.Flume.HDFSB)HDFS、Flume、FlumeC)Spark.Sgoop.FlumeD)Hive、Flume、Loader答案:A解析:[单选题]64.在HBase的专用过滤器中，首次行键过滤器是（）A)FirstKeyComparatorFilterB)FirstKeyHBaseFilterC)FirstKeyFilterD)FirstKeyOnlyFilter答案:D解析:[单选题]65.已知x与y的关系如下表所示：表1x与y的关系xyx<0x1x=0xx>0x+1以下选项中，可以正确地表达x与y之间关系的是（）A)y=x+1ifx>=0:ifx==0:y=xelse:y=x-1B)y=x-1ifx!=0:ifx>0:y=x+1else:y=xC)ifx<=0:ifx<0:y=x-1else:y=xelse:y=x+1D)y=xifx<=0:ifx<0:y=x-1else:y=x+1答案:C解析:[单选题]66.在面积图中,面积是指()A)坐标系中不同的点围成的最大图形面积B)坐标系中不同的点所连成的折现投影于纵轴的面积C)坐标系中不同的点所连成的折现投影于横轴的面积D)坐标系中不同的点围成的最小图形面积答案:C解析:[单选题]67.以下哪项是非结构化数据（）A)用户投诉语音数据B)用户评论文本C)用户话单数据D)发票扫描件答案:C解析:[单选题]68.下面不属于数据科学平台的有(__)。A)dataikuB)endorC)knimeD)alpine答案:B解析:[单选题]69.Python用于异常处理结构中捕获特定类型的异常的保留字是（）。A)exceptB)doC)passD)while答案:A解析:except是Python用于异常处理结构中捕获特定类型的异常的保留字。[单选题]70.scipy中模块integrate的作用是什么？A)程序输入输出B)差值计算C)计算积分D)向量计算答案:C解析:[单选题]71.现实中往往会遇到?不完整?的训练样本，在这种存在属性变量值未知的情形下，可用（__)。A)边际似然B)EM算法C)贝叶斯决策D)贝叶斯分类器答案:B解析:[单选题]72.下列哪一项关于极大似然估计（MLE）的说法是正确的？1.MLE并不总是存在2.MLE一直存在3.如果MLE存在，它可能不特异4.如果MLE存在，它一定是特异的A)1和4B)2和3C)1和3D)2和4答案:C解析:[单选题]73.对于一组数据（1，2，2，NAN，4），若采用众数法补全缺省值，则NAN该补为（）。A)1B)1.8C)4D)2答案:D解析:[单选题]74.根据电信客户的特征对客户进行打标分类主要用到（）算法A)分类B)聚类C)降维D)回归答案:B解析:[单选题]75.关于KNN说法错误的是()A)、为寻找k个最近的邻居B)、当一个样本在特征空间中的k个最相邻的样本中的大多数都属于某一个类别时,该29样本也属于这个类别,并具有这个类别上样本的特性。C)、该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分类样本所属的类别。D)、KNN算法主要靠判别类域的方法来确定所属类别。答案:D解析:[单选题]76.SLIC算法的主要目的是（）。A)目标识别B)前景和背景分离C)超像素提取D)语义分割答案:C解析:SLIC是基于K-means算法的生成超像素新方法，SLIC是在超像素中心周围的区域2S×2S中进行类似像素的搜索。[单选题]77.plt.legend()函数可以在途中添加(__)。A)曲线B)坐标轴C)标题D)图例答案:D解析:[单选题]78.将Python中的.py文件转换为.pyc文件的组件为（）。A)编辑器B)编译器C)虚拟机D)解释器答案:B解析:将Python中的.py文件转换为.pyc文件的组件为编译器。[单选题]79.下列对于等距离散化和等频离散化的叙述中,不正确的是()。A)等距离散化是将连续型特征的取值区间均匀地划分成多个区间段B)等距离散化对数据离群值不敏感C)等频离散化考虑了区间段中的样本个数,使每个区间段的样本数相同D)等频离散化会将相似的样本划分到不同的区间答案:B解析:等距离散化对数据离群值敏感。[单选题]80.已知一个数据集，n为特征数，m为训练样本数，如果n较小，而且m大小中等(例如n为1-1000，而m为10-10000)，则一般选择()A)逻辑回归模型B)不带桔的支持向量机C)高斯拉的支持向量机D)多项式桔的支持向量机答案:C解析:[单选题]81.数据转换器中数值类型的使用用途正确的是()A)Calculation对应用途为四则运算B)Abs对应用途为定义一个常量,可以是不同类型C)Constant对应用途为返回大于或等于指定数值表达式的最小整数D)Ceiling对应用途为绝对值答案:A解析:[单选题]82.进行主成分分析的前提条件是各变量间()。A)高度相关B)低度相关C)相互独立D)完全相关答案:B解析:[单选题]83.锐化（高通）滤波器的作用（）。A)能消减或削弱傅里叶空间的低频分量，但不影响高频分量B)能消减或削弱傅里叶空间的高频分量，但不影响低频分量C)对傅里叶空间的低、高频分量均有削弱或消除作用D)对傅里叶空间的低、高频分量均有增强作用答案:A解析:高通滤波与低通滤波正好相反，是频域图像的高频部分通过而抑制低频部分。在图像中图像的边缘对应高频分量，因此高通滤波的效果是图像锐化。[单选题]84.LSTM中门的输出是（）之间的实数向量。A)0到1B)1到-1C)0到-1D)1到2答案:A解析:[单选题]85.下面对范数规则化描述错误的是（__）。A)L0是指向量中0的元素的个数B)L1范数是指向量中各个元素绝对值之和C)L2范数向量元素绝对值的平方和再开平方D)L0是指向量中非0的元素的个数答案:A解析:[单选题]86.?冬天麦盖三层被,来年枕着馒头睡。?--新人教版小学语文《第一场雪》?关于这段民俗民谚中体现的是:A)相关性背后有一定的因果性B)能被直接观测到的才是因果性C)相关性就是因果性D)相关性与因果性完全无关答案:A解析:[单选题]87.在一个n维的空间中，最好的检测outlier(离群点)的方法是:A)作正态分布概率图B)作盒形图C)马氏距离D)作散点图答案:C解析:[单选题]88.离散程度的测度值愈大,则()。A)映变量值愈分散,算术平均数代表性愈差B)映变量值愈集中,算术平均数代表性愈差C)映变量值愈分散,算术平均数代表性愈好D)映变量值愈集中,算术平均数代表性愈好答案:A解析:离散程度的测度值愈大,则映变量值愈分散,算术平均数代表性愈差。[单选题]89.Sparkjob默认的调度模式是（）A)FIFOB)FAIRC)无D)运行时指定答案:A解析:[单选题]90.下列关于HDFS的负载均衡服务(Balancer)的参数说法哪一个是不正确的？A)-threshold默认值10，参数范围0-100B)-threshold取值越大越平衡C)dfs.balance.bandwitdhPerSec运行时允许占用的带宽D)dfs.balance.bandwitdhPerSec默认值为1M/s答案:B解析:[单选题]91.下列说法正确的是()A)数据转化器均不能生成新的列B)数据转化器均能生成新的列C)部分数据转化器能生成新的列D)以上说法均不对答案:B解析:[单选题]92.Flink的窗口，按窗口行为划分不包含以下哪种?A)容量窗B)会话窗口C)滚动窗口D)滑动窗口答案:A解析:[单选题]93.在Flink的运行过程中，负责申请资源的角色是:（）。A)ResourceManagerB)JobManagerC)ClientD)TaskManager答案:B解析:[单选题]94.()是表示数据分布是否为对称性的统计量。A)方差B)中位数C)偏态D)峰态答案:C解析:[单选题]95.下列表达式中，返回True的是()。A)a=2b=2a=bB)3>2>1C)TrueandFalseD)2!=2答案:B解析:[单选题]96.()的基本想法是适当考虑一部分属性间的相互依赖信息，从而既不需要进行完全联合概率讨算，又不至于彻底忽略了比较强的属性依赖关系A)贝叶斯判定准则B)贝叶斯决策论C)朴素贝叶斯分类器D)半朴素贝叶斯分类器答案:D解析:[单选题]97.在Windows系统中，关闭Python终端会话常用的快捷键是（）。A)Ctrl+CB)Ctrl+DC)Ctrl+ED)Ctrl+Z答案:D解析:在Windows系统中，关闭Python终端会话常用快捷键是Ctrl+Z。[单选题]98.嵌入式选择是一种（__）算法。A)聚类B)特征选择C)分类D)回归答案:B解析:[单选题]99.正则化是将样本在向量空间模型上的一个转换，经常被使用在分类与聚类中，正则化在preprocessing模块的实现函数是（）。A)preprocessing.MaxAbsScale（）B)preprocessing.RobustScaler（）C)preprocessing.normalize（）D)preprocessing.Binarizer（）答案:C解析:preprocessing模块中函数normalize（）提供了一个快速又简单的在一个单向量上来实现正则化功能的方式。[单选题]100.王先生近期收到了一封电子邮件，发件人显示是某同事，但该邮件十分可疑，没有任何与工作相关内容，邮件中带有一个陌生的网站链接，要求他访问并使用真实姓名注册，这可能属于哪种攻击手段?()A)DDOS攻击B)钓鱼攻击C)水坑攻击D)缓冲区溢出攻击答案:B解析:[单选题]101.第三次信息化浪潮标志不包含以下哪项?A)互联网B)云计算C)物联网D)大数据答案:A解析:[单选题]102.sklearn.naive_bayes模块实现了朴素贝叶斯算法，基于贝叶斯定理和特征独立性假设的监督学习方法，下列模型不是朴素贝叶斯分类器的是（）。A)BernoulliNB（）B)GaussianNB（）C)NeighborsNB（）D)MultinomialNB（）答案:C解析:根据输入特征的不同类型，Sklearn的朴素贝叶斯算法分为BernoulliNB、GaussianNB、MultinomialNB三种。[单选题]103.以下属于Python脚本程序转变为可执行程序的第三方库的是：A)requestsB)pyinstallerC)numpyD)scrapy答案:B解析:[单选题]104.()是从总体N个单位中随机地抽取n个单位作为样本的抽样方法。每个单位被抽中的概率是相等的,属于?等概率抽样?。A)方便抽样B)分层抽样C)整群抽样D)简单随机抽样答案:D解析:[单选题]105.关于数据产品,以下说法错误的是()。A)数据产品的存在形式是数据集B)与传统物质产品不同的是,数据产品的消费者不仅限于人类用户.还可以是计算机以及其他软硬件系统C)数据产品不仅包括数据科学项目的最终产品,也包括其中间产品以及副产品D)数据产品开发涉及数据科学项目流程的全部活动答案:A解析:数据产品的存在形式不仅限于数据集,还包括文档、知识库、应用系统、硬件系统、服务、洞见、决策或它们的组合。[单选题]106.下列关于数据创新的说法正确的是（）。A)多个数据集的总和价值等于单个数据集价值相加B)由于数据的再利用，数据应该永久保存下去C)相同数据多次用于相同或类似用途，其有效性会降低D)数据只有开放价值才可以得到真正释放答案:D解析:略。[单选题]107.以某一图表中的项为单位对关联图表进行数据筛选，建立图表间联动关系的功能是？()A)全局筛选B)计量单位C)图表联动D)数据凸显答案:C解析:[单选题]108.或图通常称为（）A)框架网络B)语义图C)博亦图D)状态图答案:D解析:[单选题]109.下面这条GaussDB200语句?calldbms_erval（1,'sysdate+1.0/24'）;"的意思是A)修改Job1的Interva为每隔24小时执行一次。B)修改Job1的Interval为每隔1小时执行一次。C)修改Job1的Interval为每隔1/24小时执行一次。D)修改Job1的Interval为每隔24分钟执行一次。答案:B解析:[单选题]110.因支撑人员造成数据泄露或泄密事件的，由（）承担全部责任，并按照公司保密工作奖惩办法、员工奖惩规定，追究相关人员责任。A)支撑人员B)支撑人员所在部门C)支撑单位D)以上都不是答案:C解析:[单选题]111.数据安全管理是通过制定和实施相关安全策略和措施，确保数据在收集、传输、存储、处理、使用和（）各环节的安全。A)归档B)发布C)推广D)销毁答案:D解析:[单选题]112.假设某日是否有雨只和前一日是否有雨相关;今日有雨，则明日有雨的概率是0.7;今日无雨，则明日有雨的概率是0.5。如果周一有雨，求周三也有雨的概率。A)0.5B)0.64C)0.72D)0.81答案:B解析:[单选题]113.HBase客户端API中，任何操作都需要首先创建（）类的实例A)HbaseManagerB)HBaseConfigurationC)HBaseD)Manager答案:B解析:[单选题]114.scipy中模块cluster的作用是什么？A)向量计算B)程序输入输出C)计算差值D)信号处理答案:A解析:[单选题]115.深度学习中的卷积神经网络属于机器学习中的那哪种模型A)深度监督学习B)深度无监督学习C)深度半监督学习D)深度强化学习答案:A解析:[单选题]116.计算numpy中元素个数的方法（）A)np.sqrt()B)np.size()C)np.identity()D)np.mat()答案:B解析:[单选题]117.Yam中（）角色是管理单个节点资源（CPU/Memory）的。A)NodeManagerB)ResourceManagerC)DataNodeD)NameNode答案:A解析:[单选题]118.下列关于Spark与Hadoop的说法错误的是()。A)Spark中没有提供文件管理系统B)Hadoop中提供了文件关系系统C)Spark和Hadoop都是用MR模型进行计算，Spark的速度和效率比MR要快得多D)Hadoop适合处理动态数据答案:D解析:[单选题]119.查询集合操作中，表示交集的是：（）。A)INTERSECTB)MINUSC)EXECPTD)UNION答案:A解析:[单选题]120.HBase来源于哪一项？A)TheGoogleFileSystemB)MapReduceC)BigTableD)Chubby答案:C解析:HBASE起源于GoogleBigTable，几乎遵从了BigTable论文的大多数架构设计[单选题]121.以下SQL语句编写正确的是()。--A)SELECT*FROMsh_goodsWHERE0;B)SELECT*FROMsh_goodsGROUPBYcategory_iD、WHEREprice>5;C)SELECT*FROMsh_goodsLIMIT3ORDERBYprice;D)以上选项都不正确答案:A解析:[单选题]122.Spark框架standalone运行模式是?A)简单模式B)单机模式C)本地模式D)集群模式答案:D解析:[单选题]123.以下说法错误的一项是（）A)负梯度方向是使函数值下降最快的方向B)当目标函数是凸函数时，梯度下降法的解是全局最优解C)梯度下降法比牛顿法收敛速度快D)拟牛顿法不需要计算Hesse矩阵答案:C解析:[单选题]124.以下哪项不属于图像分割的目的。（）A)把不同类标分开。B)提取不同区域的特征。C)识别图像内容，或对图像进行分类。D)对未处理噪声的图像进行平滑。答案:D解析:[单选题]125.下列哪一项不是经典的社区研究案例（）A)空手道俱乐部B)科学家合作网络C)斑马群体的社交行为研究D)芽殖酵母基因调控网络答案:D解析:[单选题]126.以下选项哪个是MapReduce正确的运行模型()A)Reduce-Map-ShuffleB)Shuffle-Map-ReduceC)Map-Shuffle-ReduceD)Map-Reduce-Shuffle答案:C解析:[单选题]127.HBase交互模式中,显示所有命名空间A)show_namespaceB)shows_namespaceC)lists_namespaceD)list_namespace答案:D解析:[单选题]128.关于MaxcomputeMR（）说法是正确的。A)mapworker在输出数据时，需要为每一条输出数据指定一个keyB)进入reduce前，数据需要进行合并操作，然后按照key排序C)map和reduce前都需要对数据进行分片D)reducer的个数和mapper的个数一致答案:A解析:[单选题]129.在模型评估与度量的方法中，（__）直接将数据集划分为两个互斥的集合，一个作为训练集，另一个作为测试集。A)自助法B)留出法C)交叉验证法D)错误率分析答案:B解析:[单选题]130.下列算法中,不属于外推法的是()。A)移动平均法B)回归分析法C)指数平滑法D)季节指数法答案:B解析:外推法(Extrapolation)是根据过去和现在的发展趋势推断未来的一类方法的总称,回归分析法不属于外推法。[单选题]131.在二分类问题中，当测试集的正例和负例数量不均衡时，以下评价方案哪个是相对不合理的（）（假设precision=TP/(TP+FP),recall=TP/(TP+FN)。）A)Accuracy:(TP+TN)/allB)F-value:2*recall*precision/(recall+precision)C)G-mean:sqrt(precision*recall)D)AUC:ROC曲线下面积答案:A解析:[单选题]132.当闵可夫斯基距离公式中的系数p值为2时，可得到（__）的公式。A)欧氏距离B)曼哈顿距离C)街区距离D)切比雪夫距离答案:A解析:[单选题]133.下列选项中，不属于python特点的是。（）A)面向对象B)运行效率高C)可移植性D)免费和开源答案:B解析:[单选题]134.bootstrap是指()A)有放回地从总共M个特征中抽样m个特征B)无放田地从总共M个特征中抽样m个特征C)有放田地从总共N个样本中抽样n个样本D)元放田地从总共N个样本中抽样n个样本答案:C解析:[单选题]135.求以下程序结果正确的是（）L=('Google','Python','Taobao')print（L[-2]）print（L[1:]）A)Python',('Python','Taobao')B)Google',('Python','Taobao')C)Google''Python?D)?Taobao''Python?答案:A解析:[单选题]136.()是Spark中用来进行机器学习和数学建模的软件包。A)SPARKCOREB)SparkSQLC)SparkStreamingD)Mllib答案:D解析:[单选题]137.a与b定义如下，下列哪个是正确的（）。a='123'b='123'A)a!=bB)aisbC)a==123D)a+b=246答案:B解析:[单选题]138.大数据计算服务（MaxCompute，原ODPS）的MapReduce提供了分布式的编程框架，以下（）大数据计算服务可以作为MR的输入和输出。A)表B)视图C)资源D)项目空间答案:A解析:[单选题]139.以下不属于数据库的是A)MongoDBB)SparkC)MySQLD)HBase答案:B解析:[单选题]140.完成智慧物联体系试点建设，试点建成企业级物联管理中心，实现输变电、配用电、客户侧增量设备（）标准化接入和统一物联管理，初步具备能力开放功能A)90%B)100%C)85%D)70%答案:B解析:[单选题]141.Choice函数属于()函数A)文本函数B)数值函数C)逻辑函数D)集合函数答案:C解析:[单选题]142.公共云计算上分析型数据库的用户创建数据库的方式为:（）。A)直接通过CREATEDATABASE的DDL语句创建数据库B)直接通过CREATEDATABASE的DML语句创建数据库C)直接通过CREATETABLE的DDL语句创建数据库D)只能通过DMS控制台界面来创建需要的业务数据库答案:D解析:[单选题]143.下列关于描述性分析与探索性分析描述正确的是()。A)描述性分析是相对于验证性分析的一种提法B)探索性分析是验证性分析的基础C)探索性分析是相对于验证性分析的一种提法D)探索性分析是数据分析的第一步答案:C解析:[单选题]144.工业4.0计划是哪个国家提出的数据战略A)日本B)德国C)中国D)叙利亚答案:B解析:第2部分：多项选择题，共62题，每题至少两个正确答案,多选或少选均不得分。[多选题]145.以下哪些选项是ElasticSearch主节点EsMaster功能?A)参与文档数据变更B)参与文档数据搜索C)参与新建索引D)参与删除素引答案:CD解析:[多选题]146.SparkSQL使用场景丰富，可以处理的数据源包括?A)JsonB)HiveC)文本文件D)RDD答案:ABCD解析:[多选题]147.以下哪些场景适合使用实时检索技术辅助完成?A)通过手机号查询某日某运营商的通话记录B)根据过去一年的订单记录预测明年某商品的销售量C)通过身份证号查询某天某酒店入住人信息D)通过车牌号查询某天某高速收费站过路车辆信息答案:ABCD解析:[多选题]148.数据仓库数据分层的优点包括?A)减少重复开发B)把复杂问题简单化C)隔离原始数据D)减少数据仓库存储空间答案:ABC解析:[多选题]149.RNN网络的激活函数要选用双曲正切而不是Sigmod的原因有()A)使用Sigmod函数容易出现梯度消失B)Sigmod的导教形式较为复杂C)双曲正切更简单D)Sigmoid函数实现较为复杂答案:AB解析:[多选题]150.Python中，字符串可以使用哪些格式A)单引号B)双引号C)三双引号D)三单引号答案:ABCD解析:[多选题]151.(__)是preprocessing模块中的函数。A)Nomalization()B)MinMaxScaler()C)Scaler()D)StandardScaler()答案:BCD解析:[多选题]152.下列属于Hive所支持的基本数据类型的有（）【选三项】A)TimestampB)BinaryC)TinyintD)Char答案:ABC解析:[多选题]153.关于StructuredStreaming、SparkSQL、SparkStreaming，下面描述正确的是：()A)StructuredB)SparkC)StructuredD)Spark答案:ACD解析:[多选题]154.试点建设（）的智慧运营中心A)智能采购B)智慧业务C)数字物流D)全景质控答案:ACD解析:[多选题]155.关于表扫描算子的说法正确的是（?A)对于点查或者范围扫描等过滤本量数据的查询，如果使用SeqScan全表扫描会比较快。B)表的数目比较少的时候，使用Seqscan效率更高。C)SOL的执行计划第一步就是从表扫描算子开始的。D)SeqScan是指顺序扫描表的所有信息。答案:ABC解析:[多选题]156.正则表达式中，重复元字符?*?表示()A)无匹配B)只匹配1个C)0个匹配D)多个匹配答案:CD解析:[多选题]157.某集团公司总部内部审计部在执行差旅费审计时,意外发现一项员工虚报差旅费的舞弊事项,因此发文要求各分公司对最近一年差旅费进行全面地自查整改,并提交最终差旅费自查报告,报告内容至少需包括以下事项:差旅费行程冲突记录在全部差旅记录中的占比、差旅费行程冲突明细、各公司各部门差旅费报销总额,并要求各成员公司在一个月内完成差旅费内部整改,总部将不定期进行飞行检查。若你是某一分公司出纳,你在该报告中拟利用的表是:()A)饼图B)明细表C)矩阵块图D)柱形图答案:ABCD解析:[多选题]158.缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。对于缺失值的处理方法包括()A)复制元B)删除元组C)缺值补齐D)不处理答案:BCD解析:[多选题]159.Rowkey设计的原则，下列哪些选项的描述是正确的？A)尽量保证越短越好B)可以使用汉字C)可以使用字符串D)本身是无序的答案:ABC解析:D项存储时，数据按照RowKey的字典序(byteorder)排序存储[多选题]160.大数据计算框架Flink的支持以下哪些资源调度方式?A)MesosB)DockerC)YARND)Standalone答案:ACD解析:[多选题]161.以下哪些是RDD的特点（）A)可分区B)可序列化C)可持久化D)可修改答案:ABC解析:[多选题]162.Hadoop系统中YARN支持哪些资源类型的管理？A)内存B)CPUC)网络D)磁盘空间答案:AB解析:[多选题]163.以下关于Loader特点描述正确的是?A)图形化：提供Ul图形化配置、监控界面，操作便捷。B)安全认证：Kerberos认证作业权限管理C)高性能：利用MapReduce并行处理数据。D)高可靠：LoaderServer采用主备双机作业通过MaReduce执行，支持失败重试。作业失败后，不会残留数据。答案:ABCD解析:[多选题]164.下面关于机器学习的理解，正确的是()A)非监督学习的样本数据是要求带标签的B)监督学习和非监督学习的区别在于是否要求样本数据带标签C)强化学习以输入数据作为对模型的反馈D)卷和、神经网络一般用于图像处理等局部特征相关的数据答案:BCD解析:[多选题]165.下列关于Pandas的索引说法正确的是（）。A)索引对象是可修改的B)索引对象是不可修改的C)索引对象是不可修改的D)Index对象是可以共享的答案:BCD解析:[多选题]166.下列关于AUC面积的描述正确的有（）。A)AUC被定义为ROC曲线下与坐标轴围成的面积B)AUC面积的值大于1C)AUC面积的值等于0.5时，真实性最低，无应用价值D)AUC面积的值越接近1.0，检测方法真实性越高答案:ACD解析:AUC面积的值不大于1。[多选题]167.以下关于模块的描述正确的是()。A)提供重用程序代码的方法B)提供了一种划分任务的方法C)提供减小程序大小的方法D)提供测试程序各个部分的方法答案:ABD解析:[多选题]168.一个典型的数据仓库系统通常包含哪几个组成：()A)数据源B)数据存储和管理C)OLAP服务器D)前端工具和应用答案:ABCD解析:[多选题]169.以下选项中属于数据的作用的是（）。A)沟通B)验证假设C)建立信心D)欣赏答案:ABC解析:[多选题]170.以下（）大数据计算服务（MaxCompute，原ODPS）的SQL语句可以用户表user中找出用户名称username中包含?hu?的记录。A)select*fromuserwhereusernamerlike?.*hu.*?B)select*fromuserwhereusernamelike?%hu%?C)select*fromuserwhereusernamecontains(?hu?)D)select*fromuserwhereusernamelike?*hu*?答案:AB解析:[多选题]171.下面的选项是关系数据库基本特征的是（）。A)与列的次序无关B)不同的列应有不同的数据类型C)不同的列应有不同的列名D)与行的次序无关答案:ACD解析:[多选题]172.F1参数由（__）和（__）综合获得A)查全率B)查准率C)误差D)精度答案:AB解析:[多选题]173.HFile数据格式中的KeyValue数据格式，下列选项描述正确的是（）。A)是byte[]数组B)没有固定的结构C)数据的大小是定长的D)有固定的结构答案:AD解析:B项KeyValue格式如下该结构以两个分别表示键长度（KeyLength）和值长度（ValueLength）的定长数字开始C项HFile中的每个KeyValue都是一个低级的字节数组，数组的数据不是定长的[多选题]174.在DEEP平台应用线性回归模型,进行步长值设置需要哪几步?A)数据转换-长度B)选中线性回归模型-属性C)参数设置D)步长值设置答案:BCD解析:[多选题]175.以下属于图像平滑算法的是()。A)中值滤波B)均值滤波C)邻域平均法D)拉普拉斯滤波器答案:ABC解析:[多选题]176.HBase的Filter过滤器有什么作用?A)过滤列名B)过滤regionC)过滤rowkeyD)过滤列值答案:ACD解析:[多选题]177.下列有关Zookeeper描述正确的是()。A)Zookeeper维护着一个树形的层次结构B)Zookeeper的数据访问具有原子性C)Zookeeper被设计是用来实现协调服务的D)Zookeeper被设计是用来实现大容量数据存储的答案:ABC解析:[多选题]178.以下关于FusionInsight中CarbonData说法正确的有？A)使用Carbon的目的是对大数据即席查询提供超快速响应。B)Carbon使用轻量级压缩和重量级压缩的组合压缩算法压缩数据，可以减少60%-80%数据存储空间，大大节省硬件存储成本。C)Carbon是一种新型的ApacheHadoop本地文件格式，使用先进的列式存储.索引.压缩和编码技术，以提高计算效率，有助于加速超过PB数量级的数据查询，可用于更换的交互查询D)Carbon也是一种将数据源与Spark集成的高性能分析引擎。答案:ABCD解析:[多选题]179.大数据的资产属性体现在()。A)具有劳动增值B)涉及法律权属C)具有财务价值D)涉及道德与伦理答案:ABCD解析:大数据的资产属性体现在具有劳动增值、涉及法律权属、具有财务价值、涉及道德与伦理。[多选题]180.HDFS采用抽象的块概念可以带来以下哪几个明显的好处？A)支持大规模文件存储B)支持小规模文件存储C)适合数据备份D)简化系统设计答案:ACD解析:[多选题]181.以下提法中正确的是（___）。A)数据学科中的?数据?并不仅仅是?数值?,也不等同于?数值?B)数据科学中的?计算?并不仅仅是加、减、乘、除等?数学计算?,还包括数据的查询、挖掘、洞见、分析、可视化等更多类型C)数据科学不仅需要理论知识和实践经验，而且还涉及黑客精神D)数据科学强调的是?理论研究?,一般不涉及?领域实务知识?答案:ABC解析:[多选题]182.为大数据提供基础设施服务，有(__)和数据计算、数据管理与监控、集群服务、众包等。A)数据存储B)数据加工C)数据治理D)app开发答案:ABCD解析:[多选题]183.云计算关键技术之一的软件定义架构，包括（）A)软件定义计算B)软件定义存储C)软件定义网络D)软件定义数据中心答案:ABC解析:[多选题]184.税易通授信自动审批。客户申请提交后，系统通过自动查询（）等判断客户是否符合准入条件，对符合贷款条件的，系统自动进行评级授信并给出授信额度，客户可在线查询授信审批结果A)地税数据B)征信数据C)汇法网数据D)公积金缴纳数据答案:ABC解析:[多选题]185.根据《大数据风控平台项目操作手册》，企业信用智能分析报告分（）2个版本。A)征信报告B)尽职调查报告C)企业信用智能分析报告D)企业信用智能分析报告（含征信）答案:CD解析:[多选题]186.HBASE中Hmaster主要负责什么?A)表的增删改查B)用户数据读写C)Region分布调整D)Regionserver负戴均衡答案:ACD解析:[多选题]187.在st.rvs()函数中可以指定(__)。A)大小B)分布的形状C)是否是整数D)缩放比例答案:ABCD解析:[多选题]188.下列说法错误的是()。A)数值和数据是不同的概念，数值在信道上传输之后，转换为信号形式的数据B)信息是与材料、能源一个层次的概念，不属于客观存在C)特征编码是将非数值型特征转换成数值型特征的方法D)聚类算法要求数据集无量纲化答案:AB解析:[多选题]189.物联网的关键技术包括哪些？A)识别和感知技术B)网络与通信技术C)数据挖掘与融合技术D)信息处理一体化技术答案:ABC解析:[多选题]190.Python函数包括（）。A)函数名称B)参数C)执行语句D)返回值答案:ABCD解析:Python函数包括函数名称、参数、执行语句、返回值。[多选题]191.python字符串格式化符号有()。A)%sB)%dC)%uD)%x答案:ABCD解析:[多选题]192.用大数据计算服务构建海量的数据仓库时，分区表是一种很常见的做法，对于分区表的描述正确的有:（）。A)支持hash分区、范围分区、列表分区及组合分区B)在通过SQL读取分区表中的数据时，可以通过指定分区的方法只读取一部分分组，减少IO开销C)可以单独处理指定分区中的数据，不会对其他分区数据产生影响D)对于过期的数据可以将对应的分区drop掉，不会影响其他分区中的数据答案:BCD解析:[多选题]193.数据仓库分层的优点包括以下哪些选项？A)减少重复开发量B)提高资源协调能力C)隔离原始数据D)简化复杂问题答案:ACD解析:[多选题]194.以下哪些是数据仓库的基本特征?A)数据仓库的数据是集成的B)数据仓库是面向事务的C)数据仓库的数据是相对稳定的D)数据仓库的数据是反映历史变化的答案:CD解析:[多选题]195.数据缺失产生的原因包括()A)有些对象的某个或某些属性不可用B)有些信息暂时无法获取C)有些信息(被认为)是不重要的D)有些信息是被遗漏的答案:ABCD解析:[多选题]196.大数据安全表现出与传统数据安全不同的特征，具体来说包括哪几个方面:A)大数据成为冋络攻击的显著目标B)大数据加大隐私泄露风险C)大数据技术被应用到攻击手段中D)大数据成为高级可持续攻击（APT）的载体答案:ABCD解析:[多选题]197.下列导入模块正确的有（）。A)importnumpyB)importnumpyasnpC)frommatplotlibimportpyplotD)frommatplotlibimportpyplotasplt答案:ABCD解析:本题考查模块导入方法。[多选题]198.数据增值存在于哪些过程中()。A)数据对象的封装B)数据系统的研发C)数据的集成应用D)基于数据的创新答案:ABCD解析:[多选题]199.下面哪项是面向对象编程的特性()。A)继承B)同构C)封装D)多态性答案:ACD解析:[多选题]200.若name=np.array(['Bob','Joe','Will','Bob','Joe','Will','Joe'])，则以下可以的到['Bob','Joe','Will']的代码是（__)。A)np.unique(name)B)sorted(set(name))C)np.sort(name)D)name答案:AB解析:[多选题]201.噪声数据的产生原因主要有()。A)数据采集设备有问题B)在数据录入过程中发生了人为或计算机错误C)数据传输过程中发生错误D)由于命名规则或数据代码不同而引起的不一致答案:ABCD解析:噪声数据的产生原因主要有数据采集设备有问题、在数据录入过程中发生了人为或计算机错误、数据传输过程中发生错误、由于命名规则或数据代码不同而引起的不一致。[多选题]202.下列数据库管理系统中属于RDBMS的是()。A)OracleB)MySQLC)HbaseD)MongodDB答案:AB解析:[多选题]203.图像噪声一般可分为（）。A)加性噪声B)乘性噪声C)量化噪声D)非量化噪声答案:ABC解析:噪声是图像干扰的重要原因。一幅图像在实际应用中可能存在各种各样的噪声，这些噪声可能在传输中产生，也可能在量化等处理中产生。根据噪声和信号的关系[f（x，y）表示给定原始图像，g（x，y）表示图像信号，n（x，y）表示噪声]可将其分为三种形式：①加性噪声，此类噪声与输入图像信号无关，含噪图像可表示为f（x，y）=g（x，y）+n（x，y），信道噪声及光导摄像管的摄像机扫描图像时产生的噪声就属这类噪声。②乘性噪声，此类噪声与图像信号有关，含噪图像可表示为f（x，y）=g（x，y）+n（x，y）g（x，y），飞点扫描器扫描图像时的噪声、电视图像中的相干噪声、胶片中的颗粒噪声就属于此类噪声。③量化噪声，此类噪声与输入图像信号无关，是量化过程存在量化误差，再反映到接收端而产生的。[多选题]204.下列选项中，在Reducer类的run()方法中定义的三个方法有（）。A)setup()B)reduce()C)cleanup()D)map()答案:ABC解析:[多选题]205.为保障业务系统数据处理效率，应根据业务需要（），满足业务运行和数据资产应用需要。A)确定数据资产归档范围B)制定数据资产归档策略C)定期将业务办理完毕的数据转入历史归档区D)提供归档区数据的查询服务答案:ABCD解析:[多选题]206.当前，大数据产业发展的特点是A)规模较大B)规模较小C)增速很快D)增速缓慢E)多产业交叉融合答案:ACE解析:第3部分：判断题，共42题，请判断题目是否正确。[判断题]207.同一个列表对象中所有元素必须为相同类型。A)正确B)错误答案:错解析:[判断题]208.传统文件系统存储数据时，若文件太大，会导致上传和下载非常耗时。A)正确B)错误答案:对解析:传统文件系统存储数据时，若文件太大，会导致上传和下载非常耗时。[判断题]209.数据按每分钟提供，就是满足数据的及时性要求。A)正确B)错误答案:错解析:[判断题]210.在Kafka中，Producer可以通过配置同步参数（producer.type）,保证数据按顺序发送。A)正确B)错误答案:对解析:[判断题]211.只有建立复合唯一约束的多个字段值全部相同时才视为重复记录。--A)正确B)错误答案:对解析:[判断题]212.在DWS服务中,通过GDB并行导入数据时,需要明确DWS的集群IP地址。A)正确B)错误答案:对解析:[判断题]213.成立中央网络安全和信息化领导小组，体现了我们党对网络安全强有力的领导和更加高度的关注。A)正确B)错误答案:对解析:[判断题]214.一个函数如果带有默认值参数，那么必须所有参数都设置默认值。A)正确B)错误答案:错解析:[判断题]215.部署在客户的数据中心内，基于客户个性化而设计的云是混合云A)正确B)错误答案:错解析:[判断题]216.对于Python类中的私有成员，可以通过?对象名A)正确B)错误答案:对解析:[判断题]217.注释将影响数据节点()A)正确B)错误答案:对解析:[判断题]218.深度学习是端到端学习，系统自动提取不同层次的特征。A)正确B)错误答案:对解析:[判断题]219.已知x='hellowworldA)正确B)错误答案:对解析:[判断题]220.Filter主要在Scan和Get过程中进行数据过滤，通过设置一些过滤条件来实现A)正确B)错误答案:对解析:[判断题]221.左连接?表1LEFTJOIN表2?可与?表2RIGHTJOIN表1?互换使用。--A)正确B)错误答案:对解析:[判断题]222.无法删除集合中指定位置的元素，只能删除特定值的元素。A)正确B)错误答案:对解析:[判断题]223.Colocation同分布文件级的同分布实现文件的快速访问，避免了因数据迁移盗来的大量网络开销。A)正确

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据开发基础(习题卷17)

文档简介

温馨提示

最新文档

评论

相关文档