（更新版）大数据应用技能竞赛考试题库大全-上（单选600题）

上传人：欢*** IP属地：山东上传时间：2022-11-23 格式：DOCX 页数：175 大小：147.29KB 积分：15 举报 版权申诉

已阅读5页，还剩170页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

PAGEPAGE175（更新版）大数据应用技能竞赛考试题库大全-上（单选600题）一、单选题1.np.sort()函数返回的是()。A、已排序的原数组B、排好序的数组拷贝C、原数组D、原数组的拷贝答案：B2.下列关于配置机架感知的相关描述哪项不正确()A、如果一个机架出问题,不会影响数据读写和正确性B、写入数据的时候多个副本会写到不同机架的DataNode中C、MapReduce会根据机架的拓扑获取离自己比较近的数据块D、数据块的第一个副本会优先考虑存储在客户端所在节点答案：D3.以下算法中,sklearn中未提及的是()。A、K-Means聚类算法B、LogisticRegressionC、KNN最近邻分类算法D、Apriori关联规则算法答案：D4.下列哪个不属于CRF模型对于HMM和MEMM模型的优势(__)。A、特征灵活B、速度快C、可容纳较多上下文信息D、全局最优答案：B5.下列哪一种架构有反馈连接(__)。A、循环神经网络B、卷积神经网络C、受限玻尔兹曼机D、都不是答案：A6.Python中用()快捷键表示运行当前程序。A、Ctrl+F10B、Ctrl+Alt+F10C、Shift+F10D、Ctrl+Shift+F10答案：D7.以下哪种方法不能成功创建一个数组()。A、a=np.array(【1,2,3,4】)B、b=np.zeros((3,4))C、c=np.ones(1,2,3,4)D、d=np.arange(10,30,5)答案：C8.下列哪个不是专门用于可视化时间空间数据的技术(__)。A、等高线图B、饼图C、曲面图D、矢量场图答案：B9.在MapReduce中,哪个组件是用户不指定也不会有默认的()A、binerB、OutputFormatC、PartitionerD、InputFormat答案：A10.从复杂度及价值高低两个维度,可以将数据分析分为()。A、描述性分析、诊断性分析、预测性分析、探索性分析B、探索性分析、诊断性分析、预测性分析、规范性分析C、探索性分析、描述性分析、预测性分析、规范性分析D、描述性分析、诊断性分析、预测性分析、规范性分析答案：D11.利用函数自动创建数组不包括以下哪个函数()。A、arange()B、ones()C、linspace()D、dtype()答案：D12.下列关于L1正则化与L2正则化描述错误的是()。A、L1范数正则化有助于降低过拟合风险B、L2范数正则化有助于降低过拟合风险C、L1范数正则化比L2范数正则化更有易于获得稀疏解D、L2范数正则化比L1范数正则化更有易于获得稀疏解答案：C13.Python中用于生成随机数的模块是random,以下描述错误的是()。A、random.random():生成一个0-1之间的随机浮点数B、random.uniform(a,b):生成【a,b】之间的浮点数C、random.randint(a,b):生成【a,b】之间的整数D、random.choice(sequence):随机生成任意一个整数答案：D14.属于卷积神经网络应用方向的是(__)。A、图像分类B、目标检测C、图像语义分割D、以上答案都正确答案：D15.对于数据3,3,2,3,6,3,10,3,6,3,2.①这组数据的众数是3;②这组数据的众数与中位数的数值不相等;③这组数据的中位数与平均数的数值不相等;④这组数据的平均数与众数的数值相等.其中正确结论的个数为()。A、1B、2C、3D、4答案：B16.MapReduce默认的分区函数是()。A、hashB、diskC、reduceD、map答案：A17.以下说法正确的是()。A、关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。B、寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式C、数据挖掘的主要任务是从数据中发现潜在的规律,从而能更好的完成描述数据、预测数据等任务。D、在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。答案：C18.在方差分析中,()反映的是样本数据与其组平均值的差异。A、总离差B、组间误差C、抽样误差D、组内误差答案：D19.下列哪项具体任务不属于情感分析()。A、情感分类B、观点抽取C、观点问答D、段落匹配答案：D20.假设你正在训练一个LSTM网络,你有一个10,000词的词汇表,并且使用一个激活值维度为100的LSTM块,在每一个时间步中,Γu的维度是多少()A、1B、100C、300D、10000答案：B21.在MapReduce中,reduce()函数可以将()值相同的输入进行合并处理。A、inputB、keyC、valueD、number答案：B22.下列不属于聚类性能度量外部指标的是()。A、Jaccard系数B、FM系数C、Rand指数D、DB指数;答案：D23.下列关于特征编码的叙述中,不正确的是()。A、特征编码是将非数值型特征转换成数值型特征的方法;B、数字编码与特征的排序无关;C、One-Hot编码中,原始特征有n种取值,转换后就会产生n列新特征;D、哑变量编码解决了One-Hot编码中存在线性关系的问题;答案：B24.open函数中,参数'wb'的含义是()。A、创建并二进制只读B、创建并只写方式C、创建并二进制写入D、创建并追加方式答案：C25.如何在pyplot中设置x轴、y轴的刻度位置()。A、xlabel()、ylabel()B、xlim()、ylim()C、xscale()、yscale()D、xticks()、yticks()答案：D26.执行下面操作后,list2的值是()。List1=【4,5,6】List2=list1List1【2】=3A、【4,5,6】B、【4,3,6】C、【4,5,3】D、以上答案都不正确答案：C27.下列算法中,不属于外推法的是()。A、移动平均法B、回归分析法C、指数平滑法D、季节指数法答案：B28.a=np.arange(24).reshape(2,3,4)的输出结果为()数据。A、一维B、二维C、三维D、四维答案：C29.Hadoop环境下MapReduce中,()实现中间结果中的重复key做合并A、OutputKeyClassB、OutputValueClassC、binerClassD、ReducerClass答案：C30.在逻辑回归输出与目标对比的情况下,以下评估指标中哪一项不适用()。A、AUC-ROCB、准确度C、LoglossD、均方误差答案：D31.以下描述中不属于“规整数据(TidyData)”三个基本原则的是()。A、每一类观察单元构成一个关系(表)B、每个观察占且仅占一行C、每个变量占且仅占一列D、每个观察占且仅占一个关系(表)答案：D32.任何一个核函数都隐式地定义了一个()空间。A、希尔伯特空间B、再生希尔伯特空间C、再生核希尔伯特空间D、欧式空间答案：C33.某篮运动员在三分线投球的命中率是2(1),他投球10次,恰好投进3个球的概率()。A、128(15)B、16(3)C、8(5)D、16(7)答案：A34.过滤式特征选择与学习器(),包裹式特征选择与学习器()。A、相关相关B、相关不相关C、不相关相关D、不相关不相关答案：C35.下列属于无监督学习的是()。A、K-meansB、SVMC、最大熵D、CRF答案：A36.关于Datanode的描述错误的是()。A、Datanode负责处理文件系统客户端的文件读写请求B、Datanode进行数据块的创建、删除和复制工作C、集群中的Datanode一般是一个节点一个D、文件的副本系数由Datanode储存答案：D37.关于SecondaryNameNode哪项是正确的()A、它是NameNode的热备B、它对内存没有要求C、它的目的是帮助NameNode合并编辑日志,减少NameNode的负担和冷启动时的加载时间D、SecondaryNameNode应与NameNode部署到一个节点答案：C38.缓解过拟合的一个办法是允许支持向量机在一些样本上出错,以下哪种形式适合这种方法()。A、硬间隔支持向量机B、软间隔支持向量机C、线性核函数支持向量机D、多项式核函数支持向量机答案：B39.箱形图能显示出一组数据的最大值、最小值、()、上四分位数及下四分位数。A、众数B、中位数C、平均数D、异常值答案：B40.scipy中()是空间数据结构和算法模块。A、clusterB、constantsC、integrateD、spatial答案：D41.可视化视觉下的数据类型不包括()。A、定类数据B、定序数据C、定宽数据D、定比数据答案：C42.PHOTO_PATH="./photo/{}.jpg"指令可以实现()。A、复制jpg文件到photo目录下B、定义一个名为photo的存储路径C、打开photo里所有的jpg文件D、重命名目录答案：B43.以下关键点检测描述正确的是()。A、关键点检测就是检测目标的关键点B、在人体或者人脸关键点检测中应用较多C、在电网的应用中,我们主要用来进行人员违章动作的判断D、以上答案都正确答案：D44.Scipy中的图像处理模块是哪个()。A、imageB、ndimgeC、photoD、optimize答案：B45.Numpy.array数组的简称是()。A、arrayB、nparrayC、NdarrayD、pyarray答案：C46.假定你使用SVM学习数据X,数据X里面有些点存在错误。现在如果你使用一个二次核函数,多项式阶数为2,使用松弛变量C作为超参之一。当你使用较大的C(C趋于无穷),则()。A、仍然能正确分类数据B、不能正确分类C、不确定D、以上均不正确答案：A47.Hive的数据最终存储在()A、HDFSB、HBaseC、RDBMSD、Metastore答案：A48.Numpy中对数组进行转置的函数是哪个()。A、transpose()B、rollaxis()C、swapaxes()D、tan()答案：A49.下列选项中,()是唯一不在运行时发生的异常。A、ZeroDivisionErrorB、NameErrorC、SyntaxErrorD、KeyError答案：C50.下列程序打印结果为()。ImportreStr1="Python'sfeatures"Str2=re.match(r'(.*)on(.*?).*',str1,re.M|re.I)Print(str2.group(1))A、PythonB、PythC、thon’sD、Python‘sfeatures答案：B51.数据集成的基本类型。A、内容集成结构集成B、内容集成规约集成C、规约集成结构集成D、模式集成结构集成参答案：A52.对模型进行交叉验证可以使用以下哪种方法()。A、learning_curve()B、cross_val_score()C、permutation_test_scoreD、validation()答案：B53.scipy.stats.cdf函数的作用是()。A、计算随机变量的期望和方差B、随机变量的生存函数C、随机变量的累积分布函数D、随机变量的概率密度函数答案：C54.一元线性回归方程y=0.7+0.82x,判定系数等于0.64,则x与y的相关系数为()。A、0.82B、0.64C、0.8D、0.7答案：C55.一个分布式应用程序协调服务,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等的工具是()。A、FlumeB、ZookeeperC、StormD、Sparkstreaming答案：B56.下列关于数据重组的说法中,错误的是()。A、数据重组是数据的重新生产和重新采集B、数据重组能够使数据焕发新的光芒C、数据重组实现的关键在于多源数据融合和数据集成D、数据重组有利于实现新颖的数据模式创新答案：A57.对于数据3,3,2,3,6,3,10,3,6,3,2.①这组数据的众数是3;②这组数据的众数与中位数的数值不相等;③这组数据的中位数与平均数的数值不相等;④这组数据的平均数与众数的数值相等.其中正确结论的个数为()。A、1B、2C、3D、4答案：B58.关于Python语言的特点,以下选项中描述错误的是()。A、Python语言是非开源语言B、Python语言是跨平台语言C、Python语言是多模型语言D、Python语言是脚本语言答案：A59.关于降维算法中的主成分分析,()是错误的。A、有监督算法B、可以指定降维的维度C、基于方差来计算D、根据特征值大小来筛选特征答案：A60.在集成学习中,对于数据型输出,最常见的结合策略是()。A、平均法B、投票法C、学习法D、以上答案都正确答案：A61.PageRank是一个函数,它对Web中的每个网页赋予一个实数值。它的意图在于网页的PageRank越高,那么它就()。A、相关性越高B、越不重要C、相关性越低D、越重要答案：D62.下列数据中,不属于字符串的是()。A、ab'B、perfect'C、52woD、abc答案：D63.数据科学是一门以()为主要研究任务的独立学科。A、“数据驱动”“数据业务化”“数据洞见”“数据产品研发”和(或)“数据生态系统的建设”B、数据研发C、数据处理D、数据洞见答案：A64.下列场景中最有可能应用人工智能的是()。A、刷脸办电B、舆情分析C、信通巡检机器人D、以上答案都正确答案：D65.()是Spark中的抽象数据模型。A、RDDB、SchedulerC、StorageD、Shuffle答案：A66.()是一个观测值,它与其它观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。A、边界点B、质心C、离群点D、核心点答案：C67.构造了一个词表:{1.小明2.喜欢3.踢4.看5.足球6.篮球7.电影},利用上述词表的索引号,文档{小明喜欢踢足球}可以用一个7维向量表示为()。A、【1101001】B、【1111111】C、【1111100】D、【1110100】答案：D68.对于线性回归模型,包括附加变量在内,以下的可能正确的是()。1)R-Squared和AdjustedR-squared都是递增的2)R-Squared是常量的,AdjustedR-squared是递增的3)R-Squared是递减的,AdjustedR-squared也是递减的4)R-Squared是递减的,AdjustedR-squared是递增的A、1和2B、1和3C、2和4D、以上都不是答案：D69.数据资产应用以安全可控为前提,按照()的原则,落实安全与保密责任。A、谁经手,谁使用,谁负责B、谁主管,谁负责C、谁使用,谁主管,谁负责D、谁录入,谁使用,谁负责答案：A70.geoplot是()库和()库的扩展。A、cartopy和seabornB、seaborn和matplotlibC、cartopy和matplotlibD、matplotlib和ggplot2答案：C71.Python中Statsmodels库适用于()场景。A、统计分析B、机器学习C、图像处理D、数据建模答案：A72.一个MapReduce程序中的MapTask的个数由什么决定()A、输入的总文件数B、客户端程序设置的mapTask的个数C、FileInputFormat.getSplits(JobContextjob)计算出的逻辑切片的数量D、输入的总文件大小/数据块大小答案：C73.当需要在字符串中使用特殊字符时,python使用()作为转义字符。A、\B、/C、#D、%答案：A74.数据整合和分组的说法,不正确的是()。A、数据连接可以用concat或merge函数B、axis=1表示轴向连接C、数据分组可以使用mean函数D、使用agg可以自定义多个聚合函数答案：C75.以下不能创建一个字典的语句是()。A、dict1={}B、dict2={3:5}C、dict3={【1,2,3】:“uestc”}D、dict4={(1,2,3):“uestc”}答案：C76.以下关于DNN说法不正确的是(__)。A、层数多B、抽象能力强C、模拟更复杂模型D、广义上包含CNN,DBN,SVM等答案：D77.假设有n组数据集,每组数据集中,x的平均值都是9,x的方差都是11,y的平均值都是7.50,x与y的相关系数都是0.816,拟合的线性回归方程都是y=3.00+0.500*x。那么这n组数据集是否一样()A、一样B、不一样C、无法确定答案：C78.对于一个分类任务,如果开始时神经网络的权重不是随机赋值的,而是都设成0,下面哪个叙述是正确的()A、其他选项都不对B、没啥问题,神经网络会正常开始训练C、神经网络可以训练,但是所有的神经元最后都会变成识别同样的东西D、神经网络不会开始训练,因为没有梯度改变答案：C79.假定你现在训练了一个线性SVM并推断出这个模型出现了欠拟合现象,在下一次训练时,应该采取下列什么措施()A、增加数据点B、减少数据点C、增加特征D、减少特征答案：C80.HBase中KeyValue数据的存储格式是()。A、HFileB、HLogFileC、SequenceFileD、TXT答案：A81.下列模型与文本分类相关的模型是()。A、决策树B、神经网络C、KNN算法D、以上答案都正确答案：D82.有关数据仓库的开发特点,不正确的描述是()。A、数据仓库开发要从数据出发;B、数据仓库使用的需求在开发出去就要明确;C、数据仓库的开发是一个不断循环的过程,是启发式的开发;D、在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式答案：A83.下面的语句哪个会无限循环下去()。A、forainrange(10):timesleep(10)B、while1<10:timesleep(10)C、whileTrue:breakD、a=【3,-1,','】foriina【:】:ifnota:break答案：B84.采用幂次变换进行灰度变换时,当幂次取大于1时,该变换是针对如下哪一类图像进行增强()。A、图像整体偏暗B、图像整体偏亮C、图像细节淹没在暗背景中D、图像同事存在过亮和过暗背景;答案：B85.当()时,可以不考虑RDD序列化处理。A、完成成本比较高的操作后B、执行容易失败的操作之前C、RDD被重复利用D、实时性要求高答案：D86.数据科学中,人们开始注意到传统数据处理方式中普遍存在的“信息丢失”现象,进而数据处理范式从()转向()。A、产品在先,数据在后范式;数据在先,产品在后范式或无模式B、模式在先,产品在后范式;产品在先,模式在后范式或无模式C、数据在先,模式在后范式或无模式;模式在先,数据在后范式D、模式在先,数据在后范式;数据在先,模式在后范式或无模式答案：D87.RDD的特点不包括()A、DD之间有依赖关系,可溯源B、DD由很多partition构成C、对RDD的每个split或partition做计算D、RDD可以增量更新答案：D88.目前,多数NoSQL数据库是针对特定应用场景研发出来的,其设计遵循()原则,更加强调读写效率、数据容量以及系统可扩展性。A、EASY原则B、READ原则C、BASE原则D、BASIC原则答案：C89.Spark核心层主要关注()问题。A、存储B、计算C、传输D、连接答案：B90.下列选项中,会输出1,2,3三个数字的是()。A、foriinrange(3):print(i)B、foriinrange(2):print(i+1)C、a_list=【0,1,2】foriina_list:print(i+1)D、i=1whilei<3:prirt(i)i=i+1答案：C91.有研究发现“页面的显示速度每延迟1s,网站访问量就会降低11%,从而导致营业额或者注册量减少7%,顾客满意度下降16%”。该项研究表明了(__)在数据产品开发中的重要性。A、查全率B、用户体验C、数据可视化D、查准率答案：B92.Python解释器的提示符为()。A、>;B、>>;C、>>>;D、#;答案：C93.HDFS是Hadoop平台上的分布式文件系统,那么它是由()构成的。A、由一个Namenode和多个Datanode组成B、由一个Datanode和多个Namenode组成C、由多个Namenode和多个Datanode组成D、由一个Namenode和一个Datanode组成答案：A94.随机试验所有可能出现的结果,称为()A、基本事件B、样本C、全部事件D、样本空间答案：D95.()对应于决策树结果,其他节点对应于()。A、叶节点,属性测试B、根结点,学习测试C、内部节点,学习测试D、叶节点,分类测试答案：A96.()是一种基于日志的结构化数据复制软件,能够实现大量数据的实时捕捉、变换和投递。A、NosqlB、ETLC、OGGD、Hive答案：C97.数组拼接的函数不包括一下哪种()。A、append()B、insert()C、vstack()D、where()答案：D98.下面()负责MapReduce任务调度。A、NameNodeB、JobtrackerC、TaskTrackerD、secondaryNameNode答案：B99.AUC是衡量()模型优劣的一种评价指标。A、回归B、分类C、二分类D、聚类答案：C100.随机森林等树状算法通过哪个模块进行调用()。A、dummyB、ensembleC、treeD、experimental答案：B101.神经网络感知机只有(__)神经元进行激活函数处理,即只拥有一层功能神经元。A、输出层B、输入层C、感知层D、网络层答案：A102.下列哪个不是RDD的缓存方法()A、persistB、cacheC、MemoryD、以上答案都正确答案：C103.()的基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。A、贝叶斯判定准则B、贝叶斯决策论C、朴素贝叶斯分类器D、半朴素贝叶斯分类器答案：D104.两次调用文件的write方法,以下选项中描述正确的是()。A、连续写入的数据之间无分隔符B、连续写入的数据之间默认采用换行分隔C、连续写入的数据之间默认采用空格分隔D、连续写入的数据之间默认采用逗号分隔答案：A105.DBSCAN算法的MinPts参数的意义是()。A、数据点的邻域半径B、密度阈值C、高密度点距离阈值D、低密度点距离阈值答案：B106.a=np.array(【【0,0,0】,【10,10,10】,【20,20,20】,【30,30,30】】)B=np.array(【1,2,3】),a+b的输出结果为()。A、【【123】【101010】【202020】【303030】】B、【【123】【000】【101010】【202020】【303030】】C、【【123】【111213】【212223】【313233】】D、无法计算答案：C107.以下分割方法中不属于区域算法的是()。A、分裂合并B、阈值分割C、区域生长D、边缘检测答案：D108.以下代码的输出结果为()。ImportnumpyasnpA=np.array(【【1,2】,【3,4】,【5,6】】)Print(np.insert(a,3,【11,12】))A、【【12】【34】【56】】B、【1231112456】C、【【12】【1111】【34】【56】】D、【【1112】【3114】【5116】】答案：B109.使用While循环语句时,如果想要使程序无限循环运行,则下列哪个选项可作为循环的<条件>判断语句()。A、31<23B、31>23C、0D、X=Y答案：B110.信息熵是度量()最常用的一种指标。A、样本的个数B、样本的维度C、样本的纯度D、样本的冗余度答案：C111.Python中自定义函数的关键字为()。A、fromB、defC、returnD、del答案：B112.下列语句在Python中是不合法的有()。A、i="A"+2|i=True+2|x,y=y,x|x=y=z=1B、i=True+2C、x,y=y,xD、x=y=z=1答案：A113.线性回归的基本假设不包括哪个()。A、随机误差项是一个期望值为0的随机变量B、对于解释变量的所有观测值,随机误差项有相同的方差C、随机误差项彼此相关D、解释变量是确定性变量不是随机变量,与随机误差项之间相互独立答案：C114.支持向量回归与传统回归模型的差别()。A、模型输出与真实值相同B、模型输出与真实值存在ε偏差C、模型输出大于真实值D、模型输出小于真实值答案：B115.对连续图像的离散化采样决定了图像的()。A、空间分辨率B、时间分辨率C、地面分辨率D、灰度值答案：A116.Windows系统下安装Matplotlib的命令是()。A、pythonpipinstallmatplotlibB、python-mpipinstallmatplotlibC、sudoapt-getinstallpython-matplotlibD、sudopython-mpipinstallmatplotlib答案：B117.下列哪种算法可以用神经网络构建?(__)1.K-NN最近邻算法2.线性回归3.逻辑回归A、1and2B、2and3C、1,2and3D、Noneoftheabove答案：B118.数据安全不只是技术问题,还涉及到()。A、人员问题B、管理问题C、行政问题D、领导问题答案：B119.SLIC算法的主要目的是()。A、目标识别B、前景和背景分离C、超像素提取D、语义分割答案：C120.以下关于代码规范描述,哪些是错误的()。A、类总是使用驼峰格式命名,即所有单词首字母大写其余字母小写。B、除特殊模块__init__之外,模块名称都使用不带下划线的小写字母。C、不要滥用*args和**kwargsD、建议把所有方法都放在一个类中答案：D121.在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于1,则表明模型中存在()。A、异方差B、序列相关C、多重共线性D、高拟合优度答案：C122.下列方法中,用于向文件中写内容的是()。A、openB、writeC、closeD、read答案：B123.获取两个PythonNumpy数组之间的公共项()。A=np.array(【1,2,3,2,3,4,3,4,5,6】)B=np.array(【7,2,10,2,7,4,9,4,9,8】)期望输出:array(【2,4】)A、intersect1d(a,b)B、ersect1d(a,b)C、erset(a,b)D、ersect1d(a)答案：B124.在一个简单的线性回归模型中(只有一个变量),如果将输入变量改变一个单位(增加或减少),那么输出将改变多少()A、一个单位B、不变C、截距D、回归模型的尺度因子答案：D125.Matplotlib的主要功能是()。A、科学计算B、绘图库C、爬取网站数据、提取结构性数据D、机器学习库答案：B126.当构建一个神经网络进行图片的语义分割时,通常采用下面哪种顺序()。A、先用卷积神经网络处理输入,再用反卷积神经网络得到输出B、先用反卷积神经网络处理输入,再用卷积神经网络得到输出C、不能确定答案：A127.对于神经网络的说法,下面正确的是:(__)。1.增加神经网络层数,可能会增加测试数据集的分类错误率2.减少神经网络层数,总是能减小测试数据集的分类错误率3.增加神经网络层数,总是能减小训练数据集的分类错误率A、1B、1、3C、1、2D、2答案：A128.当使用不同类型的数组进行操作时,结果数组的类型会进行()。A、向下转换B、向上转换C、不进行转换D、无法计算答案：B129.下列程序段执行后,输出结果是()。n=1s=1whilen<5:s=s*nn=n+1Print(s)A、24B、10C、120D、15答案：A130.假设在庞大的数据集上使用Logistic回归模型,可能遇到一个问题,Logistic回归需要很长时间才能训练,如果对相同的数据进行逻辑回归,如何花费更少的时间,并给出比较相似的精度()。A、降低学习率,减少迭代次数B、降低学习率,增加迭代次数C、提高学习率,增加迭代次数D、增加学习率,减少迭代次数答案：D131.下面与HDFS类似的框架是()A、NTFSB、FAT32C、GFSD、EXT3答案：C132.标准正态分布的均数与标准差是()。A、0,1B、1,0C、0,0D、1,1答案：A133.gensim库中()是指一组电子文档的集合,这个集合是gensim的输入。A、结构B、主题C、文档流D、语料答案：D134.新兴数据管理技术主要包括NoSQL技术、NewSQL技术和()。A、数据仓库B、关系云C、数据库系统D、文件系统答案：B135.若X的值为1~11(包含1、11),要用scipy输出标准正态分布的概率密度函数在X=5处的值,下面哪个是正确的()。A、scipy.stats.norm(loc=0,scale=1).pmf(5)B、scipy.stats.binorm(loc=0,scale=1).pdf(5)C、scipy.stats.binorm(loc=0,scale=1).pmf(5)D、scipy.stats.norm(loc=0,scale=1).pdf(5)答案：D136.下列关于关键词提取的说法错误的是()A、关键词提取是指借用自然语言处理方法提取文章关键词B、TF-IDF模型是关键词提取的经典方法C、文本中出现次数最多的词最能代表文本的主题D、这个问题设计数据挖掘,文本处理,信息检索等领域;答案：C137.数据科学处于哪三大领域的重叠之处()。A、数学与统计知识、黑客精神与技能、领域实务知识B、数据挖掘、黑客精神与技能、领域实务知识C、数学与统计知识、数据挖掘、领域实务知识D、数学与统计知识、黑客精神与技能、数据挖掘答案：A138.以下描述中错误的是()。A、数据科学中的“数据”不仅仅是“数值”,也不等同于“数值”B、数据科学中的“计算”包括数据的查询、挖掘、洞见等C、数据科学强调的是跨学科视角D、数据科学不包括“理论知识”,只包括“领域实务经验”答案：D139.以下关于模块的描述不正确的是()。A、模块是包含函数和变量的Python文件B、模块可以被导入C、可以使用“.”操作符访问模块中的函数和变量D、模块使得代码更复杂,可读性变差答案：D140.关于文件的打开方式,以下选项中描述正确的是()。A、文件只能选择二进制或文本方式打开B、文本文件只能以文本方式打开C、所有文件都可能以文本方式打开D、所有文件都可能以二进制方式打开答案：D141.下列方法中,能够返回某个子串在字符串中出现次数的是()。A、lengthB、indexC、countD、find答案：C142.在HadoopMapReduce中,()是客户端需要执行的一个工作单元。A、InputB、JobC、ClientD、Task答案：B143.下列哪种业务场景中,不能直接使用Reducer充当biner使用()A、sum求和B、max求最大值C、count求计数D、avg求平均答案：D144.执行以下代码段Motorcycles=【'honda','yamaha','suzuki'】Motorcycles.append('ducati')Motorcycles.pop(1)Print(motorcycles)时,输出为()。A、【'honda','yamaha','suzuki'】B、【'yamaha','suzuki','ducati'】C、【'honda','yamaha','suzuki','ducati'】D、【'honda','suzuki','ducati'】答案：D145.如果我使用数据集的全部特征并且能够达到100%的准确率,但在测试集上仅能达到70%左右,这说明:()。A、欠拟合B、模型很棒C、过拟合D、以上答案都不正确答案：C146.后剪枝是先从训练集生成一颗完整的决策树,然后()对非叶结点进行考察。A、自上而下B、在划分前C、禁止分支展开D、自底向上答案：D147.AGNES是一种采用()策略的层次聚类算法。A、自顶向下B、自底向上C、自左至右D、自右至左答案：B148.以下关于新旧MapReduceAPI的描述错误的是()A、新API放在org.apache.hadoop.mapreduce包中,而旧API则是放在org.apache.hadoop.mapred中B、新API倾向于使用接口方式,而旧API倾向于使用抽象类C、新API使用Configuration,而旧API使用JobConf来传递配置信息D、新API可以使用Job对象来提交作业答案：B149.二值图像中的分支点的连接数为()。A、0B、1C、2D、3答案：D150.scipy包中()是数值积分例程和微分方程求解。A、integrateB、linglgC、sparseD、special答案：A151.下面哪个问题不适合使用机器学习方法解决()。A、判断电子邮件是否是垃圾邮件B、判断给定的图中是否有环C、判断是否给指定用户办理信用卡D、对滴滴拼车乘客分簇答案：B152.机器学习中做特征选择时,可能用到的方法有()。A、卡方B、信息增益C、平均互信息D、期望交叉熵E、以上答案都正确答案：E153.ZooKeeper的特点描述错误的是()。A、复杂性B、自我复制C、顺序访问D、高速读取答案：A154.HDFS集群中的namenode职责不包括()A、维护HDFS集群的目录树结构B、维护HDFS集群的所有数据块的分布、副本数和负载均衡C、负责保存客户端上传的数据D、响应客户端的所有读写数据请求答案：C155.下列属于卷积网络类型分类的是(__)。A、普通卷积B、扩张卷积C、转置卷积D、以上答案都正确答案：D156.视觉通道表现力评价指标不包括()。A、精确性B、可辨认性C、可分离性D、可转换性答案：D157.当学习器将训练样本自身的特点作为所有潜在样本都具有的一般性质,这样会导致泛化性能下降,这种现象称之为()。A、欠拟合B、过拟合C、拟合D、以上答案都不正确答案：B158.下面哪个功能不是大数据平台安全管理组件提供的功能()。A、接口代理B、接口认证C、接口授权D、路由代理答案：D159.如果使用线性回归模型,下列说法正确的是()A、检查异常值是很重要的,因为线性回归对离群效应很敏感B、线性回归分析要求所有变量特征都必须具有正态分布C、线性回归假设数据中基本没有多重共线性D、以上说法都不对答案：A160.假设一个线性回归模型完美适合训练数据(训练误差为0),下面那个说法是正确的()。A、测试集误差一直为0B、测试集误差可能为0C、测试集误差不会为0D、以上都不对答案：B161.令N为数据集的大小(注:设训练样本(xi,yi),N即训练样本个数),d是输入空间的维数(注:d即向量xi的维数)。硬间隔SVM问题的原始形式(即在不等式约束(注:yi(wTxi+b)≥1)下最小化(1/2)wTw)在没有转化为拉格朗日对偶问题之前,是()。A、一个含N个变量的二次规划问题B、一个含N+1个变量的二次规划问题C、一个含d个变量的二次规划问题D、一个含d+1个变量的二次规划问题答案：D162.Matplotlib的核心是面向()。A、过程B、对象C、结果D、服务答案：B163.核矩阵是()的。A、没有规律B、半正定C、正定D、样本矩阵答案：B164.以下关于副本和视图描述错误的是()。A、Numpy的切片操作返回原数据的视图B、调用Ndarray的view()函数产生一个视图C、Python序列的切片操作,调用deepCopy()函数D、调用Ndarray的copy()函数产生一个视图答案：D165.()是实现数据战略的重要保障。A、数据管理B、数据分析C、数据治理D、数据规划答案：C166.如何使用pyplot创建一个新图()。A、pyplot.figimage()B、pyplot.figure()C、pyplot.figtext()D、pyplot.figlegend()答案：B167.基于词的n元文法模型,其最后的粗分结果集合大小()N。A、大于B、大于等于C、小于D、小于等于答案：B168.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离()A、分类B、聚类C、关联分析D、隐马尔可夫链答案：B169.下列表达式中【print(x,y,100-x-y)forxinrange(21)foryinrange(34)if(100-x-y)%3==0and5*x+3*y+(100-x-y)//3==100】第三次输出的结果是()。A、41878B、42175C、81478D、81181答案：D170.关于Numpy.arange参数描述错误的是()。A、start起始值,默认为0B、stop终止值(不包含)C、step步长,默认为-1D、dtype返回Ndarray的数据类型,如果没有提供,则会使用输入数据的类型。答案：C171.在k近邻学习算法中,随着k的增加,上界将逐渐降低,当k区域无穷大时,上界和下界碰到一起,k近邻法就达到了()。A、贝叶斯错误率B、渐进错误率C、最优值D、上界答案：A172.图像中虚假轮廓的出现就其本质而言是()。A、图像的灰度级数不够多而造成的B、图像的空间分辨率不够高而造成的C、图像的灰度级数过多而造成的D、图像的空间分辨率过高而造成的答案：A173.关于Spark的说法中,()是错误的。A、采用内存计算模式B、可利用多种语言编程C、主要用于批处理D、可进行map()操作答案：C174.data=Numpy.array(【【【1,2,3】,【4,5,6】】,【【7,8,9】,【10,11,12】】】),data的形状(shape)为()。A、(2,2,3)B、(2,3,2)C、(3,2,3)D、(3,2,2)答案：A175.Hbase依靠()提供消息通信机制A、ZoopkeeperB、ChubbyC、RPCD、Socket答案：A176.在Python中,下列不是int整型数据的是()。A、160B、10C、-78D、0x234答案：B177.语句np.random.randn(5,4)的运算结果是()。A、生成一个5行4列的随机矩阵B、将矩阵的第5行第4列改成一个随机值C、将矩阵的第4行第3列改成一个随机值D、将矩阵的第5列和第4列都用随机值代替答案：A178.哪种聚类方法采用概率模型来表达聚类()。A、K-meansB、LVQC、DBSCAND、高斯混合聚类答案：D179.下列哪些项目是在图像识别任务中使用的数据扩增技术(dataaugmentationtechnique)()。1水平翻转(Horizontalflipping)2随机裁剪(Randomcropping)3随机放缩(Randomscaling)4颜色抖动(Colorjittering)5随机平移(Randomtranslation)6随机剪切(Randomshearing)A、1,3,5,6B、1,2,4C、2,3,4,5,6D、所有项目答案：D180.自然语言处理、语音识别、股票交易、气象预测等应用适合采用(__)处理。A、循环神经网络B、卷积神经网络C、多层神经网络D、单层神经网络答案：A181.常用的图像去噪方法有()。A、高斯滤波B、中值滤波C、P-M方程去噪D、以上答案都正确答案：D182.关于Python程序格式框架的描述,以下选项中错误的是()。A、Python语言不采用严格的“缩进”来表明程序的格式框架B、Python单层缩进代码属于之前最邻近的一行非缩进代码,多层缩进代码根据缩进关系决定所属范围C、Python语言的缩进可以采用Tab键实现D、判断、循环、函数等语法形式能够通过缩进包含一批Python代码,进而表达对应的语义答案：A183.连续不断地爬取网页信息,较容易被网站识别,想要实现间隔15s来爬取网页需要使用以下哪一项指令()。A、timestop(5)B、timesleep(15)C、timestrptime(15)D、timesleep(5)答案：B184.Spark中Job的划分是依据()A、依赖B、ction算子C、依赖D、aransformation算子答案：B185.matplotlib中的barh函数可以绘制()图。A、直方图B、饼图C、条形图D、气泡图答案：C186.下面哪个是满足期望输出的代码()。Arr=np.array(【0,1,2,3,4,5,6,7,8,9】)期望输出:array(【1,3,5,7,9】)A、arr%2==1B、arr【arr%2==1】C、arr【arr/2==1】D、arr【arr//2==1】答案：B187.假设文件不存在,如果使用open方法打开文件会报错,那么该文件的打开方式是下列哪种模式()。A、r'B、'w'C、'a'D、'w'答案：A188.sklearn.naive_bayes模块实现了朴素贝叶斯算法,基于贝叶斯定理和特征独立性假设的监督学习方法,下列哪个模型不是朴素贝叶斯分类器的模型()。A、BernoulliNB()B、GaussianN()C、NeighborsNB()D、MultinomialNB()答案：C189.Base原则的含义不包括()A、基本可用B、柔性状态C、最终一致D、基础条件答案：D190.以下for语句结构中,()不能完成1~10的累加功能()。A、Foriinrange(10,0):total+=iB、Foriinrange(1,11):total+=iC、ForIinrange(10,0,-1):total+=iD、ForIinrange(10,9,8,7,6,5,4,3,2,1):total+=i答案：A191.在一个神经网络中,下面哪种方法可以用来处理过拟合()A、DropoutB、分批归一化(BatchNormalization)C、正则化(regularization)D、都可以答案：D192.关于Python注释,以下选项中描述错误的是()。A、Python注释语句不被解释器过滤掉,也不被执行B、注释可以辅助程序调试C、注释可用于标明作者和版权信息D、注释用于解释代码原理或者用途答案：A193.下面哪个操作是窄依赖()A、joinB、filterC、groupD、sort答案：B194.线性判别分析在二分类问题上,也称为()。A、线性回归B、对数几率回归C、Fisher判别分析D、主成分分析答案：C195.Scipy的stats包中提供了产生连续性分布的函数,其中用于均匀分布的函数是()。A、normB、uniformC、betaD、geom答案：B196.Python中jieba库是一个()库。A、第三方中文分词库B、机器学习库C、图像处理库D、自动提取语义主题答案：A197.下列哪个不是专门用于可视化时间空间数据的技术()。A、等高线图B、饼图C、曲面图D、矢量场图答案：B198.下列关于MapReduce说法不正确的是()。A、MapReduce是一种计算框架B、MapReduce来源于google的学术论文C、MapReduce程序只能用java语言编写D、MapReduce隐藏了并行计算的细节,方便使用答案：C199.下列关于分词的说法正确的是()A、中文句子字之间没有空格,无法分词B、一个句子的分词结果是唯一的C、中文分词是将一系列无空格间隔字符串分割成一系列单词的过程D、分词没有实际应用价值答案：C200.以下关于异常处理的描述,正确的是()。A、try语句中有except子句就不能有finally子句B、Python中,可以用异常处理捕获程序中的所有错误C、引发一个不存在索引的列表元素会引发NameError错误D、Python中允许利用raise语句由程序主动引发异常答案：D201.大数据环境下的隐私担忧,主要表现为()A、人信息的被识别与暴露B、户画像的生成C、意广告的推送D、毒入侵答案：A202.HTML的表格中,如果需要定义表格的单元格内文字和边缘的空间,需要通过哪个属性来实现()。A、cellspacing属性B、colspan属性C、cellpadding属性D、rowspan属性答案：C203.scipy.stats.isf函数的作用是()。A、随机变量的生存函数B、scipy.stats.sf的逆C、计算随机变量的期望和方差D、随机变量的累积分布函数答案：B204.标准BP算法的目标是使训练集上的()为最小。A、累积方差B、累积误差C、累积协方差D、累积偏差答案：B205.matplotlib中的step函数绘制的是什么图()。A、阶梯图B、直方图C、间断条形图D、堆积折线图答案：A206.以下说法正确的是:()。1.一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的2.如果增加模型复杂度,那么模型的测试错误率总是会降低3.如果增加模型复杂度,那么模型的训练错误率总是会降低A、1B、2C、3D、1and3答案：C207.以下()属于数据可视化方法体系中的基础方法。A、视觉编码方法论B、视觉隐喻C、地理信息可视化D、时变数据可视化答案：B208.以下代码的输出结果为()。ImportnumpyasnpA=np.arange(4)B=a【:】A【1】=9Print(a)Print(b)A、【0123】【0123】B、【1934】【1234】C、【0923】【0923】D、【0923】【0123】答案：C209.在Spark中,()是指RDD的每个分区都只被子RDD的一个分区所依赖。A、子分区B、父分区C、宽依赖D、窄依赖答案：D210.下列方法中,能够让所有单词的首字母变成大写的方法是()。A、capitalizeB、titleC、upperD、Ijust答案：B211.下列关于IPython的说法,错误的是()。A、IPython集成了交互式Python的很多优点;B、IPython的性能远远优于标准的Python的shell;C、IPython支持变量自动补全,自动收缩;D、与标准的Python相比,IPython缺少内置的功能和函数;答案：D212.基于统计的分词方法为()。A、正向最大匹配法B、逆向最大匹配法C、最少切分D、条件随机场答案：D213.信息增益对可取值数目()的属性有所偏好,增益率对可取值数目()的属性有所偏好。A、较高,较高B、较高,较低C、较低,较高D、较低,较低答案：B214.以下不属于Python内置模块的是()。A、sysB、jsonC、osD、image答案：D215.关于循环神经网络设计的叙述中,错误的是()。A、能处理可变长度的序列B、基于图展开思想C、基于参数共享思想D、循环神经网络不可应用于图像数据答案：D216.Spark中引入RDD概念的目的是()。A、数据存储B、数据查重C、提升容错能力D、增强数据一致性答案：C217.在python中可以通过调用random库来产生随机数。a=random.randint(1,99),并赋值给变量a。A、随机产生一个1~99的小数;B、随机产生一个1~99的整数;C、产生一个值为99的整数;D、随机产生一个1~99的无理数;答案：B218.对于PCA说法正确的是:()。1.我们须在使用PCA前标准化化数据2.我们应该选择使得模型有最大variance的主成分3.我们应该选择使得模型有最小variance的主成分4.我们可以使用PCA在低维度上做数据可视化A、1,2and4B、2and4C、3and4D、1and3答案：A219.()和假设检验又可归结为统计推断的范畴,即对总体的数量特征做出具有一定可靠程度的估计和判断.A、参数估计B、逻辑分析C、方差分析D、回归分析答案：A220.关于Ndarray.itemsize描述错误的是()。A、以字节的形式返回数组中每一个元素的大小B、一个元素类型为float64的数组itemsiz属性值为8C、一个元素类型为plex32的数组item属性为4D、一个元素类型为plex64的数组item属性为4答案：D221.用onehot对某个只有一个属性的样本进行编码,下面可能是编码结果的是()。A、1010B、1100C、1111D、1000答案：D222.以下哪个模块不是Scipy库中的()。A、clusterB、randomC、signalD、misc答案：B223.点击率的预测是一个数据比例不平衡问题(比如训练集中样本呈阴性的比例为99%,阳性的比例是1%),如果我们用这种数据建立模型并使得训练集的准确率高达99%。我们可以得出结论是:()。A、模型的准确率非常高,我们不需要进一步探索B、模型不好,我们应建一个更好的模型C、无法评价模型D、以上答案都不正确答案：C224.美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的()。A、在数据基础上倾向于全体数据而不是抽样数据B、在分析方法上更注重相关分析而不是因果分析C、在分析效果上更追究效率而不是绝对精确D、在数据规模上强调相对数据而不是绝对数据答案：B225.下列说法错误的是()A、当目标函数是凸函数时,梯度下降算法的解一般就是全局最优解B、进行PCA降维时,需要计算协方差矩C、沿负梯度的方向一定是最优的方向D、利用拉格朗日函数能解带约束的优化问题答案：C226.下面说法错误的是()。A、可以利用统计量对缺失值进行填补B、可以利用K近邻值对缺失值进行填补C、只要有缺失值就必须把对应记录删除D、对于缺失值较多的属性可以考虑删除答案：C227.一幅512*512的图像,若灰度级数为16,则该图像大小为()。A、32KBB、128KBC、1MBD、2MB答案：B228.Python语句print(0xA+0xB)的输出结果是()。。A、0xA+0xBB、A+BC、0xA0xBD、21答案：D229.可用作数据挖掘分析中的关联规则算法有()。A、机器学习、对数回归、关联模式B、K均值法、SOM机器学习C、Apriori算法、FP-Tree算法D、RBF机器学习、K均值法、机器学习答案：C230.stats.describe()函数的作用是()。A、计算变异系数B、计算数据集的样本偏度C、计算所传递数组的几个描述性统计信息D、计算关于样本平均值的第n个矩答案：C231.下面哪个不是python合法标识符()。A、int32B、40XLC、_selfD、name答案：B232.如果一个SVM模型出现欠拟合,那么下列哪种方法能解决这一问题()A、增大惩罚参数C的值B、减小惩罚参数C的值C、减小核系数(gamma参数)答案：A233.下面算法中属于图像锐化处理的是()。A、低通滤波B、加权平均法C、高通滤波D、中值滤波答案：C234.np.dot(【【1,2,3】,【1,2,3】,【1,2,3】】,【【2,1,1】,【2,1,1】,【2,1,1】】)的结果是()。A、【【1266】【1266】【1266】】B、【【223】【223】【223】】C、【【123】【123】【123】】D、【【211】【211】【211】】答案：A235.pyplot.show()函数的作用是()。A、展示图像B、画直方图C、保存图像D、画散点图答案：A236.从网络的原理上来看,结构最复杂的神经网络是()。A、卷积神经网络B、长短时记忆神经网络C、GRUD、BP神经网络答案：B237.增加卷积核的大小对于改进卷积神经网络的效果是必要的吗()A、是的,增加卷积核尺寸一定能提高性能B、不是,增加核函数的大小不一定会提高性能答案：B238.np.where(【【True,False】,【True,True】】,【【1,2】,【3,4】】,【【9,8】,【7,6】】),最终的输出结果是()。A、【【1,4】,【9,7】】B、【【1,3】,【9,7】】C、【【1,8】,【3,4】】D、【【2,9】,【3,6】】答案：C239.()是指数据减去一个总括统计量或模型拟合值时的残余部分A、极值B、标准值C、平均值D、残值答案：D240.关于Python内存管理,下列说法错误的是哪项()。A、变量不必事先声明B、变量无须先创建和赋值而直接使用C、变量无须指定类型D、可以使用del释放资源答案：B241.下列关于线性模型的描述错误的是()。A、支持向量机的判别函数一定属于线性函数B、在样本为某些分布情况时,线性判别函数可以成为最小错误率或最小风险意义下的最优分类器C、在一般情况下,线性分类器只能是次优分类器D、线性分类器简单而且在很多期情况下效果接近最优,所以应用比较广泛答案：A242.有关MapReduce的输入输出,说法错误的是()A、链接多个MapReduce作业时,序列文件是首选格式B、FileInputFormat中实现的getSplits()可以把输入数据划分为分片,分片数目和大小任意定义C、想完全禁止输出,可以使用NullOutputFormatD、每个reduce需将它的输出写入自己的文件中,输出无需分片答案：B243.以下哪种不是Hive支持的数据类型()A、StructB、IntC、MapD、Long答案：D244.下面哪一项用决策树法训练大量数据集最节约时间()。A、增加树的深度B、增加学习率C、减少数的深度D、减少树的个数答案：C245.文本信息往往包含客观事实和主观情感,对于文本的情感分析主要是识别文章中的主观类词语,其中()不适用于情感分析。A、表达观点的关键词B、表达程度的关键词C、表达情绪的关键词D、表达客观事实的关键词答案：D246.下列哪个程序通常与NameNode在一个节点启动()。A、SecondaryNameNodeB、DataNodeC、TaskTrackerD、Jobtracker答案：D247.HBase作为数据存储组件封装于大数据平台,用于()存储A、关系型数据库B、分布式文件C、非关系型数据库D、列式存储答案：C248.一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归直线方程为y=7.19x+73.93,据此可以预测这个孩子10岁时的身高,则正确的叙述是()。A、身高一定是145.83cmB、身高一定超过146.00cmC、身高一定高于145.00cmD、身高在145.83cm左右答案：D249.以下选项中,不是PythonIDE的是()。A、PyCharmB、JupyterNotebookC、SpyderD、Rstudio答案：D250.以下代码的输出结果为()。ImportnumpyasnpA=np.arange(12).reshape(3,4)Print(np.delete(a,5))A、【【0123】【4567】【891011】】B、【0123467891011】C、【【023】【467】【81011】】D、【246810】答案：B251.对文本数据处理,通常采用()核函数。A、多项式核B、sigmoid核C、线性核D、拉普拉斯核答案：C252.Spark可以处理的数据任务包括()A、数据批处理任务;B、交互式处理任务;C、图数据处理任务;D、A,B和C;答案：D253.在空间维度上刻画数据连续性是数据的()特点。A、可关联性B、可溯源性C、可理解性D、可复制性答案：A254.下面哪个操作肯定是宽依赖()A、mapB、flatMapC、reduceByKeyD、sample答案：C255.np.floor(【-1.7,1.5,-0.2,0.6,10】)的输出结果是()。A、【-1,1,0,0,10】B、【-2.,1.,-1.,0.,10.】C、【-1.,1.,-1.,0.,10.】D、【-2.,1.,0.,0.,10.】答案：B256.关于面向过程和面向对象,下列说法错误的是()。A、面向过程和面向对象都是解决问题的一种思路B、面向过程是基于面向对象的C、面向过程强调的是解决问题的步骤D、面向对象强调的是解决问题的对象答案：B257.()是指对于数据局部不良行为的非敏感性,它是探索性分析追求的主要目标之一。A、鲁棒性B、稳定性C、可靠性D、耐抗性答案：D258.关于random.uniform(a,b)的作用描述,以下选项中正确的是()。A、生成一个均值为a,方差为b的正态分布B、生成一个(a,b)之间的随机数C、生成一个【a,b】之间的随机整数D、生成一个【a,b】之间的随机小数答案：D259.以下哪个数据类型不可以作为索引对数组进行选取()。A、booleanB、tupleC、dictD、int答案：C260.以下代码的输出结果为()。ImportnumpyasnpA=np.array(【【10,7,4】,【3,2,1】】)Print(np.percentile(a,50))A、【【1074】【321】】B、3.5C、【】D、【7.2.】答案：B261.图像灰度方差说明了图像的哪一个属性()。A、平均灰度B、图像对比度C、图像整体亮度D、图像细节答案：B262.关于正态分布,下列说法错误的是()。A、正态分布具有集中性和对称性B、正态分布的均值和方差能够决定正态分布的位置和形态C、正态分布的偏度为0,峰度为1D、标准正态分布的均值为0,方差为1答案：C263.单独使用多层索引时()。A、最外层和最里层的索引都可以单独使用B、只有最外层的索引可以单独使用C、不能单独使用多层索引D、只有最里层的索引可以单独使用答案：B264.以下关于情感分析说法错误的是()。A、情感分类是一个领域相关的问题B、情感分类往往牵涉样本的正负类别分布不平衡的问题C、情感分析属于nlp范围D、以上答案都不正确答案：D265.机器学习和深度学习的关系是(__)。A、深度学习包含机器学习B、机器学习包含深度学习C、二者是独立的D、二者相互促进答案：B266.数据管理成熟度模型中成熟度等级最高是哪一级()。A、已优化级B、已测量级C、已定义级D、已管理级答案：A267.在Python中,导入random包后random.random()可能的运行结果为()。A、1B、4.0636470001647C、0.096563931857176D、-0.88515562282635答案：C268.图像平滑会造成()。A、图像边缘模糊化B、图像边缘清晰化C、无影响D、以上答案都不正确答案：A269.下列关于RNN说法正确的是(__)。A、RNN可以应用在NLP领域B、LSTM是RNN的一个变种C、在RNN中一个序列当前的输出与前面的输出也有关D、以上答案都正确答案：D270.以下选项中,不是Python对文件的打开模式的是()。A、w'B、'+'C、'c'D、'r'答案：C271.下列选项中,用于关闭文件的方法是()。A、read()B、tell()C、seek()D、close()答案：D272.有数组n=np.arange(24).reshape(2,-1,2,2),np.shape的返回结果是()。A、(2,3,2,2)B、(2,2,2,2)C、(2,4,2,2)D、(2,6,2,2)答案：A273.运行下面的代码,输出结果是()。ImportnumpyasnpN=np.array(【【1,2,3】,【4,5,6】】)Print(n.size)A、2B、6C、(2,3)D、(3,2)答案：B274.pyplot.pie()所画的图像是()。A、箱线图B、折线图C、直方图D、饼图答案：D275.以下哪些方法不可以直接来对文本分类()A、KmeansB、决策树C、支持向量机D、KNN答案：A276.(假设precision=TP/(TP+FP),recall=TP/(TP+FN))在二分类问题中,当测试集的正例和负例数量不均衡时,以下评价方案哪个是相对不合理的()。A、Accuracy:(TP+TN)/allB、F-value:2recallprecision/(recall+precision)C、G-mean:sqrt(precision*recall)D、AUC:曲线下面积答案：A277.()的本质是将低层次数据转换为高层次数据的过程。A、数据处理B、数据计算C、数据加工(DataWrangling或DataMunging)D、整齐数据答案：C278.数据产品开发的关键环节是()A、数据收集B、数据预处理C、数据学习D、数据加工(DataWrangling或DataMunging)答案：D279.()模块是python标准库中最常用的模块之一。通过它可以获取命令行参数,从而实现从程序外部向程序内部传递参数的功能,也可以获取程序路径和当前系统平台等信息。A、sysB、platformC、mathD、time答案：A280.在MapReduce中,为了发现Worker故障,Master周期性进行(__)操作。A、JoinB、PingC、CheckD、Connect答案：B281.大数据平台技术架构不包含的是()A、数据整合B、数据存储C、数据计算D、数据溯源答案：D282.数据产品的定义是()。A、数据产品是指能够供给市场,被人们使用和消费,并能满足人们某种需求的任何东西B、数据产品是可以发挥数据价值去辅助用户更优的做决策(甚至行动)的一种产品形式C、数据产品是指为了满足自身的需要,通过科技发明或经验总结而形成的技术D、数据产品是是数据科学的结果,创造了新的实物形态和使用价值的产品。答案：B283.构建一个神经网络,将前一层的输出和它自身作为输入。下列哪一种架构有反馈连接()A、循环神经网络B、卷积神经网络C、限制玻尔兹曼机D、都不是答案：A284.高通滤波后的图像通常较暗,为改善这种情况,将高通滤波器的转移函数加上一常数量以便于引入一些低频分量。这样滤波器叫()。A、巴特沃斯高通滤波器B、高频提升滤波器C、高频加强滤波器D、理想高通滤波器答案：B285.在Hadoop生态系统中,()建立在MapReduce之上,主要用来弥补MapReduce编程的复杂性。A、HbaseB、FlumeC、PigD、Sqoop答案：C286.关于混合模型聚类算法的优缺点,下面说法正确的是()。A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理B、混合模型很难发现不同大小和椭球形状的簇C、混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布D、混合模型在有噪声和离群点时不会存在问题答案：C287.下列哪个函数可以计算字典元素个数()。A、cmpB、lenC、strD、type答案：B288.运行下面的代码,输出结果是()。L=【iifi%2==0elsei*10foriinrange(5)】Print(l)A、【0,10,2,30,4】B、【10,2,30,4】C、【0,10,2,30,4,50】D、【0,1,20,3,40】答案：A289.matplotlib中的axvspan函数作用是什么()。A、在x轴标示不同图形的文本标签图例B、绘制垂直于x的参考区域C、添加x轴内容细节的指向性注释文本D、添加x轴标题;答案：B290.如何通过代理服务器进行爬虫()。A、个人发送访问请求到代理服务器,代理服务器转发到网站,网站反馈给个人B、个人发送访问请求到网站,网站反馈给个人,并备份访问记录到代理服务器C、个人发送访问请求到代理服务器,代理服务器转发到网站,网站反馈给代理服务器,代理服务器再发送给个人D、个人发送访问请求到网站,网站反馈给代理服务器,个人再访问代理服务器获取网页信息答案：C291.关于python类说法错误的是()。A、类的实例方法必须创建对象后才可以调用B、类的实例方法必须创建对象前才可以调用C、类的类方法可以用对象和类名来调用D、类的静态属性可以用类名和对象来调用答案：B292.如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规则为()。A、无序规则B、穷举规则C、互斥规则D、有序规则答案：C293.MapReduce中,Shuffle操作的作用是()。A、合并B、排序C、降维D、分区答案：B294.plt.plot()函数的功能是()。A、展现变量的趋势变化B、寻找变量之间的关系C、设置x轴的数值显示范围D、设置x轴的标签文本答案：A295.执行如下代码:ImporttimePrint(time.time())以下选项中描述错误的是()。A、time库是Python的标准库;B、可使用time.ctime(),显示为更可读的形式;C、time.sleep(5)推迟调用线程的运行,单位为毫秒;D、输出自1970年1月1日00:00:00AM以来的秒数;答案：C296.数据的可用性取决于()。A、数据分析B、数据集采C、数据

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（更新版）大数据应用技能竞赛考试题库大全-上（单选600题）

文档简介

温馨提示

最新文档

评论

（更新版）大数据应用技能竞赛考试题库大全-上（单选600题）

文档简介

温馨提示

最新文档

评论

相关文档