2023年大数据应用技能竞赛考试题库（精简500题）

上传人：r*** IP属地：山东上传时间：2023-02-07 格式：DOCX 页数：138 大小：119.42KB 积分：15 举报 版权申诉

已阅读5页，还剩133页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

PAGEPAGE1382023年大数据应用技能竞赛考试题库（精简500题）一、单选题1.random库中用于生成随机小数的函数是()。A、random()B、randint()C、getrandbits()D、randrange()答案：A2.以下哪些方法不可以直接来对文本分类()A、KmeansB、决策树C、支持向量机D、KNN答案：A3.下列哪些不是目前机器学习所面临的问题是()。A、测试集的规模B、维度灾难C、特征工程D、过拟合答案：A4.卷积神经网络能通过卷积以及池化等操作将不同种类的鸟归为一类。关于卷积神经网络能达到该效果的原因,下列说法不正确的是()。A、同样模式的内容(如鸟嘴)在图像不同位置可能出现B、池化之后的图像主体内容基本不变C、不同种类鸟的相同部位(如鸟嘴)形状相似D、池化作用能使不同种类鸟变得相似答案：D5.关于正态分布,下列说法错误的是()。A、正态分布具有集中性和对称性B、正态分布的均值和方差能够决定正态分布的位置和形态C、正态分布的偏度为0,峰度为1D、标准正态分布的均值为0,方差为1答案：C6.以下代码的输出结果为()。ImportnumpyasnpA=np.array(【-1.7,1.5,-0.2,0.6,10】)Print(np.ceil(a))A、【-1.71.5-0.20.610.】B、【-2.1.-1.0.10.】C、【-1.71.5-0.20.610.】D、【-1.2.-0.1.10.】答案：D7.下面说法错误的是()。A、可以利用统计量对缺失值进行填补B、可以利用K近邻值对缺失值进行填补C、只要有缺失值就必须把对应记录删除D、对于缺失值较多的属性可以考虑删除答案：C8.以下()属于NoSQL数据库中Key-Value的缺点。A、数据无结构B、查询性能不高,缺乏统一查询语法C、功能相对有限D、功能相对有限,不易于做分布式集群答案：A9.以下关于新旧MapReduceAPI的描述错误的是()A、新API放在org.apache.hadoop.mapreduce包中,而旧API则是放在org.apache.hadoop.mapred中B、新API倾向于使用接口方式,而旧API倾向于使用抽象类C、新API使用Configuration,而旧API使用JobConf来传递配置信息D、新API可以使用Job对象来提交作业答案：B10.ordinalencoder将属性转化为()。A、独热编码B、附带特性的数字C、二进制编码D、ASCII码答案：B11.在linux下预装了Python2,Python3且默认Python版本为Python3,下列描述可以正确启动Python有()。A、在linux应用程序Terminal,打开一个终端窗口。输入whichPythonB、在linux应用程序Terminal,打开一个终端窗口。输入Python2或Python3C、在linux应用程序Terminal,打开一个终端窗口。输入whichPython3D、在linux应用程序Terminal,打开一个终端窗口。输入输入whichPython2答案：B12.以下可以应用关键词提取的是()。A、文献检索B、自动文摘C、文本聚类/分类D、以上答案都正确答案：D13.下面哪一项用决策树法训练大量数据集最节约时间()。A、增加树的深度B、增加学习率C、减少数的深度D、减少树的个数答案：C14.大数据环境下的隐私担忧,主要表现为()A、人信息的被识别与暴露B、户画像的生成C、意广告的推送D、毒入侵答案：A15.下列关于RNN说法正确的是(__)。A、RNN可以应用在NLP领域B、LSTM是RNN的一个变种C、在RNN中一个序列当前的输出与前面的输出也有关D、以上答案都正确答案：D16.np.linalg.svd()函数可以实现()功能。A、计算协方差矩阵B、实现奇异值分解C、计算方差D、计算均值;答案：B17.k-NN最近邻方法在什么情况下效果较好()A、样本较多但典型性不好B、样本较少但典型性好C、样本呈团状分布D、样本呈链状分布答案：B18.当()时,可以不考虑RDD序列化处理。A、完成成本比较高的操作后B、执行容易失败的操作之前C、RDD被重复利用D、实时性要求高答案：D19.数据探索是指针对目标可变、持续、多角度的搜索或分析任务,下列哪项不是其搜索过程的特点()。A、有选择B、有策略C、有目标D、反复进行的答案：C20.下列关于数据科学流程与方法的描述中,错误的是()。A、数据科学的基本流程包括数据化、数据加工(DataWrangling或DataMunging)、数据规整化、探索性分析、数据分析与洞见、结果展现以及数据产品的提供B、对于数据形态不符合要求的乱数据,要通过清洗成为规整数据C、数据分析包括描述性分析、诊断性分析、预测性分析和规范性分析D、数据可视化会遇到视觉假象问题,人眼对亮度和颜色的相对判断容易造成视觉假象答案：B21.彩色图像增强时,()处理可以采用RGB。A、直方图均衡化B、同态滤波C、加权均值滤波D、中值滤波答案：C22.以下关于pandas中groupby方法说法正确的是()。A、groupby能够实现分组聚合B、groupby方法的结果能够直接查看C、groupby是pandas提供的一个用来分组的方法D、groupby方法是pandas提供的一个用来聚合的方法答案：C23.MapReduce编程模型,键值对<key,value>的key必须实现哪个接口()A、Writableparable;B、parable;C、Writable;D、LongWritable;答案：A24.下列()不是神经网络的代表。A、卷积神经网络B、递归神经网络C、残差网络D、xgboost算法答案：D25.某篮运动员在三分线投球的命中率是2(1),他投球10次,恰好投进3个球的概率()。A、128(15)B、16(3)C、8(5)D、16(7)答案：A26.标准正态分布的均数与标准差是()。A、0,1B、1,0C、0,0D、1,1答案：A27.为提高计算性能,Spark中Transformation操作采用的是()计算模式。A、活性B、惰性C、实时D、非实时答案：B28.matplotlib中的step函数绘制的是什么图()。A、阶梯图B、直方图C、间断条形图D、堆积折线图答案：A29.下面()负责MapReduce任务调度。A、NameNodeB、JobtrackerC、TaskTrackerD、secondaryNameNode答案：B30.()计算框架源自一种分布式计算模型,其输入和输出值均为“键-值对”结构。A、MahoutB、MapReduceC、SparkD、Sqoop答案：B31.Hadoop中biner()函数的功能是()。A、数据排序B、数据标记C、数据分析D、数据合并答案：D32.假设函数中不包括global保留字,对于改变参数值的方法,以下选项中错误的是()。A、参数是列表类型时,改变原参数的值B、参数的值是否改变与函数中对变量的操作有关,与参数类型无关C、参数是整数类型时,不改变原参数的值D、参数是组合类型(可变对象)时,改变原参数的值答案：B33.下面哪个属于映射数据到新的空间的方法()。A、傅立叶变换B、特征加权C、渐进抽样D、维归约答案：A34.下列关于运算符优先级的说法中,不正确的一个是()。A、运算符按照优先级顺序表进行运算B、同一优先级的运算符在表达式中都是按照从左到右的顺序进行运算的C、同一优先级的运算符在表达式中都是按照从右到左的顺序进行运算的D、括号可以改变运算的优先次序答案：C35.matplotlib中的legend函数作用是什么()。A、设置标签文本B、绘制网格线C、标示不同图形的文本标签图例D、设置x轴的数值显示范围答案：C36.为了降低MapReduce两个阶段之间的数据传递量,一般采用()函数对map阶段的输出进行处理。A、sort()B、biner()C、join()D、gather()答案：B37.以下不属于有监督的词义消歧方法的是()。A、Flip-Flop算法B、贝叶斯分类器C、最大熵消歧D、基于词典的消歧答案：D38.如果我们说线性回归模型完美地拟合了训练样本(训练样本误差为零),则下面哪个说法是正确的()A、测试样本误差始终为零B、测试样本误差不可能为零C、以上答案都不对答案：C39.视觉通道表现力评价指标不包括()。A、精确性B、可辨认性C、可分离性D、可转换性答案：D40.下列哪个不是RDD的缓存方法()A、persistB、cacheC、MemoryD、以上答案都正确答案：C41.下列算法中,不属于外推法的是()。A、移动平均法B、回归分析法C、指数平滑法D、季节指数法答案：B42.关于脏数据和乱数据的区分,以下哪种不属于脏数据()。A、含有缺失数据B、冗余数据C、噪声数据D、不规则形态数据答案：D43.数据集成的基本类型。A、内容集成结构集成B、内容集成规约集成C、规约集成结构集成D、模式集成结构集成参答案：A44.随机森林与Bagging中基学习器多样性的区别是()。A、都来自样本扰动B、都来自属性扰动C、来自样本扰动和自属性扰动D、多样本集结合答案：C45.RDD默认的存储级别是()A、MEMORY_ONLYB、MEMORY_ONLY_SERC、MEMORY_AND,DISKD、MEMORY_AND_DISK_SER答案：A46.下列哪种算法可以用神经网络构建?(__)1.K-NN最近邻算法2.线性回归3.逻辑回归A、1and2B、2and3C、1,2and3D、Noneoftheabove答案：B47.()的主要目标是提供可扩展的机器学习算法及其实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。A、MahoutB、FlumeC、SqoopD、HBase答案：A48.下列关于LSTM说法错误的是(__)。A、LSTM中存在sigmoid函数B、LSTM中存在tanh函数C、LSTM又称长短时记忆网络D、RNN是LSTM的变种答案：D49.在集成学习中,对于数据型输出,最常见的结合策略是()。A、平均法B、投票法C、学习法D、以上答案都正确答案：A50.以下关于Hadoop中MapReduce说法正确的是()。A、可以没有reduce任务B、Reducer输入为随机输入C、shuffle主要实现数据可视化功能D、一个reducer只能从一个map复制所需要的partition答案：A51.对于SVM分类算法,待分样本集中的大部分样本不是支持向量,下列说法正确的是()。A、需要将这些样本全部强制转换为支持向量B、需要将这些样本中可以转化的样本转换为支持向量,不能转换的直接删除C、移去或者减少这些样本对分类结果没有影响D、以上都不对答案：C52.以下哪个数据类型不可以作为索引对数组进行选取()。A、booleanB、tupleC、dictD、int答案：C53.如果我们现有一个安装2.6.5版本的hadoop集群,在不修改默认配置的情况下存储200个每个200M的文本文件,请问最终会在集群中产生多少个数据块(包括副本)()A、200B、40000C、400D、1200答案：D54.数据科学家可能会同时使用多个算法(模型)进行预测,并且最后把这些算法的结果集成起来进行最后的预测(集成学习),以下对集成学习说法正确的是()。A、单个模型之间具有高相关性B、单个模型之间具有低相关性C、在集成学习中使用“平均权重”而不是“投票”会比较好D、单个模型都是用的一个算法答案：B55.(假设precision=TP/(TP+FP),recall=TP/(TP+FN))在二分类问题中,当测试集的正例和负例数量不均衡时,以下评价方案哪个是相对不合理的()。A、Accuracy:(TP+TN)/allB、F-value:2recallprecision/(recall+precision)C、G-mean:sqrt(precision*recall)D、AUC:曲线下面积答案：A56.以下滤波器对图像中的椒盐噪声滤波效果最好的是()。A、中值滤波B、均值滤波C、最大值滤波D、最小值滤波答案：A57.若建立一个5000个特征,100万数据的机器学习模型,则应该怎么有效地应对这样的大数据训练()。A、随机抽取一些样本,在这些少量样本之上训练B、可以试用在线机器学习算法C、应用PCA算法降维,减少特征数D、以上答案都正确答案：D58.Python中定义私有属性的方法是()。A、使用private关键字B、使用public关键字C、使用__XX__定义属性名D、使用__XX定义属性名答案：D59.模型构建完毕需要对模型进行评估量化,需要用到哪个模块()。A、utilsB、mixtureC、metricsD、manifold答案：C60.以下哪种方法不属于特征选择的标准方法:()。A、嵌入B、过滤C、包装D、抽样答案：D61.有关数据仓库的开发特点,不正确的描述是()。A、数据仓库开发要从数据出发;B、数据仓库使用的需求在开发出去就要明确;C、数据仓库的开发是一个不断循环的过程,是启发式的开发;D、在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式答案：A62.以下哪一种分布是二维随机变量的分布()。A、正态分布B、二项分布C、边缘分布D、指数分布答案：C63.输入图像为32x32,经过步长为1,不进行padding,卷积核为5x5的卷积层后,得到的特征图尺寸是多少()A、28x28B、27x27C、29x29D、32x32;答案：A64.读代码,请写出程序正确的答案()。#!/usr/bin/envpython3N=100Sum=0Counter=1Whilecounter<=n:Sum+counterCounter+=1Print("1到%d之和为:%d"%(n,sum))A、结果:1到100之和为:5000B、结果:1到100之和为:0C、结果:1到100之和为:2050D、结果:1到100之和为:5020答案：B65.大数据平台核心分布式存储与计算组件采用Hadoop技术体系中分布式存储、分布式计算框架,及Spark等开源产品和技术,实现对数据的安全控制和管理功能,其中分布式存储不包括()。A、HDFSB、PostgresqlC、HiveD、HBase答案：B66.scikit-learn中的k-means类,哪个参数是用来调节k值的()。A、n_clustersB、max_iterC、n_initD、init答案：A67.任一随机事件出现的概率为()A、在–1与1之间B、小于0C、不小于1D、在0与1之间答案：D68.对连续图像的离散化采样决定了图像的()。A、空间分辨率B、时间分辨率C、地面分辨率D、灰度值答案：A69.Spark的劣势()A、运算速度快B、业务实现需要较少代码C、提供很多现成函数D、需要更多机器内存答案：D70.决策树中的叶结点对应于()。A、属性B、样本C、决策结果D、标签值答案：C71.MapReduce对map()函数的返回值进行处理后再返回给reduce()函数的目的是()。A、减少map()函数和reduce()函数之间的数据传输B、优化map()函数C、优化reduce()函数D、这一步骤并无必要答案：A72.关于表述数据可视化在数据科学中重要地位说法中,下列不正确的是()。A、视觉是人类获得信息的最主要途径B、数据可视化处理可以洞察统计分析无法发现的结构和细节C、数据可视化处理结果的解读对用户知识水平的要求较高D、可视化能够帮助人们提高理解与处理数据的效率答案：C73.arr1=np.arange(0,20,1),arr2=arr1.reshape(4,5),arr2【1:3,1】的输出结果为()。A、【【6】,【11】】B、【【5】,【10】】C、【6,11】D、【5,10】答案：C74.下列哪项方法不属于图像分割方法()。A、边缘检测法B、阈值分割法C、区域分割法D、特征提取法答案：D75.为了允许支持向量机在一些样本上出错,引入()的概念。A、软间隔B、硬间隔C、间隔D、误差答案：A76.以下不是开源工具特点的是()。A、免费B、可以直接获取源代码C、用户可以修改源代码并不加说明用于自己的软件中D、开源工具一样具有版权答案：C77.关于缺失值填补,不正确的说法是()。A、填补数据可以用中位数或者众数等B、pandas.dropna可以用来填补缺失值C、用平均值填补会引入相关性D、哑变量填补是将缺失值当做一类新特征处理答案：B78.下列哪个函数可以计算字典元素个数()。A、cmpB、lenC、strD、type答案：B79.()是Spark中的抽象数据模型。A、RDDB、SchedulerC、StorageD、Shuffle答案：A80.Hadoop生态系统中,()主要解决的是日志类数据的收集和处理问题。A、MahoutB、FlumeC、SqoopD、HBase答案：B81.一般将原始业务数据分为多个部分,()用于模型的构建。A、训练集B、测试集C、验证集D、全部数据答案：A82.以下可以作为文本分类准则的是()。A、预测准确率B、鲁棒性C、可扩展性D、以上答案都正确答案：D83.“数据的故事化描述”是指为了提升数据的()和(),将数据还原成关联至特定的情景的过程。A、可理解性可记忆性可体验性B、可接受性可记忆性可体验性C、可接受性可记忆性可呈现性D、可理解性可记忆性可呈线性答案：A84.以下代码的输出结果为()。ImportnumpyasnpA=np.arange(12).reshape(3,4)Print(np.delete(a,5))A、【【0123】【4567】【891011】】B、【0123467891011】C、【【023】【467】【81011】】D、【246810】答案：B85.傅里叶变换得到的频谱中,低频系数对应于()。A、物体边缘B、噪声C、变化平缓部分D、变化剧烈部分答案：C86.下列程序打印结果为()。ImportreStr1="Python'sfeatures"Str2=re.match(r'(.*)on(.*?).*',str1,re.M|re.I)Print(str2.group(1))A、PythonB、PythC、thon’sD、Python‘sfeatures答案：B87.scipy.stats.isf函数的作用是()。A、随机变量的生存函数B、scipy.stats.sf的逆C、计算随机变量的期望和方差D、随机变量的累积分布函数答案：B88.ApacheSqoop主要设计目的是()。A、数据清洗B、数据转化C、数据ETLD、数据可视化答案：C89.如果需要训练的特征维度成千上万,在高维情形下出现的数据样本稀疏、距离计算困难。我们通过什么方法可以缓解这个问题()。A、K均值算法B、支持向量机C、降维D、以上答案都不正确答案：C90.关于SOM神经网络描述错误的是:(__)。A、一种竞争学习型的无监督神经网络B、将高维输入数据映射到低维空间,保持输入数据在高维空间的拓扑结构C、SOM寻优目标为每个输出神经元找到合适的权重D、输出层神经元以矩阵方式排列在二维空间答案：C91.下列哪个不是专门用于可视化时间空间数据的技术(__)。A、等高线图B、饼图C、曲面图D、矢量场图答案：B92.在TF-IDF算法中,在计算完词频与逆文档频率后,将二者()后得到最终的结果。A、相加B、相减C、相乘D、相除答案：C93.jieba的哪一种模式会把文本精确切分,不存在冗余单词()。A、匹配模式B、全模式C、精准模式D、搜索引擎模式答案：C94.关于Spark的说法中,()是错误的。A、采用内存计算模式B、可利用多种语言编程C、主要用于批处理D、可进行map()操作答案：C95.()对应于决策树结果,其他节点对应于()。A、叶节点,属性测试B、根结点,学习测试C、内部节点,学习测试D、叶节点,分类测试答案：A96.对于分类类型的变量,()是个非常好的展示工具。A、柱状图B、折线图C、饼状图D、直方图答案：D97.线性判别分析(LDA)从贝叶斯决策理论阐释,当两类数据同先验且满足()时,LDA达到最优分类。A、满足高斯分布B、协方差相等C、满足高斯分布且协方差相等D、协方差不等答案：C98.以下哪个模块不是Scipy库中的()。A、clusterB、randomC、signalD、misc答案：B99.对于数据3,3,2,3,6,3,10,3,6,3,2.①这组数据的众数是3;②这组数据的众数与中位数的数值不相等;③这组数据的中位数与平均数的数值不相等;④这组数据的平均数与众数的数值相等.其中正确结论的个数为()。A、1B、2C、3D、4答案：B100.给定一个长度为n的不完整单词序列,我们希望预测下一个字母是什么。比如输入是predictio(9个字母组成),希望预测第十个字母是什么。下面哪种神经网络结构适用于解决这个工作()A、循环神经网络B、全连接神经网络C、受限波尔兹曼机D、卷积神经网络答案：A101.假设你在卷积神经网络的第一层中有5个卷积核,每个卷积核尺寸为7×7,具有零填充且步幅为1。该层的输入图片的维度是224×224×3。那么该层输出的维度是多少()A、217x217x3B、217x217x8C、218x218x5D、220x220x7答案：C102.以下使用其本身可以达成数据透视功能的函数是()。A、groupbyB、transformC、crosstabD、pivot_table答案：D103.在python3中以下安装第三方模块命令正确的是()。A、pip-installsklearnB、pipinstallsklearnC、pip–upgragesklearnD、pip-isklearn答案：B104.下列关于线性回归分析中的残差说法正确的是()。A、残差均值总是为零B、残差均值总是约等于零C、残差均值总是大于零D、以上答案都不正确答案：A105.stats.describe()函数的作用是()。A、计算变异系数B、计算数据集的样本偏度C、计算所传递数组的几个描述性统计信息D、计算关于样本平均值的第n个矩答案：C106.()是人们从(多条)信息中发现的共性规律、模式、模型、理论和方法等。A、信息B、知识C、理解D、智慧答案：B107.数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的()、不可恢复,如数据销毁软件、硬盘消磁机、硬盘粉碎机等。A、暂时隔离B、暂时删除C、永久删除D、不作处理答案：C108.在Hadoop生态系统中,()可以将结构化的数据文件映射成一张数据库表,并提供简单的查询语言。A、PigB、HbaseC、HiveD、MapReduce答案：C109.Python语句print(0xA+0xB)的输出结果是()。。A、0xA+0xBB、A+BC、0xA0xBD、21答案：D110.有数组arr=Numpy.array(【1,2,3,4】),执行arr.dtype后输出结果为()。A、int32B、int64C、float32D、float64答案：A111.以下选项中哪个不属于数据预处理的方法()。A、数据清洗B、数据集成C、数据变换D、数据统计答案：D112.CNN神经网络对图像特征提取带来了变革性的变化,使之前的人工特征提取升级到数据驱动的自动特征提取,在CNN中,起到特征提取作用的网络层是:(__)。A、convolution层B、fullconnect层C、maxpooling层D、norm层答案：A113.下列关于文本分类的说法不正确的是()。A、文本分类是指按照预先定义的主题类别,由计算机自动地为文档集合中的每个文档确定一个类别B、文本分类大致可分为基于知识工程的分类系统和基于机器学习的分类系统C、文本的向量形式一般基于词袋模型构建,该模型考虑了文本词语的行文顺序D、构建文本的向量形式可以归结为文本的特征选择与特征权重计算两个步骤答案：C114.聚类算法的性能度量可称为()。A、密度估计B、异常检测C、有效性指标D、分布结构答案：C115.数据整合和分组的说法,不正确的是()。A、数据连接可以用concat或merge函数B、axis=1表示轴向连接C、数据分组可以使用mean函数D、使用agg可以自定义多个聚合函数答案：C116.评估完模型之后,发现模型存在高偏差(highbias),应该如何解决()。A、减少模型的特征数量B、增加模型的特征数量C、增加样本数量D、以上答案都正确答案：B117.Matplotlib的核心是面向()。A、过程B、对象C、结果D、服务答案：B118.scipy.stats模块中随机变量的残存函数是()。A、cdfB、rvsC、pdfD、sf答案：D119.以下内容符合物体识别任务的是()。A、不能对图像进行压缩或剪裁B、遵守误差最小准则和最佳近似准则C、可以不指定分类的类别数量D、事先给定样本的分布特征答案：B120.以下关于图像平滑的叙述中错误的是()。A、可以减少噪声B、可以使图像变得均匀C、图像的细节部分可以不保持原有特征D、可以采用基于卷积的滤波方法答案：C121.K-means++算法选择初始seeds的基本思想就是:初始的聚类中心之间的相互距离要尽可能的远。那么算法流程为()。1.从输入的数据点集合中随机选择一个点作为第一个聚类中心2.对于数据集中的每一个点x,计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)3.选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大4.重复2和3直到k个聚类中心被选出来5.利用这k个初始的聚类中心来运行标准的k-means算法A、.1B、.3C、.5D、.5答案：C122.留出法直接将数据集划分为()个互斥的集合。A、一B、二C、三D、四答案：B123.a=1,b=2,c=3,以下表达式值为True的是()。A、a>=bor(c+5)%3==1B、not(a==1andb!=c)C、notaandb==cD、aanda+b>=c答案：D124.机器学习算法在学习过程中对某种类型假设的偏好,称为()。A、训练偏好B、归纳偏好C、分析偏好D、假设偏好答案：B125.下列关于L1正则化与L2正则化描述错误的是()。A、L1范数正则化有助于降低过拟合风险B、L2范数正则化有助于降低过拟合风险C、L1范数正则化比L2范数正则化更有易于获得稀疏解D、L2范数正则化比L1范数正则化更有易于获得稀疏解答案：C126.Scikit-Learn中()可以实现计算模型准确率。A、accuracy_scoreB、accuracyC、f1_scoreD、f2_score答案：A127.下面哪个操作是窄依赖()A、joinB、filterC、groupD、sort答案：B128.当相关系数r=0时,说明()。A、现象之间相关程度较小B、现象之间完全相关C、现象之间无直线相关D、现象之间完全无关答案：C129.不属于Mayer-Sch？nbergerV和CukierK.在其著名论著《Bigdata:Arevolutionthatwilltransformhowwelive,work,andthink》中提出了大数据时代统计的思维变革的是()。A、不是随机样本,而是全体数据B、不是精确性,而是混杂性C、不是描述性分析,而是预测性分析D、不是因果关系,而是相关关系答案：C130.通过KMeans算法进行聚类分析后得出的聚类结果的特征是()。A、同一聚类中的对象间相似度高,不同聚类中的对象间相似度高B、同一聚类中的对象间相似度高,不同聚类中的对象间相似度低C、同一聚类中的对象间相似度低,不同聚类中的对象间相似度低D、同一聚类中的对象间相似度低,不同聚类中的对象间相似度高答案：B131.支持向量回归与传统回归模型的差别()。A、模型输出与真实值相同B、模型输出与真实值存在ε偏差C、模型输出大于真实值D、模型输出小于真实值答案：B132.下列有关HDFS的容错机制描述错误的是()。A、HDFS可以使用机架位感知的方法实现容错机制;B、HDFS可以使用基于erasurecode的方法实现容错机制;C、HDFS使用机架位感知的方法先把一份拷贝放入同机架上的机器,然后再拷贝一份到其他服务器;D、HDFS使用机架位感知的方法先把一份拷贝放入同机架上的机器,然后再拷贝一份到同机架机器的不同位置上;答案：D133.a=np.arange(10),a【2:4】截取到的数组为()。A、【1,2,3】B、【2,3,4】C、【2,3】D、【1,2】答案：C134.下列关于分词的说法正确的是()A、中文句子字之间没有空格,无法分词B、一个句子的分词结果是唯一的C、中文分词是将一系列无空格间隔字符串分割成一系列单词的过程D、分词没有实际应用价值答案：C135.()是交叉验证法的一种特例。A、自助法B、留一法C、交叉验证法D、错误率分析答案：B136.假设已从标准库functools导入reduce()函数,那么表达式reduce(lambdax,y:x+y,【1,2,3】)的值为()。A、NoneB、6C、3D、9答案：B137.如何交换二维Numpy数组中的两列()。在数组arr中交换列1和2。arr=np.arange(9).reshape(3,3)A、arr【:,【1,0,2】】B、arr【:,【1,0,3】】C、arr【:,【1,0,1】】D、arr【:,【1,0】】答案：A138.Python语句list(range(1,10,3))执行结果为()。A、【1,10,30】B、【1,3,6,9】C、【1,4,7】D、【2,5,8】答案：C139.假设有列表a=【'name','age','sex'】和b=【'Dong',38,'Male'】,请使用一个语句将这两个列表的内容转换为字典,并且以列表a中的元素为“键”,以列表b中的元素为“值”,这个语句可以写为()。A、c=dict(cross(a,b))B、c=dict(zip(a,b))C、c=map(zip(a,b))D、c=b答案：B140.如何从一个数组中移除那些存在于另一个数组中的项()。A=np.array(【1,2,3,4,5】)B=np.array(【5,6,7,8,9】)期望输出:array(【1,2,3,4】)A、np.setdiff1d(a,b)B、setdiff1d(a)C、setdiff1d(b)D、以上答案都不正确答案：A141.在逻辑回归输出与目标对比的情况下,以下评估指标中哪一项不适用()。A、AUC-ROCB、准确度C、LoglossD、均方误差答案：D142.Numpy中对数组进行转置的函数是哪个()。A、transpose()B、rollaxis()C、swapaxes()D、tan()答案：A143.Seaborn要求原始数据的输入类型不能是()A、DataframeB、SeriesC、Numpy答案：B144.数据可视化的本质是()。A、将数据转换为知识B、将知识转换为数据C、将数据转换为信息D、将信息转换为智慧答案：A145.大数据平台技术架构不包含的是()A、数据整合B、数据存储C、数据计算D、数据溯源答案：D146.机器学习中L1正则化和L2正则化的区别是()。A、使用L1可以得到稀疏的权值,使用L2可以得到平滑的权值B、使用L1可以得到平滑的权值,使用L2可以得到平滑的权值C、使用L1可以得到平滑的权值,使用L2可以得到稀疏的权值D、使用L1可以得到稀疏的权值,使用L2可以得到稀疏的权值答案：A147.下列关于关键词提取的说法错误的是()A、关键词提取是指借用自然语言处理方法提取文章关键词B、TF-IDF模型是关键词提取的经典方法C、文本中出现次数最多的词最能代表文本的主题D、这个问题设计数据挖掘,文本处理,信息检索等领域;答案：C148.考虑值集{12243324556826},其四分位数极差是:()A、21B、24C、55D、3答案：A149.在Hadoop中,下面哪个是默认的InputFormat类型,它将每行内容作为新值,而将字节偏移量作为key()。A、FileInputFormatB、TextInputFormatC、KeyValueTextInputFormatD、bineTextInputFormat答案：B150.pynlpir是一种常用的自然语言理解工具包,其中进行分词处理的函数是()。A、open()B、segment()C、AddUserWord()D、generate()答案：B151.一元线性回归方程y=0.7+0.82x,判定系数等于0.64,则x与y的相关系数为()。A、0.82B、0.64C、0.8D、0.7答案：C152.关于Python文件处理,以下选项中描述错误的是()。A、Python能处理JPG图像文件B、Python不可以处理PDF文件CPython能处理C、SV文件D、Python能处理Excel文件答案：B153.划分聚类算法是一种简单的较为基本的重要聚类方法。它的主要思想是通过将数据点集分为()个划分,并使用重复的控制策略使某个准则最优化,以达到最终的结果A、DB、KC、ED、F答案：B154.关于Python语言的特点,以下选项中描述错误的是()。A、Python语言是非开源语言B、Python语言是跨平台语言C、Python语言是多模型语言D、Python语言是脚本语言答案：A155.不属于判别式模型的是()。A、决策树B、BP神经网络C、支持向量机D、贝叶斯答案：D156.聚类是一种典型的无监督学习任务,然而在现实聚类任务中我们往往能获得一些额外的监督信息,于是可通过()来利用监督信息以获得更好的聚类效果。A、监督聚类B、半监督聚类C、聚类D、直推聚类答案：B157.如果在大型数据集上训练决策树。为了花费更少的时间来训练这个模型,下列哪种做法是正确的()A、增加树的深度B、增加学习率C、减小树的深度D、减少树的数量答案：C158.Python中的os模块常见方法描述错误的是()。A、os.remove()删除文件B、os.rename()重命名文件C、os.walk()读取所有的目录名D、os.chdir()改变目录答案：C159.多分类图像识别任务常采用()作为输出的编码方式。A、二进制编码B、one-hot编码C、霍夫曼编码D、曼切斯特编码答案：B160.表达式int('101',2)的值为()。A、5B、6C、10D、3答案：A161.以下关于模块说法错误的是()。A、一个xx.py就是一个模块;B、任何一个普通的xx.py文件可以作为模块导入;C、模块文件的扩展名不一定是.py;D、运行时会从制定的目录搜索导入的模块,如果没有,会报错异常答案：C162.当try子句中没有任何错误时,一定不会执行()语句。A、tryB、slseC、exceptD、finally答案：C163.假设你需要调整参数来最小化代价函数(costfunction),会使用()技术。A、穷举搜索B、随机搜索C、Bayesian优化D、以上全是答案：D164.下面哪项不属于循环神经网络的输出模式。(__)A、单输出B、多输出C、同步多输出D、异步多输出答案：C165.np.sort()函数返回的是()。A、已排序的原数组B、排好序的数组拷贝C、原数组D、原数组的拷贝答案：B166.在Apriori算法中,候选项集划分为不同的桶,存放在()中。A、字典B、集合C、Hash树D、列表答案：C167.大数据参考架构的水平轴和垂直轴分别为()。A、信息(活动)价值链和信息技术价值链B、信息技术价值链和信息(活动)价值链C、信息交互价值链和信息技术价值链D、信息(活动)价值链和信息交互价值链答案：A168.情感信息归纳常见的存在形式是()。A、语料库B、情感文摘C、情感评论D、情感倾向答案：B169.以下关于副本和视图描述错误的是()。A、Numpy的切片操作返回原数据的视图B、调用Ndarray的view()函数产生一个视图C、Python序列的切片操作,调用deepCopy()函数D、调用Ndarray的copy()函数产生一个视图答案：D170.属于卷积神经网络应用方向的是(__)。A、图像分类B、目标检测C、图像语义分割D、以上答案都正确答案：D171.下列不属于数据科学跨平台基础设施和分析工具的是()。A、微软AzureB、Google云平台C、阿里云D、Adobephotoshop答案：D172.scipy库中用于物理和数学常量计算的模块是()。A、scipy.clusterB、scipy.ioC、scipy.constantsD、scipy.linalg答案：C173.执行如下代码:ImporttimePrint(time.time())以下选项中描述错误的是()。A、time库是Python的标准库;B、可使用time.ctime(),显示为更可读的形式;C、time.sleep(5)推迟调用线程的运行,单位为毫秒;D、输出自1970年1月1日00:00:00AM以来的秒数;答案：C174.Python语句:f=open(),以下选项中对f的描述错误的是()。A、*f是文件句柄,用来在程序中表达文件B、表达式print(f)执行将报错C、*f是一个Python内部变量类型D、将f当作文件对象,fread()可以读入文件全部信息答案：B175.常用的图像去噪方法有()。A、高斯滤波B、中值滤波C、P-M方程去噪D、以上答案都正确答案：D176.运行下面的代码后,变量n的类型是()。N={}A、setB、listC、未知类型D、dict答案：D177.有N个样本,一般用于训练,一般用于测试。若增大N值,则训练误差和测试误差之间的差距会如何变化()。A、增大B、减小C、无法确定D、无明显变化答案：B178.任何一个核函数都隐式地定义了一个()空间。A、希尔伯特空间B、再生希尔伯特空间C、再生核希尔伯特空间D、欧式空间答案：C179.选择哪一个解作为输出,将由学习算法的归纳偏好决定,常见的做法是引入()。A、线性回归B、线性判别分析C、正则化项D、偏置项答案：C180.Numpy库的主要功能是()。A、科学计算B、绘图C、爬取网站数据、提取结构性数据D、机器学习库答案：A181.下列关于可视化方法体系说法不正确的是()。A、通常采用视觉图形元素和视觉通道两个维度进行视觉编码B、常用的共性方法有统计图表、图论方法、视觉隐喻和图形符号学等C、领域方法在所属领域内其可视化的信度和效果往往低于基础方法的直接应用D、视觉编码为其他数据可视化方法提供了方法学基础答案：C182.设计为8层的卷积神经网络AlexNet网络成功使用(__)函数,其效果远远地超过了Sigmoid函数。A、ReLU函数B、sigmoid函数C、tanh函数D、sin函数答案：A183.线性模型中的权重w值可以看做各个属性x的()。A、正则化系数B、对最终决策结果的贡献度C、高维映射D、取值答案：B184.最早被提出的循环神经网络门控算法是什么()A、长短期记忆网络B、门控循环单元网络C、堆叠循环神经网络D、双向循环神经网络答案：A185.如果只写open(filename),那就是用()模式打开。A、rB、wC、aD、b答案：A186.依托(),结合应用推进数据归集,形成统一的数据资源中心。A、全业务数据中心和数据中台B、营销基础数据平台和大数据平台C、全业务中心和营销基础数据平台D、全业务数据中心和大数据平台答案：A187.MapReduce编程模型中以下组件哪个是最后执行的()A、MapperB、PartitionerC、ReducerD、RecordReader答案：C188.假如我们使用Lasso回归来拟合数据集,该数据集输入特征有100个(X1,X2,...,X100)。现在,我们把其中一个特征值扩大10倍(例如是特征X1),然后用相同的正则化参数对Lasso回归进行修正。那么,下列说法正确的是()A、特征X1很可能被排除在模型之外B、特征X1很可能还包含在模型之中C、无法确定特征X1是否被舍D、以上答案都不正确答案：B189.data=Numpy.array(【【【1,2,3】,【4,5,6】】,【【7,8,9】,【10,11,12】】】),data的形状(shape)为()。A、(2,2,3)B、(2,3,2)C、(3,2,3)D、(3,2,2)答案：A190.下列哪个不是专门用于可视化时间空间数据的技术()。A、等高线图B、饼图C、曲面图D、矢量场图答案：B191.一个MapReduce程序中的MapTask的个数由什么决定()A、输入的总文件数B、客户端程序设置的mapTask的个数C、FileInputFormat.getSplits(JobContextjob)计算出的逻辑切片的数量D、输入的总文件大小/数据块大小答案：C192.数据可视化的方法论基础是()。A、统计图表B、视觉编码理论C、图论D、图形符号学答案：B193.当特征值大致相等时会发生什么()A、PCA将表现出色B、PCA将表现不佳C、不知道D、以上都没有答案：B194.训练完SVM模型后,不是支持向量的那些样本我们可以丢掉,也可以继续分类:()。A、正确B、错误答案：A195.可分解为偏差、方差与噪声之和的是()。A、训练误差(trainingerror)B、经验误差(empiricalerror)C、均方误差(meansquarederror)D、泛化误差(generalizationerror)答案：D196.以下()是对DMM(数据管理成熟度模型)中“已管理级”基本特点的正确表述。A、组织机构的数据管理关键活动能够根据结构自身的反馈以及外部环境的变革进行不断优化。B、组织机构已用定量化的方式管理其关键过程的执行过程。C、组织机构只有在项目管理过程中执行了D.M给出的关键过程,而缺乏机构层次的统筹与管理D、组织机构的数据管理工作超出了项目管理的范畴,由组织机构统一管理了其数据管理关键过程答案：D197.以下属于图像处理的常用方法有()。A、图像变换B、图像编码压缩C、图像增强和复原D、以上答案都正确答案：D198.以下属于深度学习框架的是(__)。A、TensorflowB、CaffeC、PyTorchD、以上答案都正确答案：D199.下列关于支持向量的说法正确的是()。A、到分类超平面的距离最近的且满足一定条件的几个训练样本点是支持向量B、训练集中的所有样本点都是支持向量C、每一类样本集中都分别只有一个支持向量D、支持向量的个数越多越好答案：A200.变量的不确定性越大,相对应信息熵有什么变化()。A、熵变小B、熵变大C、不变D、以上答案都不正确答案：B201.LSTM中,(__)的作用是确定哪些新的信息留在细胞状态中,并更新细胞状态。A、输入门B、遗忘门C、输出门D、更新门答案：A202.数据管理成熟度模型中成熟度等级最高是哪一级()。A、已优化级B、已测量级C、已定义级D、已管理级答案：A203.下列不属于聚类性能度量外部指标的是()。A、Jaccard系数B、FM系数C、Rand指数D、DB指数;答案：D204.执行以下代码段Print(bool('False'))Print(bool())时,输出为()。A、TrueTrueB、TrueFalseC、FalseTrueD、FalseFalse答案：B205.数据科学是一门以()为主要研究任务的独立学科。A、“数据驱动”“数据业务化”“数据洞见”“数据产品研发”和(或)“数据生态系统的建设”B、数据研发C、数据处理D、数据洞见答案：A206.Hadoop中,Reducer的三个阶段是__。A、Shuffle-Sort-ReduceB、Shuffle-Reduce-SortC、Reduce-Shuffle-SortD、Sort-Shuffle-Reduce答案：A207.下列场景中最有可能应用人工智能的是()。A、刷脸办电B、舆情分析C、信通巡检机器人D、以上答案都正确答案：D208.当使用不同类型的数组进行操作时,结果数组的类型会进行()。A、向下转换B、向上转换C、不进行转换D、无法计算答案：B209.传统目标检测流程包括()。A、区域选择B、特征提取C、分类器分类D、以上答案都正确答案：D210.关于文件的打开方式,以下选项中描述正确的是()。A、文件只能选择二进制或文本方式打开B、文本文件只能以文本方式打开C、所有文件都可能以文本方式打开D、所有文件都可能以二进制方式打开答案：D211.以下选项中,输出结果是False的是()。A、>>>5isnot4B、>>>5!=4C、>>>False!=0D、>>>5is5答案：C212.以下说法正确的是()。A、关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。B、寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式C、数据挖掘的主要任务是从数据中发现潜在的规律,从而能更好的完成描述数据、预测数据等任务。D、在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。答案：C213.在IBMPASS中,聚类算法分为分层聚类、Kohonennetwork、K平均值聚类和()四种。A、系统聚类B、两步聚类C、模型聚类D、其它聚类答案：B214.下面哪行代码最适合接受系统输入的一个整数()。A、num=input()B、num=input(“6”)C、num=int(input())D、num=float(input())答案：C215.如何在pyplot中设置x轴、y轴的刻度位置()。A、xlabel()、ylabel()B、xlim()、ylim()C、xscale()、yscale()D、xticks()、yticks()答案：D216.导入模块的方式错误的是()。A、importmoB、frommoimport*;C、importmoasmD、importmfrommo答案：D217.特征工程的目的是()。A、找到最合适的算法B、得到最好的输入数据C、减低模型复杂度D、加快计算速度答案：B218.关于bagging下列说法错误的是:()。A、各基分类器之间有较强依赖,不可以进行并行训练B、最著名的算法之一是基于决策树基分类器的随机森林C、当训练样本数量较少时,子集之间可能有重叠D、为了让基分类器之间互相独立,需要将训练集分为若干子集答案：A219.对于数据3,3,2,3,6,3,10,3,6,3,2.①这组数据的众数是3;②这组数据的众数与中位数的数值不相等;③这组数据的中位数与平均数的数值不相等;④这组数据的平均数与众数的数值相等.其中正确结论的个数为()。A、1B、2C、3D、4答案：B220.卷积神经网络中每层卷积层(Convolutionallayer)由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法最佳化得到,其作用是(__)。A、增强图像B、简化图像C、特征提取D、图像处理答案：C221.关于层次聚类算法:(1)不断重复直达达到预设的聚类簇数(2)不断合并距离最近的聚类簇(3)对初始聚类簇和相应的距离矩阵初始化(4)对合并得到的聚类簇进行更新。正确的执行顺序为()。A、1234B、1324C、3241D、3412答案：C222.能使图像亮度得到平缓渐变,减小突变梯度,改善图像质量的是()。A、图像平滑B、图像分类C、图像识别D、图像分割答案：A223.关于HDFS的特征,下列说法错误的是()。A、支持超大文件B、基于商用硬件C、流式数据访问D、低吞吐量答案：D224.数组分割使用以下哪个函数()。A、vstack()B、hstack()C、split()D、view()答案：C225.以下说法正确的是()。A、散点图不能在子图中绘制B、散点图的x轴刻度必须为数值C、折线图可以用作查看特征间的趋势关系D、箱线图可以用来查看特征间的相关关系答案：C226.()选择成为支持向量机的最大变数。A、核函数B、样本空间C、模型D、算法答案：A227.关系云的一个重要功能是提供()。A、数据库即服务B、虚拟服务C、弹性计算D、按需服务答案：A228.Python的sys模块常用方法描述错误的是()。A、sys.argv命令行参数List,第一个元素是程序本身路径B、sys.modules.keys()返回所有字典中的keysC、sys.exc_info()获取当前正在处理的异常类D、sys.exit(n)退出程序答案：B229.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。A、统计方法B、邻近度C、密度D、聚类技术答案：A230.数组允许批量计算而无须任何for循环,这种特性叫()。A、矩阵化;B、便捷化;C、批量化;D、失量化;答案：D231.Hadoop生态系统中,HBase是一种()。A、分布式文件系统B、数据仓库C、实时分布式数据库D、分布式计算系统答案：C232.scipy中模块integrate的作用是()。A、程序输入输出B、差值计算C、计算积分D、向量计算;答案：C233.下面哪个操作肯定是宽依赖()A、mapB、flatMapC、reduceByKeyD、sample答案：C234.关于Python赋值语句,以下选项中不合法的是()。A、x=1;y=1B、x=y=1C、x=(y=1)D、x,y=y,x答案：C235.关于混合模型聚类算法的优缺点,下面说法正确的是()。A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理B、混合模型很难发现不同大小和椭球形状的簇C、混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布D、混合模型在有噪声和离群点时不会存在问题答案：C236.()主要提供内存计算框架A、Spark核心层B、资源计算层C、服务核心层D、Spark层答案：A237.下列核函数特性描述错误的是()。A、只要一个对称函数所对应的核矩阵半正定,就能称为核函数;B、核函数选择作为支持向量机的最大变数;C、核函数将影响支持向量机的性能;D、核函数是一种降维模型;答案：D238.以下说法不正确的是()。A、卷积神经网络主要用于目标识别、图像分割等方面B、循环神经网络主要用于处理序列数据C、长短时记忆神经网络主要用于处理序列数据D、长短时记忆神经网络是和循环神经网络完全不同的一种新型神经网络答案：D239.卷积神经网络(convolutionalneuralnetwork,CNN),是一种专门用来处理具有类似(__)的数据的神经网络。A、网格结构B、数组结构C、序列结构D、表格结构答案：A240.bootstrap数据是什么意思()。A、有放回地从总共M个特征中抽样m个特征B、无放回地从总共M个特征中抽样m个特征C、有放回地从总共N个样本中抽样n个样本D、无放回地从总共N个样本中抽样n个样本答案：C241.()采用概率模型来表达聚类原型。A、k均值算法B、学习向量量化C、高斯混合聚类D、密度聚类答案：C242.在Hadoop的分区阶段,默认的Partitioner是()。A、RangePartitionerB、PartitionerC、HashPartitionerD、用户自定义的Partitioner答案：C243.决策树的父节点和子节点的熵的大小关系是什么()。A、父节点的熵更小B、子节点的熵更小C、两者相等D、根据具体情况而定答案：B244.以下选项中Python用于异常处理结构中用来捕获特定类型的异常的保留字是()。A、exceptB、doC、passD、while答案：A245.Python中Statsmodels库适用于()场景。A、统计分析B、机器学习C、图像处理D、数据建模答案：A246.有关异常说法正确的是()。A、程序中抛出异常终止程序B、程序中抛出异常不一定终止程序C、拼写错误会导致程序终止D、缩进错误会导致程序终止答案：B247.运行下面的代码,输出结果是()。D={-2,-1,0,1,2,3}N=d.pop()Print(n)A、-2B、2C、不确定D、3答案：C248.np.dot(【【1,2,3】,【1,2,3】,【1,2,3】】,【【2,1,1】,【2,1,1】,【2,1,1】】)的结果是()。A、【【1266】【1266】【1266】】B、【【223】【223】【223】】C、【【123】【123】【123】】D、【【211】【211】【211】】答案：A249.Python代码中mpl.rcParams【'font.sans-serif'】=【'SimHei'】的作用是()。A、设置图表中文显示的字体B、设置图表图例的位置C、设置图表标题的颜色D、设置图表标题的位置答案：A250.关于Sqoop的说法,不正确的是()A、主要设计目的是在Hadoop与传统数据库之间进行数据的ETL操作B、数据导入导出通过MapReduce完成C、Sqoop具备MapReduce的并行化和容错性D、Sqoop的Reduce操作速度更快答案：D251.Scikit-Learn中()可以更好帮助参数调优和选择模型。A、均值算法B、均方根算法C、最小二乘法D、交叉验证答案：D252.构造了一个词表:{1.小明2.喜欢3.踢4.看5.足球6.篮球7.电影},利用上述词表的索引号,文档{小明喜欢踢足球}可以用一个7维向量表示为()。A、【1101001】B、【1111111】C、【1111100】D、【1110100】答案：D253.下列哪个不属于CRF模型对于HMM和MEMM模型的优势(__)。A、特征灵活B、速度快C、可容纳较多上下文信息D、全局最优答案：B254.A=np.array(【【1,1】,【0,1】】),B=np.array(【【2,0】,【3,4】】),A*B的结果是()。A、【【2,0】,【0,4】】B、【【5,4】,【3,4】】C、【【3,4】,【5,4】】D、无法计算答案：A255.以下关于连接数组不正确的是()。A、concatenate连接沿现有轴的数组序列B、stack沿着新的轴加入一系列数组。C、vstack水平堆叠序列中的数组(列方向)D、hstack3D堆叠序列中的数组(行方向)答案：D256.RNN不同于其它神经网络的地方在于(__)。A、实现了记忆功能B、速度快C、精度高D、易于搭建答案：A257.要弥补缺失值,可以使用均值,中位数,众数等等,preprocessing模块中那个方法可以实现()。A、preprocessing.Imputer()B、preprocessing.PolynomialFeatures()C、preprocessing.FunctionTransformer()D、preprocessing.Binarizer()答案：A258.正态分布的两个参数μ与σ,()对应的正态曲线愈趋扁平。A、μ愈大B、μ愈小C、σ愈大D、σ愈小答案：C259.客户端从HDFS上读取数据时会()A、从namenode上获取数据B、从datanode上获取block位置C、从namenode上获取block位置D、从namenode上获取数据和block位置答案：C260.下列哪个程序通常与NameNode在一个节点启动()A、SecondaryNameNodeB、DataNodeC、TaskTrackerD、Jobtracker答案：D261.长短时记忆神经网络通过什么来缓解梯度消失问题()A、增加网络深度B、减少网络神经元C、使用双向的网络结构D、增加一个用来保存长期状态的单元答案：D262.文本信息往往包含客观事实和主观情感,对于文本的情感分析主要是识别文章中的主观类词语,其中()不适用于情感分析。A、表达观点的关键词B、表达程度的关键词C、表达情绪的关键词D、表达客观事实的关键词答案：D263.机器学习训练时,Mini-Batch的大小优选为2的幂,如256或512。它背后的原因是什么()。A、Mini-Batch为偶数的时候,梯度下降算法训练的更快B、Mini-Batch设为2的幂,是为了符合CPU、GPU的内存要求,利于并行化处理C、不使用偶数时,损失函数是不稳定的D、以上答案都不正确答案：B264.一个分布式应用程序协调服务,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等的工具是()。A、FlumeB、ZookeeperC、StormD、Sparkstreaming答案：B265.运行下面的代码,输出结果是()。S="Thepythonispython."Print(s.find('python',10))A、10B、20C、14D、系统报错答案：C266.基于统计的分词方法为()。A、正向最大匹配法B、逆向最大匹配法C、最少切分D、条件随机场答案：D267.下列极大似然估计描述错误的是(__)。A、极大似然估计先假定其具有某种确定的概率分布形式;B、极大似然估计没有确定的概率分布形式;C、概率模型的训练过程就是参数估计;D、贝叶斯学派认为参数本身也有分布,是未观察的随机变量;答案：B268.将一副图像进行分割后,分割出的区域彼此之间(__)重叠。A、可以B、不可以C、根据任务需要确定是否可以D、根据分割方法确定是否可以答案：B269.图像平滑会造成()。A、图像边缘模糊化B、图像边缘清晰化C、无影响D、以上答案都不正确答案：A270.以下代码的输出结果为()。ImportnumpyasnpA=np.array(【【3,7,5】,【8,4,3】,【2,4,9】】)Print(np.ptp(a))A、【【375】【843】【249】】B、7C、【457】D、【636】答案：B271.关于抛出异常的说法中,描述错误的是()。A、当raise指定异常的类名时,会隐式地创建异常类的实例B、显式地创建异常类实例,可以使用raise直接引发C、不带参数的raise语句,只能引发刚刚发生过的异常D、使用raise抛出异常时,无法指定描述信息答案：D272.关于循环神经网络设计的叙述中,错误的是()。A、能处理可变长度的序列B、基于图展开思想C、基于参数共享思想D、循环神经网络不可应用于图像数据答案：D273.图像灰度方差说明了图像的哪一个属性()。A、平均灰度B、图像对比度C、图像整体亮度D、图像细节答案：B274.一监狱人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别4种不同的人员:狱警,小偷,送餐员,其他人员。下面哪种学习方法最适合此种应用需求()A、二分类问题B、层次聚类问题C、多分类问题D、回归问题答案：C275.当需要在字符串中使用特殊字符时,python使用()作为转义字符。A、\B、/C、#D、%答案：A276.以下()属于数据可视化方法体系中的基础方法。A、视觉编码方法论B、视觉隐喻C、地理信息可视化D、时变数据可视化答案：B277.Spark那个组件用于支持实时计算需求()。A、SparkSQLB、SparkStreamingC、SparkGraphXD、SparkMLLib答案：B278.下列哪种业务场景中,不能直接使用Reducer充当biner使用()A、sum求和B、max求最大值C、count求计数D、avg求平均答案：D279.scipy.stats模块中随机变量的概率密度函数是()。A、statsB、fitC、pdfD、ppf答案：C280.生成二项式离散随机变量使用以下哪个函数()。A、stats.bernoulli()B、stats.binom()C、stats.geom()D、stats.randint()答案：B281.下面哪个是满足期望输出的代码()。Arr=np.array(【0,1,2,3,4,5,6,7,8,9】)期望输出:array(【1,3,5,7,9】)A、arr%2==1B、arr【arr%2==1】C、arr【arr/2==1】D、arr【arr//2==1】答案：B282.关于Python的lambda函数,以下选项中描述错误的是()。A、可以使用lambda函数定义列表的排序原则B、f=lambdax,y:x+y执行后,f的类型为数字类型C、lambda函数是匿名函数D、lambda用于定义简单的能够在一行内表示的函数答案：B283.以下代码的输出结果为()。ImportnumpyasnpA=np.array(【【10,7,4】,【3,2,1】】)Print(np.percentile(a,50))A、【【1074】【321】】B、3.5C、【】D、【7.2.】答案：B284.matplotlib中的barh函数可以绘制()图。A、直方图B、饼图C、条形图D、气泡图答案：C285.下面选项不正确的是()。ImportnumpyasnpX=np.array(【【1,2】,【3,4】】)Y=np.linalg.inv(x)Print(y)A、【【12】【34】】B、【【-2.1.】【1.5-0.5】】C、【【1.0.】【2.1.】】D、以上答案均不正确答案：B286.以下哪个不是HDFS的守护进程()A、secondarynamenodeB、datanodeC、mrappmaster/yarnchildD、namenode答案：C287.DNN常用的激活函数有(__)。A、sigmoidB、tanhC、ReLUD、以上答案都正确答案：D288.美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的()。A、在数据基础上倾向于全体数据而不是抽样数据B、在分析方法上更注重相关分析而不是因果分析C、在分析效果上更追究效率而不是绝对精确D、在数据规模上强调相对数据而不是绝对数据答案：B289.不属于数据脱敏的要求的是()。A、双向性B、单向性C、无残留D、易于实现答案：A290.Scipy库不包含以下哪种功能()。A、线性代数模块B、傅里叶变换C、信号和图像图例D、提供机器学习等算法答案：D291.matplotlib中调用直方图的函数是()。A、plot()B、scatter()C、bar()D、hist()答案：D292.KNN最近邻分类算法的过程()1.计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等);2.对上面所有的距离值进行排序;3.选前k个最小距离的样本;4.根据这k个样本的标签进行投票,得到最后的分类类别。A、B、C、D、答案：C293.()是表现数据分布对称性的指标。A、斜率B、偏斜度C、偏度D、偏离度答案：B294.random库的seed(a)函数的作用是()。A、生成一个【0.0,1.0)之间的随机小数B、生成一个k比特长度的随机整数C、设置初始化随机数种子aD、生成一个随机整数答案：C295.Hadoop生态系统中,()的主要设计目的是在Hadoop与传统数据库之间进行数据的ETL操作。A、HDFSB、FlumeC、HiveD、Sqoop答案：D296.在MapReduce中,以下描述中错误的是()。A、经过map()函数的计算可以得出一个中间数据集B、map()函数是确定的,用户不可自定义C、对map()函数的返回值,进行一定的处理后才进入下个阶段D、map()函数的输入输出都是同一数据结构答案：B297.下面与HDFS类似的框架是()A、NTFSB、FAT32C、GFSD、EXT3答案：C298.Python对not、or、and求值的优先顺序是()。A、andornotB、notandorC、orandnotD、ornotnad答案：B299.stats()函数不能求以下哪个值()。A、均值B、方差C、峰度D、众数答案：D300.当构建一个神经网络进行图片的语义分割时,通常采用下面哪种顺序()。A、先用卷积神经网络处理输入,再用反卷积神经网络得到输出B、先用反卷积神经网络处理输入,再用卷积神经网络得到输出C、不能确定答案：A多选题1.下面哪些是循环神经网络的输出模式(__)。A、多输出B、单输出C、同步多输出D、异步多输出答案：ABD2.从Hadoop实现角度看,HadoopMapReduce1.0主要由()组成。A、编程模型B、数据处理引擎C、运行时环境D、算法库答案：ABC3.一个监督观测值集合会被划分为()。A、训练集B、验证集C、测试集D、预处理集答案：

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2023年大数据应用技能竞赛考试题库（精简500题）

文档简介

温馨提示

最新文档

评论

相关文档