版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGEPAGE2122022年大数据应用知识考试题库(含答案)一、单选题1.图像平滑会造成()。A、图像边缘模糊化B、图像边缘清晰化C、无影响D、以上答案都不正确答案:A解析:为了抑制噪声,使图像亮度趋于平缓的处理方法就是图像平滑。图像平滑实际上是低通滤波,平滑过程会导致图像边缘模糊化。2.关于Spark的说法中,()是错误的。A、采用内存计算模式B、可利用多种语言编程C、主要用于批处理D、可进行map()操作答案:C解析:HadoopMapReduce主要用于批处理,与Hadoop不同的是,Spark更为通用一些,可以很好地支持流计算、交互式处理、图计算等多种计算模式。3.以下关于代码规范描述,哪些是错误的()。A、类总是使用驼峰格式命名,即所有单词首字母大写其余字母小写。B、除特殊模块__init__之外,模块名称都使用不带下划线的小写字母。C、不要滥用*args和**kwargsD、建议把所有方法都放在一个类中答案:D解析:以下关于代码规范描述,把所有方法都放在一个类中是错误的。4.下面关于词袋模型说法错误的是()。A、词袋模型使用一个多重集对文本中出现的单词进行编码B、词袋模型不考虑词语原本在句子中的顺序C、词袋模型可以应用于文档分类和检索,同时受到编码信息的限制D、词袋模型产生的灵感来源于包含类似单词的文档经常有相似的含义答案:C解析:文本处理基础知识。5.对数值型输出,最常见的结合策略是()。A、投票法B、平均法C、学习法D、排序法答案:B解析:对数值型输出,最常见的结合策略是平均法。6.以下有关计算机编程语言说法错误的是()。A、编程语言是用于书写计算机程序的语言;B、计算机语言可分为机器语言、汇编语言、高级语言;C、计算机能识别和执行所有编程语言写的程序;D、C/C++、pascal、javpython都属于高级编程语言;答案:C解析:只有机器语言才能被计算机直接识别,Python等高级语言源程序,不能直接运行,必须翻译成机器语言才能执行。7.Python中Statsmodel库和()库关系密切。A、NumpyB、ScipyC、jiebaD、Pandas答案:D解析:Statsmodels建立在pandas之上。8.以下属于考虑词语位置关系的模型有()。A、词向量模型B、词袋模型C、词的分布式表示D、TF-IDF答案:A解析:词向量模型考虑通过中间词预测邻近词,需要考虑词语顺序位置。9.建立一个词典[Alex,wants,to,go,play,football,shopping],下面的句子:Alexwantstogotoplayfootball可以用向量表示为()。A、[1,1,2,1,1,1,0]B、[1,1,2,1,1,1]C、[1,1,1,1,1,1,0]D、[1,1,1,1,1,1,1]答案:A解析:向量中每个元素代表该词在句中出现的次数,比如to在句中出现两次,所以第3个元素应为2。10.()是指给目标用户产生的错误或不准确的视觉感知,而这种感知与数据可视化者的意图或数据本身的真实情况不一致。A、视觉假象B、视觉认知C、视觉感知D、数据可视答案:A解析:视觉假象(VisualIllusion)是数据可视化工作中不可忽略的特殊问题。视觉假象是指给目标用户产生的错误或不准确的视觉感知,而这种感知与数据可视化者的意图或数据本身的真实情况不一致。视11.以下滤波器对图像中的椒盐噪声滤波效果最好的是()。A、中值滤波B、均值滤波C、最大值滤波D、最小值滤波答案:A解析:中值滤波对图像椒盐噪声的滤波效果最好。12.以下哪种方法不能成功创建一个数组()。A、a=np.array([1,2,3,4])B、b=np.zeros((3,4))C、c=np.ones(1,2,3,4)D、d=np.arange(10,30,5)答案:C解析:ones()函数必须传入一个数组类型的维度参数所表示的序列,如列表或元组,所以C无法成功创建数组,改为np.ones((1,2,3,4))就可以。13.MapReduce中,Shuffle操作的作用是()。A、合并B、排序C、降维D、分区答案:B解析:Shuffle—确保每个reduce()函数的输入都按键排序。14.一个MapReduce程序中的MapTask的个数由什么决定()A、输入的总文件数B、客户端程序设置的mapTask的个数C、FileInputFormat.getSplits(JobContextjob)计算出的逻辑切片的数量D、输入的总文件大小/数据块大小答案:C解析:MapReduce编程模型中的mapTask的并行度决定机制是由FileInputFormat.getSplits(JobContextjob)决定的。该方法的返回值是List<InputSplit>splits,这个结果集合中的每个InputSplit就是一个逻辑输入切片,每个逻辑输入切片在默认情况下是会要启动一个MapTask任务进行计算的,因此C对。15.对于SVM分类算法,待分样本集中的大部分样本不是支持向量,下列说法正确的是()。A、需要将这些样本全部强制转换为支持向量B、需要将这些样本中可以转化的样本转换为支持向量,不能转换的直接删除C、移去或者减少这些样本对分类结果没有影响D、以上都不对答案:C解析:支持向量机的一个重要性质:训练完成后,大部分的训练样本都不需保留,最终模型仅与支持向量有关。16.下列对于sigmoid函数的说法,错误的是()A、存在梯度爆炸的问题B、不是关于原点对称C、计算exp比较耗时D、存在梯度消失的问题答案:A解析:对于sigmoid函数,S型函数图像向两边的斜率逼近0,因此随着网络层增加,梯度消失比梯度爆炸更容易发生的多。17.决策树模型的规模应当是()。A、越复杂越好B、越简单越好C、适当限制其复杂程度D、尽可能利用所有特征答案:C解析:决策树模型的规模复杂可能产生过拟合,因此并非越复杂做好,应适当限制其复杂程度。18.在Windows系统中,关闭Python终端会话常用快捷键是()。A、Ctrl+CB、Ctrl+DC、Ctrl+ED、Ctrl+Z答案:D解析:在Windows系统中,关闭Python终端会话常用快捷键是Ctrl+Z。19.数据可视化的本质是()。A、将数据转换为知识B、将知识转换为数据C、将数据转换为信息D、将信息转换为智慧答案:A解析:可视化分析学模型认为,数据可视化的本质是将数据转换为知识,而不能仅仅停留在数据的可视化呈现层次之上,并提出从数据到知识的转换途径有两个:一是可视化分析,另一个是自动化建模。20.在HDFS中()是文件系统的工作节点。A、DataNodeB、ClientC、NameNodeD、Flume答案:A解析:数据节点(DataNode)是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据客户端或者是名称节点的调度来进行数据的存储和检索,并且向名称节点定期发送自己所存储的块的列表。每个数据节点中的数据会被保存在各自节点本地Linux文件系统中。21.图像中虚假轮廓的出现就其本质而言是()。A、图像的灰度级数不够多而造成的B、图像的空间分辨率不够高而造成的C、图像的灰度级数过多而造成的D、图像的空间分辨率过高而造成的答案:A解析:图像中的虚假轮廓最易在平滑区域内产生。平滑区域内灰度应缓慢变化,但当图像的灰度级数不够多时会产生阶跃。所以图像中虚假轮廓的出现就其本质而言是图像的灰度级数不够多而造成的,选A。22.对于数据3,3,2,3,6,3,10,3,6,3,2.①这组数据的众数是3;②这组数据的众数与中位数的数值不相等;③这组数据的中位数与平均数的数值不相等;④这组数据的平均数与众数的数值相等.其中正确结论的个数为()。A、1B、2C、3D、4答案:B解析:众数是指一组中出现次数最多的数,中位数是按顺序排列的一组数据中居于中间位置的数,平均值是各数值加总求和再除以总的个数。此题中众数为3,中位数为3,平均值为4,故①和③正确。23.文本信息往往包含客观事实和主观情感,对于文本的情感分析主要是识别文章中的主观类词语,其中()不适用于情感分析。A、表达观点的关键词B、表达程度的关键词C、表达情绪的关键词D、表达客观事实的关键词答案:D解析:D中表达客观事实的关键词是对事物的客观性描述,不带有感情色彩和情感倾向,即为客观性文本,不适用于情感分析。而主观性文本则是作者对各种事物的看法或想法,带有作者的喜好厌恶等情感倾向,如ABC中表观点、程度和情绪的关键词都是带有情感倾向的主观性文本,适用于情感分析。24.scipy.stats.moment函数的作用是()。A、随机变量的概率密度函数B、随机变量的累积分布函数C、随机变量的生存函数D、计算分布的非中心矩答案:D25.以下哪些算法是基于规则的分类器()。A、C4.5B、KNNC、NaiveBayesD、ANN答案:A解析:基于规则的分类器有决策树、随机森林、Aprior。26.scipy.stats模块中对随机变量进行随机取值的函数是()。A、rvsB、pdfC、cdfD、sf答案:A解析:stats模块中每个分布都rvs函数,对随机变量取值。27.以下不属于大数据重要意义的是()。A、大数据成为推动经济转型发展的新动力B、大数据成为重塑国家竞争优势的新机遇C、大数据成为提升政府治理能力的新途径D、大数据会增加经济发展的成本答案:D解析:大数据可以促进经济的发展,催生新的业态,在辅助商业的决策、降低运营成本、精准市场的营销方面都能发挥作用,进一步提升企业竞争力。28.Spark那个组件用于支持实时计算需求()。A、SparkSQLB、SparkStreamingC、SparkGraphXD、SparkMLLib答案:B解析:SparkStreaming用于实时处理。29.Mapreduce适用于()A、任意应用程序B、任意可在windowsservet2008上运行的程序C、可以串行处理的应用程序D、可以并行处理的应用程序答案:D解析:Mapreduce适用于并行处理的应用程序30.使用Numpy读取csv文件应使用以下哪个函数()。A、save()B、read_csv()C、loadtxt()D、open()答案:C解析:Numpy中设有读取csv文件的函数,使用np.loadtxt可读取csv文件。31.读代码,请写出程序正确的答案()。
#!/usr/bin/envpython3
N=100
Sum=0
Counter=1
Whilecounter<=n:
Sum+counter
Counter+=1
Print("1到%d之和为:%d"%(n,sum))A、结果:1到100之和为:5000B、结果:1到100之和为:0C、结果:1到100之和为:2050D、结果:1到100之和为:5020答案:B解析:循环中没有给sum赋值,故sum=032.以下哪个参数可以使数组计算沿指定轴进行应用操作()。A、axisB、inplaceC、dataD、dtype答案:A解析:通过指定axis参数,可以沿数组的指定轴应用操作。33.PageRank是一个函数,它对Web中的每个网页赋予一个实数值。它的意图在于网页的PageRank越高,那么它就()。A、相关性越高B、越不重要C、相关性越低D、越重要答案:D解析:PageRank认为,如果A页面有一个链接指向B页面,那就可以看作是A页面对B页面的一种信任或推荐。所以,如果一个页面的反向链接越多,再根据这些链接的价值加权越高,那搜索引擎就会判断这样的页面更为重要。34.机器学习中L1正则化和L2正则化的区别是()。A、使用L1可以得到稀疏的权值,使用L2可以得到平滑的权值B、使用L1可以得到平滑的权值,使用L2可以得到平滑的权值C、使用L1可以得到平滑的权值,使用L2可以得到稀疏的权值D、使用L1可以得到稀疏的权值,使用L2可以得到稀疏的权值答案:A解析:使用L1可以得到稀疏的权值,使用L2可以得到平滑的权值。35.下面哪个操作是窄依赖()A、joinB、filterC、groupD、sort答案:B解析:spark中常见的窄依赖操作包括map,filer,union,sample等,宽依赖的操作包括reducebykey,groupbykey,join等。36.数据科学中,人们开始注意到传统数据处理方式中普遍存在的“信息丢失”现象,进而数据处理范式从()转向()。A、产品在先,数据在后范式;数据在先,产品在后范式或无模式B、模式在先,产品在后范式;产品在先,模式在后范式或无模式C、数据在先,模式在后范式或无模式;模式在先,数据在后范式D、模式在先,数据在后范式;数据在先,模式在后范式或无模式答案:D解析:传统关系数据库中,先定义模式,然后严格按照模式要求存储数据;当需要调整模式时,不仅需要数据结构,而且还需要修改上层应用程序。然而,NoSQL技术则采用了非常简单的Key-Value等模式在后(SchemaLater)和无模式(Schemaless)的方式提升了数据管理系统的自适应能力。当然,模式在后(SchemaLater)和无模式(Schemaless)也会带来新问题,如降低了数据管理系统的数据处理能力。37.假如我们使用非线性可分的SVM目标函数作为最优化对象,我们怎么保证模型线性可分()。A、设C=1B、设C=0C、设C=无穷大D、以上答案都不正确答案:C解析:C无穷大保证了所有的线性不可分都是可以忍受的。38.假定你现在训练了一个线性SVM并推断出这个模型出现了欠拟合现象,在下一次训练时,应该采取下列什么措施()A、增加数据点B、减少数据点C、增加特征D、减少特征答案:C解析:欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。可通过增加特征解决。39.两个变量相关,它们的相关系数r可能为0。这句话是否正确()A、正确B、错误答案:A解析:Pearson相关系数r=0,这表示两个变量间不存在线性相关关系。40.一幅数字图像是()。A、一个观测系统B、一个由许多像素排列而成的实体C、一个2-D数组中的元素D、一个3-D空间中的场景答案:C解析:数字图像,又称数码图像或数位图像,是二维图像用有限数字数值像素的表示。41.执行以下代码段
Print(bool('False'))
Print(bool())
时,输出为()。A、TrueTrueB、TrueFalseC、FalseTrueD、FalseFalse答案:B解析:这里‘False’只是字符串42.以下说法正确的是:()。1.一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的2.如果增加模型复杂度,那么模型的测试错误率总是会降低3.如果增加模型复杂度,那么模型的训练错误率总是会降低A、1B、2C、3D、1and3答案:C解析:如果增加模型复杂度,那么模型的测试错误率总是会降低,训练错误率可能降低,也可能增高。43.从网络的原理上来看,结构最复杂的神经网络是()。A、卷积神经网络B、长短时记忆神经网络C、GRUD、BP神经网络答案:B解析:从网络的原理上来看,结构最复杂的神经网络是LSTM。44.txt=open(filename)返回的是()。A、变量B、常数C、文件内容D、文件对象答案:D解析:txt=open(filename)返回的是文件对象。45.pipinstallscipy==1.7与pipinstallscipy两者的区别是()。A、两者作用一样B、前者安装指定版本的包,后者安装最新版本的包C、前者安装指定版本的包,后者安装随机版本的包D、以上答案都不正确答案:B解析:pipinstallscipy==1.7与pipinstallscipy两者的区别是前者安装指定版本的包,后者安装最新版本的包。46.若arr=np.array([[1,2,3,],[4,5,6,],[7,8,9,]]),则arr[:2,1:]的输出为()。A、([[2,3],[5,6]])B、([[1][6]])C、([[5,6],[8,9]])D、([[1,2],[4,5]])答案:A解析:索引时如果不指定冒号旁边的数值,则默认从开头开始或至结尾结束。47.以下不能创建一个字典的语句是()。A、dict1={}B、dict2={3:5}C、dict3={[1,2,3]:“uestc”}D、dict4={(1,2,3):“uestc”}答案:C解析:字典key不可以是可变类型48.LSTM中,(__)的作用是确定哪些新的信息留在细胞状态中,并更新细胞状态。A、输入门B、遗忘门C、输出门D、更新门答案:A解析:LSTM中,输入门的作用是确定哪些新的信息留在细胞状态中,并更新细胞状态;遗忘门决定我们会从细胞状态中丢弃什么信息;输出门确定输出。49.Matplotlib的核心是面向()。A、过程B、对象C、结果D、服务答案:B解析:Matplotlib的核心是面向对象的。如果需要更多控制和自定义图,我们建议直接使用对象。50.正确导入日期模块的语句()。A、importdateB、importdatetimeC、importtimeD、importdate_time答案:B解析:导入日期模块的语句是importdatetime51.诊断性分析主要采取的分析方法是()和()。A、关联分析和因果分析法B、关联分析和分类分析法C、关联分析和运筹学D、因果分析和分类分析法答案:A解析:诊断性分析主要关注过去,回答为什么发生,主要采用关联分析法和因果分析法。52.为了降低MapReduce两个阶段之间的数据传递量,一般采用()函数对map阶段的输出进行处理。A、sort()B、biner()C、join()D、gather()答案:B解析:为了降低数据传递量,采用biner()函数对map()函数的数据结果进行合并处理。53.IDLE环境的退出命令是()。A、exit()B、回车键C、close()D、esc()答案:A解析:IDLE使用exit()退出环境。54.反转二维数组arr的行arr=np.arange(9).reshape(3,3)A、arr[::-1]B、arr[::-2]C、arr[::1]D、arr[::0]答案:A解析:::-1进行反转。55.要弥补缺失值,可以使用均值,中位数,众数等等,preprocessing模块中那个方法可以实现()。A、preprocessing.Imputer()B、preprocessing.PolynomialFeatures()C、preprocessing.FunctionTransformer()D、preprocessing.Binarizer()答案:A解析:要弥补缺失值,可以使用均值,中位数,众数等等,preprocessing中Imputer方法可以实现。56.在当前图形上添加一个子图需要用到哪个方法()。A、pyplot.stackplot()B、pyplot.suptitle()C、pyplot.subplot()D、pyplot.imshow()答案:C解析:matplotlib.pyplot.subplot()的作用是在当前图形上添加一个子图。57.下面哪个是满足期望输出的代码()。
Arr=np.array([0,1,2,3,4,5,6,7,8,9])
期望输出:array([1,3,5,7,9])A、arr%2==1B、arr[arr%2==1]C、arr[arr/2==1]D、arr[arr//2==1]答案:B解析:题中的结果是选取了原数组的奇数,先使用数组进行逻辑判断得到一个逻辑数组,然后以其作为索引选取数据。58.A=np.array([[1,1],[0,1]]),B=np.array([[2,0],[3,4]]),A*B的结果是()。A、[[2,0],[0,4]]B、[[5,4],[3,4]]C、[[3,4],[5,4]]D、无法计算答案:A解析:Numpy数组的乘法计算分为两种:一种是矩阵正常相乘,代码实现为AB或A.dot(B),一种是每个元素对应相乘,表现方式为A*B,本题所问的是后一种。59.下列哪种算法可以用神经网络构建?(__)1.K-NN最近邻算法2.线性回归3.逻辑回归A、1and2B、2and3C、1,2and3D、Noneoftheabove答案:B解析:KNN是关于距离的学习算法,没有任何参数,所以无法用神经网络构建。60.matplotlib中的调用堆积折线图的函数是什么()。A、step()B、stackplot()C、plusplot()D、hist()答案:B解析:stackplot用于绘制堆叠折线图。61.信息增益对可取值数目()的属性有所偏好,增益率对可取值数目()的属性有所偏好。A、较高,较高B、较高,较低C、较低,较高D、较低,较低答案:B解析:信息增益准则对可取值数目较多的属性有所偏好,增益率对可取值数目较少的属性有所偏好。62.数组分割使用以下哪个函数()。A、vstack()B、hstack()C、split()D、view()答案:C解析:np.split()的作用是把一个数组从左到右按顺序切分。63.关于基本数据的元数据是指()。A、基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息B、基本元数据包括与企业相关的管理方面的数据和信息C、基本元数据包括日志文件和简历执行处理的时序调度信息D、基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息答案:D解析:元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(dataaboutdata)。64.标准BP算法的目标是使训练集上的()为最小。A、累积方差B、累积误差C、累积协方差D、累积偏差答案:B解析:标准BP算法的目标是使训练集上的累积误差最小。65.假负率是指()。A、正样本预测结果数/正样本实际数B、被预测为负的正样本结果数/正样本实际数C、被预测为正的负样本结果数/负样本实际数D、负样本预测结果数/负样本实际数答案:B解析:假负率是指被预测为负的正样本结果数/正样本实际数。66.bootstrap数据是什么意思()。A、有放回地从总共M个特征中抽样m个特征B、无放回地从总共M个特征中抽样m个特征C、有放回地从总共N个样本中抽样n个样本D、无放回地从总共N个样本中抽样n个样本答案:C解析:自助来样法(bootstrapsampling),给定包含N个样本的数据集,我们先随机取出一个样本放入采样集中,再把该样本放回初始数据集,使得下次采样时该样本仍有可能被选中,这样经过n次随机采样操作,我们得到含n个样本的采样集。67.在编写程序时经常要对某一个条件进行判断,“条件”只有“成立”或“不成立”两种结果。成立用“True”表示,不成立用“False”表示。下列关系表达式中,结果为“True”的是()。A、2>5B、3>=3C、1!=1D、6==5答案:B解析:>=可表示为>或=。68.划分聚类算法是一种简单的较为基本的重要聚类方法。它的主要思想是通过将数据点集分为()个划分,并使用重复的控制策略使某个准则最优化,以达到最终的结果A、DB、KC、ED、F答案:B解析:划分聚类算法K-Means将数据点集分为K个子集。69.以下代码的输出结果为()。
Importnumpyasnp
A=np.array([0.25,1.33,1,100])
Print(np.reciprocal(a))A、[-10.-9.-8.]B、[-7.-6.-5.]C、[0.251.331.100.]D、[4.0.75187971.0.01]答案:D解析:np.reciprocal()取倒数。70.有N个样本,一般用于训练,一般用于测试。若增大N值,则训练误差和测试误差之间的差距会如何变化()。A、增大B、减小C、无法确定D、无明显变化答案:B解析:增加数据,能够有效减小过拟合,减小训练样本误差和测试样本误差之间的差距。71.Numpy简单介绍,不正确的是()。A、Numpy(NumericalPython)是Python语言的一个扩展程序库B、支持大量的维度数组与矩阵运算C、针对数组运算提供大量的数学函数库D、Numpy不开放源代码答案:D解析:Numpy是开源代码库。72.当相关系数r=0时,说明()。A、现象之间相关程度较小B、现象之间完全相关C、现象之间无直线相关D、现象之间完全无关答案:C解析:相关系数r刻画了两个变量之间的相关程度,|r|小于等于1,|r|越接近1,则表示两个变量相关度越高,反之相关度越低。相关系数r=0只能说明线性无关,不能说明完全无关。73.获取两个PythonNumpy数组之间的公共项()。
A=np.array([1,2,3,2,3,4,3,4,5,6])
B=np.array([7,2,10,2,7,4,9,4,9,8])
期望输出:array([2,4])A、intersect1d(a,b)B、ersect1d(a,b)C、erset(a,b)D、ersect1d(a)答案:B解析:intersect1d()返回二者的交集并排序。74.大数据中的小数据可能缺失、冗余、存在垃圾数据不影响大数据的可信数据,体现大数据“涌现”的()表现形式。A、价值涌现B、隐私涌现C、质量涌现D、安全涌现答案:C解析:大数据的“质量涌现”是指大数据中的成员小数据可能有质量问题(不可信的数据),如缺失、冗余、垃圾数据的存在,但不影响大数据的质量(可信的数据)。75.以下不属于Python内置模块的是()。A、sysB、jsonC、osD、image答案:D解析:image属于第三方库。76.Numpy的数组中Ndarray对象属性描述错误的是()。A、Ndarray.dtypeNdarray对象中每个元素的大小,以字节为单位B、Ndarray.flagsNdarray对象的内存信息C、Ndarray.realNdarray元素的实部D、Ndarray.imagNdarray元素的虚部答案:A解析:dtype是数组元素的类型。77.当图像通过信道传输时,噪声一般与()无关。A、信道传输的质量B、出现的图像信号C、是否有中转信道的过程D、图像在信道前后的处理答案:B解析:当图像通过信道传输时,噪声一般与出现的图像信号无关,这种独立于信号的退化被称为加性噪声。信道传输质量、中转信道都会影响图像质量,而图像在信道前后的预处理和后处理也会产生噪声。78.在留出法、交叉验证法和自助法三种评估方法中,()更适用于数据集较小、难以划分训练集和测试集的情况。A、留出法B、交叉验证法C、自助法D、留一法答案:C解析:自助法更适用于数据集较小、难以划分训练集和测试集的情况。79.在数据科学中,通常可以采用()方法有效避免数据加工和数据备份的偏见。A、A/B测试B、训练集和测试集的划分C、测试集和验证集的划分D、图灵测试答案:A解析:A/B测试是一种对比试验,准确说是一种分离式组间试验,在试验过程中,我们从总体中随机抽取一些样本进行数据统计,进而得出对总体参数的多个评估。A/B测试有效避免数据加工和准备偏见以及算法/模型选择偏见具有重要借鉴意义。80.下列不属于深度学习内容的是(__)。A、深度置信网络B、受限玻尔兹曼机C、卷积神经网络D、贝叶斯学习答案:D解析:贝叶斯学习属于传统的机器学习算法。81.关于数据分析,下列说法正确的是()。A、描述性分析和预测性分析是对诊断性分析的基础B、断性分析分析是对规范性分析的进一步理解C、预测性分析是规范性分析的基础D、规范性分析是数据分析的最高阶段,可以直接产生产业价值答案:C解析:在数据分析中,流程分为以下方式:描述性分析、诊断性分析、预测性分析、规范性分析。82.增加卷积核的大小对于改进卷积神经网络的效果是必要的吗()A、是的,增加卷积核尺寸一定能提高性能B、不是,增加核函数的大小不一定会提高性能答案:B解析:增加核函数的大小不一定会提高性能。这个问题在很大程度上取决于数据集。83.关于Python包,以下说法正确的是()。A、利用pip包管理器更新已安装包的代码是:pipupdate包名B、单独导入包名即可导入包中所包含的所有子模块C、下载安装、更新、查看、移除包等行为可以在命令行中进行,但不可以在Jupyternotebook中进行D、下载安装、更新、查看、移除包等行为既可以用pip工具,也可以用conda工具答案:D解析:pip更新包指令为pipinstall--upgradePackage;单独导入包之后访问子模块需要用“模块.子模块”方式;在Jupyter中也可以通过指令管理包。84.三维以上数组是以()的形式输出的。A、按行输出B、按矩阵输出C、按矩阵列表输出D、按字符串输出答案:C解析:一维数组输出为行,二维数组输出为矩阵,三维数组输出位矩阵列表。85.从连续图像到数字图像需要()。A、图像灰度级设定B、图像分辨率设定C、确定图像的存储空间D、采样和量化答案:D解析:数字图像又称离散图像,连续图像到数字图像需要离散化,离散化是通过采样和量化实现的。86.有数组arr=Numpy.array([1,2,3,4]),执行arr.dtype后输出结果为()。A、int32B、int64C、float32D、float64答案:A解析:从列表中创建时,Numpy会自动判断元素的类型从而确定数组的类型,此处都为整数则确定为int32,如果将元素1改为1.0,则会确定为float64。87.以下分割方法中不属于区域算法的是()。A、分裂合并B、阈值分割C、区域生长D、边缘检测答案:D解析:边缘检测算法是标识数字图像中亮度变化明显的点,不属于区域算法发范畴。88.假设我们已经在ImageNet数据集(物体识别)上训练好了一个卷积神经网络。然后给这张卷积神经网络输入一张全白的图片。对于这个输入的输出结果为任何种类的物体的可能性都是一样的,对吗()。A、对的B、不知道C、看情况D、不对答案:D解析:不对,神经网络对于未知的数据不是均匀预测的,会对莫一种或多种类别存在偏向。89.以下哪个不属于数据治理的内容。A、理解自己的数据B、行为规范的制定C、岗位职责的定义D、获得更多的数据答案:D解析:获得更多的数据不属于数据治理。90.Python安装扩展库常用的是()工具。A、pyinstallB、pipC、popD、post答案:B91.数据故事话的‘情景’不包括()。A、还原情景B、统计情景C、移植情景D、虚构情景答案:B解析:“数据的故事化描述(Storytelling)”是指为了提升数据的可理解性、可记忆性及可体验性,将“数据”还原成关联至特定的“情景”的过程。可见,数据故事化也是数据转换的表现形式之一,其本质是以“故事讲述”的方式展现“数据的内容”。数据故事化中的“情景”,可以是:1)还原情景:还原数据所计量和记录信息时的“原始情景”;2)移植情景:并非对应信息的原始情景,而是将数据移植到另一个真实发生的情景(如目标用户比较熟悉的情景)之中。3)虚构情景:数据的故事化描述中所选择的情景并非为真实存在的情景,而是根据讲述人的想象力设计出来的“虚构情景”。92.Hadoop生态系统中,HBase是一种()。A、分布式文件系统B、数据仓库C、实时分布式数据库D、分布式计算系统答案:C解析:HBase是一个面向列的实时分布式数据库。93.以下代码的输出结果为()。
Importnumpyasnp
A=np.arange(9)
B=np.split(a,3)
Print(b)A、[012345678]B、[array([0,1,2]),array([3,4,5]),array([6,7,8])]C、[array([0,1,2,3]),array([4,5,6]),array([7,8])]D、没有正确答案答案:B解析:split将原数组等分成三个数组。94.为了观察测试Y与X之间的线性关系,X是连续变量,使用下列()比较适合。A、散点图B、柱形图C、直方图D、以上答案都不正确答案:A解析:散点图反映了两个变量之间的相互关系,在测试Y与X之间的线性关系时,使用散点图最为直观。95.下列哪个用于说明在RDD上执行何种计算()。A、分区;B、算子;C、日志;D、数据块;答案:B解析:算子是Spark中定义的函数,用于对RDD中的数据进行操作、转换和计算。96.情感信息归纳常见的存在形式是()。A、语料库B、情感文摘C、情感评论D、情感倾向答案:B解析:文本处理基础知识97.平滑图像()处理可以采用RGB彩色模型。A、直方图均衡化B、直方图均衡化C、加权均值滤波D、中值滤波答案:C解析:平滑图像处理可以采用RGB彩色加权均值滤波模型。98.()计算框架源自一种分布式计算模型,其输入和输出值均为“键-值对”结构。A、MahoutB、MapReduceC、SparkD、Sqoop答案:B解析:MapReduce定义99.下列关于HDFS的描述正确的是()A、如果NameNode宕机,SecondaryNameNode会接替它使集群继续工作B、HDFS集群支持数据的随机读写C、NameNode磁盘元数据不保存Block的位置信息D、DataNode通过长连接与NameNode保持通信答案:C解析:SecondaryNameNode并不是namenode节点的备份。所以A错。;存储在HDFS集群上的数据是不支持随机修改和删除的,只支持追加,所以B错;namenode和datanode之间的通信是基于一种心跳机制。该机制不是长连接。是短连接形式。每次发送一个数据包(自身状态信息+数据块信息)即可,所以D错。100.以下选项中,输出结果是False的是()。A、>>>5isnot4B、>>>5!=4C、>>>False!=0D、>>>5is5答案:C解析:False在内置表达式中为0。101.在抽样估计中,随着样本容量的增大,样本统计量接近总体参数的概率就越大,这一性质称为()A、无偏性B、有效性C、及时性D、一致性答案:D解析:一致性是指随着样本容量的增大,样本统计量接近总体参数的概率就越大,对于给定的偏差控制水平,两者间偏差高于此控制水平,两者间偏差高于此控制水平的可能性越小。102.Scikit-Learn中()可以实现评估回归模型。A、accuracy_scoreB、mean_squared_errorC、f1_scoreD、auc答案:B解析:mean_squared_error均方误差是用来评估回归模型的指标,其他三个都是评估分类模型的指标。103.下列场景中最有可能应用人工智能的是()。A、刷脸办电B、舆情分析C、信通巡检机器人D、以上答案都正确答案:D解析:人工智能应用的范围很广,包括:计算机科学,金融贸易,医药,诊断,重工业,运输,远程通讯,在线和电话服务,法律,科学发现,玩具和游戏,音乐等诸多方面,刷脸办电、舆情分析、信通巡检机器人当然都能很好的应用到人工智能,选D。104.过滤式特征选择与学习器(),包裹式特征选择与学习器()。A、相关相关B、相关不相关C、不相关相关D、不相关不相关答案:C解析:过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。包裹式特征选择把最终将要使用的学习器的性能作为特征于集的评价准则。105.()是数据库管理系统运行的基本工作单位。A、事务B、数据仓库C、数据单元D、数据分析答案:A解析:在关系数据库中,事务(Transaction)是保证数据一致性的重要手段,可以帮助用户维护数据的一致性。事务是用户定义的一个数据库操作序列,这些操作要么全做,要么全不做,是一个不可分割的工作单位。106.以下输出的结果正确的是()。
Importnumpyasnp
X=np.arange(32).reshape((8,4))
Print(x[[-4,-2,-1,-7]])A、[[16171819][24252627][28293031][4567]]B、[[16171819][891011][4567][28293031]C、[[891011][4567]]D、error答案:A解析:二维数组只传入一个列表进行索引时,是对行进行选取。107.DAGScheduler的作用是什么()A、负责分配任务;B、负责调度Worker的运行;C、负责创建执行计划;D、负责清理执行完毕的任务;答案:C解析:Scheduler模块分为两个部分DAGScheduler和TaskScheduler。DAGScheduler负责创建执行计划;TaskScheduler负责分配任务并调度Worker的运行。108.HBase使用一个()节点协调管理一个或多个regionserver从属机。A、namenode;B、datanode;C、jobtracker;D、master;答案:D解析:Hbase中由一个Master节点负责协调管理一个或多个RegionServer从属机109.数据安全不只是技术问题,还涉及到()。A、人员问题B、管理问题C、行政问题D、领导问题答案:B解析:数据安全不只是技术问题,还涉及到管理问题。110.关于表述数据可视化在数据科学中重要地位说法中,下列不正确的是()。A、视觉是人类获得信息的最主要途径B、数据可视化处理可以洞察统计分析无法发现的结构和细节C、数据可视化处理结果的解读对用户知识水平的要求较高D、可视化能够帮助人们提高理解与处理数据的效率答案:C解析:视觉是人类获得信息的最主要途径,超过50%的人脑功能用于视觉信息的处理。数据可视化处理可以洞察统计分析无法发现的结构和细节。数据可视化处理结果的解读对用户知识水平的要求较低。可视化能够帮助人们提高理解与处理数据的效率。111.以下算法中不属于基于深度学习的图像分割算法是()。A、FCNB、deeplabC、Mask-RCNND、kNN答案:D解析:KNN为传统机器学习方法并非深度学习方法。112.下列关于文本分类的说法不正确的是()A、文本分类是指按照预先定义的主题类别,由计算机自动地为文档集合中的每个文档确定一个类别B、文本分类大致可分为基于知识工程的分类系统和基于机器学习的分类系统C、文本的向量形式一般基于词袋模型构建,该模型考虑了文本词语的行文顺序D、构建文本的向量形式可以归结为文本的特征选择与特征权重计算两个步骤答案:C解析:词袋模型是指将所有词语装进一个袋子里,不考虑其词法和语序的问题,即每个词语都是独立的,所以该模型没有考虑文本词语的行文顺序,C错误,选C。113.关于函数的关键字参数使用限制,以下选项中描述错误的是()。A、关键字参数必须位于位置参数之前B、不得重复提供实际参数C、关键字参数必须位于位置参数之后D、关键字参数顺序无限制答案:A解析:关键字参数必须位于位置参数之后。114.Apriori算法的核心思想是()。A、通过频繁项集生成和情节的向下封闭检测两个阶段来挖掘候选集B、通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集C、数据集中包含该项集的数据所占数据集的比例,度量一个集合在原始数据中出现的频率D、若某条规则不满足最小置信度要求,则该规则的所有子集也不满足最小置信度要求答案:B解析:Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。115.与生成方法、半监督SVM、图半监督学习等基于单学习机器利用未标记数据不同,基于分歧的方法(disagreement-basedmethods)使用多学习器,而学习器之间的分歧(disagreement)对未标记数据的利用至关重要。()是此类方法的重要代表。A、协同训练B、组合训练C、配合训练D、陪同训练答案:A解析:与生成方法、半监督SVM、图半监督学习等基于单学习机器利用未标记数据不同,基于分歧的方法(disagreement-basedmethods)使用多学习器,而学习器之间的分歧(disagreement)对未标记数据的利用至关重要。协同是此类方法的重要代表,它很好地利用了多视图的相容互补性。116.kNN最近邻算法在什么情况下效果较好()。A、样本较多但典型性不好B、样本较少但典型性好C、样本呈团状分布D、样本呈链状分布答案:B解析:K近邻算法主要依靠的是周围的点,因此如果样本过多,则难以区分,典型性好的容易区分。117.数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的()、不可恢复,如数据销毁软件、硬盘消磁机、硬盘粉碎机等。A、暂时隔离B、暂时删除C、永久删除D、不作处理答案:C解析:数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的永久删除、不可恢复,如数据销毁软件、硬盘消磁机、硬盘粉碎机等。118.以下代码的输出结果为()。
Importnumpyasnp
A=np.array([[1,2,3],[4,5,6]])
Print(np.append(a,[7,8,9]))A、[[123][456]]B、[123456789]C、[[123][456][789]]D、[[123555][456789]]答案:B解析:append()函数在没有指定轴进行操作时,默认展平数组。119.对于一个分类任务,如果开始时神经网络的权重不是随机赋值的,而是都设成0,下面哪个叙述是正确的()A、其他选项都不对B、没啥问题,神经网络会正常开始训练C、神经网络可以训练,但是所有的神经元最后都会变成识别同样的东西D、神经网络不会开始训练,因为没有梯度改变答案:C解析:神经网络可以训练,但是所有的神经元最后都会变成识别同样的东西。120.time库的time.mktime(t)函数的作用是()。A、将当前程序挂起secs秒,挂起即暂停执行B、将struct_time对象变量t转换为时间戳C、返回一个代表时间的精确浮点数,两次或多次调用,其差值用来计时D、根据format格式定义,解析字符串t,返回struct_time类型时间变量答案:B解析:mktime(t)函数的作用是将结构化时间变量t转换为时间戳。121.以下()不是NoSQL数据库。A、MongoDBB、BigTableC、HBaseD、Access答案:D解析:NoSQL是指那些非关系型的、分布式的、不保证遵循ACID原则的数据存储系统。典型的NoSQL产品有DangaInteractive的Memcached、10gen的MongoDB、Facebook的Cassandra、Google的BigTable及其开源系统HBase、Amazon的Dynamo、Apache的TokyoCabinet、CouchDB和Redis等。122.关于层次聚类算法:(1)不断重复直达达到预设的聚类簇数(2)不断合并距离最近的聚类簇(3)对初始聚类簇和相应的距离矩阵初始化(4)对合并得到的聚类簇进行更新。正确的执行顺序为()。A、1234B、1324C、3241D、3412答案:C解析:层次聚类算法的过程是:
对初始聚类簇和相应的距离矩阵初始化;不断合并距离最近的聚类簇;对合并得到的聚类簇进行更新;不断重复直达达到预设的聚类簇数。123.执行以下代码段
Motorcycles=['honda','yamaha','suzuki']
Motorcycles.append('ducati')
Motorcycles.pop(1)
Print(motorcycles)
时,输出为()。A、['honda','yamaha','suzuki']B、['yamaha','suzuki','ducati']C、['honda','yamaha','suzuki','ducati']D、['honda','suzuki','ducati']答案:D解析:pop出第一位置的元素124.Windows系统下安装Matplotlib的命令是()。A、pythonpipinstallmatplotlibB、python-mpipinstallmatplotlibC、sudoapt-getinstallpython-matplotlibD、sudopython-mpipinstallmatplotlib答案:B解析:A选项缺少参数’-m’,C选项是Linux系统下安装命令,D选项是MacOSX系统下安装命令。125.以下()属于DMM(数据管理成熟度模型)中的关键过程域“数据战略”。A、数据战略制定B、业务术语表C、数据质量评估D、过程质量保障答案:A解析:数据战略制定属于DMM(数据管理成熟度模型)中的关键过程域“数据战略”。126.深度学习是当前很热门的机器学习算法,在深度学习中,涉及到大量的矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m∗n,n∗p,p∗q,且m<n<p<q,以下计算顺序效率最高的是(__)。A、(AB)CB、AC(B)C、A(BC)D、所有效率都相同答案:A解析:B选项中A的列数与C的行数不相等,无法相乘,B选项排除。A选项需要的乘法次数为m*n*p+m*p*q,C选项需要的乘法次数为n*p*q+m*n*q,由于m<n<p<q,显然A运算次数更少。127.ordinalencoder将属性转化为()。A、独热编码B、附带特性的数字C、二进制编码D、ASCII码答案:B解析:ordinalencoder的作用是数值化,但是不增加列数。128.下列关于大数据的分析理念的说法中,错误的是()。A、在数据基础上倾向于全体数据而不是抽样数据B、在分析方法上更注重相关分析而不是因果分析C、在分析效果上更追求效率而不是绝对精确D、在数据规模上强调相对数据而不是绝对数据答案:D解析:在大数据的分析理念中,数据规模上强调绝对数据而不是相对数据。129.以下哪个是正确的运行结果()。
Importnumpyasnpa=np.logspace(0,9,10,base=2)
Print(a)A、[1357]B、[.28.256.512.]C、[0123456789]D、[010]答案:B解析:np.logspace()计算时可以先求相同参数的linspace结果,然后对每个元素做以base参数为底的幂运算。此处为以2为底,依此做0-9的幂运算。130.np.exp(x).round(5)的结果是2.71828,x的值是()。A、0B、1C、2D、2.71828答案:B解析:e的1次方。131.以下关于图像的平滑处理错误的说法是()。A、图像的平滑处理是指在尽量保留原有信息的情况下,过滤掉图像内部的噪音B、图像平滑处理会对图像中与周围像素点的像素值差异较大的像素点进行处理,将其值调整为周围像素点像素值的近似值C、讲过平滑处理后图像质量会下降D、以上答案都正确答案:C解析:图像的平滑处理不会损坏图像的轮廓及边缘等重要信息,使得图像清晰视觉效果好。132.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:()。A、有放回的简单随机抽样B、无放回的简单随机抽样C、分层抽样D、渐进抽样答案:D解析:在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是渐进抽样。133.数据安全技术保护与信息系统“三同步”原则不包括以下哪项()。A、同步规划B、同步建设C、同步使用D、同步运维答案:D解析:数据安全技术保护与信息系统包含同步规则、同步建设、同步适用三项原则。134.如果要将读写位置移动到文件开头,需要使用的命令是()。A、closeB、seek(0)C、truncateD、write('stuff')答案:B解析:seek(0)指移动指针到0位置即开头。135.以下代码的输出结果为()。
Importnumpyasnp
A=np.array([[10,7,4],[3,2,1]])
Print(np.percentile(a,50))A、[[1074][321]]B、3.5C、[]D、[7.2.]答案:B解析:percentile是百分位数,此处是50%,即中位数,因为数组个数为偶数个,因此中位数为3和4的均值。136.a=np.array([[0,0,0],[10,10,10],[20,20,20],[30,30,30]])
B=np.array([1,2,3]),a+b的输出结果为()。A、[[123][101010][202020][303030]]B、[[123][000][101010][202020][303030]]C、[[123][111213][212223][313233]]D、无法计算答案:C解析:在Numpy中两个维度不同的数组进行计算时会自动触发Numpy的广播机制,原公式会转换为[[1,2,3],[1,2,3],[1,2,3],[1,2,3]]+[[0,0,0],[10,10,10],[20,20,20],[30,30,30]]。137.()将观测值分为相同数目的两部分,当统计结果为非对称分布时,经常使用它。A、众数B、标准差C、中位数D、均值答案:C解析:中位数是指一组数据排序后处于中间位置的变量值。138.关于OLAP的特性,下面正确的是:(1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性()A、(1)(2)(3)B、(2)(3)(4)C、(1)(2)(3)(4)D、(1)(2)(3)(4)(5)答案:D解析:OLAP具有快速性、可分析性、多维性、信息性、共享性等特征。139.()是指针对用户非常明确的数据查询和处理任务,以高性能和高吞吐量的方式实现大众化的服务,是数据价值最重要也是最直接的发现方式。A、数据服务B、数据分析C、数据治理D、数据应用答案:A解析:数据服务指针对用户非常明确的数据查询和处理任务,以高性能和高吞吐量的方式实现大众化的服务,是数据价值最重要也是最直接的发现方式。140.数据资产维护是指为保证数据质量,对数据进行()等处理的过程。A、更正B、删除C、补充录入D、以上答案都正确答案:D解析:数据资产维护是指为保证数据质量,对数据进行更正、删除、补充录入等处理的过程。141.SparkJob默认的调度模式是()。A、FIFOB、FAIRC、无D、运行时指定答案:A解析:Spark中的调度模式主要有两种FIFO和FAIR。默认情况下Spark的调度模式是FIFO(先进先出)。142.以下可以应用关键词提取的是()。A、文献检索B、自动文摘C、文本聚类/分类D、以上答案都正确答案:D解析:在自然语言处理领域,处理海量的文本文件最关键的是要把用户最关心的问题提取出来。143.()是实现数据战略的重要保障。A、数据管理B、数据分析C、数据治理D、数据规划答案:C解析:从DMM模型可以看出,数据治理是实现数据战略的重要保障。数据管理的是指通过管理“数据”实现组织机构的某种业务目的。然而,数据治理则指如何确保“数据管理”的顺利、有效、科学地完成。144.ggplot2的核心理念是()。A、绘图与数据分离B、结构与数据分离C、绘图与结构分离D、绘图与数据和结构分离答案:A解析:ggplot2的核心理念是将绘图与数据分离,数据相关的绘图与数据无关的绘图分离。145.最早被提出的循环神经网络门控算法是什么()A、长短期记忆网络B、门控循环单元网络C、堆叠循环神经网络D、双向循环神经网络答案:A解析:LSTM是最早被提出的循环神经网络门控算法。长短期记忆网络(Long-ShortTermMemory,LSTM)论文首次发表于1997年11月15日。门控循环单元网络(GRU)论文发表于2014年。堆叠循环神经网络(SRNN)论文发表于2017年。双向循环神经网络(Bidirectionalrecurrentneuralnetworks)发表于1997年11月。146.在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题()。A、增加训练集量B、减少神经网络隐藏层节点数C、删除稀疏的特征D、SVM算法中使用高斯核/RBF核代替线性核答案:D解析:神经网络减少隐藏层节点,就是在减少参数,只会将训练误差变高,不会导致过拟合。D选项中SVM高斯核函数比线性核函数模型更复杂,容易过拟合。147.下列的哪种方法可以用来降低深度学习模型的过拟合问题()。
1增加更多的数据
2使用数据扩增技术(dataaugmentation)
3使用归纳性更好的架构
4正规化数据
5降低架构的复杂度A、145B、123C、1345D、所有项目都有用答案:D解析:增多数据、数据扩增、正规化数据、选择归纳性更好、复杂度更低的架构均可以用来降低深度学习模型的过拟合问题。148.神经网络感知机只有(__)神经元进行激活函数处理,即只拥有一层功能神经元。A、输出层B、输入层C、感知层D、网络层答案:A解析:神经网络感知机只有输入层神经元进行激活函数处理,即只拥有一层功能神经元。149.下列不属于transform操作的是()A、mapB、filterC、sampleD、count答案:D解析:Transformation常用函数为map、filter、flatMap、sample、union、join等。150.下列方法中,用于获取当前目录的是()。A、openB、writeC、GetpwdD、read答案:C解析:用于获取当前目录的方法是Getcwd。151.Scipy中计算偏度的函数是哪个()。A、scipy.stats.skewtest()B、scipy.stats.norm.rvs()C、scipy.stats.kurtosis()D、scipy.stats.poisson.rvs()答案:A解析:利用stats.skewtest()计算偏度,有两个返回值,第二个为p-value,即数据集服从正态分布的概率(0~1)。152.相对于HadoopMapReduce1.0,Spark的特点不包括()。A、速度快B、并发多C、通用性D、易用性答案:B解析:相较于HadoopMapReduce,Spark的特点为速度快、通用性和易用性。153.python语言定义的class的初始化函数的函数名是()。A、initB、__init__C、__initD、init__答案:B解析:Python语言定义的class的初始化函数的函数名是__init__。154.关于欠拟合(under-fitting),()是正确的。A、训练误差较大,测试误差较小B、训练误差较小,测试误差较大C、训练误差较大,测试误差较大D、训练误差较小,测试误差较小答案:C解析:欠拟合是指对训练样本的一般性质尚未学好,因此训练误差和测试误差均较大155.数组拼接的函数不包括一下哪种()。A、append()B、insert()C、vstack()D、where()答案:D解析:append()函数可向数组横纵坐标添加数组,insert()函数可向一维数组后添加数据,vstack()函数可以进行数组拼接,where()函数是对数据进行条件筛选。156.下列哪项不是HDFS的设计目标()。A、流式数据访问B、大规模数据集C、移动计算D、"多次写入多次读取"的文件访问模型答案:D解析:HDFS的设计以“一次写入、多次读取”为主要应用场景,因此D错。157.如果python程序中包括零运算,解释器将在运行时抛出()错误信息()。A、NameErrorB、FileNotFoundErrorC、SyntaxErrorDZeroD、ivisionError答案:D解析:NameError为找不到变量名报错;FileNotFoundError为文件不存在报错;SyntaxError为语法报错;ZeroDivisionError为数学除零运算报错。158.在python3中以下安装第三方模块命令正确的是()。A、pip-installsklearnB、pipinstallsklearnC、pip–upgragesklearnD、pip-isklearn答案:B解析:pip安装第三方包的指令为:pipinstallPackag。159.通过聚集多个分类器的预测来提高分类准确率的技术称为()。A、组合(ensemble)B、聚集(aggregate)C、合并(bination)D、投票(voting)答案:A解析:通过聚集多个分类器的预测来提高分类准确率的技术称为组合。160.下列选项中,不属于python特点的是()。A、面向对象;B、运行效率高;C、可移植性;D、免费和开源;答案:B解析:Python是免费开源的面向对象编程语言,方便移植,以解释方式逐条执行语句,相比C++等语言运行效率较低。161.关于Python的全局变量和局部变量,以下选项中描述错误的是()。A、局部变量指在函数内部使用的变量,当函数退出时,变量依然存在,下次函数调用可以继续使用B、使用global保留字声明简单数据类型变量后,该变量作为全局变量使用C、简单数据类型变量无论是否与全局变量重名,仅在函数内部创建和使用,函数退出后变量被释放D、全局变量指在函数之外定义的变量,一般没有缩进,在程序执行全过程有效答案:A解析:局部变量指在函数内部使用的变量,当函数退出时,变量即不存在。162.下列表达式中[print(x,y,100-x-y)forxinrange(21)foryinrange(34)if(100-x-y)%3==0and5*x+3*y+(100-x-y)//3==100]第三次输出的结果是()。A、41878B、42175C、81478D、81181答案:D解析:执行结果应为:02575
41878
81181
12484163.pynlpir是一种常用的自然语言理解工具包,其中进行分词处理的函数是()。A、open()B、segment()C、AddUserWord()D、generate()答案:B解析:pynlpir是python中分词工具包,用于分词处理的函数是segment()164.()在划分属性时是在当前结点的属性集合中选择一个最优属性。A、AdaBoostB、RFC、BaggingD、传统决策树答案:D解析:传统决策树在选择划分属性时,是在当前节点的属性集合中选择一个最优属性进行划分。165.聚类算法的性能度量可称为()。A、密度估计B、异常检测C、有效性指标D、分布结构答案:C解析:聚类算法的性能度量可称为有效性指标。166.现阶段的大数据技术体系主要类型不包括()。A、数据源与APPB、基础设施C、HadoopD、数据资源答案:C解析:Speechpad的联合创始人DaveFeinleib于2012年发布大数据产业全景图(BigDataLandscape),首次较为全面地刻画了当时快速发展中的大数据技术体系。后来,该图及其画法成为大数据和数据科学的重要分析工具,得到广泛的应用和不断的更新。MattTurck等组织绘制的2017大数据产业全景图(BigDataLandscape2017)。从2017大数据产业全景图看,现阶段的大数据技术体系主要类型包括:数据资源、数据源与APP、开源工具、跨平台基础设施和分析工具、行业应用、企业应用、基础设施和分析工具。167.下列关于RNN说法正确的是(__)。A、RNN可以应用在NLP领域B、LSTM是RNN的一个变种C、在RNN中一个序列当前的输出与前面的输出也有关D、以上答案都正确答案:D解析:RNN是一种人造神经网络,它通过赋予网络图附加权重来创建循环机制,以维持内部的状态。在拥有状态以后,便能在序列预测中明确地学习并利用上下文信息,如顺序或时间成分,因此RNN适用于自然语言处理。RNN中一个序列当前的输出与前面的输出有关。LSTM在RNN基础上进行了改进,能够学习到长期依赖关系,因此是RNN的一个变种。168.在一个神经网络中,下面哪种方法可以用来处理过拟合()A、DropoutB、分批归一化(BatchNormalization)C、正则化(regularization)D、都可以答案:D解析:Dropout,BatchNormalization和正则化都可以用来处理过拟合。169.矩阵相减使用以下哪种函数()。A、np.add()B、np.subtract()C、np.multiply()D、np.divide()答案:B解析:ABCD选项分别对应矩阵计算的加减乘除法。170.关于L1、L2正则化下列说法正确的是()A、L2正则化能防止过拟合,提升模型的泛化能力,但L1做不到这点B、L2正则化技术又称为LassoRegularizationC、L1正则化得到的解更加稀疏D、L2正则化得到的解更加稀疏答案:C解析:L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择,L2正则化可以防止模型过拟合,一定程度上;L1也可以防止过拟合;L1正则化,又称LassoRegression。171.关于数据清洗,不正确的说法是()。A、单数据源,主键取值不能重复B、多数据源会存在数据重复,单位不一致的问题C、连续型数据不存在冗余问题D、缺失值可以采用删除和填补等方法处理答案:C解析:连续型数据可能存在冗余问题。172.关于__name__的说法,下列描述错误的是()。A、它是Python提供的一个方法;B、每个模块内部都有一个__name__属性;C、当它的值为'__main__'时,表示模块自身在运行;D、当它的值不为'__main__'时,表示模块被引用;答案:A解析:__name__是Python提供的一个属性。173.彩色图像增强时,()处理可以采用RGB。A、直方图均衡化B、同态滤波C、加权均值滤波D、中值滤波答案:C解析:RGB是彩色图像的三通道像素值,均值滤波进行的是线性操作,不影响原本图像的相对亮度。174.下列关于线性回归分析中的残差说法正确的是()。A、残差均值总是为零B、残差均值总是约等于零C、残差均值总是大于零D、以上答案都不正确答案:A解析:线性回归分析中,目标是残差最小化。残差平方和是关于参数的函数,为了求残差极小值,令残差关于参数的偏导数为零,会得到残差和为零,即残差均值为零。175.数据管理成熟度模型中成熟度等级最高是哪一级()。A、已优化级B、已测量级C、已定义级D、已管理级答案:A解析:已优化是数据管理成熟度模型中成熟度的最高等级。176.任何一个核函数都隐式地定义了一个()空间。A、希尔伯特空间B、再生希尔伯特空间C、再生核希尔伯特空间D、欧式空间答案:C解析:任何一个核函数都隐式地定义了一个再生核希尔伯特空间空间。177.数据科学项目应遵循一般项目管理的原则和方法,涉及()。A、整体、范围、时间、成本、质量、沟通、风险、宣传、消费B、整体、范围、时间、成本、质量、人力资源、沟通、风险、采购C、整体、范围、时间、成本、质量、人力资源、运维、采购、宣传D、整体、范围、时间、成本、质量、人力资源、采购、宣传、运维答案:B解析:数据科学项目应遵循一般项目管理的原则和方法,涉及整体、范围、时间、成本、质量、人力资源、沟通、风险、采购。178.()用于将非线性引入神经网络。它会将值缩小到较小的范围内。A、损失函数B、优化函数C、激活函数D、目标函数答案:C解析:激活函数用于将非线性引入神经网络,它会将值缩小到较小的范围内。179.下面哪项不属于循环神经网络的输出模式。(__)A、单输出B、多输出C、同步多输出D、异步多输出答案:C解析:深度学习基础知识。180.随机森林与Bagging中基学习器多样性的区别是()。A、都来自样本扰动B、都来自属性扰动C、来自样本扰动和自属性扰动D、多样本集结合答案:C解析:Bagging中基学习器的多样性仅来自于样本扰动(自助采样),随机森林中基学习器的多样性不仅来自样本扰动,还来自属性扰动。181.Zookeeper主要解决的是()问题。A、数据存储B、模型训练C、分布式环境协作服务D、数据管理答案:C解析:ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。182.关于正态分布,下列说法错误的是()。A、正态分布具有集中性和对称性B、正态分布的均值和方差能够决定正态分布的位置和形态C、正态分布的偏度为0,峰度为1D、标准正态分布的均值为0,方差为1答案:C解析:正态分布的均值决定正态分布的位置,正态分布的方差决定正态分布的形态,正态分布具有对称性,其偏度为0,但峰度不一定为1,只有标准正态分布的偏度为0,峰度为1。183.Python中的os模块常见方法描述错误的是()。A、os.remove()删除文件B、os.rename()重命名文件C、os.walk()读取所有的目录名D、os.chdir()改变目录答案:C解析:os.walk()方法用于通过在目录树中游走输出在目录中的文件名,可以指定向上或者向下。184.SVM在下列哪种
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- Unit 2 An Accident Lesson2:Mockys bad day(说课稿)-2024-2025学年北师大版(三起)英语六年级上册
- 2025幼儿园德育工作计划024年幼儿园德育计划
- Unit5 第1课时 (说课稿)Cartoon time三年级英语上册同步高效课堂系列(译林版三起·2024秋)
- 2025年网店营销工作计划范文
- 全国粤教版信息技术七年级下册第三章第一节《设计能走迷宫的机器人》说课稿
- 婴幼儿用纸行业相关投资计划提议范本
- 2025年普法依法治市工作计划
- 玻璃布增强塑料相关行业投资方案
- 子宫收缩药行业相关投资计划提议范本
- 2025年大班保育老师工作计划示例
- 绵阳小升初数学试题-(绵中英才学校)
- 数据中心数据中心建设项目电气工程设计方案
- 广东省深圳市2022年中考英语真题(含答案)
- 四川省泸州市(2024年-2025年小学四年级语文)统编版期末考试(上学期)试卷及答案
- 4 地表流水的力量 (教学设计)-2023-2024学年 六年级下册科学人教版
- 临床弥漫性特发性骨肥厚症(DISH)影像表现
- 【会议系统的设计与实现7300字(论文)】
- 中国慢性冠脉综合征患者诊断及管理指南2024版解读
- 2023三常规学校管理心得体会3篇
- 2024年全球有机硅行业总体规模、主要企业国内外市场占有率及排名
- 2024年湖南信息职业技术学院单招职业适应性测试题库带答案
评论
0/150
提交评论