2023年大数据应用技能竞赛全题库-上(单选题汇总)_第1页
2023年大数据应用技能竞赛全题库-上(单选题汇总)_第2页
2023年大数据应用技能竞赛全题库-上(单选题汇总)_第3页
2023年大数据应用技能竞赛全题库-上(单选题汇总)_第4页
2023年大数据应用技能竞赛全题库-上(单选题汇总)_第5页
已阅读5页,还剩174页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEPAGE1792023年大数据应用技能竞赛全题库-上(单选题汇总)一、单选题1.a=1,b=2,c=3,以下表达式值为True的是()。A、a>=bor(c+5)%3==1B、not(a==1andb!=c)C、notaandb==cD、aanda+b>=c答案:D2.下列哪项关于模型能力(modelcapacity指神经网络模型能拟合复杂函数的能力)的描述是正确的()A、隐藏层层数增加,模型能力增加B、Dropout的比例增加,模型能力增加C、学习率增加,模型能力增加D、都不正确答案:A3.在Python中,调用open()时需要将内容附加到文件末尾,而不是覆盖文件原来内容,则第二个实参应该使用()。A、a'B、'g'C、'm'D、'w'答案:A4.在数据科学中,R的包通常从()下载。A、PIPB、CRANC、RstudioD、Pypi答案:B5.著名的C4.5决策树算法使用()来选择最优划分属性。A、信息增益B、增益率C、基尼指数D、均值答案:B6.数据仓库是随着时间变化的,下面的描述不正确的是()。A、数据仓库随时间的变化不断增加新的数据内容B、捕捉到的新数据会覆盖原来的快照C、数据仓库随事件变化不断删去旧的数据内容D、数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合答案:C7.下面()属于SVM应用。A、文本和超文本分类B、图像分类C、新文章聚类D、以上均是答案:D8.以下哪项关于决策树的说法是错误的()。A、冗余属性不会对决策树的准确率造成不利的影响B、子树可能在决策树中重复多次C、决策树算法对于噪声的干扰非常敏感D、寻找最佳决策树是NP完全问题答案:C9.阶跃函数与sigmoid函数均为典型激活函数()。A、正确B、错误答案:A10.Sigmoid函数作为神经元激活函数的特点是()。A、连续但不光滑B、不连续但光滑C、连续且光滑D、不连续且不光滑答案:C11.在支持向量机中,软间隔支持向量机的目标函数比硬间隔支持向量机多了一个(__)。A、偏置项bB、系数C、松弛变量D、两种情况的目标函数相同答案:C12.Matplotlib中imread方法的读取到图像后是以()类型进行存储。A、列表B、数组C、字符串D、图片答案:B13.()选择成为支持向量机的最大变数。A、核函数B、样本空间C、模型D、算法答案:A14.当我们需要在一张图表中特意指出某个特殊点,并加上标注达到醒目的目的时,需要用到()函数。A、plt.axvspan()B、plt.axhspan()C、plt.annotate()D、plt.text()答案:C15.数组分割使用以下哪个函数()。A、vstack()B、hstack()C、split()D、view()答案:C16.IDLE环境的退出命令是()。A、exit()B、回车键C、close()D、esc()答案:A17.在深度学习中,下列对于sigmoid函数的说法,错误的是()。A、存在梯度爆炸的问题B、不是关于原点对称C、计算exp比较耗时D、存在梯度消失的问题答案:A18.聚类是一种典型的无监督学习任务,然而在现实聚类任务中我们往往能获得一些额外的监督信息,于是可通过()来利用监督信息以获得更好的聚类效果。A、监督聚类B、半监督聚类C、聚类D、直推聚类答案:B19.美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的()。A、在数据基础上倾向于全体数据而不是抽样数据B、在分析方法上更注重相关分析而不是因果分析C、在分析效果上更追究效率而不是绝对精确D、在数据规模上强调相对数据而不是绝对数据答案:B20.相对于HadoopMapReduce1.0,Spark的特点不包括()。A、速度快B、并发多C、通用性D、易用性答案:B21.以下选项中,正确地描述了浮点数0.0和整数0相同性的是()。A、它们使用相同的硬件执行单元B、它们具有相同的数据类型C、它们具有相同的值D、它们使用相同的计算机指令处理方法答案:C22.下列关于MapReduce说法不正确的是()。A、MapReduce是一种计算框架B、MapReduce来源于google的学术论文C、MapReduce程序只能用java语言编写D、MapReduce隐藏了并行计算的细节,方便使用答案:C23.通常“落伍者”是影响MapReduce总执行时间的主要影响因素之一,为此MapReduce采用()机制来解决。A、分布式计算B、惰性计算C、推测性执行的任务备份D、先进先出答案:C24.列表是Python语言中基本数据类型之一。我们可以通过“list【i】”获取列表中第i个元素的值,那么“list【i:j】”有什么作用()。A、将列表中第i个元素的值设置为jB、返回一个列表切片——由原列表第i个到第j-1个元素组成的新列表C、返回一个拥有第i和j个元素的新列表D、返回一个拥有第j和i个元素的新列表答案:B25.以下描述中错误的是()。A、数据化与数字化是两个不同概念B、数据与数值是一个概念C、大数据与海量数据是两个不同的概念D、数据和信息是两个不同的概念答案:B26.可视化视觉下的数据类型不包括()。A、定类数据B、定序数据C、定宽数据D、定比数据答案:C27.关于L1、L2正则化下列说法正确的是()A、L2正则化能防止过拟合,提升模型的泛化能力,但L1做不到这点B、L2正则化技术又称为LassoRegularizationC、L1正则化得到的解更加稀疏D、L2正则化得到的解更加稀疏答案:C28.在Python中,下列不是int整型数据的是()。A、160B、10C、-78D、0x234答案:B29.下面有关分类算法的准确率,召回率,F1值的描述,错误的是()。A、准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率B、召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率C、正确率、召回率和F值取值都在0和1之间,数值越接近0,查准率或查全率就越高D、为了解决准确率和召回率冲突问题,引入了F1分数答案:C30.下列算法中,不属于外推法的是()。A、移动平均法B、回归分析法C、指数平滑法D、季节指数法答案:B31.以下那个选项是在局部生效的,出了这个变量的作用域,这个变量就失效了()。A、局部变量B、全局变量C、字典D、集合答案:A32.()表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。A、偏差B、方差C、噪声D、泛化误差答案:C33.以下关于模块说法错误的是()。A、一个xx.py就是一个模块;B、任何一个普通的xx.py文件可以作为模块导入;C、模块文件的扩展名不一定是.py;D、运行时会从制定的目录搜索导入的模块,如果没有,会报错异常答案:C34.在MapReduce中,通常将Map拆分成M个片段、Reduce拆分成R个片段,下面描述中错误的是()。A、MapReduced中单台机器上执行大量不同的任务可以提高集群的负载均衡能力B、Master必须执行O(M+R)次调度C、Master在内存中保存O(M+R)个状态D、M和R要比集群中Worker数量多答案:C35.某工厂共有100名员工,他们的月工资方差是s,现在给每个员工的月工资增加3000元,那么他们的新工资的方差()。A、为s+3000B、小了C、大了D、不变答案:D36.Scipy中的图像处理模块是哪个()。A、imageB、ndimgeC、photoD、optimize答案:B37.以下哪一种分布是二维随机变量的分布()。A、正态分布B、二项分布C、边缘分布D、指数分布答案:C38.LSTM中,(__)的作用是确定哪些新的信息留在细胞状态中,并更新细胞状态。A、输入门B、遗忘门C、输出门D、更新门答案:A39.()的本质是将低层次数据转换为高层次数据的过程。A、数据处理B、数据计算C、数据加工(DataWrangling或DataMunging)D、整齐数据答案:C40.以下关于Mahout说法正确的是()。A、存储框架B、数据管理框架C、数据可视化专业工具D、可扩展的机器学习算法及其实现答案:D41.以下代码的输出结果为()。A=np.array(【【5,3,2】,【2,4,0】】)N=np.sort(a,axis=None)Print(n)A、【022345】B、【543220】C、【【230】【542】】D、【【235】【024】】答案:A42.数据使用环节的安全技术措施除防火墙、()、防病毒、防DDOS、漏洞检测等网络安全防护技术措施外,还需实现以下安全技术能力:账号权限管理、数据安全域、数据脱敏、日志管理和审计、异常行为实时监控和终端数据防泄漏。A、入侵检测B、病毒检测C、程序检测D、进程检测答案:A43.诊断性分析主要采取的分析方法是()和()。A、关联分析和因果分析法B、关联分析和分类分析法C、关联分析和运筹学D、因果分析和分类分析法答案:A44.下列缩进格式描述不正确的是()。A、缩进指在代码行前面添加空格或Tab;B、在Python程序中,缩进不是任意的;C、缩进可以使程序更有层次感、更有结构感,从而是程序更易读。D、平级的语句行(代码块)的缩进可以不相同。答案:D45.Python解释器的提示符为()。A、>;B、>>;C、>>>;D、#;答案:C46.对于神经网络的说法,下面正确的是(__)。A、增加神经网络层数,可能会增加测试数据集的分类错误率B、减少神经网络层数,总是能减小测试数据集的分类错误率C、增加神经网络层数,总是能减小训练数据集的分类错误率D、1、2都对答案:A47.下列哪个方法不属于情感分析的评测()。A、COAE评测B、cifar10数据集评测C、CCFTCCI评测D、TAC评测答案:B48.下面哪个是满足期望输出的代码()。Arr=np.array(【0,1,2,3,4,5,6,7,8,9】)期望输出:array(【1,3,5,7,9】)A、arr%2==1B、arr【arr%2==1】C、arr【arr/2==1】D、arr【arr//2==1】答案:B49.如果要将读写位置移动到文件开头,需要使用的命令是()。A、closeB、seek(0)C、truncateD、write('stuff')答案:B50.假设在庞大的数据集上使用Logistic回归模型,可能遇到一个问题,Logistic回归需要很长时间才能训练,如果对相同的数据进行逻辑回归,如何花费更少的时间,并给出比较相似的精度()。A、降低学习率,减少迭代次数B、降低学习率,增加迭代次数C、提高学习率,增加迭代次数D、增加学习率,减少迭代次数答案:D51.可用作数据挖掘分析中的关联规则算法有()。A、机器学习、对数回归、关联模式B、K均值法、SOM机器学习C、Apriori算法、FP-Tree算法D、RBF机器学习、K均值法、机器学习答案:C52.MapReduce编程模型中以下组件哪个是最后执行的()A、MapperB、PartitionerC、ReducerD、RecordReader答案:C53.采用模板【-11】主要检测()方向的边缘。A、水平B、45°C、垂直D、135°答案:C54.关于层次聚类算法:(1)不断重复直达达到预设的聚类簇数(2)不断合并距离最近的聚类簇(3)对初始聚类簇和相应的距离矩阵初始化(4)对合并得到的聚类簇进行更新。正确的执行顺序为()。A、1234B、1324C、3241D、3412答案:C55.如何通过代理服务器进行爬虫()。A、个人发送访问请求到代理服务器,代理服务器转发到网站,网站反馈给个人B、个人发送访问请求到网站,网站反馈给个人,并备份访问记录到代理服务器C、个人发送访问请求到代理服务器,代理服务器转发到网站,网站反馈给代理服务器,代理服务器再发送给个人D、个人发送访问请求到网站,网站反馈给代理服务器,个人再访问代理服务器获取网页信息答案:C56.向量空间模型的缺陷不包括()。A、维度灾难B、模型稀疏性C、语义信息缺失D、无法计算文本相似度答案:D57.下列属于无监督学习的是()。A、K-meansB、SVMC、最大熵D、CRF答案:A58.以下代码的输出结果为()。ImportnumpyasnpA=np.arange(4)B=a【:】A【1】=9Print(a)Print(b)A、【0123】【0123】B、【1934】【1234】C、【0923】【0923】D、【0923】【0123】答案:C59.数据安全技术保护与信息系统“三同步”原则不包括以下哪项()。A、同步规划B、同步建设C、同步使用D、同步运维答案:D60.Spark的集群管理模式不包含()。A、Standalone模式B、Message模式C、YARN模式D、Mesos模式答案:B61.聚类算法己经默认所有的记录都是()的实体。A、相关联B、有备份C、不独立D、独立答案:D62.点击率的预测是一个数据比例不平衡问题(比如训练集中样本呈阴性的比例为99%,阳性的比例是1%),如果我们用这种数据建立模型并使得训练集的准确率高达99%。我们可以得出结论是:()。A、模型的准确率非常高,我们不需要进一步探索B、模型不好,我们应建一个更好的模型C、无法评价模型D、以上答案都不正确答案:C63.假设你需要调整参数来最小化代价函数(costfunction),会使用()技术。A、穷举搜索B、随机搜索C、Bayesian优化D、以上全是答案:D64.下面哪个问题不适合使用机器学习方法解决()。A、判断电子邮件是否是垃圾邮件B、判断给定的图中是否有环C、判断是否给指定用户办理信用卡D、对滴滴拼车乘客分簇答案:B65.在Python中,导入random包后random.random()可能的运行结果为()。A、1B、4.0636470001647C、0.096563931857176D、-0.88515562282635答案:C66.(假设precision=TP/(TP+FP),recall=TP/(TP+FN))在二分类问题中,当测试集的正例和负例数量不均衡时,以下评价方案哪个是相对不合理的()。A、Accuracy:(TP+TN)/allB、F-value:2recallprecision/(recall+precision)C、G-mean:sqrt(precision*recall)D、AUC:曲线下面积答案:A67.下列关于HDFS的描述正确的是()A、如果NameNode宕机,SecondaryNameNode会接替它使集群继续工作B、HDFS集群支持数据的随机读写C、NameNode磁盘元数据不保存Block的位置信息D、DataNode通过长连接与NameNode保持通信答案:C68.matplotlib中设置x轴数值显示范围的函数是什么()。A、xrange()B、xspan()C、xlabel()D、xlim()答案:D69.多分类图像识别任务常采用()作为输出的编码方式。A、二进制编码B、one-hot编码C、霍夫曼编码D、曼切斯特编码答案:B70.运行下面的代码,输出结果是()。ImportnumpyasnpN=np.array(【【1,2,3】,【4,5,6】】)Print(n.size)A、2B、6C、(2,3)D、(3,2)答案:B71.在回归分析中,说法正确的是()。A、解释变量和被解释变量都是随机变量B、解释变量为非随机变量,被解释变量为随机变量C、解释变量和被解释变量都为非随机变量D、解释变量为随机变量,被解释变量为非随机变量答案:B72.假设你在卷积神经网络的第一层中有5个卷积核,每个卷积核尺寸为7×7,具有零填充且步幅为1。该层的输入图片的维度是224×224×3。那么该层输出的维度是多少()A、217x217x3B、217x217x8C、218x218x5D、220x220x7答案:C73.RNN不同于其它神经网络的地方在于(__)。A、实现了记忆功能B、速度快C、精度高D、易于搭建答案:A74.使用似然函数的目的是()。A、求解目标函数B、得到最优数据样本C、找到最适合数据的参数D、改变目标函数分布答案:C75.matplotlib中的调用堆积折线图的函数是什么()。A、step()B、stackplot()C、plusplot()D、hist()答案:B76.特征工程的目的是()。A、找到最合适的算法B、得到最好的输入数据C、减低模型复杂度D、加快计算速度答案:B77.()属于Spark框架中的可扩展机器学习库。A、MLibB、GraphXC、StreamingD、SparkSQL答案:A78.如下哪些不是最近邻分类器的特点()。A、它使用具体的训练实例进行预测,不必维护源自数据的模型B、分类一个测试样例开销很大C、最近邻分类器基于全局信息进行预测D、可以生产任意形状的决策边界答案:C79.以下关于traintestsplit函数的说法正确的是()。A、train_test_split能够将数据集划分为训练集、验证集和测试集B、train_test_split的输入只能是一个数组C、train_test_split每次的划分结果不同,无法解决D、train_test_split函数可以自行决定训练集和测试集的占比答案:D80.MapReduce对map()函数的返回值进行处理后再返回给reduce()函数的目的是()。A、减少map()函数和reduce()函数之间的数据传输B、优化map()函数C、优化reduce()函数D、这一步骤并无必要答案:A81.在Python中,函数()。A、不可以嵌套定义B、不可以嵌套调用C、不可以递归调用D、以上答案都不正确答案:D82.a=np.arange(1,13,1).reshape(3,4),np.mean(a,axis=0)的输出结果是()。A、【【1,2,3,4】,【5,6,7,8】,【9,10,11,12】】B、6.5C、【5,6,7,8】D、【2.5,6.5,10.5】答案:C83.假如使用一个较复杂的回归模型来拟合样本数据,使用Ridge回归,调试正则化参数λ,来降低模型复杂度。若λ较大时,关于偏差(bias)和方差(variance),下列说法正确的是()A、若λ较大时,偏差减小,方差减小B、若λ较大时,偏差减小,方差增大C、若λ较大时,偏差增大,方差减小D、若λ较大时,偏差增大,方差增大答案:C84.Spark中引入RDD概念的目的是()。A、数据存储B、数据查重C、提升容错能力D、增强数据一致性答案:C85.正态分布的两个参数μ与σ,()对应的正态曲线愈趋扁平。A、μ愈大B、μ愈小C、σ愈大D、σ愈小答案:C86.从网络的原理上来看,结构最复杂的神经网络是()。A、卷积神经网络B、长短时记忆神经网络C、GRUD、BP神经网络答案:B87.给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离,这说的是()算法。A、PCAB、SVMC、K-meansD、LDA答案:D88.Python使用()符号标示注释。A、&B、*C、#D、//答案:C89.下列选项中,不属于python特点的是()。A、面向对象;B、运行效率高;C、可移植性;D、免费和开源;答案:B90.Python中用于生成随机数的模块是random,以下描述错误的是()。A、random.random():生成一个0-1之间的随机浮点数B、random.uniform(a,b):生成【a,b】之间的浮点数C、random.randint(a,b):生成【a,b】之间的整数D、random.choice(sequence):随机生成任意一个整数答案:D91.Spark那个组件用于支持实时计算需求()。A、SparkSQLB、SparkStreamingC、SparkGraphXD、SparkMLLib答案:B92.以下选项中,不属于函数的作用的是()。A、提高代码执行速度B、降低编程复杂度C、增强代码可读性D、复用代码答案:A93.目前,多数NoSQL数据库是针对特定应用场景研发出来的,其设计遵循()原则,更加强调读写效率、数据容量以及系统可扩展性。A、EASY原则B、READ原则C、BASE原则D、BASIC原则答案:C94.以下代码的输出结果为()。ImportnumpyasnpA=np.array(【【10,7,4】,【3,2,1】】)Print(np.percentile(a,50))A、【【1074】【321】】B、3.5C、【】D、【7.2.】答案:B95.a=np.array(【1,0,0,3,4,5,0,8】),b=np.nonzero(a)B【0】的值为()。A、【0,3,4,5,7】B、【1,3,4,5,8】C、【03457】D、【13458】答案:A96.以下说法正确的是()。A、散点图不能在子图中绘制B、散点图的x轴刻度必须为数值C、折线图可以用作查看特征间的趋势关系D、箱线图可以用来查看特征间的相关关系答案:C97.绘图是如何为项目设置matplotlib参数()。A、rc()B、sci()C、axes()D、sca()答案:A98.对模型进行交叉验证可以使用以下哪种方法()。A、learning_curve()B、cross_val_score()C、permutation_test_scoreD、validation()答案:B99.关联规则的评价指标是()。A、均方误差、均方根误差B、Kappa统计、显著性检验C、支持度、置信度D、平均绝对误差、相对误差答案:C100.数据探索是指针对目标可变、持续、多角度的搜索或分析任务,下列哪项不是其搜索过程的特点()。A、有选择B、有策略C、有目标D、反复进行的答案:C101.scipy库中用于物理和数学常量计算的模块是()。A、scipy.clusterB、scipy.ioC、scipy.constantsD、scipy.linalg答案:C102.所有预测模型在广义上都可称为一个或一组()。A、公式B、逻辑C、命题D、规则答案:D103.关于eval函数,以下选项中描述错误的是().A、eval函数的作用是将输入的字符串转为Python语句,并执行该语句B、如果用户希望输入一个数字,并用程序对这个数字进行计算,可以采用eval(input(<输入提示字符串>))组合C、执行eval("Hello")和执行eval("'Hello'")得到相同的结果|eval函数的定义为:eval(source,globals=None,locals=None,/)D、eval函数的定义为:eval(source,globals=None,locals=None,/)答案:C104.哪种聚类方法采用概率模型来表达聚类()。A、K-meansB、LVQC、DBSCAND、高斯混合聚类答案:D105.学习率对机器学习模型结果会产生影响,通常我希望学习率()。A、越小越好B、越大越好C、较小而迭代次数较多D、较大而迭代次数较小答案:C106.Python中定义私有属性的方法是()。A、使用private关键字B、使用public关键字C、使用__XX__定义属性名D、使用__XX定义属性名答案:D107.关于PythonNumpy,Scipy,Pandas这些库的区别描述不对的是()。A、Numpy是以矩阵为基础的数学计算模块,纯数学B、Scipy基于Numpy,科学计算库,有一些高阶抽象和物理模型C、Pandas提供了一套名为DataFrame的数据结构D、三个模块分别独立答案:D108.下列关于数据转换,正确的是()。A、json内的取值只能有统一格式B、pdf文件在不同平台上打开显示不同C、可以通过python将csv文件转换成Excel格式D、excel存储数据的量无限制答案:C109.关于队列的描述中,以下描述正确的是()。A、在队列中只能删除数据B、队列是先进后出的线性表C、在队列中只能插入数据D、队列是先进先出的线性表答案:D110.下面if语句统计“成绩(score)优秀的男生以及不及格的男生”的人数,正确的语句为()。A、If(gender==”男”andscore<60orscore>=90):n+=1B、If(gender==”男”andscore<60andscore>=90):n+=1C、If(gender==”男”and(score<60orscore>=90)):n+=1D、If(gender==”男”orscore<60orscore>=90):n+=1答案:C111.MapReduce里面的query、sort和limit等都是针对哪个阶段的操作?A、Map()之前;B、Reduce()之前;C、Reduce()之后;D、finalize()之后;答案:A112.大数据平台构建分布式文件系统、分布式数据仓库、非关系型数据库、关系型数据库,实现各类数据的集中存储与统一管理,满足()存储需求。A、历史数据B、离线数据C、实时数据D、多样化数据答案:D113.关于数据创新,下列说法正确的是()。A、个数据集的总和价值等于单个数据集价值相加B、于数据的再利用,数据应该永久保存下去C、同数据多次用于相同或类似用途,其有效性会降低D、数据开放价值可以得到真正释放答案:D114.一个MapReduce程序中的MapTask的个数由什么决定()A、输入的总文件数B、客户端程序设置的mapTask的个数C、FileInputFormat.getSplits(JobContextjob)计算出的逻辑切片的数量D、输入的总文件大小/数据块大小答案:C115.考虑值集{12243324556826},其四分位数极差是:()A、21B、24C、55D、3答案:A116.机器学习中,基于样本分布的距离是以下哪一个()A、马氏距离B、欧式距离C、曼哈顿距离D、闵可夫斯基距离答案:A117.对模型进行超参数优化详尽搜索指定参数的估计值使用以下哪种方法()。A、ParameterGrid()B、ParameterSampler()C、GridSearchCV()D、RandomizedSearchCV()答案:C118.彩色图像增强时,()处理可以采用RGB。A、直方图均衡化B、同态滤波C、加权均值滤波D、中值滤波答案:C119.利用到每个聚类中心和的远近判断离群值的方法,可以基于的算法为()。A、K-MeansB、KNNC、SVMD、LinearRegression答案:A120.数据科学项目应遵循一般项目管理的原则和方法,涉及()。A、整体、范围、时间、成本、质量、沟通、风险、宣传、消费B、整体、范围、时间、成本、质量、人力资源、沟通、风险、采购C、整体、范围、时间、成本、质量、人力资源、运维、采购、宣传D、整体、范围、时间、成本、质量、人力资源、采购、宣传、运维答案:B121.关于数据的存储结构,以下选项描述正确的是()。A、数据所占的存储空间量B、存储在外存中的数据C、数据在计算机中的顺序存储方式D、数据的逻辑结构在计算机中的表示答案:D122.如果python程序中包括零运算,解释器将在运行时抛出()错误信息()。A、NameErrorB、FileNotFoundErrorC、SyntaxErrorDZeroD、ivisionError答案:D123.以P(w)表示词条w的概率,假设已知P(南京)=0.8,P(市长)=0.6,P(江大桥)=0.4:P(南京市)=0.3,P(长江大桥)=0.5:如果假设前后两个词的出现是独立的,那么分词结果就是()。A、南京市*长江*大桥B、南京*市长*江大桥C、南京市长*江大桥D、南京市*长江大桥答案:B124.如果一个SVM模型出现欠拟合,那么下列哪种方法能解决这一问题()A、增大惩罚参数C的值B、减小惩罚参数C的值C、减小核系数(gamma参数)答案:A125.np.floor()函数的作用是()。A、计算每个元素的模;B、计算每个元素的符号;C、计算小于每个元素的最大整数值;D、计算每个元素的小数部分;答案:C126.下列关于运算符优先级的说法中,不正确的一个是()。A、运算符按照优先级顺序表进行运算B、同一优先级的运算符在表达式中都是按照从左到右的顺序进行运算的C、同一优先级的运算符在表达式中都是按照从右到左的顺序进行运算的D、括号可以改变运算的优先次序答案:C127.以下关于新旧MapReduceAPI的描述错误的是()A、新API放在org.apache.hadoop.mapreduce包中,而旧API则是放在org.apache.hadoop.mapred中B、新API倾向于使用接口方式,而旧API倾向于使用抽象类C、新API使用Configuration,而旧API使用JobConf来传递配置信息D、新API可以使用Job对象来提交作业答案:B128.()是指为最小化总体风险,只需在每个样本上选择能使特定条件风险最小的类别标记。A、支持向量机B、间隔最大化C、线性分类器D、贝叶斯判定准则答案:D129.大数据是指不用随机分析法这样的捷径,而采用()的方法。A、所有数据B、部分数据C、少量数据D、抽样数据答案:A130.通常来说,下面哪种方法能够用来预测连续因变量()A、线性回归B、逻辑回归C、线性回归和逻辑回归D、以上答案都不正确答案:A131.大数据涌现现象的形式有多种,不属于大数据涌现的形式()。A、价值涌现B、隐私涌现C、物质涌现D、隐私涌现答案:C132.pyplot.show()函数的作用是()。A、展示图像B、画直方图C、保存图像D、画散点图答案:A133.以下不能创建一个字典的语句是()。A、dict1={}B、dict2={3:5}C、dict3={【1,2,3】:“uestc”}D、dict4={(1,2,3):“uestc”}答案:C134.下列不属于数据科学开源工具的是()。A、MapReduceB、ERPC、HadoopD、Spark答案:B135.数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的()、不可恢复,如数据销毁软件、硬盘消磁机、硬盘粉碎机等。A、暂时隔离B、暂时删除C、永久删除D、不作处理答案:C136.执行一个job,如果这个job的输出路径已经存在,那么程序会()A、覆盖这个输出路径B、抛出警告,但是能够继续执行C、抛出一个异常,然后退出D、创建一个新的输出路径答案:C137.如果自变量X和因变量Y之间存在高度的非线性和复杂关系,那么树模型很可能优于经典回归方法()。A、正确B、错误C、无法确定D、模型效果差别不大答案:A138.探索性分析与验证性分析的不同点是()。A、探索性分析需要事先假设B、探索性分析比验证性分析复杂C、探索性分析在前D、验证性分析在前答案:C139.不属于判别式模型的是()。A、决策树B、BP神经网络C、支持向量机D、贝叶斯答案:D140.在比较模型的拟合效果时,甲、乙、丙三个模型的相关指数R^2的值分别约为0.71、0.85、0.90,则拟合效果较好的模型是()。A、甲B、乙C、丙D、效果一样答案:C141.以下选项中,不是Python对文件的打开模式的是()。A、w'B、'+'C、'c'D、'r'答案:C142.【i**iforiinrange(3)】运行结果是()。A、【1,1,4】B、【0,1,4】C、【1,2,3】D、(0,1,4)答案:A143.模块的定义与导入方法错误的是()。A、将写好的python模块保存为.py模式的文件。拷贝到sys.path对应的文件目录下,就可以在shell中通过指令导入B、importmodule1【,module2【,...moduleN】】C、frommodnameimportname1【,name2【,...nameN】】D、from*importmodname答案:D144.假如使用逻辑回归对样本进行分类,得到训练样本的准确率和测试样本的准确率。现在,在数据中增加一个新的特征,其它特征保持不变。然后重新训练测试。则下列说法正确的是()。A、训练样本准确率一定会降低B、训练样本准确率一定增加或保持不变C、测试样本准确率一定会降低D、测试样本准确率一定增加或保持不变答案:B145.下列哪个不是RDD的缓存方法()A、persistB、cacheC、MemoryD、以上答案都正确答案:C146.我们建立一个5000个特征,100万数据的机器学习模型.我们怎么有效地应对这样的大数据训练()。A、我们随机抽取一些样本,在这些少量样本之上训练B、我们可以试用在线机器学习算法C、我们应用PCA算法降维,减少特征数D、以上答案都正确答案:D147.深度学习是当前很热门的机器学习算法,在深度学习中,涉及到大量的矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m?n,n?p,p?q,且m<n<p<q,以下计算顺序效率最高的是(__)。A、(AB)CB、AC(B)C、A(BC)D、所有效率都相同答案:A148.BP神经网络具有很的表示能力,它经常遭遇(),其训练误差持续降低,但测试误差却可能上升。A、欠拟合B、误差过大C、误差过小D、过拟合答案:D149.下列哪些不是目前机器学习所面临的问题是()。A、测试集的规模B、维度灾难C、特征工程D、过拟合答案:A150.a=【【1.,2.,1.】,【1.,2.,1.】】,a+3的值为()。A、【【1,2,1】,【4,5,4】】B、【【4,5,4】,【4,5,4】】C、【【4,5,4】,【1,2,1】】D、以上答案都不正确答案:D151.以下字符串表示plot线条颜色、点的形状和类型为红色五角星点短虚线的是()。A、bs-'B、'go-.'C、'r+-.'D、'r*-.'答案:D152.scipy包中()是数值积分例程和微分方程求解。A、integrateB、linglgC、sparseD、special答案:A153.在MapReduce中,以下描述错误的有()。A、Worker故障和Master故障的处理方法不相同B、Map和Reduce的处理结果都存储在本地文件系统C、一个Worker发生故障时,该节点上执行完的Map任务需要再次执行D、MapReduce具有很强的容错机制答案:B154.对于随机森林和GBDT,下面说法正确的是()。A、在随机森林的单个树中,树和树之间是有依赖的,而GBDT中的单个树之间是没有依赖的B、这两个模型都使用随机特征子集,来生成许多单个的树C、我们可以并行地生成GBDT单个树,因为它们之间是没有依赖的D、GBDT训练模型的表现总是比随机森林好答案:B155.()适合连续特征,它假设每个特征对于每个类都符合正态分布。A、GaussianNBB、BernoulliNBC、MultinomialNBD、BaseDiscreteNB答案:A156.scipy.stats.moment函数的作用是()。A、随机变量的概率密度函数B、随机变量的累积分布函数C、随机变量的生存函数D、计算分布的非中心矩答案:D157.下列哪个不属于常用的文本分类的特征选择算法()。A、卡方检验值B、互信息C、信息增益D、主成分分析答案:D158.下列选项中,()是唯一不在运行时发生的异常。A、ZeroDivisionErrorB、NameErrorC、SyntaxErrorD、KeyError答案:C159.以下哪个统计量可以描述数据的集中程度()。A、极差B、标准差C、极大值D、众数答案:D160.在数据科学中,通常可以采用()方法有效避免数据加工和数据备份的偏见。A、A/B测试B、训练集和测试集的划分C、测试集和验证集的划分D、图灵测试答案:A161.下列选项中,用于关闭文件的方法是()。A、read()B、tell()C、seek()D、close()答案:D162.Numpy中确定随机数生成种子使用以下哪个函数()。A、np.random()B、np.random.seed()C、np.uniform()D、np.eig()答案:B163.随机森林是在()上的一个扩展变体。A、BoostingB、AdaBoostC、RFD、Bagging答案:D164.用onehot对某个只有一个属性的样本进行编码,下面可能是编码结果的是()。A、1010B、1100C、1111D、1000答案:D165.数据科学家可能会同时使用多个算法(模型)进行预测,并且最后把这些算法的结果集成起来进行最后的预测(集成学习),以下对集成学习说法正确的是()。A、单个模型之间具有高相关性B、单个模型之间具有低相关性C、在集成学习中使用“平均权重”而不是“投票”会比较好D、单个模型都是用的一个算法答案:B166.利用函数自动创建数组不包括以下哪个函数()。A、arange()B、ones()C、linspace()D、dtype()答案:D167.数据仓库的最终目的是()。A、收集业务需求B、建立数据仓库逻辑模型C、开发数据仓库的应用分析D、为用户和业务部门提供决策支持答案:D168.假设一个线性回归模型完美适合训练数据(训练误差为0),下面那个说法是正确的()。A、测试集误差一直为0B、测试集误差可能为0C、测试集误差不会为0D、以上都不对答案:B169.scipy.stats模块中对随机变量进行随机取值的函数是()。A、rvsB、pdfC、cdfD、sf答案:A170.以下关于代码规范描述,哪些是错误的()。A、类总是使用驼峰格式命名,即所有单词首字母大写其余字母小写。B、除特殊模块__init__之外,模块名称都使用不带下划线的小写字母。C、不要滥用*args和**kwargsD、建议把所有方法都放在一个类中答案:D171.下列核函数特性描述错误的是()。A、只要一个对称函数所对应的核矩阵半正定,就能称为核函数;B、核函数选择作为支持向量机的最大变数;C、核函数将影响支持向量机的性能;D、核函数是一种降维模型;答案:D172.下列不是数据科学项目的主要角色()。A、项目发起人B、项目经理C、操作人员D、验收人员答案:D173.在MapReduce中,为了发现Worker故障,Master周期性进行(__)操作。A、JoinB、PingC、CheckD、Connect答案:B174.若建立一个5000个特征,100万数据的机器学习模型,则应该怎么有效地应对这样的大数据训练()。A、随机抽取一些样本,在这些少量样本之上训练B、可以试用在线机器学习算法C、应用PCA算法降维,减少特征数D、以上答案都正确答案:D175.KNN最近邻分类算法的过程()1.计算训练样本和测试样本中每个样本点的距离(常见的距离度量有欧式距离,马氏距离等);2.对上面所有的距离值进行排序;3.选前k个最小距离的样本;4.根据这k个样本的标签进行投票,得到最后的分类类别。A、B、C、D、答案:C176.连续不断地爬取网页信息,较容易被网站识别,想要实现间隔15s来爬取网页需要使用以下哪一项指令()。A、timestop(5)B、timesleep(15)C、timestrptime(15)D、timesleep(5)答案:B177.考虑某个具体问题时,你可能只有少量数据来解决这个问题。不过幸运的是你有一个类似问题已经预先训练好的神经网络。可以用下面哪种方法来利用这个预先训练好的网络()A、把除了最后一层外所有的层都冻住,重新训练最后一层B、对新数据重新训练整个模型C、只对最后几层进行调参(finetune)D、对每一层模型进行评估,选择其中的少数来用答案:C178.选择哪一个解作为输出,将由学习算法的归纳偏好决定,常见的做法是引入()。A、线性回归B、线性判别分析C、正则化项D、偏置项答案:C179.()的基本想法是适当考虑一部分属性间的相互依赖信息,从而既不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。A、贝叶斯判定准则B、贝叶斯决策论C、朴素贝叶斯分类器D、半朴素贝叶斯分类器答案:D180.下列关于Python中的函数的说法,正确的是()。A、函数用关键字function定义B、函数定义时,函数的主体内容应与定义语句开头对齐C、polynomial(x=1,2,z=3)的传递参数的方法是正确的D、默认参数值可以在传递参数时修改答案:D181.Hadoop中partition()函数描述正确的是()。A、分区函数B、特征函数C、算法函数D、排序函数答案:A182.回归方程判定系数的计算公式R^2=SSR/SST=1-SSE/SST,对判定系数描述错误的是()。A、式中的SSE指残差平方和B、式中的SSR指总离差平方和C、判定系数用来衡量回归方程的扰合优度D、判定系数R^2等于相关系数的平方答案:B183.把图像分割问题与图的最小割(mincut)问题相关联的方法是()。A、基于图论的分割方法B、分水岭算法C、SLIC算法D、基于阈值的方法答案:A184.机器学习中发生过拟合的主要原因不包括()。A、使用过于复杂的模型B、数据噪声较大C、训练数据少D、训练数据充足答案:D185.txt=open(filename)返回的是()。A、变量B、常数C、文件内容D、文件对象答案:D186.np.sort()函数返回的是()。A、已排序的原数组B、排好序的数组拷贝C、原数组D、原数组的拷贝答案:B187..python字体切片时(S【0,10】)下标的取值范围为()。A、【0,10】B、(0,10)C、【0,10)D、(0,10】答案:C188.MapReduce使用()来记录不同事件的发生次数。A、日志B、事件触发器C、状态列表D、计数器答案:D189.不属于Mayer-Sch?nbergerV和CukierK.在其著名论著《Bigdata:Arevolutionthatwilltransformhowwelive,work,andthink》中提出了大数据时代统计的思维变革的是()。A、不是随机样本,而是全体数据B、不是精确性,而是混杂性C、不是描述性分析,而是预测性分析D、不是因果关系,而是相关关系答案:C190.可分解为偏差、方差与噪声之和的是()。A、训练误差(trainingerror)B、经验误差(empiricalerror)C、均方误差(meansquarederror)D、泛化误差(generalizationerror)答案:D191.循环神经网络适合处理什么数据()A、节点数据B、序列数据C、结构化数据D、图像数据答案:B192.以下输出的结果正确的是()。ImportnumpyasnpX=np.arange(32).reshape((8,4))Print(x【【-4,-2,-1,-7】】)A、【【16171819】【24252627】【28293031】【4567】】B、【【16171819】【891011】【4567】【28293031】C、【【891011】【4567】】D、error答案:A193.Numpy包中meshgrid函数实现的功能是()。A、数组拆分B、数组乘法C、数组除法D、数组融合答案:D194.后剪枝是先从训练集生成一颗完整的决策树,然后()对非叶结点进行考察。A、自上而下B、在划分前C、禁止分支展开D、自底向上答案:D195.在著名管理学家ThomasH,Davernport在《哈佛商业论坛》上发表的题为《第三代分析学(Analytics3.0)》的经典论文中,Analytics3.0时代是指()。A、商务智能时代B、大数据时代C、数据富足供给时代D、数据智能时代答案:C196.关于混合模型聚类算法的优缺点,下面说法正确的是()。A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理B、混合模型很难发现不同大小和椭球形状的簇C、混合模型比K均值或模糊c均值更一般,因为它可以使用各种类型的分布D、混合模型在有噪声和离群点时不会存在问题答案:C197.ggplot2的核心理念是()。A、绘图与数据分离B、结构与数据分离C、绘图与结构分离D、绘图与数据和结构分离答案:A198.通常,()主要指的是关系数据库中存储、计算和管理的数据。A、结构化数据B、海量数据C、半结构化数据D、非结构化数据答案:A199.大数据参考架构的水平轴和垂直轴分别为()。A、信息(活动)价值链和信息技术价值链B、信息技术价值链和信息(活动)价值链C、信息交互价值链和信息技术价值链D、信息(活动)价值链和信息交互价值链答案:A200.如果在大型数据集上训练决策树。为了花费更少的时间来训练这个模型,下列哪种做法是正确的()A、增加树的深度B、增加学习率C、减小树的深度D、减少树的数量答案:C201.线性回归的基本假设不包括哪个()。A、随机误差项是一个期望值为0的随机变量B、对于解释变量的所有观测值,随机误差项有相同的方差C、随机误差项彼此相关D、解释变量是确定性变量不是随机变量,与随机误差项之间相互独立答案:C202.bootstrap数据是什么意思()。A、有放回地从总共M个特征中抽样m个特征B、无放回地从总共M个特征中抽样m个特征C、有放回地从总共N个样本中抽样n个样本D、无放回地从总共N个样本中抽样n个样本答案:C203.以下关于连接数组不正确的是()。A、concatenate连接沿现有轴的数组序列B、stack沿着新的轴加入一系列数组。C、vstack水平堆叠序列中的数组(列方向)D、hstack3D堆叠序列中的数组(行方向)答案:D204.执行以下代码段Motorcycles=【'honda','yamaha','suzuki'】Motorcycles.append('ducati')Motorcycles.pop(1)Print(motorcycles)时,输出为()。A、【'honda','yamaha','suzuki'】B、【'yamaha','suzuki','ducati'】C、【'honda','yamaha','suzuki','ducati'】D、【'honda','suzuki','ducati'】答案:D205.以下说法正确的是:()。A、一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的B、如果增加模型复杂度,那么模型的测试错误率总是会降低C、如果增加模型复杂度,那么模型的训练错误率总是会降低答案:C206.下面代码运行后,a,b,c,d四个变量的值,描述错误的是()。ImportcopyA=【1,2,3,4,【'a','b'】】B=aC=copy.copy(a)D=copy.deepcopy(a)A.append(5)A【4】.append('c')A、a==【1,2,3,4,【'a','b','c'】,5】B、b==【1,2,3,4,【'a','b','c'】,5】C、c==【1,2,3,4,【'a','b','c'】】D、d==【1,2,3,4,【'a','b',‘c’】】答案:D207.如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规则为()。A、无序规则B、穷举规则C、互斥规则D、有序规则答案:C208.Hadoop中,Reducer的三个阶段是__。A、Shuffle-Sort-ReduceB、Shuffle-Reduce-SortC、Reduce-Shuffle-SortD、Sort-Shuffle-Reduce答案:A209.以下处理能获得像素级标注的是()。A、图像分类B、物体检测C、图像去噪D、语义分割答案:D210.以下属于深度学习框架的是(__)。A、TensorflowB、CaffeC、PyTorchD、以上答案都正确答案:D211.sklearn.deposition.PCA()方法的作用是()。A、因子分析B、主成分分析C、稀疏编码D、唯一编码答案:B212.使用pivot_table函数制作透视表用以下那个参数设置行分组键()。A、indexB、rawC、valuesD、data答案:A213.AUC是衡量()模型优劣的一种评价指标。A、回归B、分类C、二分类D、聚类答案:C214.一监狱人脸识别准入系统用来识别待进入人员的身份,此系统一共包括识别4种不同的人员:狱警,小偷,送餐员,其他人员。下面哪种学习方法最适合此种应用需求()A、二分类问题B、层次聚类问题C、多分类问题D、回归问题答案:C215.以下不是开源工具特点的是()。A、免费B、可以直接获取源代码C、用户可以修改源代码并不加说明用于自己的软件中D、开源工具一样具有版权答案:C216.在神经网络学习中,感知机输出层中的M-P神经元通常被称为()。A、阈值逻辑单元B、激活函数C、挤压函数D、连接函数答案:A217.在python3中以下安装第三方模块命令正确的是()。A、pip-installsklearnB、pipinstallsklearnC、pip–upgragesklearnD、pip-isklearn答案:B218.关于数据相关性,以下说法错误的是()。A、关性体现了大数据的灵魂B、关性思维实现了从“为什么”到“是什么”的思维转变C、关性关注事物的因果关系D、关性关注事物的相关关系答案:C219.在TF-IDF算法中,在计算完词频与逆文档频率后,将二者()后得到最终的结果。A、相加B、相减C、相乘D、相除答案:C220.以下哪个分类方法可以较好地避免样本的不平衡问题()。A、KNNB、SVMC、BayesD、神经网络答案:A221.假设我们使用原始的非线性可分版本的Soft-SVM优化目标函数。我们需要做什么来保证得到的模型是线性可分离的()A、C=0B、C=1C、C正无穷大D、C负无穷大答案:C222.下面与Zookeeper类似的框架是()。A、ProtobufB、JavaC、KafkaD、Chubby答案:D223.机器学习中L1正则化和L2正则化的区别是()。A、使用L1可以得到稀疏的权值,使用L2可以得到平滑的权值B、使用L1可以得到平滑的权值,使用L2可以得到平滑的权值C、使用L1可以得到平滑的权值,使用L2可以得到稀疏的权值D、使用L1可以得到稀疏的权值,使用L2可以得到稀疏的权值答案:A224.K折交叉验证器是以下哪个方法()。A、model_selection.GroupKFold()B、model_selection.GroupShuffleSplit()C、model_selection.KFold()D、model_selection.RepeatedKFold()答案:C225.最早被提出的循环神经网络门控算法是什么()A、长短期记忆网络B、门控循环单元网络C、堆叠循环神经网络D、双向循环神经网络答案:A226.以下关于DNN说法不正确的是(__)。A、层数多B、抽象能力强C、模拟更复杂模型D、广义上包含CNN,DBN,SVM等答案:D227.Numpy库的主要功能是()。A、科学计算B、绘图C、爬取网站数据、提取结构性数据D、机器学习库答案:A228.以下哪种不是Hive支持的数据类型()A、StructB、IntC、MapD、Long答案:D229.关于HDFS的特征,下列说法错误的是()。A、支持超大文件B、基于商用硬件C、流式数据访问D、低吞吐量答案:D230.使用Numpy读取csv文件应使用以下哪个函数()。A、save()B、read_csv()C、loadtxt()D、open()答案:C231.关于Python语言的特点,以下选项中描述错误的是()。A、Python语言是非开源语言B、Python语言是跨平台语言C、Python语言是多模型语言D、Python语言是脚本语言答案:A232.构造了一个词表:{1.小明2.喜欢3.踢4.看5.足球6.篮球7.电影},利用上述词表的索引号,文档{小明喜欢踢足球}可以用一个7维向量表示为()。A、【1101001】B、【1111111】C、【1111100】D、【1110100】答案:D233.下列选项中,用于触发异常的是()。A、tryB、catchC、raiseD、except答案:C234.Numpy不支持以下哪种数据类型()。A、float32B、uint64C、boolD、byte答案:D235.下面哪项不属于循环神经网络的输出模式。(__)A、单输出B、多输出C、同步多输出D、异步多输出答案:C236.在Hadoop生态系统中,()可以将结构化的数据文件映射成一张数据库表,并提供简单的查询语言。A、PigB、HbaseC、HiveD、MapReduce答案:C237.建立一个词典【Alex,wants,to,go,play,football,shopping】,下面的句子:Alexwantstogotoplayfootball可以用向量表示为()。A、【1,1,2,1,1,1,0】B、【1,1,2,1,1,1】C、【1,1,1,1,1,1,0】D、【1,1,1,1,1,1,1】答案:A238.Hadoop中biner()函数的功能是()。A、数据排序B、数据标记C、数据分析D、数据合并答案:D239.ZooKeeper的特点描述错误的是()。A、复杂性B、自我复制C、顺序访问D、高速读取答案:A240.()是Scikit-Learn中的支持向量机模块。A、MinBatchKMeansB、SVCC、LinearRegressionD、Regression答案:B241.变量的不确定性越大,相对应信息熵有什么变化()。A、熵变小B、熵变大C、不变D、以上答案都不正确答案:B242.以下不属于基于区域的图像分割方法的是()。A、区域生长法B、分水岭算法C、大津算法D、基于图论的分割算法答案:C243.正确导入日期模块的语句()。A、importdateB、importdatetimeC、importtimeD、importdate_time答案:B244.以下使用其本身可以达成数据透视功能的函数是()。A、groupbyB、transformC、crosstabD、pivot_table答案:D245.下面哪个色彩空间最接近人的视觉系统的特点()。A、RGB空间B、CMY空间C、CMYK空间D、HSI空间答案:D246.matplotlib中的barh函数可以绘制()图。A、直方图B、饼图C、条形图D、气泡图答案:C247.np.linalg.svd()函数可以实现()功能。A、计算协方差矩阵B、实现奇异值分解C、计算方差D、计算均值;答案:B248.下列关于数据科学流程与方法的描述中,错误的是()。A、数据科学的基本流程包括数据化、数据加工(DataWrangling或DataMunging)、数据规整化、探索性分析、数据分析与洞见、结果展现以及数据产品的提供B、对于数据形态不符合要求的乱数据,要通过清洗成为规整数据C、数据分析包括描述性分析、诊断性分析、预测性分析和规范性分析D、数据可视化会遇到视觉假象问题,人眼对亮度和颜色的相对判断容易造成视觉假象答案:B249.下列对于等距离散化和等频离散化的叙述中,不正确的是()。A、等距离散化是将连续型特征的取值区间均匀的划分成多个区间段B、等距离散化对数据离群值不敏感C、等频离散化考虑了区间段中的样本个数,使每个区间段的样本数相同D、等频离散化会将相似的样本划分到不同的区间答案:B250.根据数据管理计划,设计或选择具体方法实行计划中的工作内容,属于数据治理的哪一步()。A、计划B、执行C、检查D、改进答案:B251.matplotlib中的legend函数作用是什么()。A、设置标签文本B、绘制网格线C、标示不同图形的文本标签图例D、设置x轴的数值显示范围答案:C252.从数据到智慧的转换依次递进过程是()。A、数据、知识、信息、理解、智慧B、数据、信息、理解、知识、智慧C、数据、信息、知识、理解、智慧D、数据、理解、信息、知识、智慧答案:C253.下列不属于数据科学跨平台基础设施和分析工具的是()。A、微软AzureB、Google云平台C、阿里云D、Adobephotoshop答案:D254.下面哪个程序负责HDFS数据存储()A、NameNodeB、JobtrackerC、DatanodeD、secondaryNameNode答案:C255.a=np.arange(24).reshape(2,3,4)的输出结果为()数据。A、一维B、二维C、三维D、四维答案:C256.如何使用pyplot创建一个新图()。A、pyplot.figimage()B、pyplot.figure()C、pyplot.figtext()D、pyplot.figlegend()答案:B257.三维以上数组是以()的形式输出的。A、按行输出B、按矩阵输出C、按矩阵列表输出D、按字符串输出答案:C258.反转二维数组arr的行arr=np.arange(9).reshape(3,3)A、arr【::-1】B、arr【::-2】C、arr【::1】D、arr【::0】答案:A259.a=【1,2,3.4,5】,切片时如果要取【2,3.4】,正确的选项是()。A、a【1:4】B、a【-2:】C、a【1:-1】D、a【::2】答案:C260.训练样本集S含有天气、气温、人体感受、风力4个指标,已知天气的熵为0.694,温度的熵为0.859,人体感受的熵为0.952,风力的熵为0.971,如使用ID3算法,选择()为树模型的分界点。A、天气B、气温C、人体感受D、风力答案:A261.以下选项中说法不正确的是()。A、解释是将源代码逐条转换成目标代码同时逐条运行目标代码的过程B、编译是将源代码转换成目标代码的过程C、C语言是静态语言,Python语言是脚本语言D、静态语言采用解释方式执行,脚本语言采用编译方式执行答案:D262.对MapReduce计算框架中生成的键值对的说法正确的是(__)。A、可以有相同的键,值必须唯一;B、可以有相同的值,键必须唯一;C、可以有相同的键,也可以有相同的值;D、键和值都必须唯一;答案:C263.长短时记忆神经网络被设计用来解决什么问题()A、传统RNN存在的梯度消失/爆炸问题B、传统RNN计算量大的问题C、传统RNN速度较慢的问题D、传统RNN容易过过拟合的问题答案:A264.以下表述正确的是()。A、if语句总是与else成对出现B、if语句总是与elif成对出现C、if语句分支嵌套实现多分支D、if语句只能实现二分支答案:C265.df.tail()这个函数是用来()。A、用来创建数据B、用来展现数据C、用来分析数据D、用来删除数据答案:B266.geoplot是()库和()库的扩展。A、cartopy和seabornB、seaborn和matplotlibC、cartopy和matplotlibD、matplotlib和ggplot2答案:C267.下列关于聚类挖掘技术的说法中,错误的是()。A、不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别B、要求同类数据的内容相似度尽可能小C、要求不同类数据的内容相似度尽可能小D、与分类挖掘技术相似的是,都是要对数据进行分类处理答案:B268.()是指具有体量大、来源多样、生成极快、且多变等特征并且难以用传统数据体系机构有效处理的包含大量数据集的数据。A、海量数据B、大数据C、厚数据D、异构数据答案:B269.以下哪一个不是长短时记忆神经网络三个门中中的一个门()A、输入门B、输出门C、遗忘门D、进化门答案:D270.下列关于计算机存储容量单位的说法中,错误的是()。A、1KB<1MB<1GBB、基本单位是字节(Byte)C、一个汉字需要一个字节的存储空间D、一个字节能够容纳一个英文字符答案:C271.由于不同类别的关键词对排序的贡献不同,检索算法一般把查询关键词分为几类,以下哪一类不属于此关键词类型的是()。A、引用词B、普通关键词C、高频词汇D、扩展关键词答案:C272.采样分析的精确性随着采样随机性的增加而(),但与样本数量的增加关系不大。A、降低B、不变C、提高D、无关答案:C273.scipy.stats模块中累积分布的反函数是()。A、pdfB、ppfC、rvsD、sf答案:B274.()不仅可用于多层前馈神经网络,还可用于其他类型的神经网络。A、感知机B、神经元C、神经系统D、误差逆传播答案:D275.中心极限定理是噪声抑制的中的统计原理,其内容是:均值分布总会收敛于一个()。A、正态分布B、泊松分布C、多项式分布D、均值分布答案:A276.Hadoop默认对3个副本的存放策略是()A、第一个副本存放在client所在的datanode中——》第二个副本存放在与第一个副本不同机架的随机datanode中——》第三个副本存放在与第二个副本同机架的不同datanode中;B、第一个副本存放在client所在的datanode中——》第二个副本存放在与第一个副本同机架的不同datanode中——》第三个副本存放在与第一个副本不同机架的随机datanode中;C、第一个副本存放在随机datanode中——》第二个副本存放在与第一个副本同机架的不同datanode中——》第三个副本存放在与第一个副本不同机架的随机datanode中;D、第一个副本存放在随机datanode中——》第二个副本存放在与第一个副本不同机架的随机datanode中——》第三个副本存放在与第一个副本同机架的不同datanode中;答案:A277.视觉通道表现力评价指标不包括()。A、精确性B、可辨认性C、可分离性D、可转换性答案:D278.pyplot.title()的作用是()。A、绘制垂直线B、为图设置标题C、为图添加文本D、绘制互相关答案:B279.TF-IDF中的TF是指()。A、某个词在文档中出现的次数B、文章的总次数C、某个词在文档中出现的次数/文章的总次数D、以上答案都不正确答案:C280.plt.plot()函数的功能是()。A、展现变量的趋势变化B、寻找变量之间的关系C、设置x轴的数值显示范围D、设置x轴的标签文本答案:A281.下列哪一种架构有反馈连接(__)。A、循环神经网络B、卷积神经网络C、受限玻尔兹曼机D、都不是答案:A282.以下选项中Python用于异常处理结构中用来捕获特定类型的异常的保留字是()。A、exceptB、doC、passD、while答案:A283.执行以下代码段Print(bool('False'))Print(bool())时,输出为()。A、TrueTrueB、TrueFalseC、FalseTrueD、FalseFalse答案:B284.关于random.uniform(a,b)的作用描述,以下选项中正确的是()。A、生成一个均值为a,方差为b的正态分布B、生成一个(a,b)之间的随机数C、生成一个【a,b】之间的随机整数D、生成一个【a,b】之间的随机小数答案:D285.在MapReduce中,以下描述中错误的是()。A、经过map()函数的计算可以得出一个中间数据集B、map()函数是确定的,用户不可自定义C、对map()函数的返回值,进行一定的处理后才进入下个阶段D、map()函数的输入输出都是同一数据结构答案:B286.假定你现在训练了一个线性SVM并推断出这个模型出现了欠拟合现象,在下一次训练时,应该采取下列什么措施()A、增加数据点B、减少数据点C、增加特征D、减少特征答案:C287.()算法是一种最有影响的挖掘关联规则频繁项目集的算法。A、FP-growthB、EClatC、聚类D、Apdori答案:D288.以下哪种方法不属于特征选择的标准方法:()。A、嵌入B、过滤C、包装D、抽样答案:D289.在一个简单的线性回归模型中(只有一个变量),如果将输入变量改变一个单位(增加或减少),那么输出将改变多少()A、一个单位B、不变C、截距D、回归模型的尺度因子答案:D290.下列关于文本分类的说法不正确的是()A、文本分类是指按照预先定义的主题类别,由计算机自动地为文档集合中的每个文档确定一个类别B、文本分类大致可分为基于知识工程的分类系统和基于机器学习的分类系统C、文本的向量形式一般基于词袋模型构建,该模型考虑了文本词语的行文顺序D、构建文本的向量形式可以归结为文本的特征选择与特征权重计算两个步骤答案:C291.语句np.random.randn(5,4)的运算结果是()。A、生成一个5行4列的随机矩阵B、将矩阵的第5行第4列改成一个随机值C、将矩

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论