版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGEPAGE12024年数据价值挖掘技能竞赛考试题库大全-上(单选题汇总)一、单选题1.平滑图像处理可以采用RGB彩色()模型。A、直方图均衡化B、直方图均衡化C、加权均值滤波D、中值滤波答案:C2.()是指对于数据局部不良行为的非敏感性,它是探索性分析追求的主要目标之一。A、鲁棒性B、稳定性C、可靠性D、耐抗性答案:D3.对Python的sys模块常用方法的描述,错误的是()。A、sys.argv命令行参数List,第一个元素是程序本身路径B、sys.modules.keys)返回所有字典中的keysC、sys.exc_info)获取当前正在处理的异常类D、sys.exit(n)退出程序答案:B4.对于PCA处理后的特征,其朴素贝叶斯特征相互独立的假设一定成立,因为所有主成分都是正交的,所以不相关。这句话()。A、正确B、错误C、-D、-答案:B5.pynlpir是一种常用的自然语言理解工具包,其中进行分词处理的函数是()。A、open()B、segment()C、AddUserWord()D、generate()答案:B6.在matplotlib中,以下关于绘图标准流程说法错误的是()。A、绘制最简单的图形可以不用创建画布B、添加图例可以在绘制图形之前C、添加x轴、y轴的标签可以在绘制图形之前D、修改x轴标签、y轴标签和绘制图形没有先后答案:B7.使用似然函数的目的是()。A、求解目标函数B、得到最优数据样本C、找到最适合数据的参数D、改变目标函数分布答案:C8.假设我们使用原始的非线性可分版本的Soft-SVM优化目标函数。我们可通过()来保证得到的模型是线性可分离的。A、C=0B、C=1C、正无穷大D、C负无穷大答案:C9.线性回归的基本假设不包括()。A、随机误差项是一个期望值为0的随机变量B、对于解释变量的所有观测值,随机误差项有相同的方差C、随机误差项彼此相关D、解释变量是确定性变量不是随机变量,与随机误差项之间相互独立答案:C10.随机森林与Bagging中基学习器多样性的区别是()。A、都来自样本扰动B、都来自属性扰动C、来自样本扰动和自属性扰动D、多样本集结合答案:C11.过滤式特征选择与学习器(),包裹式特征选择与学习器()。A、相关,相关B、相关,不相关C、不相关,相关D、不相关,不相关答案:C12.以下代码的输出结果为()。A、[012345678]B、[array([0,1,2]),array([3,4,5]),array([6,7,8])]C、[array([0,1,2,3]),array([4,5,6]),array([7,8])]D、没有正确答案答案:B13.在MapReduce计算架构中,()组件运行在DataNode上,具体管理本节点计算任务的执行。A、ClientB、JobTrackerC、TaskTrackerD、Task答案:C14.假设我们拥有一个已完成训练的、用来解决车辆检测问题的深度神经网络模型,训练所用的数据集由汽车和卡车的照片构成,而训练目标是检测出每种车辆的名称(车辆共有10种类型)。现在想要使用这个模型来解决另外一个问题,问题数据集中仅包含一种车(福特野马)而目标变为定位车辆在照片中的位置,则应采取的方法是()。A、除去神经网络中的最后一层,冻结所有层然后重新训练B、对神经网络中的最后几层进行微调,同时将最后一层(分类层)更改为回归层C、使用新的数据集重新训练模型D、所有答案均不对答案:B15.scipy库中用于物理和数学常量计算的模块是()。A、scipy.clusterB、scipy.ioC、scipy.constantsD、scipy.linalg答案:C16.下列关于文本分类的说法不正确的是()。A、文本分类是指按照预先定义的主题类别,由计算机自动地为文档集合中的每个文档确定一个类别B、文本分类大致可分为基于知识工程的分类系统和基于机器学习的分类系统C、文本的向量形式一般基于词袋模型构建,该模型考虑了文本词语的行文顺序D、构建文本的向量形式可以归结为文本的特征选择与特征权重计算两个步骤答案:C17.图像平滑会造成()。A、图像边缘模糊化B、图像边缘清晰化C、无影响D、以上答案都不正确答案:A18.数据产品开发工作之中需要特别注意的基本活动不包括()。A、创造性设计B、数据洞见C、虚拟化D、个性化描述答案:D19.数据仓库是随着时间变化的,下面的描述不正确的是()。A、数据仓库随时间的变化不断增加新的数据内容B、捕捉到的新数据会覆盖原来的快照C、数据仓库随事件变化不断删去旧的数据内容D、数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合答案:C20.()与HDFS类似。A、NTFSB、FAT32C、GFSD、EXT3答案:C21.设计为8层的卷积神经网络AlexNet网络成功使用()函数,其效果远远地超过了Sigmoid函数。A、ReLU函数B、sigmoid函数C、tanh函数D、sin函数答案:A22.选择神经网络的深度时,对于下面参数:①神经网络的类型(如MLP,CNN);②输入数据;③计算能力(硬件和软件能力决定);④学习速率;⑤映射的输出函数,需要考虑的是()。A、①②③④B、②③④⑤C、都需要考虑D、①③④⑤答案:C23.()属于SVM应用。A、文本和超文本分类B、图像分类C、新文章聚类D、以上均是答案:D24.有数组n=np.arange(24).reshape(2,-1,2,2),np.shape的返回结果是()。A、(2,3,2,2)B、(2,2,2,2)C、(2,4,2,2)D、(2,6,2,2)答案:A25.下列关于分词的说法正确的是()。A、中文中句、字之间没有空格,无法分词B、一个句子的分词结果是唯一的C、中文分词是将一系列无空格间隔字符串分割成一系列单词的过程D、分词没有实际应用价值答案:C26.运行下面的代码,输出结果是()。A、-2B、2C、不确定D、3答案:C27.HBase使用一个()节点协调管理一个或多个RegionServer从属机。A、NameNodeB、DataNodeC、JobTrackerD、Master答案:D28.对于数据3,3,2,3,6,3,10,3,6,3,2.,得出以下结论:①这组数据的众数是3;②这组数据的众数与中位数的数值不相等;③这组数据的中位数与平均数的数值不相等;④这组数据的平均数与众数的数值相等.。其中正确结论的个数为()。A、1B、2C、3D、4答案:B29.geoplot是()库和()库的扩展。A、cartopy和seabornB、seaborn和matplotlibC、artopy和matplotlibD、matplotlib和ggplot2答案:C30.pyplot.pie)所画的图像是()。A、箱线图B、折线图C、直方图D、饼图答案:D31.下面哪个是针对下列程序,满足期望输出的代码是()。A、rr%2==1B、arr[arr%2==1]C、arr[arr/2==1]D、arr[arr//2==1]答案:B32.随着集成中个体分类器(相互独立)数目T的增大,集成的错误率将呈()下降,最终趋向于零。A、指数级B、对数级C、线性级D、平方级答案:A33.以下处理能获得像素级标注的是()。A、图像分类B、物体检测C、图像去噪D、语义分割答案:D34.对分类任务来说,学习器从类别标记集合中预测出一个标记,最常见的结合策略是()。A、投票法B、平均法C、学习法D、排序法答案:A35.假设你在卷积神经网络的第一层中有5个卷积核,每个卷积核尺寸为7×7,具有零填充且步幅为1。该层的输入图片的维度是224×224×3。那么该层输出的维度是()。A、217x217x3B、217x217x8C、218x218x5D、220x220x7答案:C36.以下属于图像处理的常用方法有()。A、图像变换B、图像编码压缩C、图像增强和复原D、以上答案都正确答案:D37.下列关于TF-IDF说法正确的是()。A、该值与特征项在文档中出现的频率成反比B、该值与特征项在文档中出现的频率成正比C、该值与在整个语料库中出现该特征项的文档库成正比D、该值与特征项在文档中出现的频率无关答案:B38.在matplotlib中,在当前图形上添加一个子图需要用到哪个的方法是()。A、plt.stackplot)B、plt.suptitle)C、plt.subplot)D、plt.imshow)答案:C39.()的本质是将低层次数据转换为高层次数据的过程。A、数据处理B、数据计算C、数据加工D、整齐数据答案:C40.()是指为最小化总体风险,只需在每个样本上选择能使特定条件风险最小的类别标记。A、支持向量机B、间隔最大化C、线性分类器D、贝叶斯判定准则答案:D41.Numpy.array数组的简称是()。A、rrayB、nparrayC、NdarrayD、pyarray答案:C42.以下代码的输出结果为()。A、[101001000]B、[100100001000000]C、[123]D、[10100001000000000]答案:B43.()是基于规则的分类器。A、C4.5B、KNNC、NaiveBayesD、ANN答案:A44.一切皆可连,任何数据之间逻辑上都有可能存在联系,这体现了大数据思维维度中的()。A、定量思维B、相关思维C、因果思维D、检验思维答案:B45.属于深度学习框架的是()。A、TensorflowB、CaffeC、PyTorchD、以上答案都正确答案:D46.下面代码print(0.1+0.2==0.3)的输出结果是()。A、TRUEB、FALSEC、TRUED、FALSE答案:B47.列表中可以放多少()个字符串()。A、1B、255C、无限个D、由用户自己定义答案:C48.关于Hive说法正确的是()。A、一种数据仓库B、一种数据处理工具C、一种可视化工具D、一种分析算法答案:A49.Numpy中确定随机数生成种子使用以下哪个的函数是()。A、np.random)B、np.random.seed)C、np.uniform)D、np.eig)答案:B50.随机森林中的随机是指()。A、随便构建树模B、随机选择一个树模型C、随机选择多个树模型D、在构建每个树模型时随机选择样本和特征答案:D51.客户端从HDFS上读取数据时会()。A、从NameNode上获取数据B、从DataNode上获取Block位置C、从NameNode上获取Block位置D、从NameNode上获取数据和Block位置答案:C52.()是表示数据分布是否为对称性的统计量。A、方差B、中位数C、偏态D、峰态答案:C53.下列关于Python全局变量和局部变量的描述,不正确的是()。A、local关键字用于定义局部变量,global关键字用于定义全局变量B、关键字local定义的变量仅在该函数内可见C、关键字global定义全局变量时必须自成一行D、nonlocal变量不可以在内嵌函数中使用答案:D54.以下关于Python模块理解错误的有()。A、模块是包含函数和变量的Python文件B、不可以使用.操作符访问模块中的函数和变量C、可以导入模块中的所有类D、可以在一个模块中导入另一个模块答案:B55.MapReduce默认的分区函数是()。A、hashB、diskC、reduceD、map答案:A56.下面算法中属于图像锐化处理的是()。A、低通滤波B、加权平均法C、高通滤波D、中值滤波答案:C57.在Hadoop生态系统中,()可以将结构化的数据文件映射成一张数据库表,并提供简单的查询语言。A、PigB、HBaseC、HiveD、MapReduce答案:C58.在linux下预装了Python2,、Python3且默认Python版本为Python3,下列描述可以正确启动Python有的是()。A、在linux应用程序Terminal,打开一个终端窗口。输入whichPythonB、在linux应用程序Terminal,打开一个终端窗口。输入Python2或Python3C、在linux应用程序Terminal,打开一个终端窗口。输入whichPython3D、在linux应用程序Terminal,打开一个终端窗口。输入输入whichPython2答案:B59.关于Hive说法正确的是()。A、一种数据仓库B、一种数据处理工具C、一种可视化工具D、一种分析算法答案:A60.MapReduce编程模型,键值对<key,value>的key必须实现哪个接口()。A、WritableComparableB、ComparableC、WritableD、LongWritable答案:A61.a=np.array([1,0,0,3,4,5,0,8]),b=np.nonzero(a),则A、[0,3,4,5,7]B、[1,3,4,5,8]C、[03457]D、[13458]答案:A62.数据集成的基本类型是()。A、内容集成、结构集成B、内容集成、规约集成C、规约集成、结构集成D、模式集成、结构集成答案:A63.下列()不属于Statsmodels模块的主要特点的是()。A、线性模型B、方差分析C、时间序列D、插值运算答案:D64.对模型进行交叉验证可以使用以下哪种()方法()。A、learning_curve)B、cross_val_score)C、permutation_test_scoreD、validation)答案:B65.matplotlib中的step函数绘制的是什么图()。A、阶梯图B、直方图C、间断条形图D、堆积折线图答案:A66.事务对数据对象加锁后拥有何种控制权是由封锁的()决定的。A、状态B、类型C、数量D、属性答案:B67.下列不属于Action操作的是()。A、collectB、filterC、reduceD、count答案:B68.Spark核心层主要关注()问题。A、存储B、计算C、传输D、连接答案:B69.下列关于表述数据可视化在数据科学中重要地位说法中,下列不正确的是()。A、视觉是人类获得信息的最主要途径B、数据可视化处理可以洞察统计分析无法发现的结构和细节C、数据可视化处理结果的解读对用户知识水平的要求较高D、可视化能够帮助人们提高理解与处理数据的效率答案:C70.K折交叉验证器是以下哪个()方法()。A、model_selection.GroupKFold)B、model_selection.GroupShuffleSplit)C、model_selection.KFold)D、model_selection.RepeatedKFold)答案:C71.数据仓库的最终目的是()。A、收集业务需求B、建立数据仓库逻辑模型C、开发数据仓库的应用分析D、为用户和业务部门提供决策支持答案:D72.设置图的标题的命令是()。A、plt.text('标题')B、plt.legend('标题')C、plt.xticks('标题')D、plt.title('标题')答案:D73.一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归直线方程为y=7.19x+73.93,据此可以预测这个孩子10岁时的身高,则正确的叙述是()。A、身高一定是145.83cmB、身高一定超过146.00cmC、身高一定高于145.00cmD、身高在145.83cm左右答案:D74.以下选项中哪个不属于数据预处理的方法()。A、数据清洗B、数据集成C、数据变换D、数据统计答案:D75.如果只写open(filename),那就是用()模式打开。A、rB、wC、aD、b答案:A76.以下选项中,正确地描述了浮点数0.0和整数0相同性的是()。A、它们使用相同的硬件执行单元B、它们具有相同的数据类型C、它们具有相同的值D、它们使用相同的计算机指令处理方法答案:C77.以下关于模块说法错误的是()。A、一个xx.py就是一个模块;B、任何一个普通的xx.py文件可以作为模块导入;C、模块文件的扩展名不一定是.py;D、运行时会从指定的目录搜索导入的模块,如果没有,会报错异常答案:C78.np.setdiff1d(Ndarray1,Ndarray2)函数的作用是()。A、返回二者的交集并排序B、返回二者的并集并排序C、返回二者的差集D、返回二者的对称差答案:C79.关于eval函数,以下选项中描述错误的是()。A、eval函数的作用是将输入的字符串转为Python语句,并执行该语句B、如果用户希望输入一个数字,并用程序对这个数字进行计算,可以采用eval(input(<输入提示字符串>)组合C、执行eval("Hello")和执行eval("'Hello'")得到相同的结果D、eval函数的定义为:eval(source,globals=None,locals=None,/)答案:C80.以下代码的输出结果为()。A、[[0,2,3],[4,6,7],[8,10,11],[12,14,15]]B、[[0,1,2,3],[8,9,10,11],[12,13,14,15]]C、[[0,1,2,3],[4,5,6,7],[8,9,10,11],[12,13,14,15]]D、[[1,2,3],[5,6,7],[9,10,11],[13,14,15]]答案:C81.Matplotlib的核心是面向()。A、过程B、对象C、结果D、服务答案:B82.在Python中,函数()。A、不可以嵌套定义B、不可以嵌套调用C、不可以递归调用D、以上答案都不正确答案:D83.在linux下预装了Python2,、Python3且默认Python版本为Python3,下列描述可以正确启动Python有的是()。A、在linux应用程序Terminal,打开一个终端窗口。输入whichPythonB、在linux应用程序Terminal,打开一个终端窗口。输入Python2或Python3C、在linux应用程序Terminal,打开一个终端窗口。输入whichPython3D、在linux应用程序Terminal,打开一个终端窗口。输入输入whichPython2答案:B84.HadoopMapReduce2.0中,()负责资源的管理和调度。A、JobTrackerB、YARNC、TaskTrackerD、ApplicationMaster答案:B85.AGNES是一种采用()策略的层次聚类算法。A、自顶向下B、自底向上C、自左至右D、自右至左答案:B86.标准BP算法的目标是使训练集上的()最小。A、累积方差B、累积误差C、累积协方差D、累积偏差答案:B87.大数据涌现现象的形式有多种,不属于大数据涌现形式的是()。A、价值涌现B、隐私涌现C、物质涌现D、质量涌现答案:C88.下列算法中,()更适合做时间序列建模。A、CNNB、决策树C、LSTMD、贝叶斯算法答案:C89.Hadoop中partition()函数代表的是()。A、分区函数B、特征函数C、算法函数D、排序函数答案:A90.针对以下数组,下面哪个选项可以获取两个PythonNumpy数组之间的公共项的是()。A、intersect1d(a,b)B、ersect1d(a,b)C、erset(a,b)D、ersect1d(a)答案:B91.美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的()。A、在数据基础上倾向于全体数据而不是抽样数据B、在分析方法上更注重相关分析而不是因果分析C、在分析效果上更追究效率而不是绝对精确D、在数据规模上强调相对数据而不是绝对数据答案:B92.在scipyScipy中,想要生成20个服从正态分布的随机数使用以下哪个函数()。A、stats.uniform.rvs(size=20)B、stats.norm.rvs(size=20)C、stats.beta.rvs(size=20)D、stats.poisson.rvs(size=20)答案:B93.数据的原始内容及其备份数据,是数据产品的研发的哪个阶段()。A、零次数据B、一次数据C、二次数据D、采集数据答案:A94.多分类LDA将样本投影到N-1维空间,N-1通常远小于数据原有的属性数,可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的()技术。A、无监督特征选择B、无监督降维C、监督特征选择D、监督降维答案:D95.()算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和检测两个阶段来挖掘频繁项集。A、prioriB、EMC、PCAD、PAC答案:A96.以下代码的输出结果为()。A、[[1074][321]]B、3.5C、[]D、[7.2.]答案:B97.scipyScipy通常与下列哪个库()同时使用()。A、pandasB、scikit-learnC、NumpyD、jieba答案:C98.数据使用环节的安全技术措施除防火墙、()、防病毒、防DDOS、漏洞检测等网络安全防护技术措施外,还需实现以下安全技术能力:账号权限管理、数据安全域、数据脱敏、日志管理和审计、异常行为实时监控和终端数据防泄漏。A、入侵检测B、病毒检测C、程序检测D、进程检测答案:A99.协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度(),并将这些用户喜欢的项推荐给有相似兴趣的用户。A、相似B、相同C、推荐D、预测答案:D100.下列哪些不是目前机器学习所面临的问题是()。A、测试集的规模B、维度灾难C、特征工程D、过拟合答案:A101.下列程序打印结果为()。A、PythonB、PythC、thon’sD、Python‘sfeatures答案:B102.关于文件的打开方式,以下选项中描述正确的是()。A、文件只能选择二进制或文本方式打开B、文本文件只能以文本方式打开C、所有文件都可能以文本方式打开D、所有文件都可能以二进制方式打开答案:D103.利用到每个聚类中心和的远近判断离群值的方法,可以基于的算法为()。A、K-meansB、KNNC、SVMD、LinearRegression答案:A104.如果使用线性回归模型,下列说法正确的是()。A、检查异常值是很重要的,因为线性回归对离群效应很敏感B、线性回归分析要求所有变量特征都必须具有正态分布C、线性回归假设数据中基本没有多重共线性D、以上说法都不对答案:A105.Seaborn要求原始数据的输入类型不能是()A、DataframeB、SeriesC、NumpyD、-答案:B106.已知一组数据的协方差矩阵P,下面关于主分量说法错误的是()。A、主分量分析的最佳准则是对一组数据进行按一组正交基分解,在只取相同数量分量的条件下,以均方误差计算截尾误差最小B、在经主分量分解后,协方差矩阵成为对角矩阵C、主分量分析就是K-L变换D、主分量是通过求协方差矩阵的特征值得到答案:C107.下列不能作为数据科学数据源的是()。A、医院里的病历、检查、诊断等与健康相关的数据B、物联网中涉及设备运行情况的日志数据C、金融领域客户的借款记录以及信用情况D、个人电脑中用于备忘的日记答案:D108.对于SVM分类算法,待分样本集中的大部分样本不是支持向量,下列说法正确的是()。A、需要将这些样本全部强制转换为支持向量B、需要将这些样本中可以转化的样本转换为支持向量,不能转换的直接删除C、移去或者减少这些样本对分类结果没有影响D、以上都不对答案:C109.ndarry是一个通用的()数据容器。A、单维同类;B、单维多类;C、多维同类;D、多维多类;答案:C110.下列哪个()不是scipy.stats模块中的功能()。A、连续性分布B、线性方程求解C、离散型分布D、核密度估计答案:B111.scipy中,线性模块是以下哪个()模块()。A、fftpackB、signalC、linalgD、ndimage答案:C112.Numpy中,利用函数自动创建数组不包括以下哪个的函数是()。A、range)B、ones)C、linspace)D、type)答案:D113.在matplotlib中,以下说法正确的是()。A、散点图不能在子图中绘制B、散点图的x轴刻度必须为数值C、折线图可以用作查看特征间的趋势关系D、箱线图可以用来查看特征间的相关关系答案:C114.如何通过代理服务器进行爬虫的方法是()。A、个人发送访问请求到代理服务器,代理服务器转发到网站,网站反馈给个人B、个人发送访问请求到网站,网站反馈给个人,并备份访问记录到代理服务器C、个人发送访问请求到代理服务器,代理服务器转发到网站,网站反馈给代理服务器,代理服务器再发送给个人D、个人发送访问请求到网站,网站反馈给代理服务器,个人再访问代理服务器获取网页信息答案:C115.多分类学习中,最经典的三种拆分策略不包括()。A、一对一B、一对其余C、一对多D、多对多答案:A116.已知数组a=np.array([[0,0,0],[10,10,10],[20,20,20],[30,30,30]])A、[[1,2,3],[10,10,10],[20,20,20],[30,30,30]]B、[[1,2,3],[0,0,0],[10,10,10],[20,20,20],[30,30,30]]C、[[1,2,3],[11,12,13],[21,22,23],[31,32,33]]D、无法计算答案:C117.使用pyplot.plot画图时,x,、y的参数的值的数据类型是()。A、charB、floatC、arrayD、ataFrame答案:C118.运行下面的代码,输出结果是()。A、2B、6C、(2,3)D、(3,2)答案:B119.关于数据相关性,以下说法错误的是()。A、相关性体现了大数据的灵魂B、相关性思维实现了从“为什么”到“是什么”的思维转变C、相关性关注事物的因果关系D、相关性关注事物的相关关系答案:C120.关于Logistic回归和SVM的描述,不正确的是()。A、Logistic回归本质上是一种根据样本对权值进行极大似然估计的方法,用先验概率的乘积代替后验概率B、Logistic回归的输出就是样本属于正类别的概率C、SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,属于结构风险最小化D、SVM可以通过正则化系数控制模型的复杂度,避免过拟合答案:A121.下列不属于数据科学开源工具的是()。A、MapReduceB、ERPC、HadoopD、Spark答案:B122.关于python的类,说法错误的是()。A、类的实例方法必须创建对象后才可以调用B、类的实例方法必须创建对象前才可以调用C、类的类方法可以用对象和类名来调用D、类的静态属性可以用类名和对象来调用答案:B123.长短时记忆网络属于一种()。A、全连接神经网络B、门控RNNC、BP神经网络D、双向RNN答案:B124.以下代码的输出结果为()。A、[[306570][809510][509060]]B、65C、[50.90.60.]D、[65.80.60.]答案:D125.读代码,请写出程序正确的答案()。A、结果:1到100之和为:5000B、结果:1到100之和为:0C、结果:1到100之和为:2050D、结果:1到100之和为:5020答案:B126.Numpy中对数组进行转置的函数是哪个()。A、transpose)B、rollaxis)C、swapaxes)D、tan)答案:A127.()不属于CRF模型对于HMM和MEMM模型的优势。A、特征灵活B、速度快C、可容纳较多上下文信息D、全局最优答案:B128.我们建立一个5000个特征,100万数据的机器学习模型.我们怎么有效地应对这样的大数据训练()。A、我们随机抽取一些样本,在这些少量样本之上训练B、我们可以试用在线机器学习算法C、我们应用PCA算法降维,减少特征数D、以上答案都正确答案:D129.Scikit-Learn中StandardScaler是将特征数据的分布调整成(),也就是使得数据的均值为0,方差为1。A、正态分布B、泊松分布C、均匀分布D、二项分布答案:A130.sklearn中对模型进行选择主要是依靠()模块。A、decompositionB、model_selectionC、linear_modelD、mixture答案:B131.如果x=5.5,则表达式x>0andx==int(x)的运算结果为;表达式x>0orx==int(x)的运算结果为()。A、TrueFalseB、FalseTrueC、TrueTrueD、FalseFalse答案:B132.为了降低MapReduce两个阶段之间的数据传递量,一般采用()函数对map阶段的输出进行处理。A、sort()B、combiner()C、join()D、gather()答案:B133.决策树中,同一路径上的所有属性之间是()关系。A、因果B、相关C、逻辑或D、逻辑与答案:D134.数据可视化是利用计算机图形学和(),将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。A、视觉处理技术B、视频处理技术C、图像处理技术D、图片处理技术答案:C135.以下关于情感分析说法错误的是()。A、情感分类是一个领域相关的问题B、情感分类往往牵涉样本的正负类别分布不平衡的问题C、情感分析属于nlp范围D、以上答案都不正确答案:D136.()不适合使用机器学习方法解决。A、判断电子邮件是否是垃圾邮件B、判断给定的图中是否有环C、判断是否给指定用户办理信用卡D、对滴滴拼车乘客分簇答案:B137.以下不属于Python内置模块的是()。A、sysB、jsonC、osD、image答案:D138.线性判别分析在二分类问题上也称为()。A、线性回归B、对数几率回归C、Fisher判别分析D、主成分分析答案:C139.下列方法中,能够返回某个子串在字符串中出现次数的是()。A、lengthB、indexC、ountD、find答案:C140.关于Python内存管理,下列说法错误的是哪项()。A、变量不必事先声明B、变量无须先创建和赋值而直接使用C、变量无须指定类型D、可以使用del释放资源答案:B141.有研究发现“页面的显示速度每延迟1s,网站访问量就会降低11%,从而导致营业额或者注册量减少7%,顾客满意度下降16%”。该项研究表明了()在数据产品开发中的重要性。A、查全率B、用户体验C、数据可视化D、查准率答案:B142.当()时,可以不考虑RDD序列化处理。A、完成成本比较高的操作后B、执行容易失败的操作之前C、RDD被重复使用D、实时性要求高答案:D143.卷积神经网络中每层卷积层(Convolutionallayer)由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法最佳化得到,其作用是()。A、增强图像B、简化图像C、特征提取D、图像处理答案:C144.下列语句中,在python3中合法的语句为()。A、printHello,World!B、print'Hello,World!'C、print('Hello,World!')D、print"Hello,World!"答案:C145.以下内容符合物体识别任务的是()。A、不能对图像进行压缩或剪裁B、遵守误差最小准则和最佳近似准则C、可以不指定分类的类别数量D、事先给定样本的分布特征答案:B146.()会发生权重共享。A、卷积神经网络B、循环神经网络C、全连接神经网络D、选项A和B答案:D147.概率模型的训练过程就是()过程。A、分类B、聚类C、参数估计D、参数选择答案:C148.在一个线性回归问题中,我们使用R平方(R-Squared)来判断拟合度。此时,如果增加一个特征,模型不变,则下面说法正确的是()。A、如果R-Squared增加,则这个特征有意义B、如果R-Squared减小,则这个特征没有意义C、仅看R-Squared单一变量,无法确定这个特征是否有意义D、以上说法都不对答案:C149.一元线性回归方程y=0.7+0.82x,判定系数等于0.64,则x与y的相关系数为()。A、0.82B、0.64C、0.8D、0.7答案:C150.以下算法中不属于基于深度学习的图像分割算法是()。A、FCNB、DeeplabC、Mask-RCNND、KNN答案:D151.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。A、统计方法B、邻近度C、密度D、聚类技术答案:A152.假设有n组数据集,每组数据集中,x的平均值都是9,x的方差都是11,y的平均值都是7.50,x与y的相关系数都是0.816,拟合的线性回归方程都是y=3.00+0.500x。那么这n组数据集()。A、一样B、不一样C、无法确定是否一样D、-答案:C153.MapReduce里面的query、sort和limit等都是针对()的操作。A、map()之前B、reduce()之前C、reduce()之后D、finalize()之后答案:A154.建立一个词典[Alex,wants,to,go,play,football,shopping],下面的句子:Alexwantstogotoplayfootball可以用向量表示为()。A、[1,1,2,1,1,1,0]B、[1,1,2,1,1,1]C、[1,1,1,1,1,1,0]D、[1,1,1,1,1,1,1]答案:A155.执行如下代码:A、time库是Python的标准库;B、可使用time.ctime),显示为更可读的形式;C、time.sleep(5)推迟调用线程的运行,单位为毫秒;D、输出自1970年1月1日00:00:00AM以来的秒数;答案:C156.假设函数中不包括global保留字,对于改变参数值的方法,以下选项中错误的是()。A、参数是列表类型时,改变原参数的值B、参数的值是否改变与函数中对变量的操作有关,与参数类型无关C、参数是整数类型时,不改变原参数的值D、参数是组合类型(可变对象)时,改变原参数的值答案:B157.下列关于文本分类的说法不正确的是()。A、文本分类是指按照预先定义的主题类别,由计算机自动地为文档集合中的每个文档确定一个类别B、文本分类系统大致可分为基于知识工程的分类系统和基于机器学习的分类系统C、文本的向量形式一般基于词袋模型构建,该模型考虑了文本词语的行文顺序D、构建文本的向量形式可以归结为文本的特征选择与特征权重计算两个步骤答案:C158.可用信息增益来进行决策树的()。A、树高B、叶子结点数C、总结点数D、划分属性选择答案:D159.下列算法中,不属于外推法的是()。A、移动平均法B、回归分析法C、指数平滑法D、季节指数法答案:B160.以下关于深度学习框架的描述,正确的是()。A、Tensorflow是一款使用C++语言开发的开源数学计算软件B、Caffe对于卷积网络的支持特别好,同时提供的C++接口,也提供了matlab接口和python接口C、PyTorch的前身便是Torch,其底层和Torch框架一样,但是使用Python重新写了很多内容D、以上答案都正确答案:D161.在机器学习中,不属于常用的冲突消解策略是()。A、投票法B、排序法C、元规则法D、加权法答案:D162.如果要将读写位置移动到文件开头,需要使用的命令是()。A、closeB、seek(0)C、truncateD、write('stuff')答案:B163.将一副图像进行分割后,分割出的区域彼此之间()重叠。A、可以B、不可以C、根据任务需要确定是否可以D、根据分割方法确定是否可以答案:B164.在深度学习中,下列对于sigmoid函数的说法,错误的是()。A、存在梯度爆炸的问题B、不是关于原点对称C、计算exp比较耗时D、存在梯度消失的问题答案:A165.Spark的劣势是()。A、运算速度快B、业务实现需要较少代码C、提供很多现成函数D、需要更多机器内存答案:D166.矩阵相减使用以下哪种的函数是()。A、np.add)B、np.subtract)C、np.multiply)D、np.divide)答案:B167.()算法要求基学习器能对特定的数据分布进行学习,在训练过程的每一轮中,根据样本分布为每个训练样本重新赋予一个权重。A、BoostingB、支持向量机C、贝叶斯分类器D、神经网络答案:A168.以P(w)表示词条w的概率,假设已知P(南京)=0.8,P(市长)=0.6,P(江大桥)=0.4;P(南京市)=0.3,P(长江大桥)=0.5。如果假设前后两个词的出现是独立的,那么分词结果就是()。A、南京市×长江×大桥B、南京*市长*江大桥C、南京市长*江大桥D、南京市*长江大桥答案:B169.与生成方法、半监督SVM、图半监督学习等基于单学习机器利用未标记数据不同,基于分歧的方法(disagreement-basedmethods)使用多学习器,而学习器之间的分歧(disagreement)对未标记数据的利用至关重要。()是此类方法的重要代表。A、协同训练B、组合训练C、配合训练D、陪同训练答案:A170.在深度学习中,我们经常会遇到收敛到localminimum,下面不属于解决localminimum问题的方法是()。A、随机梯度下降B、设置MomentumC、设置不同初始值D、增大batchsize答案:D171.参数估计又可分为()和区间估计。A、线型估计B、点估计C、回归估计D、二维分析答案:B172.关于脏数据和乱数据的区分,以下哪种不属于脏数据()。A、含有缺失数据B、冗余数据C、噪声数据D、不规则形态数据答案:D173.从数据到智慧的转换依次递进过程是()。A、数据、知识、信息、理解、智慧B、数据、信息、理解、知识、智慧C、数据、信息、知识、理解、智慧D、数据、理解、信息、知识、智慧答案:C174.关于数据分析,下列说法正确的是()。A、描述性分析和预测性分析是诊断性分析的基础B、诊断性分析是对规范性分析的进一步理解C、预测性分析是规范性分析的基础D、规范性分析是数据分析的最高阶段,可以直接产生产业价值答案:C175.()不是Spark服务层的功能。A、SQL查询B、实时处理C、机器学习D、内存计算答案:D176.可分解为偏差、方差与噪声之和的是()。A、训练误差(trainingerror)B、经验误差(empiricalerror)C、均方误差(meansquarederror)D、泛化误差(generalizationerror)答案:D177.下列哪种业务场景中,不能直接使用Reducer充当Combiner使用()A、sum求和B、max求最大值C、ount求计数D、avg求平均答案:D178.一个分布式应用程序协调服务,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等的工具是()。A、FlumeB、ZookeeperC、StormD、SparkStreaming答案:B179.循环神经网络适合处理的数据是()。A、节点数据B、序列数据C、结构化数据D、图像数据答案:B180.当不知道数据所带标签时,可以使用()促使带同类标签的数据与带其他标签的数据相分离。A、分类B、聚类C、关联分析D、隐马尔可夫链答案:B181.下列关于神经网络的说法中:①增加神经网络层数,可能会增加测试数据集的分类错误率;②减少神经网络层数,总是能减小测试数据集的分类错误率;③增加神经网络层数,总是能减小训练数据集的分类错误率,正确的是()。A、①B、①③C、①②D、②答案:A182.所有预测模型在广义上都可称为一个或一组()。A、公式B、逻辑C、命题D、规则答案:D183.假如我们使用非线性可分的SVM目标函数作为最优化对象,我们怎么保证模型线性可分()。A、设C=1B、设C=0C、设C为无穷大D、以上答案都不正确答案:C184.传统目标检测流程包括()。A、区域选择B、特征提取C、分类器分类D、以上答案都正确答案:D185.Python中statsmodel库和()库关系密切。A、NumpyB、ScipyC、jiebaD、Pandaspandas答案:D186.中文同义词替换时,常用到Word2Vec,以下说法错误的是()。A、Word2Vec基于概率统计B、Word2Vec结果符合当前预料环境C、Word2Vec得到的都是语义上的同义词D、Word2Vec受限于训练语料的数量和质量答案:C187.执行以下代码段时,输出为()。A、['honda','yamaha','suzuki']B、['yamaha','suzuki','ducati']C、['honda','yamaha','suzuki','ducati']D、['honda','suzuki','ducati']答案:D188.大数据的4V特性不包括()。A、Volume(大量)B、Velocity(高速)C、Visual(可视)D、Variety(多样)答案:C189.()操作属于预剪枝。A、信息增益B、计算最好的特征切分点C、限制树模型的深度D、可视化树模型答案:C190.HBase作为数据存储组件封装于大数据平台,用于()存储。A、关系型数据库B、分布式文件C、非关系型数据库D、列式存储答案:C191.构造方法的作用是()。A、一般成员方法B、类的初始化C、对象的初始化D、对象的建立答案:C192.()在训练的每一轮都要检查当前生成的基学习器是否满足基本条件。A、支持向量机B、oosting算法C、贝叶斯分类器D、Bagging算法答案:B193.以下不属于基于区域的图像分割方法的是()。A、区域生长法B、分水岭算法C、大津算法D、基于图论的分割算法答案:C194.下列关于RNN的说法,正确的是()。A、RNN可以应用在NLP领域B、LSTM是RNN的一个变种C、在RNN中一个序列当前的输出与前面的输出也有关D、以上答案都正确答案:D195.以下分割方法中不属于区域算法的是()。A、分裂合并B、阈值分割C、区域生长D、边缘检测答案:D196.有数组arr=Numpy.array([1,,2,,3,,4]),执行arr.dtype后输出结果为()。A、int32B、int64C、float32D、float64答案:A197.一监狱人脸识别准入系统用来识别待进入人员的身份,此系统识别狱警、小偷、送餐员、其他人员4种不同人员。下列学习方法最适合此种应用需求的是()。A、二分类问题B、层次聚类问题C、多分类问题D、回归问题答案:C198.在比较模型的拟合效果时,甲、乙、丙三个模型的相关指数R2的值分别约为0.71、0.85、0.90,则拟合效果较好的模型是()。A、甲B、乙C、丙D、效果一样答案:C199.常用的数据归约方法可以分为()。A、维归约、数据压缩B、维归约、参数归约C、维归约、值归约D、数据压缩、值归约答案:C200.对a=np.array([[1,2,3],[4,5,6]]),以下操作会改变数组本身形状的是()。A、TB、a.reshape(2,3)C、a.ravel)D、a.resize)答案:D201.()不是长短时记忆神经网络三个门中的一个门。A、输入门B、输出门C、遗忘门D、进化门答案:D202.以下代码的输出结果为()。A、[[1,2],[3,4],[1,2],[3,4]]B、[[1,2,3,4],[1,2,3,4]]C、[[1,2],[3,4]]D、[1,2,3,4,1,2,3,4]答案:A203.以下关于DNN说法不正确的是()。A、层数多B、抽象能力强C、模拟更复杂模型D、广义上包含CNN、DBN、SVM等答案:D204.下列判断错误的是()。A、XML数据属于半结构化数据B、JSON文件属于非结构化数据C、PPT文件属于非结构化数据D、音视频文件属于非结构化数据答案:B205.神经网络感知机只有()神经元进行激活函数处理,即只拥有一层功能神经元。A、输出层B、输入层C、感知层D、网络层答案:A206.以下()不属于广义上的数据可视化技术。A、类别可视化B、科学可视化C、信息可视化D、可视分析学答案:A207.下列选项中,会输出1,2,3三个数字的是()。A、foriinrange(3):print(i)B、foriinrange(2):print(i+1)C、a_list=[0,1,2]foriina_list:print(i+1)D、i=1whilei<3:prirt(i)i=i+1答案:C208.标准正态分布的均数与标准差是()。A、0,1B、1,0C、0,0D、1,1答案:A209.输入图片大小为37×37,经过第一层卷积(thenumberoffilters=25,kernelsize=5×5,padding=valid,stride=1)与池化层maxpooling(kernelsize=3×3,padding=valid),输出特征图大小为()。A、10×10B、11×11C、12×12D、13×13答案:B210.对于随机森林和GBDT,下面说法正确的是()。A、在随机森林的单个树中,树和树之间是有依赖的,而GBDT中的单个树之间是没有依赖的B、这两个模型都使用随机特征子集,来生成许多单个的树C、我们可以并行地生成GBDT单个树,因为它们之间是没有依赖的D、GBDT训练模型的表现总是比随机森林好答案:B211.()不属于聚类性能度量外部指标。A、Jaccard系数B、FM系数C、Rand指数D、B指数答案:D212.绘图是如何通过()为项目设置matplotlib参数()。A、rc)B、sci)C、axes)D、sca)答案:A213.以下选项中,不是Python对文件的打开模式的是()。A、'w'B、'+'C、'c'D、'r'答案:C214.()是交叉验证法的一种特例。A、自助法B、留一法C、交叉验证法D、错误率分析答案:B215.图像与灰度直方图的对应关系为()。A、一一对应B、一对多C、多对一D、以上答案都正确答案:C216.关于函数的参数,以下选项中描述错误的是()。A、可选参数可以定义在非可选参数的前面B、一个元组可以传递给带有星号的可变参数C、在定义函数时,可以设计可变数量参数,通过在参数前增加星号(*)实现D、在定义函数时,如果有些参数存在默认值,可以在定义函数时直接为这些参数指定默认值答案:A217.如果字符串中有*需要匹配,需要输入的正则表达式为()。A、\*B、\\*C、*D、(*)答案:A218.单独使用多层索引时,()。A、最外层和最里层的索引都可以单独使用B、只有最外层的索引可以单独使用C、不能单独使用多层索引D、只有最里层的索引可以单独使用答案:B219.一组数据中出现最多的变量值叫作做()。A、最大值B、平均值C、中位数D、众数答案:D220.关于Spark的说法中,()是错误的。A、采用内存计算模式B、可利用多种语言编程C、主要用于批处理D、可进行map()操作答案:C221.在TF-IDF算法中,在计算完词频与逆文档频率后,将二者()后得到最终的结果。A、相加B、相减C、相乘D、相除答案:C222.深度学习是当前很热门的机器学习算法,深度学习涉及大量的矩阵相乘,现在需要计算三个稠密矩阵A、B、C的乘积ABC,假设三个矩阵的尺寸分别为m×n,n×p,p×q,且m<nA、(AB)CB、AC(B)C、A(BC)D、所有效率都相同答案:A223.对文本数据处理,通常采用()核函数。A、多项式B、SigmoidC、线性D、拉普拉斯答案:C224.Hive的数据最终存储在()。A、HDFSB、HBaseC、RDBMSD、MetaStore答案:A225.matplotlib中的调用堆积折线图的函数是什么()。A、step)B、stackplot)C、plusplot)D、hist)答案:B226.若X的值为1~~11(包含1、11),要用scipy输出标准正态分布的概率密度函数在X=5处的值,下面哪个是正确的是()。A、scipy.stats.norm(loc=0,scale=1).pmf(5)B、scipy.stats.binorm(loc=0,scale=1).pdf(5)C、scipy.stats.binorm(loc=0,scale=1).pmf(5)D、scipy.stats.norm(loc=0,scale=1).pdf(5)答案:D227.()是以样本统计量作为未知总体参数的估计量,并通过对样本单位的实际观察取得样本数据,计算样本统计量的取值作为被估计参数的估计值。A、参数估计B、逻辑分析C、方差分析D、回归分析答案:A228.数组允许批量计算而无须任何for循环,这种特性叫()。A、矩阵化B、便捷化C、批量化D、矢失量化答案:D229.关于多层前馈神经网络的描述,错误的是()。A、输出层与输入层之间包含隐含层,且隐含层和输出层都拥有激活函数的神经元B、神经元之间存在同层连接以及跨层连接C、输入层仅仅是接收输入,不进行函数处理D、每层神经元上一层与下一层全互连答案:B230.建立一个词典[Alex,wants,to,go,play,football,shopping],下面的句子:Alexwantstogotoplayfootball可以用向量表示为()。A、[1,1,2,1,1,1,0]B、[1,1,2,1,1,1]C、[1,1,1,1,1,1,0]D、[1,1,1,1,1,1,1]答案:A231.考察一个由三个卷积层组成的CNN:kernel=3×3,stride=2,padding=SAME。最低层输出100个特征映射(featuremap),中间层200个特征映射,最高层400个特征映射。输入是200×300的RGB图片,则总参数的数量是()。A、903400B、2800C、180200D、720400答案:A232.若A与B是任意的两个事件,且P(AB)=P(A)·P(B),则可称事件A与B()。A、等价B、互不相容C、相互独立D、相互对立答案:C233.相关关系是一种与函数关系区别的非确定性关系,而相关分析就是研究事物或现象之间是否存在这种非确定性关系的统计方法,以下不属于相关性分析方法的是()。A、Pearson相关系数B、Spearman秩相关系数C、Kendall相关系数D、傅里叶系数答案:D234.不属于判别式模型的是()。A、决策树B、P神经网络C、支持向量机D、贝叶斯答案:D235.在大规模的语料中,挖掘词的相关性是一个重要的问题。以下不能用于确定两个词的相关性的是()。A、互信息B、最大熵C、卡方检验D、最大似然比答案:B236.Python中用()快捷键表示运行当前程序。A、Ctrl+F10B、Ctrl+Alt+F10C、Shift+F10D、Ctrl+Shift+F10答案:D237.对模型进行超参数优化,详尽搜索指定参数的估计值使用以下哪种()方法()。A、ParameterGrid)B、ParameterSler)C、GridSearchCV)D、RandomizedSearchCV)答案:C238.scipy.stats中,()表示二项分布。A、gammaB、inomC、uniformD、rayleigh答案:B239.对于一个图像识别问题(在一张照片里找出一只猫),()可以更好地解决这个问题。A、循环神经网络B、感知机C、多层感知机D、卷积神经网络答案:D240.下面关于词袋模型的说法,错误的是()。A、词袋模型使用一个多重集对文本中出现的单词进行编码B、词袋模型不考虑词语原本在句子中的顺序C、词袋模型可以应用于文档分类和检索,同时受到编码信息的限制D、词袋模型产生的灵感来源于包含类似单词的文档经常有相似的含义答案:C241.()是Spark的核心数据结构。A、弹性分布式数据集B、列表C、元组D、字典答案:A242.以下选项中Python用于异常处理结构中用来捕获特定类型的异常的保留字是()。A、exceptB、doC、passD、while答案:A243.Spark中引入RDD概念的目的是()。A、数据存储B、数据查重C、提升容错能力D、增强数据一致性答案:C244.如果规则集R中不存在两条规则被同一条记录触发,则称规则集R中的规则为()。A、无序规则B、穷举规则C、互斥规则D、有序规则答案:C245.对于两次调用文件的write方法,以下选项中描述正确的是()。A、连续写入的数据之间无分隔符B、连续写入的数据之间默认采用换行分隔C、连续写入的数据之间默认采用空格分隔D、连续写入的数据之间默认采用逗号分隔答案:A246.type(1e6)的结果为()。A、<class'int'>B、<class'float'>C、<class'complex'>D、<class'bool'>答案:B247.Spark的()组件用于支持实时计算需求。A、SparkSQLB、SparkStreamingC、SparkGraphXD、SparkMLLib答案:B248.线性回归算法主要在sklearn中的哪个()模块中()。A、baseB、clusterC、linear_modelD、kernel_impute答案:C249.下面哪行代码中最适合接受系统输入的一个整数是()。A、num=input)B、num=input(“6”)C、num=int(input)D、num=float(input)答案:C250.数据销毁环节的安全技术措施有通过软件或物理方式保障磁盘中存储数据的()、不可恢复,如数据销毁软件、硬盘消磁机、硬盘粉碎机等。A、暂时隔离B、暂时删除C、永久删除D、不做处理答案:C251.词袋模型中的文本向量每个元素表示该词的()。A、频率B、顺序C、含义D、语义关系答案:A252.()不是专门用于可视化时间空间数据的技术。A、等高线图B、饼图C、曲面图D、矢量场图答案:B253.在方差分析中,()反映的是样本数据与其组平均值的差异。A、总离差B、组间误差C、抽样误差D、组内误差答案:D254.关联规则的评价指标是()。A、均方误差、均方根误差B、Kappa统计、显著性检验C、支持度、置信度D、平均绝对误差、相对误差答案:C255.以下描述中不属于“规整数据(TidyData)”三个基本原则的是()。A、每一类观察单元构成一个关系(表)B、每个观察占且仅占一行C、每个变量占且仅占一列D、每个观察占且仅占一个关系(表)答案:D256.下列数据类型中,Numpy不支持以下哪种数据类型的是()。A、float32B、uint64C、boolD、byte答案:D257.以下()属于数据可视化方法体系中的基础方法。A、视觉编码方法论B、视觉隐喻C、地理信息可视化D、时变数据可视化答案:B258.下列程序段n=1s=1whilen<5:s=s*nn=n+1Print(s)执行后,输出结果是()。n=1s=1whilen<5:s=s*nn=n+1Print(s)A、24B、10C、120D、15答案:A259.随机试验所有可能出现的结果称为()。A、基本事件B、样本C、全部事件D、样本空间答案:D260.()用于将非线性引入神经网络,它会将值缩小到较小的范围内。A、损失函数B、优化函数C、激活函数D、目标函数答案:C261.下列方法中,能够让所有单词的首字母变成大写的方法是()。A、capitalizeB、titleC、upperD、Ijust答案:B262.下列关于大数据的分析理念的说法中,错误的是()。A、在数据基础上倾向于全体数据而不是抽样数据B、在分析方法上更注重相关分析而不是因果分析C、在分析效果上更追求效率而不是绝对精确D、在数据规模上强调相对数据而不是绝对数据答案:D263.大数据平台核心分布式存储与计算组件采用Hadoop技术体系中的分布式存储、分布式计算框架及Spark等开源产品和技术,实现对数据的安全控制和管理功能,其中分布式存储不包括()。A、HDFSB、PostgresqlC、HiveD、HBase答案:B264.python中,while的中止的关键字是()。A、continueB、rokenC、breakD、plug答案:C265.变量的不确定性越大,相对应信息熵的变化是()。A、熵变小B、熵变大C、不变D、以上答案都不正确答案:B266.以等可能性为基础的概率是()。A、古典概率B、经验概率C、试验概率D、主观概率答案:A267.阶跃函数与sigmoid函数均为典型激活函数,该说法()。A、正确B、错误C、-D、-答案:A268.回归方程判定系数的计算公式R2=SSR/SST=1-SSE/SST,对判定系数描述错误的是()。A、式中的SSE指残差平方和B、式中的SSR指总离差平方和C、判定系数用来衡量回归方程的扰合优度D、判定系数R2等于相关系数的平方答案:B269.有N个样本,一般用于训练,一般用于测试。若N增大,则训练误差和测试误差之间的差距会()。A、增大B、减小C、无法确定D、无明显变化答案:B270.下列()模块包括用于加载和获取流行的参考数据集的方法。A、sklearn.dataB、sklearn.datasetsC、sklearn.datasD、sklearn.datafetch答案:B271.以下字符串表示plot线条颜色、点的形状和类型为红色五角星点短虚线的是()。A、'bs-'B、'go-.'C、'r+-.'D、'r*-.'答案:D272.Python中用于生成随机数的模块是random,以下描述错误的是()。A、random.random):生成一个0-1之间的随机浮点数B、random.uniform(a,b):生成[a,b]之间的浮点数C、random.randint(a,b):生成[a,b]之间的整数D、random.choice(sequence):随机生成任意一个整数答案:D273.random库中用于生成随机小数的函数是()。A、random)B、randint)C、getrandbits)D、randrange)答案:A274.以下关于副本和视图描述,错误的是()。A、Numpy的切片操作返回原数据的视图B、调用Ndarray的view)函数产生一个视图C、Python序列的切片操作,调用deepCopy)函数D、调用Ndarray的copy)函数产生一个视图答案:D275.在数据科学项目的活动流程中,()主要回答的是“我们用什么方式记录和展现数据结果”。A、数据的获得与管理B、模式/模型的验证和优化C、结果的可视化与文档化D、模式/模型的应用及维护答案:C276.数据科学是一门以()为主要研究任务的独立学科。A、“数据驱动”“数据业务化”“数据洞见”“数据产品研发”和(或)“数据生态系统的建设”B、数据研发C、数据处理D、数据洞见答案:A277.当需要在字符串中使用特殊字符时,python使用()作为转义字符。A、\B、/C、#D、%答案:A278.增加卷积核的大小对于改进卷积神经网络的效果是必要的吗()A、是的,增加卷积核尺寸一定能提高性能B、不是,增加核函数的大小不一定会提高性能C、-D、-答案:B279.下面说法错误的是()。A、可以利用统计量对缺失值进行填补B、可以利用K近邻值对缺失值进行填补C、只要有缺失值就必须把对应记录删除D、对于缺失值较多的属性可以考虑删除答案:C280.不属于Mayer-SchönbergerV和CukierK.在其著名论著《BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink》中提出了大数据时代统计的思维变革的是()。A、不是随机样本,而是全体数据B、不是精确性,而是混杂性C、不是描述性分析,而是预测性分析D、不是因果关系,而是相关关系答案:C281.常用的图像去噪方法有()。A、高斯滤波B、中值滤波C、P-M方程去噪D、以上答案都正确答案:D282.np.floor([-1.7,1.5,-0.2,0.6,10])的输出结果是()。A、[-1,1,0,0,10]B、[-2.,1.,-1.,0.,10.]C、[-1.,1.,-1.,0.,10.]D、[-2.,1.,0.,0.,10.]答案:B283.关于层次聚类算法:①不断重复直到达到预设的聚类簇数;②不断合并距离最近的聚类簇;③对初始聚类簇和相应的距离矩阵初始化;④对合并得到的聚类簇进行更新。正确的执行顺序为()。A、①②③④B、①③②④C、③②④①D、③④①②答案:C284.以下说法正确的是()。A、一个机器学习模型如果有较高准确率,总是说明这个分类器是好的B、如果增加模型复杂度,那么模型的测试错误率不一定会降低C、如果增加模型复杂度,那么模型的训练错误率总是会降低D、-答案:C285.下面色彩空间中,最接近人的视觉系统的特点的是()。A、RGB空间B、CMY空间C、MYK空间D、HSI空间答案:D286.Python运算符中用来计算集合并集的是()。A、|B、&C、||D、+答案:A287.以下叙述正确的是()。A、continue语句的作用是结束整个循环的执行B、只能在循环体内使用break语句C、在循环体内使用break语句或continue语句的作用相同D、从多层循环嵌套中退出时,只能使用goto语句答案:B288.当训练样本近似线性可分时,通过(),学习一个()。A、硬间隔,最大化非线性支持向量机B、软间隔,最大化线性支持向量机C、硬间隔,最大化线性支持向量机D、软间隔,最大化非线性支持向量机答案:B289.()是实现数据战略的重要保障。A、数据管理B、数据分析C、数据治理D、数据规划答案:C290.以下不属于基于图像灰度分布的阈值分割方法的是()。A、类间最大距离法B、最大类间方差法C、Otsu方法D、区域生长法答案:D291.直方图均衡化适用于增强直方图呈()分布的图像。A、尖峰B、波形C、随机D、高斯答案:A292.下列关于数据转换,正确的是()。A、Json内的取值只能有统一格式B、PDF文件在不同平台上打开显示不同C、可以通过Python将CSV文件转换成Excel格式D、Excel存储数据的量无限制答案:C293.SLIC算法的主要目的是()。A、目标识别B、前景和背景分离C、超像素提取D、语义分割答案:C294.关于L1、L2正则化,下列说法正确的是()。A、L2正则化能防止过拟合,提升模型的泛化能力,但L1做不到这点B、L2正则化技术又称为LassoRegularizationC、L1正则化得到的解更加稀疏D、L2正则化得到的解更加稀疏答案:C295.一幅数字图像是()。A、一个观测系统B、一个由许多像素排列而成的实体C、一个2-D数组中的元素D、一个3-D空间中的场景答案:C296.pipinstallscipy==1.7与pipinstallscipy两者的区别是()。A、两者作用一样B、前者安装指定版本的包,后者安装最新版本的包C、前者安装指定版本的包,后者安装随机版本的包D、以上答案都不正确答案:B297.以下代码的输出结果为()。A、[101001000]B、[100100001000000]C、[123]D、[10100001000000000]答案:B298.scipyScipy中的图像处理模块是哪个()。A、imageB、ndimageC、photoD、optimize答案:B299.以下不属于大数据重要意义的是()。A、大数据成为推动经济转型发展的新动力B、大数据成为重塑国家竞争优势的新机遇C、大数据成为提升政府治理能力的新途径D、大数据会增加经济发展的成本答案:D300.假设你正在训练一个LSTM网络,你有一个10000词的词汇表,并且使用一个激活值维度为100的LSTM块,在每一个时间步中,Γu的维度是()。A、1B、100C、300D、10000答案:B301.当我们需要在一张图表中加上文字标注,达到提醒读者的目的时,需要用到()函数。A、plt.axvspan)B、plt.axhspan)C、plt.annotate)D、plt.text)答案:D302.以下哪个数据类型中,不可以作为索引对Numpy数组进行选取的是()。A、booleanB、tupleC、dictD、int答案:C303.scipy.stats中,()表示泊松分布。A、gammaB、poissonC、binomD、uniform答案:B304.训练完SVM模型后,不是支持向量的那些样本我们可以丢掉,也可以继续分类。该说法()。A、正确B、错误C、-D、-答案:A305.Spark的集群管理模式不包含()。A、Standalone模式B、Message模式C、YARN模式D、Mesos模式答案:B306.下列属于无监督学习的是()。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024至2030年冷冻渔轮项目投资价值分析报告
- 2024年中国酮麝香市场调查研究报告
- 2024年中国精密型四柱油压裁断机市场调查研究报告
- 2024年中国水松中底市场调查研究报告
- 车间职工安全培训试题答案原创题
- 公共设施管理的项目管理考核试卷
- 天然气的储存与运输技术考核试卷
- 社交电商平台的智能客服系统考核试卷
- 油炸食品制造业企业创新能力培育考核试卷
- 产品发展与质检技术考核试卷
- 管桩水平承载力计算
- 国美香港借壳上市过程及策略分析
- 污水处理站过滤罐滤料更换方案
- 摄影基础知识入门与技术.ppt
- 民事案件卷宗目录封面11
- 2022年2022年古籍样式排版模板
- 艺术装饰艺术运动
- 樊登读书会营销策略分析
- 建设单位安全生产管理体系(完整版)
- 国潮风喜迎中秋节传统节日介绍主题班会PPT模板
- 幼儿园参观学校活动方案5篇
评论
0/150
提交评论