2023年大数据应用技能竞赛全题库-下(多选、判断题汇总)_第1页
2023年大数据应用技能竞赛全题库-下(多选、判断题汇总)_第2页
2023年大数据应用技能竞赛全题库-下(多选、判断题汇总)_第3页
2023年大数据应用技能竞赛全题库-下(多选、判断题汇总)_第4页
2023年大数据应用技能竞赛全题库-下(多选、判断题汇总)_第5页
已阅读5页,还剩147页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEPAGE1522023年大数据应用技能竞赛全题库-下(多选、判断题汇总)多选题1.随机森林的随机性主要体现在()。A、决策树选择的随机性B、数据集的随机性C、待选特征的随机性D、参数选择的随机性答案:BC2.有两种策略常用来缓解BP网络的过拟合,分别是()和()。A、晚停B、早停C、正则化D、加入损失函数答案:BC3.Python支持运行的平台有()。A、WindowsB、MacOSC、CentOSD、Ubuntu答案:ABCD4.传统关系数据库的优点包括()。A、数据一致性高B、数据冗余度低C、简单处理的效率高D、产品成熟度高答案:ABD5.关于Hive的说法正确的是()。A、Hive是基于Hadoop的数据仓库工具B、Hive可以将结构化的数据文件映射为一张数据库表C、最初,Hive由Google开源,用于解决海量结构化日志数据统计问题D、Hive的主要应用场景是离线分析答案:ABD6.Python的模块符合以下哪些说法()。A、模块让你能够有逻辑地组织你的Python代码段B、Python拥有丰富的模块,不支持自定义模块C、把相关的代码分配到一个模块里能让你的代码更好用,更易懂D、模块能定义函数,类和变量,模块里也能包含可执行的代码。答案:ACD7.关于神经网络,下列说法正确的是()A、增加网络层数,可能会增加测试集分类错误率B、增加网络层数,一定会增加训练集分类错误率C、减少网络层数,可能会减少测试集分类错误率D、减少网络层数,一定会减少训练集分类错误率答案:AC8.Flume特点包括()。A、分布式B、高可靠C、高容错D、易于定制和扩展答案:ABCD9.下面哪些是spark比Mapreduce计算快的原因()。A、基于内存的计算;B、基于DAG的调度框架;C、基于Lineage的容错机制;D、基于分布式计算的框架;答案:ABC10.Spark容错性的方式有哪些()。A、数据检查点;B、存储原始数据;C、记录数据的更新;D、自建数据版本;答案:AC11.关于Python组合数据类型,以下选项中描述正确的是()。A、Python的strtuple和list类型都属于序列类型B、Python组合数据类型能够将多个同类型或不同类型的数据组织起来,通过单一的表示使数据操作更有序更容易C、组合数据类型可以分为3类:序列类型集合类型和映射类型D、序列类型是二维元素向量,元素之间存在先后关系,通过序号访问答案:ABC12.基于Hadoop开源大数据平台主要提供了针对数据分布式计算和存储能力,如下属于分布式存储组件的有()。A、MRB、SparkC、HDFSD、Hbase答案:CD13.关于Python分隔代码块描述错误的是()。A、内嵌代码的每一行,都比外面的if语句的缩进更多B、代码以“begin”开头,“end”结尾C、每行代码的缩进都一致D、代码块被封装在花括号中答案:BCD14.深度学习的实质及其与浅层学习的说法正确的是(__)。A、DL强调模型深度B、DL突出特征学习的重要性.特征变换+非人工C、没有区别D、以上答案都不正确答案:AB15.plt.axhline(y=0.0,c="r",ls="--",lw=2),对这句代码说法正确的是()。A、在0.0处添加竖直参考线B、添加水平参考线C、参考线是虚线形式D、网格线是红色的答案:BC16.字符串的格式化可以使用()。A、%B、formatC、inputD、+答案:AB17.以下()是scipy.stats可实现的连续随机变量方法。A、rvsB、pdfC、ppfD、cdf答案:ABCD18.如何在监督式学习中使用聚类算法()A、首先,可以创建聚类,然后分别在不同的集群上应用监督式学习算法B、在应用监督式学习算法之前,可以将其类别ID作为特征空间中的一个额外的特征C、在应用监督式学习之前,不能创建聚类D、在应用监督式学习算法之前,不能将其类别ID作为特征空间中的一个额外的特征答案:AB19.以下()属于数据统计分析工具。A、WekaB、SASC、SPSSD、Matlab答案:ABCD20.关于TF-IDF模型描述正确的有()。A、TF意思是词频B、IDF是逆文本频率C、该模型基于统计方法D、在信息检索中应用较少答案:ABC21.a=np.array([1,2,3,4,5,6,7,8])以下()命令可以使输出结果为([5,6,7])。A、a[4:7]B、a[5:8]C、a[4:-1]D、a[5:]答案:AC22.在Windows系统中通过Geany编写Python程序,运行Python程序的常用步骤是()。A、菜单Build>ExecuteB、菜单Execute>BuildC、按F5D、按F10答案:AC23.Python中jieba库的基本实现原理是什么()。A、利用中文词库,分析汉字与汉字之间的关联几率B、还有分析汉字词组的关联几率C、还可以根据用户自定义的词组进行分析D、还可以分析汉字与英文之间关联几率答案:ABC24.聚类性能度量外部指标包括()。A、Jaccard系数B、FM指数C、Dunn指数D、Rand指数答案:ABD25.(__)可以帮助解决训练集在特征空间中线性不可分的问题。A、硬间隔B、软间隔C、核函数D、拉格朗日乘子法答案:BC26.在建立模型时,需要用到()。A、训练数据B、测试数据C、原始数据D、验证数据答案:ABD27.下面哪些是基于核的机器学习算法(__)。A、最大期望算法B、径向基核函数C、线性判别分析法D、支持向量机答案:BCD28.以下关于CSV文件的描述,正确的选项是()。A、CSV文件可用于不同工具间进行数据交换B、CSV文件格式是一种通用的,相对简单的文件格式,应用于程序之间转移表格数据。CC、SV文件通过多种编码表示字符D、CSV文件的每一行是一维数据,可以使用Python中的列表类型表示答案:ABD29.Analytics1.0的主要特点有()。A、分析活动滞后于数据的生成B、重视结构化数据的分析C、以对历史数据的理解为主要目的D、注重描述性分析答案:ABCD30.Spark的技术架构可以分为哪几层()。A、资源管理层;B、Spark核心层;C、应用层;D、服务层;答案:ABD31.完整性约束通常包括()A、实体完整性B、域完整性C、参照完整性D、用户定义完整性答案:ABCD32.EDA(探索性数据分析)方法与传统统计学的验证性分析方法的区别有()。A、EDA需要事先提出假设,而验证性分析不需要B、EDA中采用的方法往往比验证性分析简单C、在一般数据科学项目中,探索性分析在先,验证性分析在后D、EDA更为简单、易学和易用答案:BCD33.以下关于HTML标签嵌套规则的说法,正确的是()。A、块元素可以包含内联元素或某些块元素,但内联元素也可以包含块元素B、HTML标签包括块级元素和内嵌元素C、内嵌元素一般用在网站内容之中的某些细节或部位,用以“强调区分样式上标下标锚点”等,通常包括:aabbrbbrfontiimginputkbdlabelqsselectsmallspansubttuvar等D、其中块级元素一般用来搭建网络架构布局承载内容,通常包括的标签有:addressdirdivdldtddformh1~h6hrisindexmenunoframesnoscriptolppretableul等答案:BCD34.下列哪些指标可以用来评估线性回归模型(多选)()A、R-SquaredB、AdjustedR-SquaredC、FStatisticsD、RMSE/MSE/MAE答案:ABCD35.关于分析学习和归纳学习的比较,说法正确的是()。A、归纳学习拟合数据假设,分析学习拟合领域理论的假设B、归纳学习论证方式为统计推理,分析学习为演绎推理C、归纳学习不需要隐式的先验知识D、训练数据不足时归纳学习可能会失败答案:ABCD36.常见的聚类性能度量外部指标有()。A、Jaccard系数B、DB指数C、FM指数D、以上答案都正确答案:AC37.数据增值存在于哪些过程中()。A、数据对象的封装B、数据系统的研发C、数据的集成应用D、基于数据的创新答案:ABCD38.下面是文件基本操作的函数()。A、closeB、readC、renameD、remove答案:ABCD39.以下哪些方法是tf-idf的变种()。A、TFCB、EWCC、ITCD、IG答案:AC40.下列关于spark中的RDD描述正确的有()。A、RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是spark中最基本的数据抽象;B、Resilient:表示弹性的;C、Destributed:分布式,可以并行在集群计算;D、Dataset:就是一个集合,用于存放数据的;答案:ABCD41.Python的优点有()。A、变量不用预定义类型B、数据结构功能强大C、语言可解释性强D、变量类型固定答案:ABC42.K均值聚类和层次聚类在一些方面有重大差异。以下哪些说法是正确的()A、在K均值聚类中,必须在运行算法前选定想要的簇的个数B、在k均值聚类中,可以在运行算法后选定想要的簇的个数C、在层次聚类中,可以在运行算法后选定想要的簇的个数D、k均值聚类算法所需的计算量比层次聚类算法小得多答案:ACD43.影响聚类算法效果的主要原因有:()A、特征选取B、模式相似性测度C、分类准则D、已知类别的样本质量答案:ABC44.直方图修正法包括()。A、直方图统计B、直方图均衡C、直方图过滤D、直方图规定化;答案:BD45.特征选择的目的:()。A、减少特征数量、降维B、使模型泛化能力更强C、增强模型拟合能力D、减少过拟合。答案:ABD46.基于Boosting的集成学习代表算法有()。A、AdaboostB、GBDTC、XGBOOSTD、随机森林答案:ABC47.LSTM应用场景应用场景有哪些()A、翻译语言B、语音识别C、图像识别D、股票预测答案:ABD48.数据科学项目主要涉及的活动包括()。A、模式/模型的应用及维护B、模式/模型的洞见C、结果的可视化与文档化D、模式/模型的验证和优化答案:ABCD49.以下属于规则的分词方法的是()。A、正向最大匹配法B、逆向最大匹配法C、双向最大匹配法D、条件随机场答案:ABC50.Hadoop组件Flume三层架构包括()。A、AgentB、GossipC、CollectorD、Storage答案:ACD51.以下属于关键词提取算法的有()。A、TF-IDF算法B、TextRank算法C、LSA(潜在语义分析)D、LDA答案:ABCD52.集成学习中多样性的增强有哪些()A、数据样本扰动B、输入属性扰动C、输出表示扰动D、算法参数扰动答案:ABCD53.下列哪些现象属于乘性噪声()。A、电视光栅的退化B、二值图像上的胡椒盐噪声C、信道传输受扰D、胶片材料的退化答案:AD54.在支持向量机中,参数的选取会影响拟合的结果,如果出现过拟合的现象,则导致该结果的原因有可能是(__)。A、其他参数保持不变,C值过大B、其他参数保持不变,λ值较少C、其他参数保持不变,σ较大D、其他参数保持不变,σ较小答案:ABD55.下列关于极大似然估计(MaximumLikelihoodEstimate,MLE),说法正确的是(__)。A、MLE可能并不存在B、MLE总是存在C、如果MLE存在,那么它的解可能不是唯一的D、如果MLE存在,那么它的解一定是唯一的答案:AC56.常用的爬虫技巧有以下哪些()。A、更改header,伪装成浏览器进行爬取B、设置爬取的时间间隔C、应用神经网络算法识别网站验证码D、通过代理服务器进行爬取答案:ABCD57.下列哪些是词语情感分析的方法()。A、基于网络的分析方法B、基于word-embedding的分析方法C、基于词典的分析方法D、基于词频的分析方法答案:AC58.大数据的参考架构分为哪三个层次()A、角色B、活动C、逻辑构件D、功能组件答案:ABD59.从Hadoop实现角度看,HadoopMapReduce1.0主要由()组成。A、编程模型B、数据处理引擎C、运行时环境D、算法库答案:ABC60.Spark有哪些缺陷()。A、于内存的计算B、持Schema信息C、支持增量迭代计算D、支持细粒度更新操作答案:CD61.在BP网络中,常用于缓解其过拟合的策略有()。A、早停策略B、正则化策略C、全局最小策略D、局部最小策略答案:AB62.数据可视化是利用计算机图形学和图像处理技术,将数据转换成()或()在屏幕上显示出来,并进行交互处理的理论、方法和技术。A、文字B、图形C、图像D、视频答案:BC63.下列哪些是情感分析的应用场景()。A、数据挖掘B、信息检索C、文本分词D、市场营销答案:ABD64.常用的冲突消解策略有包括()。A、投票法B、排序法C、元规则法D、调研法答案:ABC65.以下跟图像处理相关的是()。A、图像识别B、人脸识别C、视频分析D、nlp答案:ABCD66.下列关于EM算法描述正确的是(__)。A、EM算法是常用的估计参数隐变量的利器B、EM算法即是期望最大化算法C、EM算法常被用来学习高斯混合模型的参数D、EM算法是一种迭代式的方法答案:ABCD67.在Python中,以下导入模块方式正确的是()。A、import模块名B、import模块名as模块的别名C、from模块名import函数名D、from模块名import函数名A,函数名B答案:ABCD68.下面是Numpy支持的统计函数有()。A、minB、maxC、medianD、mean答案:ABCD69.以下()函数是累积函数。A、cumsumB、argminC、cumprodD、argmax答案:AC70.若b=np.array([True,False,False]),以下能输出[FalseTrueTrue]的是()。A、print(b-1)B、print(~b)C、print(np.logical_not(b))D、print(>>b)答案:BC71.下列哪些是常用分词方法()。A、基于Binarytree的分词方法B、基于HMM的分词方法C、基于CRF的分词方法D、基于Kmeans的分词方法答案:BC72.线性模型的基本形式有()。A、线性回归B、对数几率回归(二分类问题)C、线性判别分析(Fisher判别分析)D、多分类学习答案:ABCD73.在网络爬虫的爬行策略中,应用最为常见的是()。A、深度优先遍历策略B、广度优先遍历策略C、高度优先遍历策略D、反向链接策略E、大站优先策略答案:AB74.请问下面哪些是离散型变量()。A、示波器B、心电图及脑动电图扫描器对脑电波的测量C、过去数月的总销售额D、公司每年的红利答案:CD75.分布式列式存储的功能有()。A、支持在线快速读写B、支持线性扩展C、具备节点监控管理D、数据同源不压缩答案:ABC76.数据从产生到终结共有()环节。A、数据产生环节B、数据传输环节C、数据使用环节D、数据共享环节E、数据销毁环节答案:ABCDE77.关于HDFS的文件写入,正确的是()。A、不支持多用户对同一文件的写操作;B、用户不可以在文件任意位置进行修改;C、默认将文件复制成三份存放;D、复制的文件块默认不存在同一机架上;答案:ABCD78.下列哪些算法可以用来构造神经网络()。A、kNNB、线性回归C、逻辑回归答案:BC79.HIS表色系的三属性包含:()。A、色调B、色饱和度C、亮度D、色度答案:ABC80.下列不属于聚类性能度量内部指标的是()。A、DB指数B、Dunn指数C、Jaccard系数D、FM系数答案:CD81.下面对LDA判别分析的思想描述正确的是()。A、同类样例的投影点尽可能近B、异类样例的投影点尽可能远C、同类样例的投影点尽可能远D、异类样例的投影点尽可能近答案:AB82.下列方法中,可以用于特征降维的方法包括()。A、主成分分析PCAB、线性判别分析LDAC、深度学习SparseAutoEncoderD、矩阵奇异值分解SVD答案:ABD83.关于Dropout说法正确的是:(__)。A、Dropout背后的思想其实就是把DNN当做一个集成模型来训练,之后取所有值的平均值,而不只是训练单个DNNB、DNN网络将Dropout率设置为p,也就是说,一个神经元被保留的概率是1-p。当一个神经元被丢弃时,无论输入或者相关的参数是什么,它的输出值就会被设置为0C、丢弃的神经元在训练阶段,对BP算法的前向和后向阶段都没有贡献。因为这个原因,所以每一次训练,它都像是在训练一个新的网络D、Dropout方法通常和L2正则化或者其他参数约束技术(比如MaxNorm)一起使用,来防止神经网络的过拟合答案:ABCD84.下面属于范数规则化的作用的是()和()。A、保证模型尽可能的简单,避免过拟合B、约束模型特征C、最小化问题D、最大化问题答案:AB85.关于现阶段大数据技术体系,说法正确的是()。A、基础设施提供数据计算、数据存储、数据加工(DataWrangling或DataMunging)等服务B、流处理、统计工具、日志分析都属于常用的开源工具C、数据资源代表的是生成数据的机构D、数据源与APP为数据科学和大数据产业生态系统提供数据内容答案:ABCD86.我们想要减少数据集中的特征数,即降维.选择以下适合的方案:()。A、使用前向特征选择方法B、使用后向特征排除方法C、我们先把所有特征都使用,去训练一个模型,得到测试集上的表现.然后我们去掉一个特征,再去训练,用交叉验证看看测试集上的表现.如果表现比原来还要好,我们可以去除这个特征D、查看相关性表,去除相关性最高的一些特征答案:ABCD87.以下说法正确的是()。A、负梯度方向是使函数值下降最快的方向B、当目标函数是凸函数时,梯度下降法的解是全局最优解C、梯度下降法比牛顿法收敛速度快D、拟牛顿法不需要计算Hesse矩阵答案:ABD88.下列哪种服务可以用于存储数据()。A、MapReduceB、YARNC、HBaseD、HDFS答案:CD89.为什么RNN网络的激活函数要选用双曲正切而不是sigmod呢()A、使用sigmod函数容易出现梯度消失B、sigmod的导数形式较为复杂C、双曲正切更简单D、sigmoid函数实现较为复杂答案:AB90.Spark2.0提供的应用库包括()。A、SparkSQLB、SparkStreamingC、MLibD、GraphX答案:ABCD91.对于主成分分析方法,降维后低维空间的维数d可以通过()方法确定。A、由用户事先指定B、通过在d值不同的低维空间中对开销较小的学习器进行交叉验证来选取C、可从重构的角度设置一个重构阈值,选取使得特定公式成立的最小值D、随机设置答案:ABC92.下列哪个是Hadoop运行的模式()。A、单机版B、伪分布式C、分布式D、全分布式答案:ABC93.以下是正确的字符串()。A、‘abc”ab”B、‘abc”ab’C、“abc”ab”D、“abc\”ab”答案:BD94.实时计算类应用主要通过()来实现。A、流计算组件B、内存计算组件C、MPP数据库D、Hadoop的后台定时分析计算任务答案:AB95.Apriori算法的计算复杂度受()影响。A、支持度阀值B、项数(维度)C、事务数D、事务平均宽度答案:ABCD96.下列属于CNN关键层的是(__)。A、输入层B、卷积层C、激活层D、池化层答案:ABCD97.关于神经元的叙述,哪些是正确的()A、每个神经元可以有一个输入和一个输出B、每个神经元可以有多个输入和一个输出C、每个神经元可以有多个输入和多个输出D、每个神经元可以有多个输出和一个输入答案:ABCD98.当我们构造线性模型时,我们注意变量间的相关性。在相关矩阵中搜索相关系数时,如果我们发现3对变量的相关系数是(Var1和Var2,Var2和Var3,Var3和Var1)是-0.98,0.45,1.23.我们可以得出什么结论:()。A、Var1和Var2是非常相关的B、因为Va1r和Var2是非常相关的,我们可以去除其中一个C、Var3和Var1的1.23相关系数是不可能的答案:ABC99.在Python中,执行importdatetimeasdt语句后,如下时间或日期定义方式正确的是()。A、dt.datetime(2019,12,12,23,23,23)B、dt.datetime(2019,0,0,23,23,23)C、dt.datetime(2019,12,12,0)D、dt.time(23,23,23)答案:AC100.Python中标识符的命名规则正确的是()。A、只能以下划线或者A-Z/a-z中的字母开头B、关键字不能作为标识符C、Python标识符区分大小写D、关键字不能作为标识符答案:ABCD101.以下四个选项中,()是Python关键字。A、asB、globalC、intD、not答案:ABD102.下面对于超链接的说法,正确的是()。A、语句<ahref=”formhtml”>FillOurForm</a>指向的是同一服务器同一目录下的formhtmlB、语句<ahref=”stuff/cathtml”>Catalog</a>指向的是同一服务器子目录stuff下的cathtmlC、语句<ahref=”/parenthtml”>Parent</a>指向的是同一服务器父目录下的parenthtmlD、语句<ahref=”devbgorg”target=”_blank”>BASD</a>指向的是内部的网站答案:ABC103.下面导入模块正确的是()。A、importnumpyB、importnumpyasnpC、frommatplotlibimportpyplotD、frommatplotlibimportpyplotasplt答案:ABCD104.哪些项不属于使用池化层相比于相同步长的卷积层的优势()A、参数更少B、可以获得更大下采样C、速度更快D、有助于提升精度答案:BCD105.使用极大似然估计的前提条件有()。A、数据服从某种已知的特定数据分布型B、已经得到了一部分数据集C、提前已知某先验概率D、数据集各个属性相对独立答案:AB106.以下描述中正确的是()。A、统计学是数据科学的理论基础之一B、Python语言是统计学家发明的语言C、机器学习是数据科学的理论基础之一D、数据科学是统计学的一个分支领域(子学科)答案:AC107.关于数据产品研发,下列说法错误的是()。A、从加工程度看,可以将数据分为一次数据、二次数据和三次数据B、一次数据中往往存在缺失值、噪声、错误或虚假数据等质量问题C、二次数据是对一次数据进行深度处理或分析后得到的“增值数据”D、三次数据是对二次数据进行洞察与分析后得到的、可以直接用于决策支持的“洞见数据”答案:ABD108.以下哪层是卷积神经网络的组成部分。A、卷积层B、中间层C、池化层D、全连接层答案:ACD109.做一个二分类预测问题,先设定阈值为0.5,概率大于等于0.5的样本归入正例类(即1),小于0.5的样本归入反例类(即0)。然后,用阈值n(n>0.5)重新划分样本到正例类和反例类,下面哪一种说法正确()。A、增加阈值不会提高召回率B、增加阈值会提高召回率C、增加阈值不会降低查准率D、增加阈值会降低查准率答案:AC110.在正则化公式中,λ为正则化参数,关于λ描述正确的是()。A、若正则化参数λ过大,可能会导致出现欠拟合现象B、若λ的值太大,则梯度下降可能不收敛C、取一个合理的λ值,可以更好的应用正则化D、如果令λ的值很大的话,为了使CostFunction尽可能的小,所有θ的值(不包括θ0)都会在一定程度上减小答案:ABCD111.下列说法中正确的是()。A、云计算的主要特点是非常昂贵。B、大数据是多源、异构、动态的复杂数据,即具有4V特征的数据C、大数据是数据科学的研究对象之一D、MapReduce是采用云计算这种新的计算模式研发出的具体工具软件(或算法)答案:BCD112.神经网络的拓扑结构可以分为()和随机型网络等。A、前向型B、后向型C、反馈型D、自组织竞争型答案:ACD113.空间域滤波是直接以图像中的像素操作为基础的滤波,空间滤波器有时也可称为()。A、空间掩模B、核C、模板D、窗口答案:ABCD114.列式数据库(如BigTable和HBase)以表的形式存储数据,表结构包括()等元素A、行键B、时间戳C、列簇D、数据类型答案:ABC115.下面关于单样本t检验的说法,错误的是()。A、当单样本t检验的自由度越来越大时,正态分布越来越趋向于t分布B、单样本t检验适用于样本量比较多(n>30)的情况C、t分布的不确定性比正态分布小,其原因是样本数量比较小D、单样本t检验通常也被叫做学生t检验答案:ABC116.以下选项中,属于MapReduce特征的有()。A、以主从结构的形式运行B、容错机制的复杂性C、任务备份机制的必要性D、数据存储位置固定答案:ABC117.鉴别了多元共线特征。那么下一步可能的操作是什么()A、移除两个共线变量B、不移除两个变量,而是移除一个C、移除相关变量可能会导致信息损失,可以使用带罚项的回归模型(如ridge或lassoregression)答案:BC118.关于Python语言的特点,以下选项描述不正确的是()。A、Python语言不支持面向对象B、Python语言是解释型语言C、Python语言是编译型语言D、Python语言是非跨平台语言答案:ACD119.Numpy数组中将一个数组分割成多个小数组数组分割函数包括()。A、hsplitB、vsplitC、splitD、dsplit答案:ABCD120.以下关于数据维度的描述,正确的是()。A、采用列表表示一维数据,不同数据类型的元素是可以的B、JSON格式可以表示比二维数据还复杂的高维数据C、二维数据可以看成是一维数据的组合形式D、字典不可以表示二维以上的高维数据答案:ABC121.下列哪些项属于传统循环神经网络的性质()A、上一时刻的网络状态信息将会作用于下一时刻的网络状态B、并行处理序列中所有信息C、容易梯度爆炸/消失D、易于搭建答案:AC122.关于总体和样本的说法,正确的是:A、总体也就是研究对象的全体B、如果总体是某一条生产线上生产的全部产品,那么样本可以是每间隔10秒抽取的产品C、样本是从总体的随机抽样D、如果总体是某一小学的1000名学生,那么样本可以是一年级的100名学生答案:ABC123.下面是python标准库的是()。A、osB、sysC、numpyD、re答案:ABD124.数据可视化涉及到()等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术。A、计算机图形学B、图像处理C、计算机视觉D、计算机辅助设计答案:ABCD125.Client端上传文件的时候下列哪项正确()。A、数据经过NameNode传递给DataNodeB、Client端将文件切分为Block,依次上传C、Client只上传数据到一台DataNode,然后由NameNode负责Block复制D、Client如果上传的时候没有上传成功指定的副本数,则整次上传不成功答案:BD126.ApacheFlume主要解决的是日志数据的收集和处理问题。Flume的主要设计目的和特征是()。A、高可靠性B、可拓展C、管理复杂D、不支持用户自定义答案:AB127.下列场景适合使用Python的是()。A、可作为脚本语言,快速编写小型程序、脚本等B、可应用在数据科学、交互式计算及可视化领域C、可作为胶水语言,整合如C++等语言代码D、Python适用于低延时、高利用率的应用场景答案:ABC128.下列关于PCA说法正确的是()。A、在使用PCA之前,我们必须标准化数据B、应该选择具有最大方差的主成分C、应该选择具有最小方差的主成分D、可以使用PCA在低维空间中可视化数据答案:ABD129.以下哪几项属于汉语未登录词的类型()。A、存在于词典但出现频率较少的词B、新出现的普通词汇C、专有名词D、专业名词和研究领域名称答案:BCD130.以下网络结构中可以应用于图像识别任务的是()。A、LeNet-5B、AlexNetC、CNND、VGG-net答案:ABCD131.如将A、B、C三个分类器的PR曲线画在一个图中,其中A、B的PR曲线可以完全包含住C的PR曲线,A与B的PR曲线有交点,A、B、C的平衡点分别为0.79、0.66、0.58,以下说法中正确的是()。A、学习器A的性能优于学习器CB、学习器A的性能优于学习器BC、学习器B的性能优于学习器CD、学习器C的性能优于学习器B答案:ABC132.以下关于降维方法,叙述正确的是()。A、主成分分析是一种常用的非线性降维方法B、核化线性降维是一种常用的线性降维方法C、流形学习是一种借鉴拓扑流形概念的降维方法D、度量学习绕过降维的过程,将学习目标转化为对距离度量计算的权重矩阵的学习答案:CD133.python中,字符串格式化的方式()。A、%B、formatC、inD、input答案:AB134.关于降维说法正确的是()。A、PA是根据方差这一属性降维的B、降维可以防止模型过拟合C、降维降低了数据集特征的维度D、降维方法有PLA等答案:ACD135.请选择所有匹配项:下面哪些literal拥有数值数据类型(即哪些可用于算术表达式)()。A、0xffB、99C、122D、1002答案:ABC136.大数据的资产属性体现在()。A、具有劳动增值B、涉及法律权属C、具有财务价值D、涉及道德与伦理答案:ABCD137.字典的遍历正确的有()。A、forin变量i,字典:使用i遍历所有的键,有键就可以通过变量访问其值B、for变量iin字典:使用i遍历所有的键,有键就可以通过变量访问其值C、for变量i,变量jin字典items():使用变量i遍历所有键,通过变量j遍历所有值D、forin变量i,变量j字典items():使用变量i遍历所有键,通过变量j遍历所有值答案:BC138.以下算法中可以应用于图像分割的是()。A、边缘检测技术B、阈值分割技术C、基于区域的分割技术D、区域生长方法答案:ABCD139.下列关于密度聚类说法错误的是(__)。A、DBSCAN是一种著名的密度聚类算法B、密度聚类从样本数量的角度来考察样本之间的可连接性C、密度聚类基于不可连接样本不断扩展聚类簇易获得最终的聚类结果D、密度直达关系通常满足对称性答案:BCD140.Scikit-Learn中可以实现()算法。A、分类B、聚类C、回归D、降维答案:ABCD141.以下属于频率域图像滤波的方法有()。A、中值滤波B、均值滤波C、布特沃斯滤波D、高斯滤波答案:CD142.卷积神经网络中常用的池化函数包括()。A、最大池化函数B、L2范数C、相邻矩形区域内的平均值D、基于据中心像素距离的加权平均函数答案:ABCD143.Numpy中计算数组的标准差和方差的函数是()。A、std()B、diff()C、exp()D、var()答案:AD144.ETL技术主要涉及()操作。A、抽取B、转换C、加载D、分析答案:ABC145.以下可用于处理由于光照不均带来的影响的图像处理方法有()。A、同态滤波B、顶帽变换C、基于移动平均的局部阈值处理D、拉普拉斯算子答案:ABC146.Hadoop框架的缺陷有()。A、MR编程框架的限制;B、过多的磁盘操作,缺乏对分布式内存的支持;C、无法高效支持迭代式计算;D、不支持多用户写入并任意修改文件;答案:ABCD147.下面关于Python中的列表和字典说法正确的是()。A、字典和列表都可以通过“[]”操作符访问元素的值B、列表的索引必须是整型数或者切片C、字典不过是列表的另一个名字。二者没有区别D、字典的长度是动态的,而列表的长度是固定的答案:AB148.下面关于单样本Z检验的说法,正确的是()。A、在Python中,单样本Z检验可以使用scipy.stats.ttest_1samp()实现B、单样本Z检验适用于样本量较大的情况C、单样本Z检验假设要检验的统计量(近似)满足正态分布D、单样本Z检验常用于检验总体平均值是否等于某个常量答案:BCD149.ETL包含下列哪些过程()A、数据抽取B、数据转换C、数据加载D、数据展现答案:ABC150.处理图像平滑处理的滤波有()。A、盒式滤波B、均值滤波C、高斯滤波D、中值滤波答案:ABCD151.神经网络模型(NeuralNetwork)因受人类大脑的启发而得名。神经网络由许多神经元(Neuron)组成,每个神经元接受一个输入,对输入进行处理后给出一个输出。请问下列关于神经元的描述中,哪一项是正确的(__)。A、每个神经元有一个输入和一个输出B、每个神经元有多个输入和一个输出C、每个神经元有一个输入和多个输出D、每个神经元有多个输入和多个输出答案:ABCD152.参数估计可以分为()。A、点估计B、一致估计C、区间估计D、无偏估计答案:AC153.下列哪些是传统RDBMS的缺点()A、表结构schema扩展不方便B、全文搜索功能较弱C、大数据场景下I/O较高D、存储和处理复杂关系型数据功能较弱答案:ABCD154.以下哪些滤波器能在卷积窗口的边界上使卷积掩膜中心像素和它的4-邻接点的系数降至0附近()。A、同态滤波B、高斯滤波C、巴特沃斯滤波D、中值滤波答案:BC155.关于卷积神经网络的叙述中正确的是()。A、可用于处理时间序列数据B、可用于处理图像数据C、卷积网络中使用的卷积运算就是数学中的卷积计算D、至少在网络的一层中使用卷积答案:ABD156.对于不同场景内容,一般数字图像可以分为()。A、二值图像B、灰度图像C、彩色图像D、深度图像答案:ABC157.下面关于中心极限定理的说法,正确的是:A、中心极限定理说明,对于大量相互独立的随机变量,其均值的分布以正态分布为极限B、中心极限定理说明,对于大量相互独立的随机变量,其均值的分布以t分布为极限C、中心极限定理为Z检验提供了理论支持D、中心极限定理是数理统计学和误差分析的基础答案:ACD158.下列关于情感分析的说法正确的是()。A、简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程B、情感分析的发展得益于社交媒体的兴起C、按照处理文本的粒度不同,情感分析大致可分为词语级,句子级、篇章级三个D、情感分析可以应用于文本挖掘答案:ABCD159.下列关于词袋模型说法正确的是()。A、词袋模型可以忽略每个词出现的顺序B、词袋模型不可以忽略每个词出现的顺序C、TensorFlow支持词袋模型D、词袋模型可以表出单词之间的前后关系答案:AC160.下列既可以用于分类,又可以用于回归的机器学习算法有:A、k近邻B、逻辑回归C、决策树D、线性回归答案:AC161.数据安全不仅包括数据保密性,还包括()。A、完整性B、可用性C、不可否认性D、可审计性答案:ABCD162.异常值的检测方法有()A、直接通过数据可视化进行观察B、通过统计分布进行判断C、通过相对距离进行度量D、通过相对密度进行度量答案:ABCD163.深度学习方法不适用于以下哪些场景()。A、数据样本充足B、数据样本不足C、数据集具有局部相关特性D、数据集没有局部相关特性答案:BD164.Spark提交工作的方式()。A、lientB、lusterC、tandaloneD、arn答案:AB165.Spark的部署模式包括()。A、本地模式B、standalone模式C、SparkonyarnD、mesos模式答案:ABCD166.可视分析学的几个特点包含()A、强调数据到知识的转换过程B、强调可视化分析与自动化建模之间的相互作用C、强调数据映射和数据挖掘的重要性D、强调数据加工(DataWrangling或DataMunging)工作的必要性E、强调人机交互的重要性答案:ABCDE167.以下对模型性能提高有帮助的是()。A、数据预处理B、特征工程C、机器学习算法D、模型集成答案:ABCD168.在Hive架构中支持对数据的操作有()。A、插入B、查询C、删除D、分析;答案:BD169.以下图像技术中属于图像处理技术的是()。A、图像编码B、图像合成C、图像增强D、图像分类答案:AC170.回归分析有很多种类,常见的有()。A、线性回归B、系数回归C、逻辑回归D、曲线回归答案:ACD171.算法“歧视”现象可能出现在()。A、算法设计B、算法实现C、算法投入使用D、算法验证答案:ABC172.下面关于机器学习的理解正确的是()。A、非监督学习的样本数据是要求带标签的B、监督学习和非监督学习的区别在于是否要求样本数据带标签C、强化学习以输入数据作为对模型的反馈D、卷积神经网络一般用于图像处理等局部特征相关的数据答案:BCD173.决策树()情况下会导致递归返回。A、当前节点包含的样本全属于同一类B、当前属性集为空C、当前节点包含的样本集合为空D、所有样本在所有属性上取值相同答案:ABCD174.下列关于数据科学中常用的统计学知识说法错误的是()。A、从行为目的与思维方式看,数据统计方法可以分为基本分析方法和元分析方法B、从方法论角度看,基于统计的数据分析方法又可分为描述统计和推断统计C、描述统计可分为集中趋势分析、离中趋势分析、参数估计和假设检验D、推断统计包括采样分布和相关分析答案:ABCD175.()是通过对无标记训练样本的学习来进行分类的。A、密度估计B、异常检测C、线性回归D、聚类分析答案:ABD176.数据再利用的意义在于()A、挖掘数据的潜在价值B、提高社会效益,优化社会管理C、实现数据重组的创新价值D、优化存储设备,降低设备成本E、利用数据可拓展性拓宽业务领域答案:ACE177.非频繁模式()。A、其支持度小于阈值B、都是不让人感兴趣的C、包含负模式和负相关模式D、对异常数据项敏感答案:AD178.下面不是Python关键字的是()。A、noB、NoneC、noneD、null答案:ACD179.数据挖掘的挖掘方法包括()。A、聚类分析B、回归分析C、神经网络D、决策树算法答案:ABCD180.机器学习的三个关键组成要素是()。A、任务TB、性能指标PC、目标函数VD、经验来源E答案:ABD181.图像数字化应该包括哪些过程()。A、采样B、模糊C、量化D、统计答案:AC182.统计模式分类问题中,当先验概率未知时,可以使用()。A、最小最大损失准则B、最小误判概率准则C、最小损失准则D、N-P判决答案:AD183.数据科学以数据尤其是大数据为研究对象,主要研究内容包括()。A、数据加工(DataWrangling或DataMunging)B、数据管理C、数据计算D、数据产品研发答案:ABCD184.以下有关特征数据归一化的说法正确的是()。A、特征数据归一化加速梯度下降优化的速度B、特征数据归一化有可能提高模型的精度C、线性归一化适用于特征数值分化比较大的情况D、概率模型不需要做归一化处理答案:ABD185.最常见的分词算法可以分为哪三大类()。A、基于字符串匹配的分词方法B、基于理解的分词方法C、基于统计的分词方法D、基于阅读的分词方法答案:ABC186.可视分析学是一门以可视交互为基础,综合运用()等技术等多个学科领域的知识,以实现人机协同完成可视化任务为主要目的分析推理学科。A、物理学B、图形学C、数据挖掘D、人机交互答案:BCD187.关于Pig的说法正确的是()。A、Pig的主要目的是弥补MapReduce编程的复杂性B、Pig的核心是一种数据分析语言C、Pig程序的结构适合于串行处理D、Pig主要包含PigLatin和Pig执行环境两部分答案:ABD188.下列模型属于机器学习生成式模型的是()。A、朴素贝叶斯B、隐马尔科夫模型C、线性回归模型D、深度信念网络答案:ABD189.下列关于自然语言处理中的关键词提取的说法正确的是()。A、关键词提取是指用人工方法提取文章关键词的方法B、TF-IDF模型是关键词提取的经典方法C、文本中出现次数最多的词最能代表文本的主题D、这个问题设计数据挖掘,文本处理,信息检索等领域答案:BD190.在假设检验中,当原假设为“伪”,但数据分析人员没有拒绝它时犯的错误叫()。A、α错误B、β错误C、取伪错误D、弃真错误答案:BC191.可视化高维展示技术在展示数据之间的关系以及数据分析结果方面作()。A、能够直观反映成对数据之间的空间关系B、能够直观反映多维数据之间的空间关系C、能够静态演化事物的变化及变化的规律D、能够动态演化事物的变化及变化的规律E、提供高性能并行计算技术的强力支撑答案:BD192.在Spark的基本流程中,主要涉及()。A、DriverProgramB、usterManagerC、WorkerNodeD、Executor答案:ABCD193.Spark支持的计算模型有()。A、批处理;B、实时计算;C、机器学习模型;D、交互式查询;答案:ABCD194.下面关于reduce函数功能描述正确的是()。A、合并value值,形成较小集合B、采用迭代器将中间值提供给reduce函数C、map()函数处理后结果才会传输给reduce()D、内存中不会存储大量的value值答案:ABCD195.特征向量的缺失值处理:缺失值较多,直接将该特征舍弃掉,否则可能反倒会带入较大的noise,对结果造成不良影响;缺失值较少,其余的特征缺失值都在10%以内,我们可以采取很多的方式来处理:()。A、把NaN直接作为一个特征,假设用0表示B、用均值填充C、用随机森林等算法预测填充D、以上答案都不正确答案:ABC196.下列哪些是情感分析的途径()。A、关键词识别B、数据增强C、统计方法D、概念级技术答案:ABCD197.下列哪些是面向对象技术的特征()。A、封装B、继承C、多态D、分布性答案:ABC198.按照涉及自变量的多少,可以将回归分析分为()。A、线性回归分析B、非线性回归分析C、一元回归分析D、多元回归分析E、综合回归分析答案:CD199.下列在Python中描述正确的是()。A、pass语句不会执行任何操作,一般作为占位符或者创建占位程序B、sorted可以对列表进行排序,如:i=[5,1,2,3,4]i=sorted(i)C、内建的数据类型丰富,除了字典和列表外,还有集合(set)元组(tuple)等类型D、分号在Python中是无用途答案:ABC200.在数据科学中,计算模式发生了根本性的变化——从集中式计算、分布式计算、网格计算等传统计算过渡至云计算,有一定的代表性的是Google云计算三大技术,这三大技术包括()。A、HadoopYARN资源管理器B、GFS分布式存储系统C、MapRedue分布式处理技术D、BigTable分布式数据库答案:BCD201.训练CNN时,GPU显存溢出,此时可以采取什么办法()A、减少mini_batch大小B、移除一些卷积层C、减少图片输入大小D、增加激活函数答案:ABC202.关于HDFS集群中的DataNode的描述不正确的是()。A、DataNode之间都是独立的,相互之间不会有通信B、存储客户端上传的数据的数据块C、一个DataNode上存储的所有数据块可以有相同的D、响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑答案:AC203.以下()是scipy中的模块。A、clusterB、constantsC、integrateD、io答案:ABCD204.以下哪种说法是正确的()。A、网站服务器可以识别你使用的访问软件,因为在发送访问请求中有特定位置的字符串和软件类型相关B、低级别的代理服务器十分容易被识别C、可以通过修改opener的proxy来模拟浏览器访问D、爬取图片的流程被中断时,之前所有爬取的信息都将被自动删除答案:AB205.相对于HadoopMapReduce,Spark有什么好处()。A、通用性;B、易用性;C、速度快;D、容错性;答案:ABC206.决策树递归停止的条件为()。A、训练数据集使用完B、所有的类标签完全相同C、特征用完D、遇到丢失值答案:BC207.以下属于图像平滑算法的是()。A、中值滤波B、均值滤波C、邻域平均法D、高斯滤波答案:ABCD208.与自然语言处理相关的工具包Jieba,Gensim,NLTK,Scikit-Learn的区别是()。A、Jieba专注于中文分词操作B、NLTK主要用于一般自然语言处理任务(标记化,POS标记,解析等)C、Gensim主要用于题和向量空间建模、文档集合相似性等D、Scikit-learn为机器学习提供了一个大型库,其中包含了用于文本预处理的工具,例如词频-逆文档频率特征提取(TfidfVectorizer)等。答案:ABCD209.常见的核函数主要包括()。A、多项式核B、高斯核C、线性核D、拉普拉斯核E、Sigmoid核答案:ABCDE210.随机森林在做数据处理方面有什么优势()。A、不需要做缺失值处理B、不需要处理噪音C、不需要做特征选择D、不需要平衡数据集答案:ACD211.下面是Python的特点和优点是()。A、解释性B、动态特性C、面向对象D、语法简洁答案:ABCD212.MapReduce对map()函数的返回值处理后才传给reduce()函数,其中涉及哪些操作()。A、合并B、排序C、分区D、抽样答案:ABC213.特征向量的归一化方法有哪些()A、线性函数转换B、对数函数转换C、反余切函数转换D、减去均值,除以方差答案:ABCD214.下列对字符串函数或方法说法正确的有()。A、istitle()如果字符串是标题化的(见title())则返回True,否则返回FalseB、max(str)返回字符串str中最大的字母。C、replace(old,new,max)把将字符串中的str1替换成str2,如果max指定,则替换不超过max次D、upper()转换字符串中所有大写字符为小写答案:ABC215.“以数据为中心”是数据产品区别于其他类型产品的本质特征,表现在()方面。A、数据驱动B、数据密集型C、数据范式D、数据可视化答案:ABC216.Spark组件包含哪两个算子()。A、Map;B、Action;C、Transformation;D、Reduce;答案:BC217.以下关于集成学习的说法正确的是:()。A、随机森林是减少模型的方差,而GBDT是减少模型的偏差B、组成随机森林的树可以并行生成,而GBDT是串行生成C、随机森林的结果是多数表决表决的,而GBDT则是多棵树累加之和答案:ABC218.常用的数据审计方法可以分为()。A、预定义审计B、自定义审计C、可视化审计D、结构化审计答案:ABC219."噪声"是指测量变量中的随机错误或偏差,噪声数据的主要表现有那几种形式()A、错误数据B、假数据C、异常数据D、僵尸数据答案:ABC220.下面关于连续型随机变量以及连续型概率密度函数的说法,正确的是。A、“一个客服一天可能接听到多少个电话”是一个连续型随机变量B、正态分布是一种连续型随机变量的概率分布C、可以使用概率密度函数来描述连续型随机变量的概率分布D、连续型概率密度函数曲线下方的面积之和为1答案:BCD221.以下属于自然语言处理范畴的是()。A、情感倾向分析B、评论观点抽取C、文章分类D、新闻摘要抽取答案:ABCD222.下列有关MapReduce计算框架的描述正确的是()。A、MapReduce可以计算任务的划分和调度;B、MapReduce可完成数据的分布存储和划分;C、MapReduce可以实现处理系统节点出错检测和失效恢复;D、MapReduce可实现处理数据与计算任务的同步;答案:ABCD223.Python函数包括下述哪些内容()。A、函数名称B、参数C、执行语句D、返回值答案:ABCD224.预剪枝使得决策树的很多分子都没有展开,会导致()。A、显著减少训练时间开销B、显著减少测试时间开销C、降低过拟合风险D、提高欠拟合风险答案:ABCD225.一个监督观测值集合会被划分为()。A、训练集B、验证集C、测试集D、预处理集答案:ABC226.下列属于文本处理流程的是()。A、NormalizationB、TokenizationStopwordsC、Part-of-speechTaggingD、NamedEntityRecognition答案:ABCD227.下面哪些是Spark的组件()。A、SparkStreamingB、MLibC、GraphXD、SparkR答案:ABC228.以下选项中,不是Python语言保留字的是()。A、doB、passC、exceptD、until答案:AD229.关于梯度消失和梯度消失,以下说法正确的是:(__)。A、根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话,那么即使这个结果是0.99,在经过足够多层传播之后,误差对输入层的偏导会趋于0B、可以采用ReLU激活函数有效的解决梯度消失的情况C、根据链式法则,如果每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话,在经过足够多层传播之后,误差对输入层的偏导会趋于无穷大D、可以通过减小初始权重矩阵的值来缓解梯度爆炸答案:ABCD230.以下函数中()属于二元通用函数(Binaryuniversalfunctions)。A、addB、substractC、multiplyD、power答案:ABCD231.图像分割中常使用的领域有()。A、0邻域B、4邻域C、8邻域D、24邻域答案:BC232.下列关于集合操作结果正确的有()。A、name={‘d’,‘s’}nameadd(‘sd’)name值为:{‘sd’,‘d’,‘s’}B、name={‘sd’,d’,‘s’}nameremove(‘s’)name值为:{‘sd’,‘d’}C、name={‘sd’,d’,‘s’}nameclear()name值为:{}D、name={‘sd’,d’,‘s’}nameupdate(‘df’)name值为:{‘sd’,’d’,‘f’,’s’,’j’}答案:ABC233.Python逻辑表达式()的结果是False。A、not(TrueorFalse)B、not(FalseandFalse)C、1!=0D、1==0答案:AD234.循环神经网络主要被应用于哪些场景(__)。A、语音识别B、语音建模C、机器翻译D、图像识别答案:ABC235.假设检验中,首先需要提出零假设和备择假设,零假设是(),备择假设是()。A、只有出现的概率大于阈值才会被拒绝的,只有零假设出现的概率大于阈值才会被承认的B、希望推翻的结论,希望证明的结论C、只有出现的概率小于阈值才会被拒绝的,只有零假设出现的概率小于阈值才会被承认的D、希望证明的结论,希望推翻的结论答案:BC236.Python变量命名规则()。A、变量名只能包含字母、数字和下划线。变量名可以字母或下划线开头,但不能以数字开头,例如,可将变量命名为message_1,但不能将其命名为1_message。B、变量名不能包含空格,但可使用下划线来分隔其中的单词。例如,变量名greeting_message可行,但变量名greetingmessage会引发错误。C、不要将Python关键字和函数名用作变量名,即不要使用Python保留用于特殊用途的单词,如print。D、变量名应既简短又具有描述性。例如,name比n好,student_name比s_n好,name_length比length_of_persons_name好。答案:ABCD237.()等都是Scikit-Learn中包含的算法。A、SVMB、随机森林C、Lasso回归D、密度聚类答案:ABCD238.数据科学基本原则中,三世界原则指的是()A、我们的世界B、数据世界C、物理世界D、数字世界答案:ABC239.某单位运用随机森林算法思想建立抢修热点模型。该模型主要预测下期台区工单数量,构建抢修热点。以下模型算法构建步骤中合理的顺序是:()。A、将历史数据进行随机自助法重抽样,生成N个训练样本集B、将N个训练样本集分别做决策树,生成N棵决策树C、将N棵决策树随机构成随机森林D、未来根据预测样本气候环境、设备属性、设备工况进行随机森林决策投票,得出针对该预测样本最优的决策树进行运算,并计算出最终结果。答案:ABCD240.针对维数灾难,我们主要采用的降维方法有哪些()。A、多维缩放B、主成分分析C、核化线性降维D、流形学习E、度量学习答案:ABCDE241.特征工程一般需要做哪些工作()。A、正则化B、标准化C、特征处理D、特征选择答案:CD242.下列哪些是RDBMS中事务遵循的原则()A、原子性(Atomicity)B、一致性(Connsistency)C、隔离性(Isolation)D、持久性(Durability)答案:ABCD243.以下属于图像分割的算法的是:()。A、阈值分割方法(thresholdsegmentationmethod)B、区域增长细分(regionalgrowthsegmentation)C、边缘检测分割方法(edgedetectionsegmentationmethod)D、基于聚类的分割(segmentationbasedonclustering)E、基于CNN中弱监督学习的分割答案:ABCDE244.聚类性能度量的指标主要分为外部指标和内部指标,其中属于内部指标的是()。A、Jaccard指数B、FM指数C、DB指数D、Dunn指数答案:CD245.图像识别的精度会受到以下那些因素的影响()。A、数据类别数量不平衡B、输入图像尺寸不同C、图像中存在类标之外的环境干扰D、图像中存在随机噪声答案:ACD246.大数据偏见包括()A、数据源的选择偏见B、算法与模型偏见C、结果解读方法的偏见D、数据呈现方式的偏见答案:ABCD247.SparkRDD的依赖机制包括()。A、宽依赖B、深度依赖C、广度依赖D、窄依赖答案:AD248.主要面向或关注“过去”的数据分析过程为:A、描述性分析B、诊断性分析C、预测性分析D、规范性分析答案:AB249.下列属于描述gensim库的特性的是()。A、训练语料的预处理B、主题向量的变换C、文档相似度的计算D、文章切分词语统计计算答案:ABC250.DGI定义的数据治理任务包括()。A、数据质量的评估B、主动定义或序化规则C、为数据利益相关者提供持续跨职能的保护与服务D、应对并解决因不遵守规则而产生的问题答案:BCD251.下列属于字符串匹配的分词方法的是()。A、正向最大匹配法(由左到右的方向)B、逆向最大匹配法(由右到左的方向)C、最少切分(使每一句中切出的词数最小)D、双向最大匹配法(进行由左到右、由右到左两次扫描)答案:ABCD252.在MapReduce1.0版本中,JobTracker功能是()。A、负责资源管理B、作业控制C、作业存储D、作业审核答案:AB253.对以下代码说法正确的是()。X=np.linspace(0.05,10,1000)【换行】Y=np.sin(x)【换行】Plt.plot(x,y,ls="-.",l=2,c="c",label="plotfigure")【换行】Plt.legend()【换行】Plt.grid(linestyle=":",color="r")【换行】Plt.show()A、该图表是一个蓝绿色的散点图B、图表中有红色实线的网格线C、图表中有图例D、该图画的是sin曲线;答案:CD254.在词袋模型中使用单个的单词来构建词向量这样的序列被称为()。A、1元组(1-gram))B、单元组(unigram)模型C、列表D、字典答案:AB255.下面哪些属于可视化高维数据技术()。A、矩阵B、.平行坐标系C、星形坐标D、散布图答案:ABC256.模块可以分为以下通用类别()。A、使用python编写的.py文件B、已被编译为共享库或DLL的C或C++扩展C、把一系列模块组织到一起的文件夹D、使用C编写并链接到python解释器的内置模块答案:ABCD257.HighBias(高偏差)解决方案:()。A、BoostingB、复杂模型(非线性模型、增加神经网络中的层)C、更多特征答案:ABC258.以下关于Hbase说法正确的是()。A、面向列的数据库B、非结构化的数据库C、支持大规模的随机、实时读写D、采用松散数据模型答案:ABCD259.下列属于数值优化算法的是()。A、梯度下降法B、牛顿法C、极大似然法D、逻辑回归答案:AB260.使用Python操作目录以下哪些符合()。A、mkdir:用于以数字权限模式创建目录B、getcwd:用于返回当前工作目录C、chdir:用于改变当前工作目录到指定的路径D、rmdir:用于删除指定路径的目录。仅当这文件夹是空的才可以,否则,抛出OSError。答案:ABCD261.对于决策树的优点描述正确的是()。A、可读性强B、分类速度快C、只用于回归问题D、是无监督学习答案:AB262.大数据平台的计算组件主要有哪几个()。A、StormB、SparkC、MapreduceD、Sqoop答案:ABC263.任何函数都可以修改,所以尽量少用全局变量,主要原因包括()。A、不够安全B、一直占用内存C、容易失效D、一直占用字符答案:AB264.变量名可以包含()。A、字母B、数字C、下划线D、空格答案:ABC265.从可视化处理视角看,可以将数据分为四个类型()并采用不同的视觉映射方法。A、定类数据B、定序数据C、定距离数据D、定比暑假答案:ABCD266.建立线性模型时,我们看变量之间的相关性。在寻找相关矩阵中的相关系数时,如果发现3对变量(Var1和Var2、Var2和Var3、Var3和Var1)之间的相关性分别为-0.98、0.45和1.23。我们能从中推断出什么呢()A、Var1和Var2具有很高的相关性B、Var1和Var2存在多重共线性,模型可以去掉其中一个特征C、Var3和Var1相关系数为1.23是不可能的D、以上答案都不正确答案:ABC267.下面有关HTML叙述正确的是()。A、一个HTML文件可以用记事本来编辑B、HTML的意思是超文本标记语言C、一个HTML文件必须是一个以htm或html为扩展名的文件D、HTML区分大小写,如<b>写成<B>是错误的答案:ABC268.Python逻辑表达式()会导致逻辑短路,即不会继续向下推算而直接返回结果。A、False开头的and语句B、False开头的or语句C、True开头的and语句D、True开头的or语句答案:AD269.以下关于神经网络模型描述正确的是(__)。A、神经网络模型是许多逻辑单元按照不同层级组织起来的网络,每一层的输出变量都是下一层的输入变量B、神经网络模型建立在多神经元之上C、神经网络模型中,无中间层的神经元模型的计算可用来表示逻辑运算D、神经网络模型一定可以解决所有分类问题答案:ABC270.常见的图像降噪方式包括()。A、中值滤波B、均值滤波C、平均滤波D、加权平均滤波答案:ABCD271.在数据科学中,计算模式发生了根本性的变化——从集中式计算、分布式计算、网格计算等传统计算过渡至云计算,有一定的代表性的是Google云计算三大技术,这三大技术包括()。A、HadoopYRN资源管理器B、GFS分布式存储系统C、MaoRedue分布式处理技术D、BigTable分布式数据库答案:BCD272.关于CAP理论说法正确的是()。A、一个分布式系统不能同时满足一致性、可用性和分区容错性等需求B、一致性主要指强一致性C、一致性、可用性和分区容错性中的任何两个特征的保证(争取)可能导致另一个特征的损失(放弃)D、可用性指每个操作总是在“给定时间”之内得到返回“所需要的结果”。答案:ABCD273.以下()是一元通用函数。A、np.add()B、np.maximum()C、np.exp()D、np.sqrt()答案:CD274.HadoopMapReduce是MapReduce的具体实现之一。HadoopMapReduce数据处理过程涉及四个独立的实体,包括()。A、ClientB、JobTrackerC、TaskTrackerD、HDFS答案:ABCD275.下列关于特征的稀疏性说法正确的是()。A、稀疏性指的是矩阵中有许多列与当前学习任务无关B、稀疏样本可减少学习任务的计算开销C、学习任务难度可能有所降低D、稀疏矩阵没有高效的存储方法答案:ABC276.数据可视化中,从数据到知识的转换途径()。A、可视化分析B、自动化建模C、用户交互D、参数优化答案:AB277.在数据缺失严重时,会对分析结果造成较大的影响,因此剔除的异常值和缺失值,要采用合理的方法进行填补,常用的方法有()。A、平均值填充B、K最近邻距离法C、回归法D、极大似然估计E、多重插补法答案:ABCDE278.假设目标遍历的类别非常不平衡,即主要类别占据了训练数据的99%,现在你的模型在训练集上表现为99%的准确度,那么下面说法正确的是:()。A、准确度并不适合衡量不平衡类别问题B、准确度适合衡量不平衡类别问题C、精确度和召回率适合于衡量不平衡类别问题D、精确度和召回率不适合衡量不平衡类别问题答案:AC279.图像压缩是建立在图像存在()几种冗余之上。A、编程冗余B、像素间冗余C、心理视觉冗余D、计算资源冗余答案:ABC280.图像识别的一般步骤包括()。A、预处理B、特征提取C、超像素生成D、识别分类答案:ABD281.以下关于L1和L2范数的描述,正确的是:()。A、L1范数:为x向量各个元素绝对值之和。B、L2范数:为x向量各个元素平方和的1/2次方,L2范数又称Euclidean范数或Frobenius范数C、L1范数可以使权值稀疏,方便特征提取D、L2范数可以防止过拟合,提升模型的泛化能力。答案:ABCD282.RDD具有()和()特征。A、可容错性;B、简洁性;C、并行数据结构;D、结构化;答案:AC283.HBase性能优化包含下面的哪些选项()。A、读优化B、写优化C、配置优化D、JVM优化答案:ABCD284.交叉检验模型评估较差可能是由于()原因导致的。A、模型过拟合B、模型欠拟合C、模型过度复杂D、模型过度简单答案:ABCD285.文本分类过程包括()。A、选择训练文本B、选择文本特征C、建立文本表示模型D、选择分类方法答案:ABCD286.长短时记忆神经网络三个门是哪些()A、进化门B、输出门C、输入门D、遗忘门答案:BCD287.数据管理指对数据生命周期的每个阶段里可能引发的各类数据质量问题,进行()等一系列管理活动,并通过改善和提高组织的管理水平是的数据质量获得进一步提高。A、识别B、度量C、监控D、预警答案:ABCD288.决策树的划分选择有()。A、增益系数B、信息增益C、增益率D、基尼系数E、信息增益量答案:BCD289.关于数据流转和应用,以下说法正确的是()。A、数据流转和应用过程中应确保可追溯、可复查B、前序环节应保证数据的真实、完整C、前序环节应及时传递到后序环节D、前后环节数据应保持衔接一致答案:ABCD290.已定义级(DefinedLevel)的主要特点包括()。A、组织机构已明确给出了关键过程的“标准定义”,并定期对其进行改进。B、已提供了关键过程的测量与预测方法。C、关键过程的执行过程并不是简单或死板地执行组织机构给出的“标准定义”,而是根据具体业务进行了一定的“裁剪”工作。D、数据的重要性已成为组织机构层次的共识,将数据当作成功实现组织机构使命的关键因素之一答案:ABCD291.CNN相比于全连接的DNN有哪些优势()A、参数更少B、泛化更好C、训练更快D、更容易搭建;答案:ABC292.语音识别的方法包括()。A、声道模型方法B、模板匹配的方法C、利用仍神经网络的方法D、语音知识方法答案:ABCD293.Hadoop生态系统中,核心是()。A、FlumeB、MapReduceC、PigD、HDFS答案:BD294.以下描述中属于Analytics2.0的主要特点的是()。A、侧重嵌入式分析B、重视非结构化数据的分析C、以决策支持为主要目的D、注重解释性分析和预测性分析答案:BCD295.Hadoop组件Zookeeper的设计目标和主要特点包括()。A、简单性B、自我复制C、顺序访问D、高速读取答案:ABCD296.下面对范数规则化描述正确的是()。A、L0是指向量中0的元素的个数B、L1范数是指向量中各个元素绝对值之和C、L2范数向量元素绝对值的平方和再开平方D、L0是指向量中非0的元

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论