大数据竞赛理论试题题库及答案_第1页
大数据竞赛理论试题题库及答案_第2页
大数据竞赛理论试题题库及答案_第3页
大数据竞赛理论试题题库及答案_第4页
大数据竞赛理论试题题库及答案_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据竞赛理论试题题库一、选择题1.scipy.stats中,()表示二项分布。[单选题]*A.gammaB.binom√C.uniformD.rayleigh2.下列关于PCA的说法中:①我们须在使用PCA前标准化数据;②我们应该选择使得模型有最大variance的主成分;③我们应该选择使得模型有最小variance的主成分;④我们可以使用PCA在低维度上做数据可视化。正确的是()。[单选题]*A.①②④√B.②④C.③④D.①③3.下列描述中不属于数据预处理方法的是()。[单选题]*A.数据清洗:去噪声和无关数据B.数据集成:将多个数据源中的数据结合起来存在一个一致的数据存储中C.数据变换:把原始数据转换成为适合数据挖掘的形式D.数据转化:把连续数据转换为离散数据√4.Scikit-Leam中,()可以实现整数分类值转化为独热向量。[单选题]*A.OridinalEncoderB.OneHotEncoder√C.LableEncoderD.AutoEncoder5.矩阵相减使用的函数是()[单选题]*A.np.add()B.np.subtract()√C.np.multiply()D.np.divide()6.下列分割方法中不属于区域算法的是()o[单选题]*A.分裂合并B.阈值分割C.区域生长D.边缘检测√7.语句np.random.randn(5,4)的运算结果是()。[单选题]*A.生成一个5行4列的随机矩阵√B.将矩阵的第5行第4列改成一个随机值C.将矩阵的第4行第了列改成一个随机值D.将矩阵的第5列和第4列都用随机值代替8.MapReduce里面的query、sort和limit等都是针对()的操作。[单选题]*A.map()之前√B.reduce()之前C.reduce()之后D.finalize()之后9.()模块提供了用于加载和获取流行的参考数据集的方法。[单选题]*A.sklearn.dataB.sklearn.datasets√C.sklearn.datasD.sklearn.datafetch10.下列关于图像的平滑处理的说法错误的是()o[单选题]*A.图像的平滑处理是指在尽量保留原有信息的情况下,过滤掉图像内部的噪声B.图像平滑处理会对图像中与周围像素点的像素值差异较大的像素点进行处理,将其值调整为周围像素点像素值的近似值C.经过平滑处理后图像质量会下降√D.以上都对11.在神经网络中引入了非线性的是()。[单选题]*A.随机梯度下降B.修正线性单元(ReLU)√C.卷积函数D.以上答案都不正确12大数据计算服务提供了大数据的存储和计算服务,非常适合应用于大数据分析的领域。以下说法中错误的是()。[单选题]*A.可以实现大型互联网企业的数据仓库和BI分析B.提供了便捷的分析处理海量数据的手段,用户可以不必关心分布式计算细节,从而达到分析大数据的目的C.可以支持实时OLAP分析√D.可以基于历史数据,进行用户特征和兴趣挖掘13.plt.show()函数的作用是()o[单选题]*A.展示图像√B,画直方图C.保存图像D.画散点图14.()釆用概率模型来表达聚类原型。[单选题]*A.尝试为不同的质心(centroid)初始化运行算法B.调整迭代的次数C.找到集群的最佳数量D.以上答案都正确√15.相对于HadoopMapReduce1.0,Spark的特点不包括()。[单选题]*A.速度快B.并发多√C.通用性D,易用性16.下列算法中:①KNN;②线性回归;③对数几率回归。可以用神经网络去构造的([单选题]*A.①②B.②③√C.①②③D.以上答案都不正确17.最早被提出的循环神经网络门控算法是()o[单选题]*A.长短期记忆网络√B.门控循环单元网络C.堆叠循环神经网络D.双向循环神经网络18.下列方法不能成功创建一个Numpy数组的是()[单选题]*A.a=np.array([1,2,3,4])B.b=np.zeros(3,4)C.c=np.ones(1,2,3,4)√D.d=np.arange(10,30,5)19.语音识别的应用场景包括()0[单选题]*A.语音转文本B.语音合成C.人机交互D.以上都对√20.Matplotlib中的axvspan()函数作用是()。[单选题]*A.在X轴标示不同图形的文本标签图例B.绘制垂直于x的参考区域√C.添加x轴内容细节的指向性注释文本D.添加x轴标题21.在Linux下预装了Python2、Python3且默认Python版本为Python3,则下列描述可以正确启动Python的是()o[单选题]*A.在Linux应用程序Terminal,打开一个终端窗口,输入whichPythonB.在Linux应用程序Terminal,打开一个终端窗口,输入Python2或Python3√C.在Linux应用程序Terminal,打开一个终端窗口,输入whichPython3D.在Linux应用程序Terminal,打开一个终端窗口,输入whichPython222.如果线性回归模型中的随机误差存在异方差性,那么参数的。LS估计量是()□[单选题]*A.无偏的、有效的B.无偏的、非有效的√C.有偏的、有效的D.有偏的、非有效的23.一篇文章中某些名词的TF-IDF值比较大,则说明()o[单选题]*A.这些名词对这篇文章的区分度比较高√B.这些名词对这篇文章的区分度比较低C.不能说明什么D.以上都不对24.HTML的表格中,如果需要定义表格的单元格内文字和边缘的空间,需要通过(来实现。[单选题]*A.cellspacing属性B.colspan属性C.cellpadding属性√D.rowspan属性25.Scipy中模块signal的作用是()。[单选题]*A.信号处理√B.程序输入输出C.程序输入输出D.计算积分26.关系云的一个重要功能是提供()。[单选题]*A.数据库即服务√B.虚拟服务C.弹性计算D.按需服务27.下列关于可视化方法体系的说法不正确的是()。[单选题]*A.通常采用视觉图形元素和视觉通道两个维度进行视觉编码B.常用的共性方法有统计图表、图论方法、视觉隐喻和图形符号学等C.领域方法在所属领域内其可视化的信度和效果往往低于基础方法的直接应用√D.视觉编码为其他数据可视化方法提供了方法学基础28.如果建立一个5000个特征、100万个数据的机器学习模型,则有效地应对这样的大数据训练的方法是()。[单选题]*A.随机抽取一些样本.在这些少量样本之上训练B.可以试用在线机器学习算法C.应用PCA算法降维.减少特征数D.以上答案都正确√29.()是一种著名的密度聚类算法,它基于一组邻域参数来刻画样本的紧密程度。[单选题]*A.DBSCAN√B.原型聚类C.密度聚类D.层次聚类30.下列方法中属于映射数据到新的空间的是()0[单选题]*A.傅里叶变换√B.特征加权C.渐进抽样D.维归约31.决策树的基本流程遵循()的策略。[单选题]*A.贪心B.最优化C.分而治之√D.顺序32.下列关于SecondaryNameNode的说法正确的是()。[单选题]*A.它是NameNode的热备B.它对内存没有要求C.它的目的是帮助NameNode合并编辑日志,减少NameNode的负担和冷启动时的加载时间√D.SecondaryNameNode应与NameNode部署到一个节点33.由于不同类别的关键词对排序的贡献不同,检索算法一般把查询关键词分为几类,下列不属于此关键词类型的是()[单选题]*A.引用词B.普通关键词C.高频词汇√D.扩展关键词34.下列关于函数的参数的描述错误的是()。[单选题]*A.可选参数可以定义在非可选参数的前面√B.一个元组可以传递给带有星号的可变参数C.在定义函数时,可以设计可变数量参数,通过在参数前增加星号(*)实现D.在定义函数时,如果有些参数存在默认值,可以在定义函数时直接为这些参数指定默认值35.假设你需要调整参数来最小化代价函数(c。stfimcti。n),会使用()技术。[单选题]*A.穷举搜索B.随机搜索C.Bayesian优化D.以上全是√36.下列叙述正确的是()。[单选题]*A.continue语句的作用是结束整个循环的执行B.只能在循环体内使用break语句√C.在循环体内使用break语句或continue语句的作用相同D.从多层循环嵌套中退出时,只能使用goto语句37.Python代码中mpl.rcParams['font.sans-serif']=「'SimHei']的作用是()o[单选题]*A.设置图表中文显示的字体√B.设置图表图例的位置C.设置图表标题的颜色D.设置图表标题的位置38.训练一个RNN网络,如果权重与激活值都是NaN,下列选项中,哪一个是导致这个问题的最有可能的原因()。[单选题]*A.梯度消失B.梯度爆炸√C.ReLU函数作为激活函数g(.),在计算g(z)时,z的数值过大了D.Sigmoid函数作为激活函数g(.),在计算g(z)时,z的数值过大了39.大数据参考架构的水平轴和垂直轴分别为()。[单选题]*A.信息(活动)价值链和信息技术价值链√B.信息技术价值链和信息(活动)价值链C.信息交互价值链和信息技术价值链D.信息(活动)价值链和信息交互价值链40.可用作数据挖掘分析中的关联规则算法有()。[单选题]*A.机器学习、对数回归、关联模式B.K均值法、SOM机器学习C.Apriori算法、FP-Tree算法√D.RBF机器学习、K均值法、机器学习41.运行下面程序,a、b、c、d四个变量的值错误的是()。importcopya=[1,2,3,4,['a','b']]b=ac=copy.copy(a)d=copy.deepcopy(a)a.append(5)a[4]append('c')[单选题]*A.a==[1,2,3,4,['a','b','c'],5]B.b==[1,2,3,4,['a','b','c'],5]C.c==[1,2,3,4,['a','b','c']]D.d==[1,2,3,4,['a','b','c']]√42.如果一个SVM模型出现欠拟合,那么()能解决这一问题。[单选题]*A.增大惩罚参数C√B.减小惩罚参数CC.减小核系数(gamma参数)D.增大核系数(gamma参数)43.下列可以应用关键词提取的是()o[单选题]*A.文献检索B.自动文摘C.文本聚类/分类D.以上都对√44.在MapReduce中,为了发现Worker故障,Master周期性进行的操作是()。[单选题]*A.JoinB.Ping√C.CheckD.Connect45.下列不属于Python内置模块的是()[单选题]*A.sysB.jsonC.osD.image√46.通常来说,()能够用来预测连续因变量。[单选题]*A.线性回归√B.逻辑回归C.线性回归和逻辑回归D.以上答案都不正确47.下列不属于数据科学项目主要角色的是()。[单选题]*A.项目发起人B.项目经理C.操作员D.验收人员√48.如果训练一个RNN网络时发现权重与激活值都是NaN,则导致这个问题最有可能的原因是()o[单选题]*A.梯度消失B.梯度爆炸√C.ReLU函数作为激活函数g(),在计算g(z)时,z的数值过大了D.Sigmoid函数作为激活函数g(),在计算g(z)时,z的数值过大了49.运行下面代码的输出结果为()oimportnumpyasnpx=np.array([3,1,2])y=np.argsort(x)print(y)[单选题]*A.[312]B.[l20]√C.[123]D.12350.运行下面代码,则下列描述错误的是()。importtimeprint(time.time)[单选题]*A.time库是Python的标准库B.可使用time.ctime(),显示为更可读的形式C.time.sleep(5)推迟调用线程的运行,单位为毫秒√D.输出自1970年1月1日00:00:00AM以来的秒数51.在Numpy中,数组拼接的函数不包括()[单选题]*A.append()B.insert()C.vstack()D.where()√52.下列关于__new__和__init__区别的说法不正确的是()。[单选题]*A.__new__是一个实例方法,而__init__是一个静态方法√B.__new__方法会返回一个创建的实例,而_init__什么都不返回C.只有在__new__返回一个cls的实例时,后面的__init__才能被调用D.当创建一个新实例时调用_new_,初始化一个实例时用__init__53.下列情景中不属于数据故事化的是()。[单选题]*A.还原情景B.统计情景√C.移植情景D.虚构情景54.对模型进行超参数优化,详尽搜索指定参数的估计值使用()函数。[单选题]*A.ParameterGrid()B.ParameterSampler()C.GridSearchCV()√D.RandomizedSearchCV()55.图像中虚假轮廓的岀现就其本质而言是()o[单选题]*A.图像的灰度级数不够多而造成的√B.图像的空间分辨率不够高而造成的C.图像的灰度级数过多而造成的D.图像的空间分辨率过高而造成的56.下列语句中不能创建一个字典的是()[单选题]*A.dictl={}B.dict2={3:5)C.dict3={[1,2,3]:"uestc"}√D.dict4={(1,2,3):”uestc”}57.np.setdiffld(Ndarray1,Ndarray2)函数的作用是()。[单选题]*A.返回二者的交集并排序B.返回二者的并集并排序C.返回二者的差集√D.返回二者的对称差58.集群的最主要“瓶颈”通常是()。[单选题]*A.CPUB.网络C.磁盘I/O√D.内存59.FusionInsightHD中Loader从SFTP服务器导入文件时,不需要做编码转换和数据转换且速度最快的文件类型是:()。[单选题]*A.graph-fileB.binary-file√C.text-fileD.sequence-file60.著名的C4.5决策树算法使用()来选择最优划分属性。[单选题]*A.信息增益B.增益率√C.基尼指数D.均值61.下列关于RNN的说法正确的是()o[单选题]*A.RNN可以应用在NLP领域B.LSTM是RNN的一个变种C.在RNN中一个序列当前的输出与前面的输出也有关D.以上答案都正确√62.有研究发现“页面的显示速度每延迟Is,网站访问量就会降低11%,从而导致营业额或者注册量减少7%,顾客满意度下降16%”。该项研究表明了在数据产品开发中更加重要的是()。[单选题]*A.查全率B.用户体验√C.数据可视化D.查准率63.列表对象的sort()函数用来对列表元素进行原地排序,该函数返回值为()。[单选题]*A.FalseB.None√C.TrueD.报错64.()算法是分类算法。[单选题]*A.DBSCANB.C4.5√C.K-meansD.EM65.下列关于Python单下划线_foo与双下划线__foo与__foo__的说法错误的是()[单选题]*A._foo不能直接用于'frommoduleimport'B.__foo解析器用_classname__foo来代替这个名字,以区别和其他类相同的命名C.__foo__代表python里特殊方法专用的标识D.__foo可以直接用于'frommoduleimport'√66.下列关于连接数组的描述不正确的是()。[单选题]*A.concatenate()连接沿现有轴的数组序列B.stack()沿着新的轴加入一系列数组C.vstack()水平堆叠序列中的数组(列方向)D.hstack()3D堆叠序列中的数组(行方向)√67.Matplotlib中的legend()函数的作用是()。[单选题]*A.设置标签文本B.绘制网格线C.标示不同图形的文本标签图例√D.设置x轴的数值显示范围68.一幅数字图像是()o[单选题]*A.一个观测系统B.一个由许多像素排列而成的实体C.一个2D数组中的元素√D.一个3D空间中的场景69.诊断性分析主要釆取的分析方法是()。[单选题]*A.关联分析法和因果分析法√B.关联分析法和分类分析法C.关联分析法和运筹学D.因果分析法和分类分析法70.Spark的集群管理模式不包含([单选题]*A.Standalone模式B.Message模式√C.YARN模式D.Mesos模式71.open()函数中,参数'wb'的含义是()[单选题]*A.创建并二进制只读B.创建并只写方式C.创建并二进制写入√D.创建并追加方式72.()是指为最小化总体风险,只需在每个样本上选择能使特定条件风险最小的类别标记。[单选题]*A.支持向量机B.间隔最大化C.线性分类器D.贝叶斯判定准则√73.下列不属于循环神经网络的输出模式是()o[单选题]*A.单输出B.多输出C.同步多输出√D.异步多输出74.选择哪一个解作为输出,将由学习算法的归纳偏好决定,常见的做法是引入()。[单选题]*A.线性回归B.线性判别分析C.正则化项√D.偏置项75.Numpy中使用不同类型的数组进行操作时,结果数组的类型会进行()[单选题]*A.向下转换B.向上转换√C.不进行转换D.无法计算76.在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于1,则表明模型中存在()。[单选题]*A.异方差B.序列相关C.多重共线性√D.高拟合优度77.在一个简单的线性回归模型中(只有一个变量),如果将输入变量改变一个单位(增加或减少),那么输出将改变()。[单选题]*A.—个单位B.不变C.截距D.回归模型的尺度因子√78.Scipy中模块io的作用是()。[单选题]*A.差值计算B.程序输入输出√C.稀疏矩阵D.优化79.()会发生权重共享。[单选题]*A.卷积神经网络B.循环神经网络C.全连接神经网络D.A、B√80.()不是Scipy库中的模块。[单选题]*A.clusterB.random√C.signalD.misc81.卷积的过程是让过滤器在图像上进行()。[单选题]*A.缩放B.剪切C.窗口滑动√D.镜像对称82.一元线性回归方程戶0.7+0.82X,判定系数等于0.64,则尤与V的相关系数为().[单选题]*A.0.82B.0.64C.0.8√D.0.783.下列关于等距离散化和等频离散化的叙述不正确的是()。[单选题]*A.等距离散化是将连续型特征的取值区间均匀地划分成多个区间段B.等距离散化对数据离群值不敏感√C.等频离散化考虑了区间段中的样本个数,使每个区间段的样本数相同D.等频离散化会将相似的样本划分到不同的区间84.运行下面代码的输出结果为()arr=np.array([1,5,3])arrl=np.array([2,4,6])print(arr<arrl)[单选题]*A.TRUEB.FALSEC.[Ture,False,Ture]√D.([Ture,Ture,Ture])85.下列不属于模型集成方法的是()。[单选题]*A.直接集成法B.增强法C.堆叠法D.递归法√86.如果要清空文件,需要使用的命令是()。[单选题]*A.close()B.seek(0)C.truncate(0)√D.write('stuff')87.大数据应用需依托的新技术有()。[单选题]*A.大规模并行处理B.数据分析处理C.智能化D.三个选项都是√88.运行下面代码的输出结果为()。importnumpyasnpa=np.arange(4)b=a[:]a[l]=9print(a)print(b)[单选题]*A.[0,1,2,3][0,1,2,3]B.[l,9,3,4][1,2,3,4]C.[0,9,2,3][0,9,2,3]√D.[0,9,2,3][0,1,2,3]89.下列关于欠拟合(under-fitting)的说法正确的是()。[单选题]*A.训练误差较大.测试误差较小B.训练误差较小.测试误差较大C.训练误差较大.测试误差较大√D.训练误差较小.测试误差较小90.对arr=叩.arange(9).reshape(3,3),反转二维数组arr的行进行的操作是()o[单选题]*A.arr[::-1]√B.arr[::-2]C.arr[::1]D.arr[::0]91.Adaboost的核心思想是()。[单选题]*A.给定一个弱学习算法和一个训练集.将该学习算法使用多次.得出预测函数序列.进行投票B.针对同一个训练集训练不同的弱分类器并集合起来.构成一个强分类器√C.利用多棵树对样本进行训练并预测的一种分类器D.基于前向策略的加法模型.每阶段使用一个基模型去拟合上一阶段基模型的残差92.下列不属于特征选择的标准方法的是()。[单选题]*A.嵌入B.过滤C.包裹D.抽样√93.与HMM和MEMM模型相比,CRF模型的优势不包含()。[单选题]*A.特征灵活B.速度快√C.可容纳较多上下文信息D.全局最优94.后剪枝是先从训练集生成一颗完整的决策树,然后()对非叶结点进行考察。[单选题]*A.自上而下B.在划分前C.禁止分支展开D.自底向上√95.下列人工神经网络属于反馈网络的是()。[单选题]*A.Hopfield神经网格模型B.BP网络√C.多层感知器D.LVQ网络96.以P(w)表示词条w的概率,假设已知P(南京)=0.8,F(市长)=0.6,F(江大桥)=0.4;尸(南京市)=0.3,独立的,那么分词结果就是()。[单选题]*A.南京市*长江*大桥B..南京*市长*江大桥√C.南京市长*江大桥97.下列关于。LAP的特性的描述:①快速性;②可分析性;③多维性;④信息性;⑤共享性。正确的是()。[单选题]*A.①②③B.②③④C.①②③④D.①②③④⑤√98.常用的数据归约方法可以分为()。[单选题]*A.维归约、数据压缩B.维归约、参数归约C.维归约、值归约√D.数据压缩、值归约99.下列处理方法能获得像素级标注的是()o[单选题]*A.图像分类B.物体检测C.图像去噪D.语义分割√100.在抽样估计中,随着样本容量的增大,样本统计量接近总体参数的概率就越大,这一性质称为()。[单选题]*A.无偏性B.有效性C.及时性D.一致性√101.scipy.stats.fit()函数的作用是()。[单选题]*A.随机变量的生存函数B.对数据进行拟合,找出最适合采样数据的概率密度函数系数√C.计算随机变量的期望和方差D.随机变量的概率密度函数102.ResNet-50有多少个卷积层()。[单选题]*A.48B.49√C.50D.51103.下列关于文件的打开方式的描述正确的是()[单选题]*A.文件只能选择二进制或文本方式打开B.文本文件只能以文本方式打开C.所有文件都可能以文本方式打开D.所有文件都可能以二进制方式打开√104.长短时记忆网络属于一种()。[单选题]*A.全连接神经网络B.门控RNN√C.BP神经网络D.双向RNN105.下列函数中可以计算字典元素个数的是()。[单选题]*A.cmp()B.len()√C.str()D.type()106.考察一个由三个卷积层组成的CNN:kemel=3x3,stride=2,padding=SAMEo最低层输出100个特征映射(featuremap),中间层200个特征映射,最高层400个特征映射。输入是200x300的RGB图片,则总参数的数量是()。[单选题]*A.903400√B.2800C.180200D.720400107.异常检测过程查找基于()组标准值偏差的异常个案。[单选题]*A.单体B,分类C.聚类√D.回归108.下列关于缩进格式的描述不正确的是()[单选题]*A.缩进指在代码行前面添加空格或TabB.在Python程序中,缩进不是任意的C.缩进可以使程序更有层次感、结构感,从而使程序更易读D.平级的语句行(代码块)的缩进可以不相同√109.Scipy中模块stats的作用是()。[单选题]*A.统计√B.差值计算C.程序输入输出D.稀疏矩阵110.LSTM网络引入门控机制来控制信息传递的路径,其中输入门的作用是()。[单选题]*A.控制上一个时刻的内部状态需要遗忘多少信息B.控制上一个时刻的内部状态有多少信息需要保存C.控制当前当刻的候选状态有多少信息需要保存√D.控制当前当刻的内部状态有多少信息需要输出给外部状态111.下列关于支持向量的说法正确的是()。[单选题]*A.到分类超平面的距离最近的且满足一定条件的几个训练样本点是支持向量√B.训练集中的所有样本点都是支持向量C.每一类样本集中都分别只有一个支持向量D.支持向量的个数越多越好112.运行下面代码,输出结果是()。d={-2,-1,0,1,2,3}n=d.pop()print(n)[单选题]*A.-2B.2C.不确定√D.3113.执行下列代码后,list2的值是()。[单选题]*A.[4,5,6]B.[4,3,6]C.[4,5,3]√D.以上答案都不正确114.Spark的()组件用于支持实时计算需求。[单选题]*A.SparkSQLB.SparkStreaming√C.SparkGraphXD.SparkMLLib115.执行一个job,如果这个job的输出路径已经存在,那么程序会()0[单选题]*A.覆盖这个输出路径B.抛出警告,但是能够继续执行C.抛出一个异常,然后退出√D.创建一个新的输出路径116.下列关于数据整合和分组的说法不正确的是()。[单选题]*A.数据连接可以用concat或merge函数B.axis=l表示轴向连接C.数据分组可以使用mean函数√D.使用agg可以自定义多个聚合函数117.如果使用数据集的全部特征并且准确率能够达到100%,但在测试集上准确率仅能达到70%左右,这说明()。[单选题]*A.欠拟合B.模型很棒C.过拟合√D.以上答案都不正确118.pit.scatter()函数中的参数c表示的含义是()。[单选题]*A.x轴上的数值B.y轴上的数值C.散点图中的标记颜色√D.标记图形内容的标签文件119.在Python中,下列不是int整型数据的是()。[单选题]*A.160B.010√C.-78D.0x234120.下列关于Python包的说法正确的是()[单选题]*A.利用pip包管理器更新已安装包的代码是pipupdate包名B.单独导入包名即可导入包中所包含的所有子模块C.下载安装、更新、查看、移除包等行为可以在命令行中进行,但不可以在Jupyternotebook中进行D.下载安装、更新、查看、移除包等行为既可以用pip工具,也可以用conda工具√121.下列关于文本分类的说法不正确的是()o[单选题]*A.文本分类是指按照预先定义的主题类别,由计算机自动地为文档集合中的每个文档确定一个类别B.文本分类大致可分为基于知识工程的分类系统和基于机器学习的分类系统C.文本的向量形式一般基于词袋模型构建,该模型考虑了文本词语的行文顺序√D.构建文本的向量形式可以归结为文本的特征选择与特征权重计算两个步骤122.运行代码,输出结果为()。#!/usr/bin/envpython3n=100sum=0counter=1whilecounter<=n:sum+countercounter+=1print("1到%d之和为:%d"%(n,sum))[单选题]*A.1到100之和为:5000B.1到100之和为:0√C.1到100之和为:2050D.1到100之和为:5020123.()算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。[单选题]*A.Apriori√B.EMC.PCAD.PAC124.下列不是目前机器学习所面临的问题是()。[单选题]*A.测试集的规模√B.维度灾难C.特征工程D.过拟合125.假设文件不存在,如果使用open()打开文件会报错,那么该文件的打开方式是()。[单选题]*A.'r'√B.'w'C.'a'D.'w'126.下列哪个神经网络结构会发生权重共享()。[单选题]*A.卷积神经网络B.循环神经网络C.全连接神经网络D.选项A和B√127.下列语句会无限循环下去的是()。[单选题]*A.forainrange(10):timesleep(10)B.whilei<10:timesleep(10)√C.whileTrue:breakD.a=[3,-1,',']foriina[:]:ifnota.break128.下列关于数据的存储结构的描述正确的是()。[单选题]*A.数据所占的存储空间量B.存储在外存中的数据C.数据在计算机中的顺序存储方式D.数据的逻辑结构在计算机中的表示√129.PHOTO_PATH=”./photo/{}.jpg”指令可以实现()[单选题]*A.复制jpg文件到photo目录下B.定义一个名为photo的存储路径√C.打开photo里所有的jpg文件D.重命名目录130.下列关于分类算法的准确率、召回率、比值的描述错误的是()□[单选题]*A.准确率是检索出相关文档数与检索出的文档总数的比率.衡量的是检索系统的查准率B.召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率.衡量的是检索系统的查全率C.正确率、召回率和尸]值取值都在0和1之间.数值越接近0.查准率或查全率就越高√D.为了解决准确率和召回率冲突问题.引入了F]分数131.假设函数中不包括global保留字,则下列关于改变参数值的方法的说法错误的是()。[单选题]*A.参数是列表类型时,改变原参数的值B.参数的值是否改变与函数中对变量的操作有关,与参数类型无关√C.参数是整数类型时,不改变原参数的值D.参数是组合类型(可变对象)时,改变原参数的值132.下列关于降维的表述错误的是()。[单选题]*A.降维过程中可以保留原始数据的所有信息√B.多维缩放的目标是要保证降维后样本之间的距离不变C.线性降维方法目标是要保证降维到的超平面能更好地表示原始数据D.核线性降维方法目标是通过核函数和核方法来避免采样空间投影到高维空间再降维之后的低维结构丢失133.下列关于HDFS的描述正确的是([单选题]*A.如果NameNode宕机,SecondaryNameNode会接替它使集群继续工作B.HDFS集群支持数据的随机读写C.NameNode磁盘元数据不保存Block的位置信息√D.DataNode通过长连接与NameNode保持通信134.下列不属于现阶段的大数据技术体系主要类型的是()。[单选题]*A.数据源与AppB.基础设施C.Hadoop√D.数据资源135.对分类任务来说,学习器从类别标记集合中预测出一个标记,最常见的结合策略是()。[单选题]*A.投票法√B.平均法C.学习法D.排序法136.Python中Jieba库是一个()库。[单选题]*A.第三方中文分词词库√B.机器学习库C.图像处理库D,自动提取语义主题137.为了观察测试Y与X之间的线性关系,若X是连续变量,则使用()比较适合。[单选题]*A.散点图√B.柱形图C.直方图D.以上答案都不正确138.属于卷积神经网络应用方向的是()。[单选题]*A.图像分类B.目标检测C.图像语义分割D.以上答案都正确√139.如果python程序中包括零运算,解释器将在运行时抛出()错误信息。[单选题]*A.NameErrorB.FileNotFoundErrorC.SyntaxErrorD.ZeroDivisionError√140.针对以下数组,从一个数组中移除存在于另一个数组中的项时可进行的操作是()。a=np.array([1,2,3,4,5])b=np.array([5,6,7,8,9])期望输出:array([1,2,3,4])[单选题]*A.np.setdiffld(a,b)√B.setdiffld(a)C.setdiffld(b)D.以上都不对141.情感信息抽取不包括()o[单选题]*A.基于命名实体识别的抽取方法B.基于重复段落的识别方法√C.基于语义角色标注的抽取方法D.基于监督学习的抽取方法142.运行下面代码的输出结果为()oimportnumpyasnpa=np.arange(6).reshape(3,2)wt=np.array([3,5])print(np.average(a,axis=l,weights=wt))[单选题]*A.[[01][23][45]]B.[0.6252.6254.625]√C.(array([0.625,2.625,4.625]),array([8.,8.,8.]))D.以上都不对143.在页面中看不见的表单元素是()。[单选题]*A.<inputtype="password"></input>B.<inputtype="radio"></input>C.<inputtype="hidden"></input>√D.<inputtype="reset"></input>144.执行下面程序,打开文件的位置应该在()。f=open('itheima.txt','w')[单选题]*A.C盘根目录下B.D盘根目录下C.Python安装目录下D.与源文件在相同的目录下√145.下列算法中属于图像锐化处理的是()o[单选题]*A,低通滤波B.加权平均法C.高通滤波√D.中值滤波146.HBase作为数据存储组件封装于大数据平台,用于()。[单选题]*A.关系型数据库存储B,分布式文件存储C.非关系型数据库存储√D.列式存储147.循环神经网络适合处理的数据是()0[单选题]*A.节点数据B.序列数据√C.结构化数据D,图像数据148.下列关于副本和视图的描述错误的是()。[单选题]*A.Numpy的切片操作返回原数据的视图B.调用Ndarray的view()函数产生一个视图C.Python序列的切片操作,调用deepCopy()函数D.调用Ndarray的copy()函数产生一个视图√149.Numpy默认产生的数据类型是()[单选题]*A.int16B.float32C.charD.float64√150.输入图片大⼩为200×200,依次经过一层卷积(kernelsize5×5,padding1,stride2),pooling(kernelsize3×3,padding0,stride1),又一层卷积(kernelsize3×3,padding1,stride1)之后,输出特征图大⼩为()。[单选题]*A.95B.96C.97√D.98151.plt.plot()函数输入参数'b'修改的是图形的()。[单选题]*A.位置B.大小C.形状D.颜色√152.以下哪种卷积神经网络的设计引入了残差网络结构()。[单选题]*A.LeNetB.AlexNetC.GoogLeNetD.ResNets√153.下列说法正确的是()。[单选题]*A.函数的名称可以随意命名B.带有默认值的参数一定位于参数列表的末尾√C.局部变量的作用域是整个程序D.函数定义后,系统会自动执行其内部的功能154.scipy.stats.isf()函数的作用是()[单选题]*A.随机变量的生存函数B.scipy.stats.sf()的逆√C.计算随机变量的期望和方差D.随机变量的累积分布函数155.假设使用原始的非线性可分版本的S。ft・SVM目标函数作为最优化对象,则可通过()来保证得到的模型是线性可分离的。[单选题]*A.设C=0B.设C=1C.设C正无穷大√D.设C负无穷大156.关于神经网络中经典使用的优化器,以下说法正确的是()。[单选题]*A.Adam的收敛速度比RMSprop慢B.相比于SGD或RMSprop等优化器,Adam的收敛效果是最好的C.对于轻量级神经网络,使用Adam比使用RMSprop更合适D.相比于Adam或RMSprop等优化器,SGD的收敛效果是最好的√157.大数据环境下的隐私担忧,主要表现为()。[单选题]*A.人信息的被识别与暴露√B.用户画像的生成C.广告的推送D.病毒入侵158.下列关于Ndarray.itemsize的描述错误的是()。[单选题]*A.以字节的形式返回数组中每一个元素的大小B.一个元素类型为float64的数组,itemsize属性值为8C.一个元素类型为complex32的数组,itemsize属性为4D.一个元素类型为complex64的数组,itemsize属性为4√159.单独使用多层索引时,()。[单选题]*A.最外层和最里层的索引都可以单独使用B.只有最外层的索引可以单独使用√C.不能单独使用多层索引D.只有最里层的索引可以单独使用160.假定使用SVM学习数据X,数据X里面有些点存在错误。现在如果使用一个二次核函数,多项式阶数为2,使用松弛变量C作为超参之一。当使用较大的C(C趋于无穷),则()。[单选题]*A.仍然能正确分类数据√B.不能正确分类C不确定D.以上均不正确161.下列关于随机森林和GBDT的说法正确的是()。[单选题]*A.在随机森林的单个树中.树和树之间是有依赖的.而GBDT中的单个树之间是没有依赖的B.这两个模型都使用随机特征子集.来生成许多单个的树√C.我们可以并行地生成GBDT单个树.因为它们之间是没有依赖的D.GBDT训练模型的表现总是比随机森林好162.一个MapReduce程序中的MapTask的个数由()决定。[单选题]*A.输入的总文件数B.客户端程序设置的mapTask的个数C.FilelnputFormat.getSplits(JobContextjob)计算出的逻辑切片的数量√D.输入的总文件大小/数据块大小163.数据集成的基本类型是()。[单选题]*A.内容集成、结构集成√B.内容集成、规约集成C.规约集成、结构集成D.模式集成、结构集成164.对矩阵[[0,0,3],[1,1,0],[0,2,1],[1,0,2]]进行独热编码训练后,对矩阵[[0,1,3]]进行独热编码输出结果为()o[单选题]*A.[0,1,0,1,0,0,0,1,0]B.[1,0,0,1,0,0,0,0,1]√C.[0,1,0,0,1,0,0,0,1]D.[1,0,0,0,1,0,0,1,0]165.下列关于降维算法中主成分分析的说法错误的是()。[单选题]*A.有监督算法√B.可以指定降维的维度C.基于方差来计算D.根据特征值大小来筛选特征166.在情感分析中不属于影响词的是()o[单选题]*A.识别√B.开心C.难过D.无聊167.下列关于python的类的说法错误的是()。[单选题]*A.类的实例方法必须创建对象后才可以调用B.类的实例方法必须创建对象前才可以调用√C.类的类方法可以用对象和类名来调用D.类的静态属性可以用类名和对象来调用168.下列关于Python注释的描述错误的是()。[单选题]*A.Python注释语句不被解释器过滤掉,也不被执行√B.注释可以辅助程序调试C.注释可用于标明作者和版权信息D.注释用于解释代码原理或者用途169.下列说法错误的是()。[单选题]*A.当目标函数是凸函数时.梯度下降算法的解一般就是全局最优解B.进行PCA降维时.需要计算协方差矩阵C.沿负梯度的方向一定是最优的方向√D.利用拉格朗日函数能解带约束的优化问题170.HadoopMapReduce2.0中,()负责资源的管理和调度。[单选题]*A.JobTrackerB.YARN√C.TaskTrackerD.ApplicationMaster171.下列关于函数的关键字参数使用限制的描述错误的是()。[单选题]*A.关键字参数必须位于位置参数之前√B.不得重复提供实际参数C.关键字参数必须位于位置参数之后D.关键字参数顺序无限制172.线性模型中的权重w可以看做各个属性工的()。[单选题]*A.正则化系数B.对最终决策结果的贡献度√C.高维映射D.取值173.下列不是N。SQL数据库的是()。[单选题]*A.MongoDBB.BigTableC.HbaseD.Access√174.运行下面代码的输出结果为()oa=np.array([[5,3,2],[2,4,0]])n=np.sort(a,axis=None)print(n)[单选题]*A.[0,2,2,3,4,5]√B.[5,4,3,2,2,0]C.[[2,3,0],[5,4,2]]D.[[2,3,5],[0,2,4]]175.随着集成中个体分类器(相互独立)数目T的增大,集成的错误率将呈()下降,最终趋向于零。[单选题]*A.指数级√B.对数级C.线性级D.平方级176.在Python中,导入random包后random.random()可能的运行结果为()。[单选题]*A.1B.4.06364700016475C.0.0965639318571762√D.-0.885155622826353177.缓解过拟合的一个办法是允许支持向量机在一些样本上出错,()形式适合这种方法。[单选题]*A.硬间隔支持向量机B.软间隔支持向量机√C.线性核函数支持向量机D.多项式核函数支持向量机178.下列关于数据转换的说法正确的是()。[单选题]*A.Json内的取值只能有统一格式B.PDF文件在不同平台上打开显示不同C.可以通过Python将CSV文件转换成Excel格式√D.Excel存储数据的量无限制179.scipy.io模块不可以读取()。[单选题]*A.matlab文件B.IDL文件C.wav文件D.CSV文件√180.Hive的数据最终存储在()中。[单选题]*A.HDFS√B.HBaseC.RDBMSD.MetaStore181.下列关于在回归分析中解释变量与非解释变量的说法正确的是()。[单选题]*A.解释变量和被解释变量都是随机变量B.解释变量为非随机变量,被解释变量为随机变量√C.解释变量和被解释变量都为非随机变量D.解释变量为随机变量,被解释变量为非随机变量182.通常落伍者是影响MapReduce总执行时间的主要影响因素之一,为此MapReduce采用()机制来解决。[单选题]*A.分布式计算B.惰性计算C.推测性执行的任务备份√D.先进先出183.如果说线性回归模型完美地拟合了训练样本(训练样本误差为零),则下列说法正确的是()。[单选题]*A.测试样本误差始终为零B.测试样本误差不可能为零C.测试样本误差不一定为零√D.以上答案都不对184.下列算法中属于局部处理的是()o[单选题]*A.灰度线性变换B.二值化C.傅里叶变换D.中值滤波√185.对文本数据处理通常采用()核函数。[单选题]*A.多项式B.SigmoidC.线性√D.拉普拉斯186.特征工程的目的是()。[单选题]*A.找到最合适的算法B.得到最好的输入数据√C.减低模型复杂度D.加快计算速度187.已知数组a=np.array([[0,0,0],[10,10,10],[20,20,20],[30,30,30]])b=np.array([1,2,3]),则a+b的输出结果为()。[单选题]*A.[[l,2,3],[10,10,10],[20,20,20],[30,30,30]]B.[[l,2,3],[0,0,0],[10,10,10],[20,20,20],[30,30,30]]C.[[l,2,3],[11,12,13],[21,22,23],[31,32,33]]√D.无法计算188.MapReduce任务Map输出结果将被写入()。[单选题]*A.HDFS文件系统B.新的记录文件C.磁盘(Linux文件系统)√D.主数据库189.在MapReduce中,下列描述错误的是()。[单选题]*A.Worker故障和Master故障的处理方法不相同B.Map和Reduce的处理结果都存储在本地文件系统√C.一个Worker发生故障时,该节点上执行完的Map任务需要再次执行D.MapReduce具有很强的容错机制190.有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3)。从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是()。[单选题]*A.2x+y=4B.x+2y=5C.x+2y=3√D.2x-y=0191.卷积神经网络中每层卷积层(convolutionallayer)由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法最佳化得到,其作用是()o[单选题]*A.增强图像B.简化图像C.特征提取√D.图像处理192.下列基本活动中不属于数据产品开发工作之中需要特别注意的是()。[单选题]*A.创造性设计B.数据洞见C.虚拟化D.个性化描述√193.列表是Python语言中基本数据类型之一。我们可以通过1list[i]获取列表中第i个元素的值,那么list[i:j]的作用是()。[单选题]*A.将列表中第i个元素的值设置为jB.返回一个列表切片一由原列表第i个到第j-1个元素组成的新列表√C.返回一个拥有第i和j个元素的新列表D.返回一个拥有第j和i个元素的新列表194.下列关于Python函数调用的说法错误的是()[单选题]*A.函数的递归调用必须有一个明确的结束条件B.函数的递归调用每次进入更深一层递归时,问题规模相比上次递归都应有所减少C.函数的递归调用效率不高,递归层次过多会导致栈溢出[在计算机中,函数调用是通过栈(stack)这种数据结构实现的,每当进入一个函数调用,栈就会加一层栈帧,每当函数返回,栈就会减一层栈]D.由于栈的大小是无限的,所以,递归调用的次数过多,也不会导致栈溢出√195.当()时,可以不考虑RDD序列化处理。[单选题]*A,完成成本比较高的操作后B.执行容易失败的操作之前C.RDD被重复使用D.实时性要求高√196.下列关于数据科学流程与方法的描述错误的是()。[单选题]*A.数据科学的基本流程包括数据化、数据加工(DataWrangling或DataMunging\数据规整化、探索性分析、数据分析与洞见、结果展现以及数据产品的提供B.对于数据形态不符合要求的乱数据,要通过清洗成为规整数据√C.数据分析包括描述性分析、诊断性分析、预测性分析和规范性分析D.数据可视化会遇到视觉假象问题,人眼对亮度和颜色的相对判断容易造成视觉假象197.floor()函数的作用是()[单选题]*A.计算每个元素的模B.计算每个元素的符号C.计算小于每个元素的最大整数值√D.计算每个元素的小数部分198.下列关于Spark的说法错误的是()。[单选题]*A.采用内存计算模式B.可利用多种语言编程C.主要用于批处理√D.可进行map()操作199.MaxCompute数据表的默认生命周期是:()。[单选题]*A.1天B.7天C.30天D.无期限√200.()不属于statsmodels模块的主要特点。[单选题]*A.线性模型B.方差分析C.时间序列D.插值运算√201.下列场景适合使用Python的有()。[多选题]*A.可作为脚本语言,快速编写小型程序、脚本等√B.可应用在数据科学、交互式计算及可视化领域√C.可作为胶水语言,整合如C++等语言代码√D.Python适用于低延时、高利用率的应用场景202.噪声是指测量变量中的随机错误或偏差,噪声数据的主要表现形式有()。[多选题]*A.错误数据√B.假数据√C.异常数据√D.僵尸数据203.HadoopMapReduce是MapReduce的具体实现之一。HadoopMapReduce数据处理过程涉及四个独立的实体,包括()o[多选题]*A.Client√B.JobTracker√C.TaskTracker√D.HDFS√204.下列为RDBMS中事务遵循原则的有()。[多选题]*A.原子性(Atomicity)√B.一致性(Consistency)√C.隔离性(Isolation)√D.持久性(Durability)√205.下列说法中正确的有()。[多选题]*A.云计算的主要特点是非常昂贵B.大数据是多源、异构、动态的复杂数据,即具有4V特征的数据√C.大数据是数据科学的研究对象之一√D.MapReduce是采用云计算这种新的计算模式研发出的具体工具软件(或算法)√206.对于主成分分析方法,确定降维后低维空间的维数d的方法有()o[多选题]*A.由用户事先指定√B.通过在d不同的低维空间中对开销较小的学习器进行交叉验证来选取√C.可从重构的角度设置一个重构阈值,选取使得特定公式成立的最小值√D.随机设置207.Python中,字符串格式化的方式是()[多选题]*A.%√B.format√C.inD.input208.数据来源和目标用户已定的情况下,不同视觉通道的表现力不同。视觉通道的表现力的评价指标包括()。[多选题]*A.精确性√B.可辨认性√C.可分离性√D.视觉突出性√209.常用的冲突消解策略包括()o[多选题]*A.投票法√B.排序法√C.元规则法√D.调研法210.以数据为中心是数据产品区别于其他类型产品的本质特征,表现方面有()。[多选题]*A.数据驱动√B.数据密集型√C.数据范式√D.数据可视化211.数据管理包含的管理活动有()。[多选题]*A.识别√B.度量√C.监控√D.预警√212.完整性约束通常包括()。[多选题]*A.实体完整性√B.域完整性√C.参照完整性√D.用户定义完整性√213.数据故事化描述应遵循的基本原则有()。[多选题]*A.忠于原始数据原则√B.设定共同场景原则√C.有效性利用原则√D.3C精神原则√214.在Python中查看关键字,需要在Python解释器中执行()两条命令。[多选题]*A.listkeywordB.importkeyword√C.keyword√D.import.kwlist215.QuickBI在阿里云大数据解决方案中扮演了很重要的角色,可以提供包括:()等在内的多种功能。[多选题]*A.报表展示√B.即席查询C.门户集成√D.数据采集√216.ETL技术主要涉及操作有()。[多选题]*A.抽取√B.转换√C.加载√D.分析217.Spark2.0提供的应用库包括()。[多选题]*A.SparkSQL√B.SparkStreaming√C.MLib√D.GraphX√218.下列关于单样本Z检验的说法正确的有()。[多选题]*A.在Python中,单样本Z检验可以使用scipy.stats.ttest_lsamp()实现B.单样本Z检验适用于样本量较大的情况√C.单样本Z检验假设要检验的统计量(近似)满足正态分布√D.单样本Z检验常用于检验总体平均值是否等于某个常量√219.下列关于中心极限定理的说法正确的有()。[多选题]*A.中心极限定理说明,对于大量相互独立的随机变量,其均值的分布以正态分布为极限√B.中心极限定理说明,对于大量相互独立的随机变量,其均值的分布以,分布为极限C.中心极限定理为Z检验提供了理论支持√D.中心极限定理是数理统计学和误差分析的基础√220.下列关于AUC面积的描述正确的有()0[多选题]*A.AUC被定义为ROC曲线下与坐标轴围成的面积√B.AUC面积的值大于1C.AUC面积的值等于0.5时,真实性最低,无应用价值√D.AUC面积的值越接近1.0,检测方法真实性越高√221.plt.axhline(y=0.0,c=”r”,ls="--”,lw=2),下列关于该代码的说法正确的有()。[多选题]*A.在0.0处添加竖直参考线B.添加水平参考线√C.参考线是虚线形式√D.网格线是红色的222.python中,复合赋值运算符包括()[多选题]*A.简单的赋值运算符√B.乘法赋值运算符√C.取模赋值运算符√D.取整除赋值运算符√223.文本分类过程包括()[多选题]*A.选择训练文本√B.选择文本特征√C.建立文本表示模型√D.选择分类方法√224.下列关于连续型随机变量以及连续型概率密度函数的说法正确的有()。[多选题]*A.一个客服一天可能接听到多少个电话是一个连续型随机变量B.正态分布是一种连续型随机变量的概率分布√C.可以使用概率密度函数来描述连续型随机变量的概率分布√D.连续型概率密度函数曲线下方的面积之和为1√225.文件基本操作的函数有()[多选题]*A.close()√B.read()√C.rename()√D.remove()√226.下列关于HDFS文件写入的描述正确[多选题]*A.不支持多用户对同一文件的写操作√B.用户不可以在文件任意位置进行修改√C.默认将文件复制成三份存放√D.复制的文件块默认不存在同一机架上√227.随机森林在做数据处理方面的优势有()o[多选题]*A.不需要做缺失值处理√B.不需要处理噪声C.不需要做特征选择√D.不需要平衡数据集√228.下列关于深度学习的实质及其与浅层学习区别的说法正确的有()。[多选题]*A.深度学习强调模型深度√B.深度学习突出特征学习的重要性:特征变换+非人工√C.没有区别D.以上答案都不正确229.特征选择在子集生成与搜索方面引入了人工智能搜索技术和子集评价方法。其中人工智能搜索技术有()o[多选题]*A.分支界限法√B.浮动搜索法√C.信息嫡√D.AIC√230.影响图像识别的精度的因素有()o[多选题]*A.数据类别数量不平衡√B.输入图像尺寸不同C.图像中存在类标之外的环境干扰√D.图像中存在随机噪声√231.Python中字典的内置方法包括()。[多选题]*A.radiansdictkeys()√B.radiansdictsetdefault(key,default=None)√C.radiansdictupdate(dict2)√D.radiansdictvalues()√232.在词袋模型中使用单个的单词来构建词向量这样的序列被称为()[多选题]*A.1元组(1-gram)√B.单元组(unigram)模型√C.列表D.字典233.图像识别的一般步骤包括()o[多选题]*A.预处理√B.特征提取√C.超像素生成D.识别分类√234.语音识别的方法包括()o[多选题]*A.声道模型方法√B.模板匹配的方法√C.利用人工神经网络的方法√D.语音知识的方法√235.TF-IDF的缺点包含()。[多选题]*A.字词的重要性随它在文件中出现的次数成正比B.将一些生僻字误当作文档关键词√C.只考虑特征词和文本之间的关系,忽略了一个特征项在不同类别间的分布情况√D.没有考虑特征词的位置因素对文本的区分度√236.下列关于Pig的说法正确的有()。[多选题]*A.Pig的主要目的是弥补MapReduce编程的复杂性√B.Pig的核心是一种数据分析语言√C.Pig程序的结构适合串行处理D.Pig主要包含PigLatin和Pig执行环境两部分√237.在建立模型时,需要用到的数据有()。[多选题]*A.训练数据√B.测试数据√C.原始数据D.验证数据√238.下列说法正确的有()o[多选题]*A.条件独立性假设不成立时,朴素贝叶斯分类器仍有可能产生最优贝叶斯分类器√B.在估计概率值时使用的拉普拉斯修正避免了因训练集样本不充分而导致概率估值为零的问题√C.由于马尔可夫链通常很快就能趋于平稳分布,因此吉布斯采样算法的收敛速度很快D.二分类任务中两类数据满足高斯分布且方差相同时,线性判别分析产生贝叶斯最优分类器√239.下列属于可视化高维数据技术的有()o[多选题]*A.矩阵√B.平行坐标系√C.星形坐标系√D.散布图240.下列服务中可以用于存储数据的有()o[多选题]*A.MapReduceB.YARNC.HBase√D.HDFS√241.Python中Jieba库的基本实现原理包含()。[多选题]*A.分析汉字与汉字之间的关联概率√B.分析汉字词组的关联概率√C.根据用户自定义的词组进行分析√D.还可以分析汉字与英文之间关联概率242.下列关于Pig的说法正确的有([多选题]*A.弥补MapReduce编程复杂性√B.封装MapReduce处理过程√C.PigLatin是一种数据分析语言√D.适用于并行处理√243.下列属于汉语未登录词类型的有()o[多选题]*A.存在于词典但出现频率较少的词B.新出现的普通词汇√C.专有名词√D.专业名词和研究领域名称√244.下列关于Hive的说法正确的有([多选题]*A.Hive是基于Hadoop的数据仓库工具√B.Hive可以将结构化的数据文件映射为一张数据库表√C.最初,Hive由Google开源,用于解决海量结构化日志数据统计问题D.Hive的主要应用场景是离线分析√245.当构造线性模型时,应注意变量间的相关性。在相关矩阵中搜索相关系数时,如果发现3对变量的相关系数是(Vari和Var2、Var2和Var3、Var3和Vari),相关系数分别是-0.98、0.45、1.23,则可以得出的结论有()。[多选题]*A.Vari和Var2是非常相关的√B.因为Vari和Var2是非常相关的,可以去除其中一个√C.Var3和Vari的相关系数1.23是不可能的√D.Var3和Var1的相关系数1.23是不可能的246.下列属于卷积神经网络组成部分的有()。[多选题]*A.卷积层√B.中间层C.池化层√D.全连接层√247.下列属于数据挖掘与分析工具的有()o[多选题]*A.Tableau√B.Python√C.SPSS√D.Alteyx√248.类的特点有()[多选题]*A.封装√B,继承√C.多态√D.重复249.当时序数据比较长时,循环神经网络(RNN)容易产生长距离依赖问题,对此以下哪些说法是正确的()。[多选题]*A.这是由网络训练时反向传播时梯度消失引起的√B.这会导致输入的长句词汇之间的语义关系很难拟合√C.这会引发RNN的输入和输出的关系难以拟合√D.可以使得网络记忆更多的训练样本信息250.下列关于负荷Python的模块的说法正确的有()。[多选题]*A.能够用来有逻辑地组织Python代码段√B.Python拥有丰富的模块,不支持自定义模块C.把相关的代码分配到一个模块里能让代码更好用、更易懂√D.模块能定义函数、类和变量,模块里也能包含可执行的代码√251.数据科学项目主要涉及的活动包括()。[多选题]*A.模式/模型的应用及维护√B.模式/模型的洞见√C.结果的可视化与文档化√D.模式/模型的验证和优化√252.Python变量命名规则包含()。[多选题]*A.变量名只能包含字母、数字和下划线。变量名可以字母或下划线开头,但不能以数字开头。例如,可将变量命名为message_1,但不能将其命名为1_message√B.变量名不能包含空格,但可使用下划线来分隔其中的单词。例如,变量名greeting_message可行,但变量名greetingmessage会引发错误√C.不要将Python关键字和函数名用作变量名,即不要使用Python保留用于特殊用途的单词,如print√D.变量名应既简短又具有描述性。例如,name比n好,studentname比s_n好,name_length比length_of_persons_name好√253.下列关于Python中标识符的命名规则的说法正确的有()[多选题]*A.只能以下划线或者A-Z/a-z中的字母开头√B.关键字不能作为标识符√C.Python标识符区分大小写√D.不能以数字开头√254.一个回归模型存在多重共线问题,在不损失过多信息的情况下,可釆取的措施有()。[多选题]*A.剔除所有的共线性变量B.剔除共线性变量中的一个√C.通过计算方差膨胀因子(varianceinflationfactor,VIF)来检查共线性程度,并采取相应措施√D.删除相关变量可能会有信息损失,我们可以不删除相关变量,而使用一些正则化方法来解决多重共线性问题,例如Ridge或Lasso回归√255.下列可用于处理由于光照不均带来的影响的图像处理方法有()[多选题]*A.同态滤波√B.顶帽变换√C.基于移动平均的局部阈值处理√D,拉普拉斯算子256.常用的数据审计方法可以分为()。[多选题]*A.预定义审计√B.自定义审计√C.可视化审计√D.结构化审计257.Scikit-Learn中可以实现()算法。[多选题]*A.分类√B.聚类√C.回归√D.降维√258.对前馈神经网络的描述正确的是()。[多选题]*A.层与层之间通过“全连接”进行连接,即两个相邻层之间神经元完全成对连接√B.各个神经元接受前一级神经元的输入,并输出到下一级√C.同一层内神经元之间存在全连接D.同一层内的神经元互相不连接√259.假设目标遍历的类别非常不平衡,即主要类别占据了训练数据的99%,假设现在模型在训练集上表现为99%的准确度,那么下列说法正确的有()。[多选题]*A.准确度并不适合衡量不平衡类别问题√B.准确度适合衡量不平衡类别问题C.精确度和召回率适合于衡量不平衡类别问题√D.精确度和召回率不适合衡量不平衡类别问题260.下列关于相关与线性关系的说法正确的有()o[多选题]*A.相关不一定是线性关系,可能是非线性关系√B.相关一定是线性关系,不可能是非线性关系C.相关时若有相关系数为0,说明两个变量之间不存在线性关系,仍可能存在非线性关系√D.相关系数为0是两个变量独立的必要不充分条件√261.以下那种神经网络的设计中引入了残差网络结构()。[多选题]*A.LeNetB.Transformer√C.AlexNetD.ResNets√262.下列关于范数规则化的描述正确的有()。[多选题]*A.L0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论