华为H13-731 V2.0 HCIE-Big Data-Data Mining认证考试题库(汇总)_第1页
华为H13-731 V2.0 HCIE-Big Data-Data Mining认证考试题库(汇总)_第2页
华为H13-731 V2.0 HCIE-Big Data-Data Mining认证考试题库(汇总)_第3页
华为H13-731 V2.0 HCIE-Big Data-Data Mining认证考试题库(汇总)_第4页
华为H13-731 V2.0 HCIE-Big Data-Data Mining认证考试题库(汇总)_第5页
已阅读5页,还剩193页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEPAGE1华为H13-731V2.0HCIE-BigData-DataMining认证考试题库(汇总)一、单选题1.ElasticSearch进⾏全⽂检索—般需要哪⼏个步骤?A、清洗、分词、建⽴素引B、清洗、分词C、清洗、建⽴素引D、清洗、建⽴素引、分词答案:A2.最小二乘法常被用于线性回归中,它将回归的问题转化为凸优化的问题。()A、TRUEB、FALSE答案:A3.Pandas中的DataFrame的df.iloc[1:3]A、查询的是1,2⾏B、查询的是2,3列C、查询的是2,3⾏D、查询的是1,2列答案:C4.大数据架构是关于大教据平台系统整体结构与组件的拍象和全局描述,用于指导大数据干台系统各个方面的设计和实施()A、TRUEB、FALSE答案:A5.以下关于数据分析与数据挖掘的描述错误的是?()A、数据分析更侧重于统计学上面的一些方法,经过人的推理演译得到结论。数据挖掘更侧重于侧重由机器进行自学习,直换得到结论.B、数据挖掘是从大量的数据中,挖掘出未知的、且有价值的信息和知识的过程,重点是从数据中发现“知识规则”C、数据分析和数据挖掘的界限是非常清晰的。D、数据分析会用到成熟的分析工具,比如EXCEL.SPSS.SAS等,数据挖把则需楚有编程基础答案:C6.以下关于数据分析与数据挖掘的描述错误的是?A、数据分析更侧重于统计学上⾯的⼀些⽅法,经过⼈的推理演译得到结论。数据挖掘更侧重于侧重由机器进⾏⾃学习,直换得到结论。B、数据挖掘是从⼤量的数据中,挖掘出未知的、且有价值的信息和知识的过程,重点是从数据中发现“知识规则”。C、数据分析和数据挖掘的界限是⾮常清晰的。D、数据分析会⽤到成熟的分析⼯具,⽐如EXCEL.SPSS.SAS等。数据挖掘则需楚有编程基础。答案:C7.建设⼀个完整的数据治理平台,作为数据平台的管控系统,从制度、标准、()、流程⼏个⽅⾯提升数据信息管理能⼒。解决⽬

前所⾯临的数据标准问题、数据质量问题、元数据管理问题和数据服务问题。A、实时B、管理C、分化D、监控答案:B8.若要修改HBase表,下列API哪个最先被调⽤?A、createConnection()B、getTable()C、getConnect()D、getAdmin()答案:A9.如⼀个原始数据为3⾏4列的数据框需要降维⾄两维,利⽤SparkMLlib的实现思路下述不正确的是?A、在PCA中,可以选取值最⼩的2个特征值对应的特征向量,并由该两个特征向量组成矩阵CB、求协⽅差矩阵B的右特征向量C、求取矩阵A的协⽅差矩阵BD、将原始3⾏4列的数据转换得到⼀个3乘4的矩阵A答案:B10.Gremlin中查询单个点的信息该用什么命令?A、gV().hasLabel("test").values("age")B、gV().hasLabel("test").valuelap("String_1ist","age")C、gV(13464736).valueMapO)D、gV().hasLabel("test")答案:A11.(单选)下列哪个选项不是常用的聚类算法?A、SYMB、HierarchicalClustering算法、BIRCH算法C、K-means算法D、DBSCAN算法答案:A12.在Python中,关于Pandas模块中的数据读取函数read_csv与readtable,以下说法不正确的是哪一项?A、header:用来制定标题行,如果数据集中没有标题行,则制定为None.B、seq/delimiter:用来制定数据之间的分隔符,readtable默认为逗号,readcsv默认为制表符。C、names:读取数据时,可以通过names属性设置列素引。D、usecols:通过usecols参数来设置需要使用的列。E、index_co1:可以将数据集中的某一列(某几列)设置为行索引,通过index-co1来进行指定。答案:B13.在其它条件不变的前提下,以下哪⼀⽅法容易引起模型的过拟合问题?A、增加训练集数量B、减少神经⽹络隐藏层节点数C、删除稀疏的特征D、SVM算法中使⽤⾼斯核/RBF核替代答案:D14.以下关于逻辑回归算法的损失函数描述不正确的是哪⼀项?A、在逻辑回归的推导中,它假设样本服从伯努利(0-1)分布,然后求得满⾜该分布的似然函数,接着⽤对数求极值。B、逻辑回归算法⼀定要计算最⼤似然函数。C、逻辑回归算法的损失函数可以使⽤对数函数。D、逻辑回归并没有求对数似然函数的最⼤值,⽽是把极⼤化当做⼀个思想,进⽽推导出它的⻛险函数为最⼩化的似然函数。.答案:B15.设X、X1、X2、Y是四个随机变量,a,b是常数,以下关于协方差的性质描述错误的是哪一项?A、如果Cov(X,Y)=0,则随机变量X,Y相互独立B、Cov(AX,bY)=abCov(X,Y)C、Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)D、如果随机变量X,Y相互独立,则Cov(、X,Y)=0答案:A16.以下关于SparkML1ib中决策树模型超参数描述不正确的是?A、impurity:⽤于在候选分割之间进⾏选择的杂质度量。B、subsamplingRater⽤于学习决策树的训练数据的分数,但对于训练单个决策树,该参数不太有⽤。C、maxBins:树的最⼤深度。D、maxMemoryInMB⽤于收集⾜够统计信息的内存量。答案:C17.(单选)以下哪一项不是最优化问题的三个基本要素?A、约束条件∶需要满足的误判条件,B、参数值∶未知的因子且需要通过数据来确定。C、目标函数∶用来衡量结果的好坏。D、数据规模。答案:D18.大数据的4V不包含哪一个?A、数据量大B、种类多C、价值密度低D、分布式E、处理速度快答案:D19.(单选)在数据抽取、转换和加载过程中,以下哪种不是数据抽取的方式?A、全量抽取B、倒置抽取C、更新抽取D、增量抽取答案:B20.以下关于Python函数的描述中,错误的是A、函数是一段可重用的语句组B、每次使用函数需要提供相同的参数作为输入C、函数通过函数名进行调用D、函数是一段具有特定功能的语句组答案:B21.以下对分类模型以下描述,错误的是哪⼀项?A、逻辑回归算法速度快,解释性也较好。B、利⽤神经⽹络系列算法,需要⼤量数据点才能达到较好的预测效果。C、线性⽀持向量机和朴素⻉叶斯算法都具有较好的解释性。D、GBDT⼀般是适⽤于⼆分类问题,但单独的使⽤GBDT模型,容易出现过拟合。答案:B22.Flume中⼀个ChannelSelector的作⽤是什么?A、设置多个channel发往多个sink的策略B、设置⼀个source发往多个channel的策略C、设置多个source发往多个channel的策略D、设置⼀个channel发往多个sink的策略答案:B23.设XY是两个随机变量,C是常数,以下关于方差的性质描述错误的是?()A、D(C)=0B、D(0)=0的充要条件是X以概率取常数E(X),即P{X=E(X)}=1C、D(X+Y)=D(X)+D(Y)D、D(CX)=CD(X)答案:D24.以下关于Python中函数定义的描述不正确的是?A、函数内容以冒号起始,并且缩进。B、在python中只能⽤关键字def创建函数。C、Return⽤于返回⼀个函数执⾏的结果。D、⽤def声明函数,后⾯跟函数名和⼩括号,括号内可以放置所需参数。答案:B25.在python中,关于Pandas模块中的数据读取函数read_tab1e以下说法不正确的是()A、names:读取数据时,可以通过names属性设置列索引.B、header:用来制定标题行,如果数据集中没有标题行,则制定为NoneC、index_co1:可以将数据集中的某一列(某几列)设置为行索引,通过indexcol来进行指定。D、useco1s:通过useco1s参数来设置需要使用的列。E、se/edaiter:用来制定数据之间的分隔符,read_table默认为逗号,red.csv默认为表符答案:E26.以下哪个措施属于反爬措施?A、字体B、滑块验证码C、数据收费D、以上全部正确答案:D27.在案例“银行客户精准画像”中,关于其数据挖掘不同阶段的操作描述,属于数据建模阶段的是哪一项?A、对最近三个月的原始交易数据进行计算获得变量,并整合在客户的实际交易情况上定义客户的行为,每个客户作为一条观测,从中随机抽取2867个客户作为研究实例的代表性样本B、结果分析,并提供参看策略C、在客户分类问题中采用的主要是数据挖掘中分类和聚类的算法,需要结合需求规划、出适用模型。D、将来自数据仓库中多个数据表,经过了数据采集、清理和集成,生成一个针对数据、挖掘目标确定与交易行为有关的数据项集合.答案:A28.(单选)以下关于SparkLlib中FP-Growth的超参数描述不正确的是?A、minConfidence∶生成关联规则的最小置信度。置信度表明关联规则被发现的真实程度。B、minSupport∶对项目集的最小支持被识别为频繁。C、numPartitions∶用于分发工作的分区数。D、transform∶以高于minConfidence的置信度生成的关联规则。答案:D29.下列代码的作⽤是?StringvertexId=getVertexIdByProperty(api,graphName,"person","name","marko");api.queryVertex(vertexId,graphName);A、查询点B、查询属性C、查询边D、以上全不正确答案:B30.机器学习中做特征选择时,以下哪种技术属于Filter(过滤法)A、方差选择法B、互信息法C、卡方检验D、相关系数法E、以上全都正确答案:E31.以下关于Wrapper(包装法)和FiLter(过滤法)的描述不正确的是?A、Wrapper⽅法由于每次对⼦集的评价都要进⾏分类器的训练和测试,所以算法计算复杂度很⾼。B、Wrapper⽅法选出的特征通⽤性较强,当改变学习算法时,也不需要针对该学习算法重新进⾏特征选择。C、相对于Filter(过滤法),Wrapper⽅法找到的特征⼦集分类性能通常更好。D、对于⼤规模数据集来说,Wrapper算法的执⾏时间很⻓。答案:B32.(单选)在案例"银行客户精准画像"中,数据阶段可以做的质量核查不包括?A、数据的有效性校验B、数据的可替换性校验C、数据的缺失性校验D、数据的连续性校验答案:B33.朴素贝叶斯分类方法(NaiveBayes)是一种特殊的Bayes分类器,特征变量是x,类别标签是C,它的一个假定是下列选项中的哪一项?A、特征变量X的各个属性之间互相独立B、以0为均值,sqr(2)/2为标准差的正态分布C、p(x|c)是高斯分布D、各类别的先验概率P(C)是相等的答案:A34.(判断)PP-Growth算法改进字pr3ori算法的I/0瓶颈,巧妙的利用树结构提高了算法运行速度。A、TRUBB、FALSE答案:A35.以下关于SparkNL1ib中K-Means优化参数描述不正确的是?()A、initializationMode指定随机初始化。B、Runs:运行Kmeans算法的次数。C、maxIterations:要运行的最大迭代次数。D、Epsilon:确定K-Means收敛的距离阈值。答案:A36.以下关于逻辑回归算法的损失函数描述不正确的是哪一项?A、在逻辑回归的推导中,它假设样本服从伯努利(0-1)分布,然后求得满足该分布的似然函数,接着用对数求极值。B、逻辑回归算法一定要计算最大似然函数C、逻辑回归算法的损失函数可以使用对数函数。D、逻辑回归并没有求对数似然函数的最大值,而是把极大化当做一个思想,进而推导出它的风险函数为最小化的似然函数。答案:B37.以下关于KNN(K-NearestNeighbor)K最近邻⽅法的描述不正确的是哪⼀项?A、可⽤于⾮线性分类B、计算量⼩C、常⽤来处理分类问题,但也可以处理回归问题D、对数据没有假设,⽀持增量学习,⽆需估计参数答案:B38.在DGC平台架构下提供企业级的元数据管理。数据资产管理可视,⽀持钻取、溯源等。通过数据地图,实现数据资产的数据⾎缘和数据全景可视,提供数据智能搜索和运营监控的模块是哪个?A、数据开发B、数据资产管理C、规范设计D、数据集成答案:B39.利⽤Python中的seaborn模块可以快速的制作出数据集中特征之间的相关关系图。以下对该相关系数热⼒图描述错误的是哪⼀项?A、通过相关关系热⼒图观察到属性之间相关系数值都不⼤,说明属性之间普遍相关性不⾼,但是部分属性具备相关性挖掘的可能。B、相关系数热⼒图矩阵是对称的。C、相关关系热⼒图中,各个特征⾃⾝的相关系数值均为1。D、绘制相关关系热⼒图时,如果选择相关关系计算的参数为spearman相关系数,则是⽤于描述两个变量之间的线性相关关系。答案:D40.(判断)哑编码与OneHot编码很实似区别在于哑变量认为对于一个具有N个类别的特征,我们只需要考察N-1个类别是否存在,第N个类别自然就能得到。A、TRUEB、FALSE答案:A41.以下哪个选项不是连续变量的数值特征离散化⽅法?A、OneRB、独热编码C、分箱D、基于信息熵的⽅法答案:B42.以下关于有监督连续变量的离散化分析错误的是哪一项?A、1R方法是分箱法的有监督版本,每个区间至少包含6个变量(最后一个区间除外)B、基于卡方检验的方法,运用卡方检验的策略,自顶向下合并数值进行有监督离散化,核心操作是Herge.C、有监督的连续变量的离散化相对于无监督的方法来说,可以减少在离散化的过程中异常值的影响。D、基于信息熵的方法运用了决策树的理念进行变量离散化,是一种自顶向下的分裂技术。答案:B43.(单选)以下关于大数据Kappa架构描述不正确的是?A、Kappa架构在Lambda架构的基础上进行了优化,将实时和流部分进行了合并,将数据通道以消息队列进行替代,依旧以流处理为主,但是数据却在数据湖层面进行了存储B、在Kappa架构中,如果需要进行离线分析或者我次计算的时候,不必像实时分析那样将数据湖的数据再次经过消息队列重播少次C、Kappa架构的缺点∶实施难度相对较高,第其是在数据重播的部分D、Kappa架构的优点∶解决了Lambda架构里面的冗余部分,以数据可重播的超凡脱俗的思想进行了设计,整个架构军常简洁答案:B44.(单选)以下关于Python中函数定义的描述不正确的是?A、函数内容以冒号起始,并且缩进。B、在python中只能用关键字def创建函数。C、Return用于返回一个函数执行的结果。D、用def声明函数,后面跟函数名和小括号,括号内可以放置所需参数。答案:B45.(单选)假设A,B.C是三个矩阵,A是2X2,B是2X2阶,C是3x2阶,以下哪一个矩阵的运算是有意义的?A、A+BB、ACC、AB+ACD、B+C答案:A46.以下哪些不属于⽆量纲化特征缩放的⽅法?A、最⼤-最⼩归化B、OneHot编码C、缩放成单位向量D、特征标准化E、均值归⼀化答案:B47.假设现在要做⼀个可以根据线索指导运维⼈员进⾏排障的功能,你建议选择下列哪个⼯具实现该功能?A、LuceneB、ElasticSearchC、HBaseD、GES答案:B48.df.tail()这个函数是⽤来A、⽤来创建数据B、⽤来展现数据C、⽤来分析数据D、⽤来测试数据答案:B49.以下关于特征选择⽅法中哪个不属于特征减少的⽅法?A、Embedded(嵌⼊法)B、Wrapper(包装法)C、交叉验证⽅法D、Filter(过滤法)答案:C50.在LogisticRegression中,如果同时加入L1和L2范数,不会产生什么效果?A、以做特征选择,并在一定程度上防止过拟合B、可以获得更准确的结果C、能解决维度灾难问题D、能加快计算速度答案:A51.Python中列表数据类型元素的切⽚⾮常强⼤,对于列表mylist=[1,2,3,4,5,6,7,8,9],下⾯操作正确的是A、mylist[1:9:0]B、mylist[1:9:2]C、mylist(6:-9:-2)D、mylist[10::]答案:B52.以下哪一项不是KN算法的三要素?A、特征的顺序B、分类决策规则C、距离度量的方式D、K值的选取答案:A53.重新采样是不均衡数据处理的常⽤⽅法之⼀,对于类别占⽐很⾼的样本集,适⽤于以下哪种重采样⽅法?A、⽋采样B、组合采样C、过采样D、SMOTE算法答案:A54.在有监督学习中,我们如何使⽤聚类⽅法?1.我们可以先创建聚类类别,然后在每个类别上⽤监督学习分别进⾏学习2.我们可以使⽤聚类“类别id”作为⼀个新的特征项,然后再⽤监督学习分别进⾏学习3.在进⾏监督学习之前,我们不能新建聚类类别4.我们不可以使⽤聚类“类别id”作为⼀个新的特征项,然后再⽤监督学习分别进⾏学习A、3和4B、1和4C、1和3D、1和2答案:D55.(单选)以下哪项不是KNN算法的三要素?A、K值的选取B、分类决策规则C、距离度量的方式D、特征的顺序答案:D56.请问在机器学习中,我们通常将原始数据按照⽐例分割为“测试集”和“训练集”,从Sklearn.model_selection中调⽤train_test_split函数,以下哪项对该函数的描述不正确?A、参数random_state:是随机数的种⼦。使⽤不同的随机数也可以保证每次拆分的数据集⼀致。B、对数据集进⾏切分:训练集和测试集的语句可以是:X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3)C、该函数的⼀般写法是:train_test_split(train_data,train_target,test_size=0.4,random_state=0,stratify=y_train),其中test_size参数表⽰样本占⽐。D、导⼊该函数所在模块的语句是:fromsklearn.model_selectionimporttrain_test_split答案:C57.以下哪个选项不是矩阵乘法对向量的变换?A、投影B、伸缩C、曲线化D、旋转答案:C58.下列哪个不属于常用的文本分类的特征选择算法?A、主成分分析B、信息增益C、互信息法D、卡方检验答案:A59.(单选)以下关于K-折交叉验证法物逢排误的是?A、K折交叉验证取K∶k最常用的以值是10,此时称为10折交叉验证。其他常用的K值还有5、20等。B、交叉验证的思想是,每次用k个子集的并集作为训练集,余下的那个子集作为测试集,这样就有k种训练集/测试集划分的情况,从而可进行K次训练和测试,最终返回k次测试结果的均值,C、如果训练集相对较小,则增大K值。答案:A60.关于SparkMLlib中SVD算法的使⽤说法错误的是?A、必须先通过已有数据创建出相应矩阵类型的对象,然后调⽤该类的成员⽅法来进⾏SVD分解。B、如果需要获得U成员,可以在进⾏SVD分解时,指定puteU参数,令其等于False,即可在分解后的svd对象中拿到U成员.C、SparkMLlib中SVD⽅法位于org.apache.spark.mllib.Linalg包下的RowMatrix和IndexedRowMatrix类中.D、将数据转换成RowMatrix后,可调⽤RowMatrix⾃带的puteSVD⽅法计算分解结果。答案:B61.⼀般⽽⾔,若数据类别⽐例超过(),即认为数据集中存在不均衡数据的现象。A、2:1B、4:1C、1:1D、3:1答案:B62.下列哪个不属于常⽤的⽂本分类的特征选择算法?A、主成分分析B、信息增益C、互信息法D、卡⽅检验答案:A63.(单选)一个典型的大数据平台系统架构不包括以下哪个层次?A、数据平台层B、数据服务层C、数据应用层D、数据可视化层答案:D64.在LogisticRegression中,如果同时加⼊L1和L2范数,不会产⽣什么效果?A、以做特征选择,并在⼀定程度上防⽌过拟合B、可以获得更准确的结果C、能解决维度灾难问题D、能加快计算速度答案:B65.大数据架构是关于大数据平台系统整体结构与组件的抽象和全局描述,用于指导大教据平台系统各个方面的设计和实地()A、TRUEB、FALSE答案:A66.一般而言,若数据类别比例超过(),即认为数据集中存在不均衡数据的现象。A、3:1B、4:1C、2:1D、1:1答案:B67.在数据抽取、转换和加载过程中,以下哪种不是数据抽取的方式?A、全量抽取B、更新抽取C、增量抽取D、倒置抽取答案:D68.以下哪个选项是求解等式约束最优化的常⽤⽅法?A、⽜顿法B、梯度下降法C、拉格朗⽇乘法⼦D、KKT条件答案:C69.以下哪个选项不是矩阵乘法对向量的变换?A、投影B、伸缩C、曲线化D、旋转答案:C70.大数据计算任务中,关于I0密集型任务的描述不正确的是哪-项?A、I0密集型任务执行期间,大部分时间都花在I0处里上B、通过提升网络传输效率和读写效率可大幅度提升性能C、CPU消耗高D、任务越多,CPU效率越高答案:C71.假设现在要做⼀个可以根据线索指导运维⼈员进⾏排障的功能,你建议选择下列哪个⼯具实现该功能?A、LuceneB、HBaseC、ElasticSearchD、GraphBase答案:C72.Python中列表数据类型元素的切片非常强大,对于列表mylist=[1,2,3,4,5,6,7,8,9],下面操作正确的是A、mylist[1:9:0]B、mylist[1:9:2]C、mylist(6:-9:-2)D、mylist[10::]答案:B73.以下哪一项不是最优化问题的三个基本要素?A、目标函数:用来衡量结果的好坏。B、参数值:未知的因子且需要通过数据来确定。C、数据规模。D、约束条件:需要满足的限制条件。答案:C74.以下哪个选项不属于数据清洗的范畴?A、缺失值处理B、不均衡数据处理C、异常值处理D、数据加载处理答案:D75.以下关于DataNode的描述不正确的是?A、DataNode管理数据块元数据B、DataNode执⾏数据块的读/写操作。C、DataNode的数量受数据规模影响。D、DataNode是⽤来存储数据库。答案:A76.以下哪个选项是异常值处理的⽅法?A、删除异常值B、将异常值视为缺失值,按照缺失值处理⽅法来处理异常值C、估算异常值D、以上全都正确答案:D77.在有监督学习中,我们如何使用聚类方法:

1我们可以先创建聚类类别,然后在每个类别上用监督学习分别进行学习

2我们可以使用聚类“类别id"作为一个新的特征项,然后再用监督学习分别进行学习

3在进行监督学习之前,我们不能新建聚类类别

4我们不可以使用聚类“类别id"作为一个新的特征项,然后再用监督学习分别进行学习下列选型中正确的是哪一项?A、1和3B、1和2C、1和4D、3和4答案:B78.频率就是概率.()A、TRUEB、FALSE答案:B79.以下哪⼀项不是最优化问题的三个基本要素?A、约束条件:需要满⾜的限制条件。B、参数值:未知的因⼦且需要通过数据来确定。C、⽬标函数:⽤来衡量结果的好坏。D、数据规模。答案:D80.当不知道数据所带标签时,可以使用哪种技术促使相似的数据与其他不相似的数据相分高?()A、分类B、关联分析C、聚类D、隐马尔科夫过程答案:C81.对于随机森林和GradientBostingTrees.下⾯说法正确的是?A、A可以并⾏地⽣成GradientBoostingTrees单个树,因为它们之间是没有依赖的B、这两个模型都使⽤随机特征⼦集,来⽣成许多单个的树C、在随机森林的单个树中,树和树之间是有依赖的,⽽GradientBostingTrees中的单个树之间是没有依赖的D、GradientBoostingTrees训练模型的表现总是⽐随机森林好答案:B82.以下关于Python函数的描述中,错误的是A、函数是⼀段可重⽤的语句组B、每次使⽤函数需要提供相同的参数作为输⼊C、函数通过函数名进⾏调⽤D、函数是⼀段具有特定功能的语句组答案:B83.购买与登录专属版MLS的描述不正确的有?A、确认集群信息⽆误后,依次单击“⽴即购买”、“提交”.B、在购买专属版MLS实例之前需要先购买“MapReduce服务”。C、在购买界⾯上,依次配置所需参数,其中,Kerberos认证:关闭或者开启均可。D、⼀旦提交,集群会⽴刻创建完成。答案:D84.Oracle数据治理产品包括OracleDatabase12c、()、Oracle⼤数据SOL、和⼤数据连接器开始⼊⼿。A、Oracle⼤数据共享系统B、Oracle⼤数据清洗系统C、Orac1e⼤数据存储系统D、Oracle⼤数据管理系统答案:D85.请问以下选项中,不属于分类算法的是哪—项?A、决策树B、随机森林C、线性回归D、SVM答案:C86.下列⽅法中,不可以⽤于特征降维的⽅法包括。A、最⼩⼆乘法LeastSquaresB、主成分分析PCAC、矩阵奇异值分解SVDD、局部线性嵌⼊LLEE、线性判别分析LDA答案:A87.通过聚类的簇是否紧密相连来判断样本点是否属于⼀个簇的聚类算法是以下哪⼀项?A、层次聚类B、原型聚类C、原点聚类D、密度聚类答案:D88.以下哪一项不是KNN算法的三要素?()A、分类决策规则B、K值的选取C、距高度量的方式D、特征的顺序答案:D89.(单选)以下关于Python正则表达式描述不正确的是?A、re正则表达式可以处理字符串数据,也能处理数值数据。B、re正则表达式模块使Python语拥有部分正则表是式功能。C、re正则表达式是用于处理字符串的强大工其答案:A90.最优化问题的目标函数必须是凸函数,才能保证优化的最优结果是全局最优而不是局部最优,否侧要进行凸优化()A、TRUEB、FALSE答案:A91.以下关于SparkML1ib中FP-Growth的超参数描述不正确的是哪一项?A、minConfidence:生成关联规则的最小置信度。置信度表明关联规则被发现的真实程度。B、numPartitions:用于分发工作的分区数。C、minSupport:对项目集的最小支持被识别为频繁。D、transform:以高于minConfidence的置信度生成的关联规则。答案:D92.以下关于SparkMLlib中降维算法的相关描述,表述错误的是哪⼀项?A、奇异值分解(SVD)通常不需要完全因式分解,只需要顶部奇异值及其相关的奇异向量,这可以节省存储,降噪并恢复矩阵的低秩结构。B、SparkMLlib为RowMatrix类的降维提供⽀持。C、奇异值分解(SVD)将矩阵分解为三个矩阵,分别是左奇异矩阵,对⻆矩阵和⼀个右奇异上三⻆⾮正交矩阵。D、PCA通常⽤于⾼维数据集的探索与可视化,还可以⽤于数据压缩。答案:C93.(判断)数据挖掘是通过对大量的数据进行分析,以发现和提取隐含在其中的具有价值的信息和知识的过程A、TRUEB、FALSE答案:A94.以下哪种方法不属于Embedded(嵌入法)?A、特征扩增B、基于L1的正则化方法C、平均不纯度减少(MeanDecreaseImpurity)D、平均精度下降(MeanDecreaseAccuracy)答案:B95.(单选)如一个原始数据为3行4列的数据框需要降维至两维,利用SparkLlib的实现思路下述不正确的是?。A、在PCA中,可以选取值最小的2个待征值对应的特征向量,并由该两个特征向量组成矩阵CB、求协方差矩阵B的右特征向量C、求取矩阵A的协方差矩BD、将原始3行4列的数据转换得到一个3乘4的矩阵A答案:A96.“ab”+”c”*2结果是A、abc2B、abcabcC、abccD、ababcc答案:C97.下列关于存储过程的特点说法正确的是A、编写的SQL存储在数据库中,因此执⾏速度快。B、创建时编译,执⾏时调⽤,因此开发效率⾼。C、⽤⼾创建的存储过程或⾃定义函数可以重复调⽤,因此数据传输量少。D、通过指定存储过程的访问权限,因此安全系数⾼。答案:D98.对于PCA(主成分分析)转化过的特征,得到的所有主成分都是正交的.()A、TRUEB、FALSE答案:A99.(单选)以下关于Wrapper(包装法)和Filter(过滤法)的描述不正确的是?A、对于大规模数据集来说,Wrapper算法的执行时间很长。B、相对于Filter(过滤法),WTrapper方法找到的特征子集分类性能通常更好。C、Wrapper方法由于每次对子集的评价都要进行分类器的训练和测试,所以算法计算复杂度很高。D、Wrapper方法选出的特征通用性较强,当改变学习算法时,也不需要针对该学习算法重新进行特征选择。答案:D100.下列哪些方法不适合用来对高维数据进行降维?()A、小波分析法B、线性判别分析LDAC、聚类分析D、主成分分析法答案:C101.以下关于特征选择定义的理解说法错误的是哪一项?A、特征选择是指从原始特征中挑选出一组最有代表性、分类性能好的特征。B、特征选择不像算法和模型是确定的步骤,更多是工程上的经验和权衡,一般需要耗费较多的时间和精力。C、对于不同的数据挖掘任务,所需要的特征组合都是相同的。D、特征选择(Featureselection)也被称为变量选择、属性选择或变量子集选择。它是为了构建模型而选择相关特征子集的过程。答案:C102.请问以下哪种场景不需要降维算法?A、数量统计B、视频压缩C、⽤⼾画像D、⼈脸识别答案:A103.某开发⼩组计划利⽤GraphBase实现⼀些功能,以下哪些功能可以实现?A、物流最优路径规划B、社交分析C、⾦融反欺诈D、以上全都正确答案:D104.Redis不适用于以下哪个应用场景?A、获取PB级Value数据B、获取TOPN操作C、获取手机验证码D、获取最新N个数据的操作答案:A105.(单选)以下关于数据挖掘描述不准确的是?A、大数据挖掘主要基于人工智能、机器学习、模式学习、统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式。B、通过数据挖掘可以建立起企业整体而不是某个业务过程局部的不同类型的模型。C、目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业风险规避等D、大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程。答案:B106.银行进行客户购买力分析,首先获取客户历史账单,确定其中各项商品的计算权重,得出每位客户的购买力评分并存储记录。最后将结图表显示。请问该过程对应于以下哪个项目数据流程设计。A、数据源->数据处理->数据落地->数据可视化B、数据可视化->数据源->数据落地->数据处理C、数据可视化->数据源->数据处理->数据落地D、数据源->数据落地->数据处理->数据可视化答案:A107.以下关于Apriori算法的描述不正确的是哪⼀项?A、Apriori算法是⼀个⾮常经典的频繁项集的挖掘算法,很多算法都是基于Apriori算法⽽产⽣的,包括FP-Tree,GSP,CBA等。B、Apriori算法适⽤于⾮重复项集数元素较多的案例。C、python的⼯具库mlxtend⽬前提供实践Apriori算法的⽅法。D、使⽤先验原理,⼤⼤提⾼了频繁项集逐层产⽣的效率。答案:A108.GaussDB200⽀持什么格式的数据存储?A、⾏存储B、列存储C、⾏列混存D、以上都对答案:D109.机器学习中做特征选择时,以下哪种技术属于Filter法(过滤法)?A、⽅差选择法B、互信息法C、卡⽅检验D、相关系数法E、以上全都正确答案:E110.FusionInsightMiner是企业级的机器学习平台,基于华为FusionInsightHD的分布式存储和并行计算技术,提供从海量数据中挖把出有价值信息的平台()A、TRUEB、FALSE答案:A111.以下哪些⽅法不可以⽤来做分类?A、KNNB、⽀持向量机C、K-MeansD、决策树答案:C112.强规则是指同时满足最小支持度阈值和最小置信度阈值的规则.()A、TRUEB、FALSE答案:A113.以下关于SparkMLlib中FP-Growth的超参数描述不正确的是?A、minConfidence:⽣成关联规则的最⼩置信度。置信度表明关联规则被发现的真实程度。B、minSupport:对项⽬集的最⼩⽀持被识别为频繁。C、numPartitions:⽤于分发⼯作的分区数。D、transform:以⾼于minConfidence的置信度⽣成的关联规则。答案:D114.Oracle数据治理产品包括OracleDatabase12c、()、Oracle⼤数据SOL、和大数据连接器开始入手。A、Oracle大数据共享系统B、Oracle大数据清洗系统C、Oracle大数据存储系统D、Oracle大数据管理系统答案:D115.癌症检查数据样本有1000个,其中10个数据样本是有癌症,其它是⽆癌症。假设分类模型在⽆癌症数据9990中预测正确了9980个,在10个癌症数据中预测正确了9个,此时真阳=9,真阴=9980,假阳=10,假阴=1。则该预测模型的召回率为多少?A、90%B、76.27%C、47.36%D、99.89%答案:A116.MLS,即MachineLearningService,是一项数据挖掘分析平台服务,可以帮助用户通过机器学习技术发现已有数据中的规律,从而创建机器学习模型,并基于机器学习模型处理新的数据,为业务应用生成预测结果。()A、TRUEB、FALSE答案:A117.SparkML1ib汇总统计主要是对RDD数据集进⾏整体的统计性描述,主要通过调⽤colStats函数,该函数中获取数据每列的L1范数的参数是下列选项中的哪⼀项?A、normlL1B、numNonzerosC、normL2D、variance答案:A118.(判断)华为M机S机器学习服务以MLS实例的方式提供给用户,具备的优势包括开放交互式Notebook,支持多种开源建模语言(Python等)。A、TRUEB、FALSE答案:A119.在python中,关于Pandas模块中的数据读取函数read_table以下说法不正确的是?单A、names:读取数据时,可以通过names属性设置列索引。B、header:⽤来制定标题⾏,如果数据集中没有标题⾏,则制定为NoneC、index_col:可以将数据集中的某⼀列(某⼏列)设置为⾏索引,通过indexcol来进⾏指定。D、usecols:通过usecols参数来设置需要使⽤的列。E、se/edaiter:⽤来制定数据之间的分隔符,read_table默认为逗号,red.csv默认为表符。答案:E120.一个典型的大数据平台系统架构不包括以下哪个层次?()A、教据服务层B、教据可视化层C、数据应用层D、数据平台层答案:B121.(单选)以下哪种场景比较适用于在保证召回率的前提下,尽量提升精确率的情况?A、搜索B、地震检测C、金融欺诈D、癌症检测答案:A122.以下哪个选项不是矩阵乘法对向量的变换?A、曲线化B、授影C、伸缩D、旋转答案:A123.关于GaussDB200的逻辑架构,下列说法正确的是A、DN是实际数据节点,所以只负责存储数据。B、CN是协调节点,协助CM管理整个集群。C、CM是集群的管理模块,那么负责集群的日常管理和运维。D、GTM是全局事务控制器,负责生成和维护全局事务ID等全局唯一信息。答案:D124.以下关于数据挖掘描述不准确的是哪一项?A、大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程。B、大数据挖掘主要基于人工智能,机器学习,模式学习,统计学等,通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式。C、目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业风险规避等。D、通过数据挖掘可以建立起企业整体而不是某个业务过程局部的不同类型的模型。答案:D125.以下哪一项不属于抽样的类别?A、系统抽样B、整群抽样C、分层抽样D、循环抽样E、简单随机抽样答案:D126.以下哪种⽅法属于判别式模型(discriminativemodel)?单A、隐⻢尔科夫模型(HMM)B、SVMC、LDAD、朴素⻉叶斯答案:C127.请问在Python中以下哪项描述是正确的?A、定义⼀个空集合的命令为:x={}。B、t=(42,)和t=(42)都可以⽤于定义tuple。C、animals.remove(‘fish’)可以把animals这个列表中所有‘fish‘元素都删除。D、animals.insert(1,’fish’)是往animals这个列表中索引为1,也就是第⼆个位置添加'fish'元素。答案:D128.银⾏进⾏客⼾购买⼒分析,⾸先获取客⼾历史账单,确定其中各项商品的计算权重,得出每位客⼾的购买⼒评分并存储记录。最后将结果图表显⽰。请问该过程对应于以下哪个项⽬数据流程设计。A、数据源->数据处理->数据落地->数据可视化B、数据可视化->数据源->数据落地->数据处理C、数据可视化->数据源->数据处理->数据落地D、数据源->数据落地->数据处理->数据可视化答案:A129.(判断)SVM的核心要想就是建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的距离最大化。A、TRUEB、FALSE答案:A130.决策树是⼀种树形结构,其中每个内部节点表⽰个()上的测试,每个分⽀代表个测试(),每个叶节点代表⼀种().A、输出、类别、属性B、属性、类别、输出C、属性、输出、类别D、类别、输出、属性答案:C131.以下关于数据分析与数据挖掘的描述错误的是?A、数据分析更侧重于统计学上⾯的⼀些⽅法,经过⼈的推理演译得到结论。数据挖掘更侧重于侧重由机器进⾏⾃学习,直换得到结论。B、数据挖掘是从⼤量的数据中,挖掘出未知的、且有价值的信息和知识的过程,重点是从数据中发现“知识规则”。C、数据分析和数据挖掘的界限是⾮常清晰的。D、数据分析会⽤到成熟的分析⼯具,⽐如EXCEL.SPSS.SAS等。数据挖掘则需楚有编程基础。答案:C132.(判断)大数据统架构将机器学习和数据处理进一步整合,从核心上来说,统一架构依然以大数据基础架构为主,只是对其进行了优化和改造,重点是在流处理层新增了数据服务层(数据挖掘、机器学习等A、TRUEB、FALSE答案:A133.决策树中不包含以下哪种节点?()A、内部节点(internalnode)B、外部节点(externalnodeC、根节点(rootnode)D、叶节点答案:B134.(判断)SVM的核心思想就是建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的距离最大化。A、TRUEB、FALSE答案:A135.下⾯这条GaussDB200语句“calldbms_erval(1,'sysdate+1.0/24');"的意思是A、修改Job的Interva为每隔24⼩时执⾏⼀次。B、修改Job的Interval为每隔1⼩时执⾏—次。C、修改Job的Interval为每隔1/24⼩时执⾏⼀次。D、修改Job的Interval为每隔24分钟执⾏⼀次。答案:B136.朴素⻉叶斯分类⽅法(NaiveBayes)是⼀种特殊的Bayes分类器,特征变量是x,类别标签是C,它的⼀个假定是?A、以0为均值,sqr(2)/2为标准差的正态分布B、P(XIC)是⾼斯分布C、特征变量x的各个属性之间互相独⽴D、各类别的先验概率P(C)是相等的答案:C137.协同过滤推荐算法,是最经典,最常用的推荐算法。要实现协同过滤,以下哪个步骤不需要?()A、计算推荐B、找到相似的用户和物品C、收集用户偏好D、收集用户来源答案:D138.我们想在⼤数据集上训练决策树,为了使⽤较少时间,我们可以A、减少树的数量B、增加树的深度C、减少树的深度D、增加学习率(1earningrate)答案:C139.请问在Pandas中,DataFrame对象可以使⽤以下哪个⽅法查看前n条数据?A、readB、tailC、describeD、head答案:D140.ElasticSearch进行全文检索─般需要哪几个步骤?A、清洗、分词、建立素引B、清洗、分词C、清洗、建立素引D、清洗、建立素引、分词答案:A141.请问以下关于ID3算法中说法错误的是哪⼀项?A、选取信息增益最⼤的特征,作为树的根节点B、节点分裂依据为信息增益C、以信息增益度量属性选择,选择分裂后信息增益最⼩的属性进⾏分裂D、ID3算法是建⽴在奥卡姆剃⼑的基础上答案:C142.Pandas中的DataFrame的df.iloc[1:3]A、查询的是1,2行B、查询的是2,3列C、查询的是2,3行D、查询的是1,2列答案:C143.在案例“银行客户精准画像”中,关于其数据挖掘不同阶段的操作描述,属于数据建模阶段的是?()A、在客户分类问题中采用的主要是数据挖掘中分类和聚类的算法,需要结合需求规划出适用模型。B、将来自数据仓库中多个数据表,经过了数据采集.清理和集成,生成一个针对数据挖把目标确定与交易行为有关的数据项集合,C、结果分析,并提供参看策略。D、对最近三个月的原始交易数据进行计算获得变量,并整合在客户的实际交易情祝上定义客户的行为,每个客户作为一条观测从中隧机抽取2867个客户作为研究实例的代表性样本答案:D144.关于模型部署的描述不正确的是哪一项?A、模型一经部署,就可以永久的固化下来。B、模型部署可以借助的工具越来越多。C、在生产环境下部署模型也存在许多挑战,如:如何进行性能调优,安全性,如何支持AB测试等。D、模型部署就是把训练好的机器学习的模型部署到生产环境。答案:A145.如果没有特殊要求,尽量选择简单的模型,越简单的越合适()A、TRUEB、FALSE答案:A146.df.tail()这个函数是用来A、用来创建数据B、用来展现数据C、用来分析数据D、用来测试数据答案:B147.数据的ETL,其中E为Extract,T为Transform,L为Load()A、TRUEB、FALSE答案:A148.以下哪个选项是异常值处理的方法?A、删除异常值B、将异常值视为缺失值,按照缺失值处理方法来处理异常值C、估算异常值D、以上全都正确答案:D149.以下关于SparkMLlib中协同过滤算法参数描述不正确的是哪⼀项?A、Iterations:模型中潜在因⼦的数量。B、numBlocks:⽤于并⾏计算的块数,如设置为-1则为⾃动配置。C、Lambda:ALS中的正则化参数。D、0implicitPrefs:指定是使⽤显式反馈ALS变体还是使⽤适⽤于隐式反馈数据的变量。答案:A150.(单选)以下哪些不属于无量纲化特征缩放的为法?A、最大-最小归化B、0neHot编码C、缩放成单位向量D、特征标准化E、均值归一化答案:E151.以下哪些方法不可以用来做分类?A、K-MeansB、支持向量机C、KNND、决策树答案:A152.GaussDB200⽀持什么格式的数据存储?A、⾏存储B、列存储C、⾏列混存D、以上都对答案:D153.以下哪种场景比较适用于在保证召回率的前提下,尽量提升精确率的情况?A、金融欺诈B、搜索C、地震检测D、癌症检测答案:B154.以下关于⼤数据Lambda架构描述不正确的是哪⼀选项?A、Lambda架构是⼤数据系统⾥⾯举⾜轻重的架构,⼤多数架构基本都是Lambda架构或者基于其变种的架构。B、Lambda架构很好的兼顾了实时处理和离线处理,⼏乎覆盖了⼤多数的数据分析和需求处理。可以很好地满⾜同时存在实时和离线需求的场景。C、Lambda架构将数据通道分为两个分⽀:实时流和离线。实时流类似流式架构,保障了其实时性,⽽离线则以批处理⽅式为主,保障了最终⼀致性。D、Lambda架构的缺点:离线层与实时流内部处理的逻辑是不相同的,因此有⼤量冗余和重复的模块存在。答案:D155.关于GaussDB200的发展史,下列说法错误的是(A、GaussDB200已经在华为云发布了云化产品。B、GaussDB200专注国内业务,不涉及海外。C、GaussDB200从⼀开始就⽀持ARM架构的部署。D、GaussDB200前⾝叫GaussDB,是GaussDB的⼦项⽬。答案:B156.HDFS的副本放置策略中,同⼀机架不同服务器之间的距离是?A、1B、2C、3D、4答案:B157.(单选)购买与登录专属版MS的描述不正确的有?A、确认集群信息无误后,依次单击"立即购买"、"提交".B、在购买专属版S实例之前需要先购买"MapReduce服务"。C、在购买界面上,依次配置所需参数,其中,Kerberos认证∶关闭或者开启均可.D、一旦提交,集群会立刻创建完成。答案:A158.以下关于⼤数据Kappa架构描述不正确的是?A、Kappa架构在Lambda架构的基础上进⾏了优化,将实时和流部分进⾏了合并,将数据通道以消息队列进⾏替代,依旧以流处理为主,但是数据却在数据湖层⾯进⾏了存储B、在Kappa架构中,如果需要进⾏离线分析或者再次计算的时候,不必像实时分析那样将数据湖的数据再次经过消息队列重播⼀次C、Kappa架构的缺点:实施难度相对较⾼,尤其是在数据重播的部分D、Kappa架构的优点:解决了Lambda架构⾥⾯的冗余部分,以数据可重播的超凡脱俗的思想进⾏了设计,整个架构⾮常简洁答案:B159.建设一个完整的数据治理平台,作为数据平台的管控系统,从制度、标准、()、流程几个方面提升数据信息管理能力、解决目前所面临的数据标准问题、数据质量问题、元数据管理问题和数据服务问题。()A、实时B、管理C、分化D、监控答案:B160.以下关于DataNode的描述不正确的是?A、DataNode管理数据块元数据B、DataNode执行数据块的读/写操作。C、DataNode的数量受数据规模影响。D、DataNode是用来存储数据库。答案:C161.打开文件的不正确写法为A、f=open(‘test.txt’,’r’)B、withopen(‘test.txt’,’r’)asfC、f=open(‘C:\Apps\test.txt’,’r’)D、f=open(r‘C:\Apps\test.txt’,’r’)答案:C162.在案例“银⾏客⼾精准画像”中,数据阶段可以做的质量核查不包括?A、数据的有效性校验B、数据的可替换性校验C、数据的缺失性校验D、数据的连续性校验答案:B163.在“提升信用卡安全案例”中,其商业理解的阶段可以选择建立各类信用评分模型,其中不包括哪个类型?()A、行为信用评分卡B、模式信用评分卡C、申请信用卡评分卡D、催收信用评分卡答案:B164.以下关于聚类算法的理解正确的是?A、簇内的相似性越⼤,簇间的差别越⼩,聚类的效果就越好。B、簇内的相似性越⼤,簇间的差别越⼩,聚类的效果就越差。C、簇内的相似性越⼤,簇间的差别越⼤,聚类的效果就越好。D、簇内的相似性越⼤,簇间的差别越⼤,聚类的效果就越差。答案:C165.下列方法中,不可以用于特征降维的方法包括哪一选项?A、局部线性嵌入LLEB、主成分分析PCAC、最小二乘法LeastSquaresD、线性判别分析LDAE、矩阵奇异值分解SVD答案:C166.下列哪个不属于决策树的是?A、KNNB、CARTC、ID3D、C4.5答案:A167.在DGC平台架构下提供提供企业级的元数据管理。数据资产管理可视,支持钻取、溯源等。通过数据地图,实现数据资产的数据血缘和数据全景可视,提供数据智能搜索和运营监控的模块是哪个?A、数据开发B、数据资产管理C、规范设计D、数据集成答案:B168.以下哪种⽅法不属于Embedded(嵌⼊法)?A、特征扩增B、基于L1的正则化⽅法C、平均不纯度减少(MeanDecreaselmpurity)D、平均精度下降(MeanDecreaseAccuracy)答案:A169.癌症检查数据样本有1000个,其中10个数据样本是有癌症,其它是⽆癌症。假设分类模型在⽆癌症数据9990中预测正确了9980个,在10个癌症数据中预测正确了9个,此时真阳=9,真阴=9980,假阳=10,假阴=1。则该预测模型的召回率为多少?A、90%B、76.27%C、47.36%D、99.89%答案:A170.在华为MLS中,“线性回归”节点的参数设置描述错误的是?A、最⼤迭代次数,模型训练的最⼤迭代次数。B、正则化函数。正则化⽅法,可选参数仅包括Auto、None、L1、L2C、正则化参数:⽤于调节正则化项的权重.D、弹性⽹络参数,L1和L2正则化的分配权重。答案:B171.ETL主要负责将分布的、异构的数据(Extract阶段)根据一定的业务规则进行数据清洗、转换、集成(Trarsferr阶段)。最终将处理后的数据加载到数据目的地(Load阶段),比如数据仓库.()A、TRUEB、FALSE答案:A172.K-Means算法选择初始中心点的基本思想就是,初始的聚类中心间的相互距离要尽可能的近.()A、TRUEB、FALSE答案:B173.下面这条GaussDB200语句“calldbms_erval(1,'sysdate+1.0/24');"的意思是A、修改Job1的Interva为每隔24小时执行一次。B、修改Job1的Interval为每隔1小时执行一次。C、修改Job1的Interval为每隔1/24小时执行一次。D、修改Job1的Interval为每隔24分钟执行一次。答案:B174.(单选)以下哪一项不属于抽样的类别?A、简单随机抽样B、分层抽样C、系统抽样D、整群抽样E、循环抽样答案:E175.下列哪个选项不是常用的聚类算法?A、SVMB、DBSCAN算法C、Hierarchicalclustering算法、BIRCH算法D、K-means算法答案:A176.关于FusionlnsightMiner的功能描述不准确的是哪⼀项?A、业务场景包括极⼤团分析。B、⼯作流暂不⽀持⾃定义算法。C、⽀持R语⾔。D、⽀持Python2和Python3语⾔。答案:B177.以下关于Spark的说法不正确的是?A、可以扩展MapReduce计算模型,⾼效⽀持多种计算模式,包括交互式查询和流处理。B、擅⻓处理⼤规模数据集,速度快。C、Spark是实现快速⽽通⽤的集群计算的平台。D、Spark的shuffle过程必须要写磁盘。答案:D178.(单选)以下哪个选项不属于数据减洗的范畴?A、缺失值处理B、不均衡数据处理C、异常值处理D、数据加载处理答案:D179.设x、Y是两个随机变量,C是常数,以下关于数学期望的性质描述正确的是?A、E(X+Y)=E(X)+(Y)B、E(CX)=CE(X)C、E(C)=C答案:A180.以下哪个选项不属于直接删除包含缺失值的元组(或记录)产⽣的影响?A、降低模型准确性B、可能会引⼊噪⾳节点C、数据缺失占⽐较多时,直接删除可能会改变原始数据的分布情况D、破坏数据的历史完整性答案:B181.在函数图像上任取两点,如果函数图像在这两点之间的部分总在连接这两点线段的上方,则为凸函数。()A、TRUEB、FALSE答案:A182.Numpy中向量转换成矩阵使用A、reshapeB、revalC、arangeD、random答案:A183.关于实时流处理整体架构中数据缓存和消息中间件描述错误的是()。A、Redis:提供高速key/value存储查询能力,用于流处理结果数据的高速缓存。B、Katka:分布式消息系统,支持消息的生产和发布,以及多种形式的消息缓存,满足高效可靠的消息生产和消费。C、Kafka:消息中间件可对实时数据进行缓存,支持高吞吐量的消息订阅和发布。D、HBase:用于行键查询(Key-Value)检索,查询条件复杂且多样。答案:C184.关于FusionInsightMiner的功能描述不准确的是哪一项?A、业务场景包括极大团分析。B、工作流暂不支持自定义算法。C、支持R语言。D、支持Python2和Python3语言。答案:B185.“ab”+”c”*2结果是A、abc2B、abcabcC、abccD、ababcc答案:C186.以下关于特征选择方法中哪个不属于特征减少的方法?A、wrapper(包装法)B、Filter(过滤法)C、Embedded(嵌入法)D、交叉验证方法答案:D187.(单选)以下关于聚类算法的理华确的是?A、簇内的相似性越大,族间的差别越小,聚类的效果就越好。B、簇内的相似性越大,簇间的差别越小,聚类的效果就越差,C、簇内的相似性越大,族间的差别越大,聚类的效果就越好,D、簇内的相似性越大,簇间的差别越大,聚类的效果就越差。答案:C188.关于GaussDB200的逻辑架构,下列说法正确的是A、DN是实际数据节点,所以只负责存储数据。B、CN是协调节点,协助CM管理整个集群。C、CM是集群的管理模块,那么负责集群的⽇常管理和运维。D、GTM是全局事务控制器,负责⽣成和维护全局事务ID等全局唯⼀信息。答案:D189.以下关于SparkML1ib中决策树模型超参数描述不正确的是?()A、impurity:用于在候选分割之间进行选择的杂质度量.B、subsamplingRater用于学习决策树的训练数据的分数,但对于训练决策树,该参数不太有用.C、maxBins:树的最大深度。D、maxMemoryInMB用于收集足够统计信息的内存答案:C190.下列代码的作⽤是?StringvertexId=getVertexIdByProperty(api,graphName,"person","name","marko");api.queryVertex(vertexId,graphName);A、查询点B、查询属性C、查询边D、以上全不正确答案:B191.Numpy中向量转换成矩阵使⽤A、reshapeB、revalC、arrangeD、random答案:A192.在MLS中,“决策树分类”节点的参数设置描述不准确的是?A、不纯度:树节点标签的混杂度计算标准,选值仅有“Gini”.B、最⼤树深度:模型训练的最⼤迭代次数。取值区间为[1,30]。C、最⼤分箱数:对连续的值进⾏范围划分,不能⼩于各分类特征的最⼤取值数⽬。D、处理异常值选项中可以选择,“null"值代替答案:A193.(判断)SparkLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、关联规则、优化计算、协同过滤、降维和推荐多种机器学习算法A、TRUEB、FALSE答案:A194.(判断)两个变量的Pearson相关性系数为零,但这两个变量的值同样可以相关。A、TRUEB、FALSE答案:A195.在“提升信⽤卡安全案例”中,其商业理解的阶段可以选择建⽴各类信⽤评分模型,其中不包括哪个类型?A、⾏为信⽤评分卡B、模式信⽤评分卡C、申请信⽤卡评分卡D、催收信⽤评分卡答案:B196.设X、X1、X2、Y是四个随机变量,a,b是常数,以下关于协⽅差的性质描述错误的是?A、如果Cov(X,Y)=0,则随机变量X,Y相互独⽴B、Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)C、Cov(aX,bY)=abCov(X,Y)D、如果随机变量x,Y相互独⽴,则Cov(X,Y)=0答案:A197.以下关于SparkMLlib中集成算法的相关描述,表述错误的是哪⼀项?A、valboostingStrategy=BoostingStrategy.defaultParams(“Classification”)boostingStrategy.numlterations=3boostingStrategy.treeStrategy.numClasses=2boostingStrategy.treeStrategy.maxDepth=5valmodel=GradientBoostedIrees.train(trainingData,boostingStrategy)表⽰训练梯度提升分类树模型,设置类别数维度为2,树的最⼤深度为5。B、SparkMLlib包含两种算法RandomForest和GradientBoostedDecisionIree(GBDT),⼆者都是⽤决策树算法作为基学习器。C、valmodel=RandomForest.trainRegressor(trainingData,categoricalFeaturesInfo,numIrees=2,"auto","variance",maxDepth=4,32)该语句采⽤随机森林算法进⾏分类模型训练,并且指定属性选择的⽅式为基尼系数度量。D、valmodel=newLogisticRegressionWithLBFGS().setlumClasses(10).run(training)表⽰创建逻辑回归LBFGS的模型进⾏分类问题的求解,同时采⽤训练数据进⾏预测,样本类别数是10。答案:C198.Streaming主要通过ZooKeeper提供的以下哪项服务实现事件侦听?A、ACKB、watcherC、checkpointD、分布式锁机制答案:B199.以下关于有监督连续变量的离散化分析错误的是哪⼀项?A、1R⽅法是分箱法的有监督版本,每个区间⾄少包含6个变量(最后⼀个区间除外)B、基于卡⽅检验的⽅法,运⽤卡⽅检验的策略,⾃顶向下合并数值进⾏有监督离散化,核⼼操作是Herge.C、有监督的连续变量的离散化相对于⽆监督的⽅法来说,可以减少在离散化的过程中异常值的影响D、基于信息熵的⽅法运⽤了决策树的理念进⾏变量离散化,是⼀种⾃顶向下的分裂技术。答案:B200.Flume中一个ChannelSelector的作用是什么?A、设置多个channel发往多个sink的策略B、设置一个source发往多个channel的策略C、设置多个source发往多个channel的策略D、设置一个channel发往多个sink的策略角答案:B201.关于模型部署的描述不正确的是哪⼀项?A、模型⼀经部署,就可以永久的固化下来。B、模型部署可以借助的⼯具越来越多。C、在⽣产环境下部署模型也存在许多挑战,如:如何进⾏性能调优,安全性,如何⽀持AB测试等。D、模型部署就是把训练好的机器学习的模型部署到⽣产环境。答案:A202.以下关于Python中函数定义的描述不正确的是哪一项?A、函数内容以冒号起始,并且缩进。B、在python中只能用关键字def创建函数。C、Return用于返回一个函数执行的结果。D、用det声明函数,后面跟函数名和小括号,括号内可以放置所需参数。答案:B203.以下哪个选项是求解等式约束最优化的常用方法?A、牛顿法B、梯度下降法C、КKT条件D、拉格朗日乘法子答案:D204.下列代码的作用是?Stringvertexld=getVertexldByProperty(api.graphName,"person","name","marko");api.queryVertex(vertexld,graphName);A、查询点B、查询属性C、查询边D、以上全不正确答案:B205.以下关于离散特征编码的表述,错误的是哪⼀项?单A、离散特征的取值之间没有⼤⼩的意义,使⽤one-hot编码。B、因为机器学习算法接收的是数字型变量。所以需要对属性进⾏编码。C、离散特征的取值有⼤⼩的意义,直接使⽤映射。D、想要⽅法pandas.get_dummies()的作⽤等同于onehot编码的效果,只需要设置其参数drop_first=True。答案:D206.(单选)以下不属于决策树算法?A、ID3B、CARTC、C4.5答案:A207.(单选)以下哪个选项不属于直按册除包含缺失值的元组(或记录)产生的影响?A、降低模型准确性B、可能会引入噪音节点C、数据缺失占比较多时,直接删除可能会改变原始数据的分布情况D、破坏数据的历史完整性答案:B208.关于实时流处理整体架构中数据缓存和消息中间件描述错误的是()。A、Redis:提供⾼速key/value存储查询能⼒,⽤于流处理结果数据的⾼速缓存。B、Katka:分布式消息系统,⽀持消息的⽣产和发布,以及多种形式的消息缓存,满⾜⾼效可靠的消息⽣产和消费。C、Kafka:消息中间件可对实时数据进⾏缓存,⽀持⾼吞吐量的消息订阅和发布。D、HBase:⽤于⾏键查询(Key-Value)检索,查询条件复杂且多样。答案:C209.在MRSManager界⾯中,对Loader的操作不包括下列哪个选项?A、配置Loader参数B、启动Loader实例C、切换Loader主备节点D、查看Loader服务状态答案:C210.以下关于Python正则表达式描述不正确的是?A、re正则表达式可以处理字符串数据,也能处理数值数据。B、re正则表达式模块使Python语拥有部分正则表达式功能。C、re正则表达式是⽤于处理字符串的强⼤⼯具。D、Python⾃1.5版本起增加了re正则表达式模块。答案:A211.当决策树出现过拟合后,需要使⽤()技术来缩⼩树的结构和规模。A、剪枝B、回归C、⼩波D、调和答案:A212.请问以下哪些算法最适合配合线性判别分析LDA使⽤?A、聚类算法B、⾮线性回归算法C、多元线性回归算法D、⼀元线性回归算法答案:B213.以下关于模型超参数的特征描述不正确的是哪一项?A、模型的超参数可以通过数据直接得到,也可以通过人的经验来设定B、模型超参数通常可以使用启发式方法来设置C、模型超参数通常由实践者直接指定D、模型超参数常应用于估计模型参数的过程中E、模型超参数通常根据给定的预测建模问题而调整答案:A214.下列哪些⽅法不适合⽤来对⾼维数据进⾏降维?A、⼩波分析法B、线性判别分析LDAC、聚类分析D、主成分分析法答案:C215.我们可以使⽤Python中scikit-learn库的()函数,来对样本集进⾏feature_selection(特征选择)和dimensionalityReduction(降维)?A、sklearn.neighborsB、sklearn.feature_selectionC、sklearn.linear_modelD、sklearn.cluster答案:B216.以下关于K-折交叉验证法描述错误的是哪一项?A、如果训练集相对较大,则减小K值.B、交叉验证的思想是:每次用k个子集的并集作为训练集,余下的那个子集作为测试集,这样就有x种训练集/测试集划分的情况,从而可进行K次训练和测试最终返回k次测试结果的均值.C、如果训练集相对较小,则增大K值.答案:B217.(单选)若随机变量X服从正态分布N(u,o^2),则随机变量Y=aX+b服从以下哪个正态分布?A、N(a^2u+b,a^2o^2)B、N(au+b,a^2o^2)C、N(au+b,a^2o^2+b)D、N(au,a^2o^2)答案:B218.SparkMLlib中的BasicStatistic是专⻔⽤于进⾏⼤数据集群上的统计分析⼯具,以下哪个不属于BasicStatistic⽀持的功能?A、假设检验B、特征抽取C、汇总统计D、⽣成随机数答案:B219.下列关于存储过程的特点说法正确的是()A、编写的SQL存储在数据库中,因此执行速度快。B、创建时编译,执行时调用,因此开发效率高。C、用户创建的存储过程或自定义函数可以重复调用,因此数据传输量少。D、通过指定存储过程的访问权限,因此安全系数高。答案:D220.离线批处理方案的应用场景不包括?A、占用计算存储资源多B、快速高效,实时的数据处理C、数据处理格式多样D、处理大规模数据答案:B221.关于实时流处理整体架构中数据缓存和消息中间件描述错误的是().A、Redis:提供高速key/value存储查询能力,用于流处理结果数据的高速缓存。B、Kafka:消息中间件可对实时数据进行缓存,支持高吞吐量的消息订阅和发布。C、HBase:用于行键查询(Key-Value)检索,查询条件复杂且多样。D、Kafka:分布式消息系统,支持消息的生产和发布,以及多种形式的消息缓存,满足高效可靠的消息生产和消费。答案:C222.请问以下关于特征选择⽅法的⼀些表述,不正确的是哪⼀项?A、卡⽅值描述了⾃变量与因变量之间的相关程度:卡⽅值越⼩,相关程度也越⼤,所以很⾃然的可以利⽤卡⽅值来做特征选择,保留相关程度⼤的变量。B、递归消除特征法使⽤⼀个基模型来进⾏多轮训练,每轮训练后,移除若⼲权值系数的特征,再基于新的特征集进⾏下⼀轮训练。它解决思路没有过滤法直接,它是在确认后续的算法模型后,把模型本⾝的性能作为评价准则:选择⼀个⽬标函数来⼀步步的筛选特征。C、基于树的嵌⼊⽅法能够⽤来计算特征的重要程度,因此能⽤来去除不相关的特征。D、保留⼤的⽅差的实际意义,就是该列特征的数据分散情况⽐较⼤,对结果的划分的影响

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论